twa-seminar thorsten denhard, ss20031 seminarvortrag im studienschwerpunkt...
TRANSCRIPT
TWA-Seminar Thorsten Denhard, SS2003
1
Seminarvortrag im Studienschwerpunkt
technisch-wissenschaftliche Anwendungen
Sommersemester 2003Prof. Dr. Klement, Prof. Dr. Kneisel
Datenbanken in der BioinformatikThorsten Denhard
FH Giessen-Friedberg, Fachbereich MNI
TWA-Seminar Thorsten Denhard, SS2003
2
Inhalt Einführung Bioinformatik
Genetischer CodeProteine
Einsatzgebiete für Datenbanken in der BISequenzdatenbankenDynamische Prozesse, etc.
Datenmodellierung und ManagementKonventionelle DBMSSpezielle Systeme für biologische DBn
Datenbank-RetrievalWWW-SchnittstellenMeta-Suchen
DB-Pflege und QualitätssicherungDatenintegrationAnnotationen
TWA-Seminar Thorsten Denhard, SS2003
3
Einführung Bioinformatik
Fachgebiet im Wandel:von der „klassischen“hin zur Molekularbiologie
Heute erhobene Daten:Gensequenzen, Proteinstrukturen
Scharfe, quantifizierbare Größen
Große Datenmenge
Algorithmen zur Analyse
Methoden aus der Informatik immer stärker gefordert
TWA-Seminar Thorsten Denhard, SS2003
4
Genetischer Code
DNS: linearer Doppelstrang
Nucleotide: Träger der Information, eine von vier Basen (A,T,C,G)Verbinden sich paarweise
Anzahl Basenpaare von ca.0,172 * 106 (Virus) bis3200 * 106 (Mensch)
„Gen“: ein Sequenzabschnitt, der ein Protein codiert
TWA-Seminar Thorsten Denhard, SS2003
5
Proteine
Aufbau
Bestehen aus Aminosäuren (20 verschiedene)
Lineare unverzweigte Kette
Länge: 50-3000 Elemente, im Mittel etwa 200
Gene codieren Proteine
Codierungsschema: 3 Nucleotide (Codon) codieren eine AminosäureGenetischer Standardcode gleich über Artgrenzen
Benennung der Aminosäuren: drei oder ein Buchstabe (Glycin: Gly / G)
TWA-Seminar Thorsten Denhard, SS2003
6
ProteineHierarchische Struktur
Primärstruktur: Abfolge der Aminosäuren, linear
Sekundärstruktur: -Helix, -Faltblatt
Tertiärstruktur: Faltung d. Sekundärstruktur- elemente im Raum
Maßgebend für die
Funktionalität des Proteins!
TWA-Seminar Thorsten Denhard, SS2003
7
Einsatzfelder für Datenbanken
Sequenzdatenbanken
Protein-Raumstrukturen
Evolutionäre Entwicklungen (Phylogenetik)
Genexpression (Aktivität von Genen)
Stoffwechsel-Vorgänge (Metabolische Pfade)
Literaturdatenbanken
TWA-Seminar Thorsten Denhard, SS2003
8
Sequenzdatenbanken
Gene: Nucleotidsequenzen z.B. GenBank, Human Genome DB
Proteine: Aminosäuresequenzen z.B. SWISS-PROT
Sequenzierung: Codierende Sequenzen
identifizieren
Analyse: Sequenz-Alignment Ähnlichkeit zw. Sequenzen
bestimmen
In DB integriert oder separate Prog.
ExponentiellesWachstum
TWA-Seminar Thorsten Denhard, SS2003
9
Proteinstrukturen
Strukturdatenbanken z.B. Protein Data Bank (PDB)
3D-Koordinaten aller Atome
Zuordnung v. Sekundärstrukturen
Rel. wenige Moleküle untersucht
Einordnung neuer Sequenzen Homologieansatz:
ähnliche Sequenzen ähnliche Struktur
Vorhersage der Proteinfaltung wichtiges Forschungsthema!
TWA-Seminar Thorsten Denhard, SS2003
10
Phylogenetische DBn
Verwandtschaftsbeziehungen zwischen Arten
Heute auf genetischer Basis
Erstellung phylogenetischer Bäume auf dieser Basis
Algorithmen, Zugriff auf genetische Daten
Archivieren erstellter Bäume in Datenbanken
Bsp.: Tree Of Life - DB:WWW-Projekt, ca. 350 teilnehmende Wissenschaftler
TWA-Seminar Thorsten Denhard, SS2003
11
Bsp.: Tree Of Life - DB
TWA-Seminar Thorsten Denhard, SS2003
12
Metabolische Pfade
Stoffwechsel-Vorgängein Zellen
Codiert als XML-Dokument
Über Java-Applet zugänglich
Verknüpungen mit z.B. chemischer Datenbank(per Mausklick)
Beispiel: KEGG PATHWAY-DB
TWA-Seminar Thorsten Denhard, SS2003
13
Sonstige Einsatzgebiete
Genexpression
Genom: statischer „Bauplan“
Aber: Gene sind unterschiedlich aktiv
DNA-Chips erlauben Messungen d. Aktivität
Große Datenmengen, Analyse z.B. für neue diagnostische u. therapeutische Verfahren
Literaturdatenbanken
Bsp.: MEDLINE-DB für Medizin und Lebenswissenschaften
TWA-Seminar Thorsten Denhard, SS2003
14
Modellierung u. Datenmanagement
Implementierungsalternativen ASCII-Dateien (Flat Files)
40 %
Relationales DBMS 38%
Objektorientiertes / objektrelationales DBMS 9 %
ACEDB 5 %
OPM (Object Protocol Model) 2 %
( Daten von 2001 aus einer Studie von Bry & Kröger )
TWA-Seminar Thorsten Denhard, SS2003
15
Implementierung: Flat Files ASCII-Dateien noch immer weit verbreitet
Zum Datenaustausch u. Analyse de facto Standard
Explizite Strukturierung: Tags, erlauben komplexe Strukturen und unvollständige Daten
Bsp.: Auszug aus der SWISS-PROT-DB (Proteine)
ID PILI_PSEAE STANDARD; PRT; 178 AA.AC P43502;DT 01-NOV-1995 (Rel. 32, Created)DT 01-NOV-1995 (Rel. 32, Last sequence update)DE Protein pilI.GN PILI OR PA0410.OS Pseudomonas aeruginosa.SQ SEQUENCE 178 AA; 19934 MW; 634A1A4B135A7E77 CRC64; MSDVQTPFQL LVDIDQRCRR LAAGLPAQQE AVQSWSGIGF [...]
TWA-Seminar Thorsten Denhard, SS2003
16
Implementierung: relationale DBMS
Relationale DBMS in anderen Feldern lange erprobt
Für wissenschaftliche Daten nicht optimal
Komplexe Struktur führt zu uneinsichtigem Tabellenverbund
Administration und Abfragen daher unnötig kompliziert
Effiziente Speicherung u. Suche von Sequenzdaten nicht hinreichend untersucht
Trotzdem rund 38 % der DBn mit relationalem DBMS
TWA-Seminar Thorsten Denhard, SS2003
17
Implementierung: ACEDB
A C. elegans DataBase
Speziell für wissenschaftliches Umfeld entworfen
Objektorientiertes Datenmodell, aber: Keine Vererbung möglich
Baumstruktur von Objekten u. Attributen
Semistrukturierter Ansatz Erlaubt Ausnahmen i.d. Datenstruktur
Query-Sprache AQL: SQL-ähnlich, Pfad-Ausdrücke
TWA-Seminar Thorsten Denhard, SS2003
18
Implementierung: ACEDB
Klassendefinition Tags, Objekte, Basistypen,
Modifizierer
1:N-Beziehungen problemlos modellierbar
Bsp. Abfrage:Alle Co-Autoren in allen Aufsätzen von Hr. Lesk finden
?Author Name UNIQUE Text Paper ?Paper
?Paper Title UNIQUE Text Author ?Author Abstract ?LongText
select a->Paper->Author from a in class Author where a->Name like "*lesk*"
TWA-Seminar Thorsten Denhard, SS2003
19
Implementierung: OPM
Object Protocol Model
Objektorientiertes Modell mit spezieller Unterstützung für wissenschaftliche Daten/Prozesse
Kein DBMS, nur Datenmodell
Protokoll-Klassen modellieren Experimente mit Input und Output
Tool-Suite zur Modellierung/Benutzung Schema Editor:
Erlaubt Transformation in relationale Schemata
Browse & Query: Anfragen u. Transaktionen in z.B. SQL umwandeln
TWA-Seminar Thorsten Denhard, SS2003
20
Datenbank-Retrieval
Heterogenität
Vielzahl existierender DBn welche enthält relevante Daten? unterschiedliche Abfragearten
Ansatz: „Meta-Suchen“z.B. SRS (Sequence Retrieval System) Zugriff auf ca. 500 DBn Folgt Hypertext-Links in Einträgen
Abfrage über WWW-Standardformular oderQuery-Language
[swissprot-id:acha-human] > prosite > swissprot
TWA-Seminar Thorsten Denhard, SS2003
21
Datenintegration
Akquisition neuer Daten aus anderen DBn
Voll- oder semiautomatischKonflikte möglich, Einteilung insemantische, deskriptive, strukturelle
Forschergruppen dürfen Daten einbringen
Qualität d. Daten, Validierungsprozess?
Übernahme aus der Literatur
Meist manuell, arbeitsintensiv
TWA-Seminar Thorsten Denhard, SS2003
22
Qualitätssicherung
Annotationen
Meta-Daten, z.B. Literaturreferenzen
Verknüpfungen zu anderen Datensätzen
Herkunft der Daten, experimentelle Methoden
Feature-Tables: biol. Bedeutung v. Sequenzen
Neuannotation von Einträgen Macht Datenbestand „dynamisch“ Qualität d. Einträge, Bsp. EMBL-DB
ohne Annotation vorläufig ungeprüft Standard
Annotationen geben den Daten Bedeutung
TWA-Seminar Thorsten Denhard, SS2003
23
Zusammenfassung
Molekularbiologische Daten enorme Schärfe und Quantität
oft komplexe Strukturen
Datenbanken bewährte DBMS bereits in Verwendung
spezielle Ansätze verfügbar, aber noch nicht verbreitet
Heterogenität von Datenbeständen Verteiltheit und unterschiedliche Datenhaltung
Integration notwendig
Informatik-Expertise bei Biologen erforderlich