twa-seminar thorsten denhard, ss20031 seminarvortrag im studienschwerpunkt...

TWA-Seminar Thorsten Denhard, SS2003

1

Seminarvortrag im Studienschwerpunkt

technisch-wissenschaftliche Anwendungen

Sommersemester 2003Prof. Dr. Klement, Prof. Dr. Kneisel

Datenbanken in der BioinformatikThorsten Denhard

FH Giessen-Friedberg, Fachbereich MNI


2

Inhalt Einführung Bioinformatik

Genetischer CodeProteine

Einsatzgebiete für Datenbanken in der BISequenzdatenbankenDynamische Prozesse, etc.

Datenmodellierung und ManagementKonventionelle DBMSSpezielle Systeme für biologische DBn

Datenbank-RetrievalWWW-SchnittstellenMeta-Suchen

DB-Pflege und QualitätssicherungDatenintegrationAnnotationen


3

Einführung Bioinformatik

Fachgebiet im Wandel:von der „klassischen“hin zur Molekularbiologie

Heute erhobene Daten:Gensequenzen, Proteinstrukturen

Scharfe, quantifizierbare Größen

Große Datenmenge

Algorithmen zur Analyse

Methoden aus der Informatik immer stärker gefordert


4

Genetischer Code

DNS: linearer Doppelstrang

Nucleotide: Träger der Information, eine von vier Basen (A,T,C,G)Verbinden sich paarweise

Anzahl Basenpaare von ca.0,172 * 106 (Virus) bis3200 * 106 (Mensch)

„Gen“: ein Sequenzabschnitt, der ein Protein codiert


5

Proteine

Aufbau

Bestehen aus Aminosäuren (20 verschiedene)

Lineare unverzweigte Kette

Länge: 50-3000 Elemente, im Mittel etwa 200

Gene codieren Proteine

Codierungsschema: 3 Nucleotide (Codon) codieren eine AminosäureGenetischer Standardcode gleich über Artgrenzen

Benennung der Aminosäuren: drei oder ein Buchstabe (Glycin: Gly / G)


6

ProteineHierarchische Struktur

Primärstruktur: Abfolge der Aminosäuren, linear

Sekundärstruktur: -Helix, -Faltblatt

Tertiärstruktur: Faltung d. Sekundärstruktur- elemente im Raum

Maßgebend für die

Funktionalität des Proteins!


7

Einsatzfelder für Datenbanken

Sequenzdatenbanken

Protein-Raumstrukturen

Evolutionäre Entwicklungen (Phylogenetik)

Genexpression (Aktivität von Genen)

Stoffwechsel-Vorgänge (Metabolische Pfade)

Literaturdatenbanken


8

Sequenzdatenbanken

Gene: Nucleotidsequenzen z.B. GenBank, Human Genome DB

Proteine: Aminosäuresequenzen z.B. SWISS-PROT

Sequenzierung: Codierende Sequenzen

identifizieren

Analyse: Sequenz-Alignment Ähnlichkeit zw. Sequenzen

bestimmen

In DB integriert oder separate Prog.

ExponentiellesWachstum


9

Proteinstrukturen

Strukturdatenbanken z.B. Protein Data Bank (PDB)

3D-Koordinaten aller Atome

Zuordnung v. Sekundärstrukturen

Rel. wenige Moleküle untersucht

Einordnung neuer Sequenzen Homologieansatz:

ähnliche Sequenzen ähnliche Struktur

Vorhersage der Proteinfaltung wichtiges Forschungsthema!


10

Phylogenetische DBn

Verwandtschaftsbeziehungen zwischen Arten

Heute auf genetischer Basis

Erstellung phylogenetischer Bäume auf dieser Basis

Algorithmen, Zugriff auf genetische Daten

Archivieren erstellter Bäume in Datenbanken

Bsp.: Tree Of Life - DB:WWW-Projekt, ca. 350 teilnehmende Wissenschaftler


11

Bsp.: Tree Of Life - DB


12

Metabolische Pfade

Stoffwechsel-Vorgängein Zellen

Codiert als XML-Dokument

Über Java-Applet zugänglich

Verknüpungen mit z.B. chemischer Datenbank(per Mausklick)

Beispiel: KEGG PATHWAY-DB


13

Sonstige Einsatzgebiete

Genexpression

Genom: statischer „Bauplan“

Aber: Gene sind unterschiedlich aktiv

DNA-Chips erlauben Messungen d. Aktivität

Große Datenmengen, Analyse z.B. für neue diagnostische u. therapeutische Verfahren

Literaturdatenbanken

Bsp.: MEDLINE-DB für Medizin und Lebenswissenschaften


14

Modellierung u. Datenmanagement

Implementierungsalternativen ASCII-Dateien (Flat Files)

40 %

Relationales DBMS 38%

Objektorientiertes / objektrelationales DBMS 9 %

ACEDB 5 %

OPM (Object Protocol Model) 2 %

( Daten von 2001 aus einer Studie von Bry & Kröger )


15

Implementierung: Flat Files ASCII-Dateien noch immer weit verbreitet

Zum Datenaustausch u. Analyse de facto Standard

Explizite Strukturierung: Tags, erlauben komplexe Strukturen und unvollständige Daten

Bsp.: Auszug aus der SWISS-PROT-DB (Proteine)

ID PILI_PSEAE STANDARD; PRT; 178 AA.AC P43502;DT 01-NOV-1995 (Rel. 32, Created)DT 01-NOV-1995 (Rel. 32, Last sequence update)DE Protein pilI.GN PILI OR PA0410.OS Pseudomonas aeruginosa.SQ SEQUENCE 178 AA; 19934 MW; 634A1A4B135A7E77 CRC64; MSDVQTPFQL LVDIDQRCRR LAAGLPAQQE AVQSWSGIGF [...]


16

Implementierung: relationale DBMS

Relationale DBMS in anderen Feldern lange erprobt

Für wissenschaftliche Daten nicht optimal

Komplexe Struktur führt zu uneinsichtigem Tabellenverbund

Administration und Abfragen daher unnötig kompliziert

Effiziente Speicherung u. Suche von Sequenzdaten nicht hinreichend untersucht

Trotzdem rund 38 % der DBn mit relationalem DBMS


17

Implementierung: ACEDB

A C. elegans DataBase

Speziell für wissenschaftliches Umfeld entworfen

Objektorientiertes Datenmodell, aber: Keine Vererbung möglich

Baumstruktur von Objekten u. Attributen

Semistrukturierter Ansatz Erlaubt Ausnahmen i.d. Datenstruktur

Query-Sprache AQL: SQL-ähnlich, Pfad-Ausdrücke


18

Implementierung: ACEDB

Klassendefinition Tags, Objekte, Basistypen,

Modifizierer

1:N-Beziehungen problemlos modellierbar

Bsp. Abfrage:Alle Co-Autoren in allen Aufsätzen von Hr. Lesk finden

?Author Name UNIQUE Text Paper ?Paper

?Paper Title UNIQUE Text Author ?Author Abstract ?LongText

select a->Paper->Author from a in class Author where a->Name like "*lesk*"


19

Implementierung: OPM

Object Protocol Model

Objektorientiertes Modell mit spezieller Unterstützung für wissenschaftliche Daten/Prozesse

Kein DBMS, nur Datenmodell

Protokoll-Klassen modellieren Experimente mit Input und Output

Tool-Suite zur Modellierung/Benutzung Schema Editor:

Erlaubt Transformation in relationale Schemata

Browse & Query: Anfragen u. Transaktionen in z.B. SQL umwandeln


20

Datenbank-Retrieval

Heterogenität

Vielzahl existierender DBn welche enthält relevante Daten? unterschiedliche Abfragearten

Ansatz: „Meta-Suchen“z.B. SRS (Sequence Retrieval System) Zugriff auf ca. 500 DBn Folgt Hypertext-Links in Einträgen

Abfrage über WWW-Standardformular oderQuery-Language

[swissprot-id:acha-human] > prosite > swissprot


21

Datenintegration

Akquisition neuer Daten aus anderen DBn

Voll- oder semiautomatischKonflikte möglich, Einteilung insemantische, deskriptive, strukturelle

Forschergruppen dürfen Daten einbringen

Qualität d. Daten, Validierungsprozess?

Übernahme aus der Literatur

Meist manuell, arbeitsintensiv


22

Qualitätssicherung

Annotationen

Meta-Daten, z.B. Literaturreferenzen

Verknüpfungen zu anderen Datensätzen

Herkunft der Daten, experimentelle Methoden

Feature-Tables: biol. Bedeutung v. Sequenzen

Neuannotation von Einträgen Macht Datenbestand „dynamisch“ Qualität d. Einträge, Bsp. EMBL-DB

ohne Annotation vorläufig ungeprüft Standard

Annotationen geben den Daten Bedeutung


23

Zusammenfassung

Molekularbiologische Daten enorme Schärfe und Quantität

oft komplexe Strukturen

Datenbanken bewährte DBMS bereits in Verwendung

spezielle Ansätze verfügbar, aber noch nicht verbreitet

Heterogenität von Datenbeständen Verteiltheit und unterschiedliche Datenhaltung

Integration notwendig

Informatik-Expertise bei Biologen erforderlich

twa-seminar thorsten denhard, ss20031 seminarvortrag im studienschwerpunkt...

Documents