inhalte: bioinformatische genom- und proteomanalyse ... file1 milliarde basenpaare: 1 gbp (g: giga,...

43
Biochemische Datenbanken und Software (BCDS) Seminar WS 12/13 Bachelor-Wahlpflichtveranstaltung Inhalte: Bioinformatische Genom- und Proteomanalyse, Literaturrecherche, Naturwissenschaftliche Software. Termine: 17. Nov, 24. Nov, 1. Dez, 8. Dez jeweils um 09:30 Uhr s.t. Credit Points: 2 oder 3.5

Upload: lekhue

Post on 12-Jun-2019

217 views

Category:

Documents


0 download

TRANSCRIPT

Biochemische Datenbanken und Software (BCDS) Seminar WS 12/13

Bachelor-Wahlpflichtveranstaltung

Inhalte: Bioinformatische Genom- und Proteomanalyse, Literaturrecherche, Naturwissenschaftliche Software.

Termine: 17. Nov, 24. Nov, 1. Dez, 8. Dez jeweils um 09:30 Uhr s.t.

Credit Points: 2 oder 3.5

Datenbankgestützte Genomanalyse

Genomvergleich: https://www.ncbi.nlm.nih.gov/projects/homology/maps/

Datenbankgestützte Genomanalyse

● Experimentelle Rohdaten● Archivierung, Strukturierung● Vergleich und Klassifizierung● Funktionelle Charakterisierung

Grundlegende Voraussetzungen:● Einfacher Austausch von Daten und

Analysen● Qualitätsfaktor Referenzierung

Datenbankgestützte Genomanalyse

Informationskodierung: NukleobasensequenzDesoxyribonukleinsäuren {A T G C}Ribonukleinsäuren {A U G C}

Watson/Crick-Basenpaare

Datenbankgestützte Genomanalyse

Molekularbiologisches Dogma

Genom→Transkriptom→Proteom

Datenbankgestützte Genomanalyse

(Alternatives) Spleißen bei euTranskription

Datenbankgestützte Genomanalyse

TranslationNukleobasensequenz → Aminosäuresequenz20 proteinogene AADuplett-Codons: 4² möglichTriplett-Codons: 4³ = 64Mehrere Codons / AAAUG → Methionin

Verschiebung des (Triplett-) Leserasters bei Transkription oder Translation

Beispiel: Programmed ribosomal frameshift

doi:10.1038/msb.2011.101

Datenbankgestützte Genomanalyse

Datenbankgestützte Genomanalyse

Coding Sequence Diversity:http://www.uniprot.org/keywords/KW-9997

Nach der Translation:PTM: http://www.uniprot.org/docs/ptmlist

Ribosomal skippingRNA editingRNA suppression of terminationRNA termination-reinitiationRNA translational shuntingSelenocysteineTriplet repeat expansion

Alternative initiationAlternative promoter usageAlternative splicingChromosomal rearrangementPolymorphismPyrrolysineRibosomal frameshifting

Datenbankgestützte Genomanalyse

Übungsaufgabe Sucht Euch (kleine Grüppchen) ein Coding Sequence Diversity Keyword aus und versucht, es grafisch/zeichnerisch zu erklären.

http://www.uniprot.org/keywords/KW-9997

(15 min Zeit)

Datenbankgestützte Genomanalyse

Biologische Datenbank: Strukturierte Sammlung frei zugänglicher Sequenzen

Verfügbare Datenbanken:http://nar.oxfordjournals.org/ "Database Issue"

Datenbankgestützte Genomanalyse

Aufgabe:

Jeder sucht sich aus folgender Liste eine Datenbank aus.

2012 NAR Database Summary Paper Alphabetic Listhttp://www.oxfordjournals.org/nar/database/a/

Ihr habt 20 min Zeit - danach zeigt Ihr den anderen, wie diese im Prinzip benutzt wird.

Datenbankgestützte Genomanalyse

Datenbank-Typen

Primär: Annotierte Sequenzen oder Strukturen

Sekundär: Analysedaten, Klassifizierungen, Literatur

Datenbankgestützte Genomanalyse

Populäre Primärdatenbanken: INSDC International Sequence Database Collaboration

Populäre Sekundärdatenbanken: Pubmed, KEGG, RefSeq, ...Meta-Datenbanken:ENTREZ (NCBI), Harvester (KIT), ...Spezies-spezifische Datenbanken:ColiBase, FlyBase, WormBase, MGI, XenBase, ZFIN, SGD,...

Datenbankgestützte Genomanalyse

Aufgabe Teil 1)Ruft eine Suchmaschine eurer Wahl auf, sucht nach dem "Wächter des Genoms" und erstellt kollaborativ einen Steckbrief mit (Eurer Meinung nach) relevanten Informationen. Für den Steckbrief eröffnet jemand von Euch ein Pad auf https://etherpad.mozilla.org/ und teilt dessen Link mit den anderen.

(15 min Zeit)

Datenbankgestützte Genomanalyse

Aufgabe Teil 2)Geht auf INSDC und sucht nach der mensch- lichen mRNA-Sequenz, die den Wächter des Genoms kodiert und ladet sie als Datei im FASTA-Format herunter.

Wenn die Suche nicht konvergiert, versucht es mit der Advanced Search.

(10 min Zeit)

Datenbankgestützte Genomanalyse

Wie werden Sequenzdaten in den Primärdatenbanken abgespeichert?In kodiertem Text

ASCII (American Standard Code for Information Interchange, 7-Bit-Zeichenkodierung)Beispiel: Buchstabe A entspricht im Binärcode 1000001Ähnlich: UTF-8, am weitesten verbreitete Kodierung für sinntragende Schriftzeichen (Unicodes), 8-Bit-Zeichenkodierung, entspricht 2⁸ möglichen Zeichen

Datenbankgestützte Genomanalyse

Datenbanksystem: Flat file database modelIndexierung durch Accession Number:● Eindeutige Identifikation eines

Datenbankeintrags● Allerdings Datenbank-spezifischFASTA-Format (.fa, .mpfa, .fna, .fsa, .fasta)● ASCII ● Sequenzen im Einbuchstabencode ● > standardisierte Kopfzeile● ; Kommentarzeile

Datenbankgestützte Genomanalyse

Genom● Protein-kodierende Segmente (ORF)● nicht(-Protein)-kodierende Segmente

Archivierung ist Organismus-spezifisch● Mensch: 3.2 Milliarden Basenpaare,

verpackt in 23 Chromosomen● Paris japonica: 150 Milliarden Basenpaare,

verpackt in 40 Chromosomen

1 Milliarde Basenpaare: 1 Gbp (G: giga, 10⁹)

Datenbankgestützte Genomanalyse

Genomgröße Mensch : Paris Japonica ~ 1 : 50Chromatin-Paradoxon Komplexität eines Organismus korreliert nicht mit Größe des Genoms/Chromatins.(Korreliert auch nicht mit Anzahl der Gene)EHERKomplexität eines Organismus korreliert mit Komplexität der Regulation der Genexpression

Datenbankgestützte Genomanalyse

Was reguliert die Genexpression?Nichtkodierende Genomsegmente.● Transkripte zu nichtkodierender RNA (Beispiele: tRNA, rRNA, aRNA, snoRNA, microRNA, siRNA, snRNA, piRNA, ncRNA, Riboswitches, Ribozyme)● Nichtkodierende Segmente in einem Gen: Promotor,

Introns (bei Eukaryoten)● Cis-Elemente: Enhancer/Silencer (Promotor-interaktiv,

kooperieren mit Trans-Elementen)Nichtregulierend oder unter Umständen regulierend:● Repetitive Sequenzen, Pseudogene, endogene

Sequenzen, Telomere

Datenbankgestützte Genomanalyse

Das Gen

Datenbankgestützte Genomanalyse

Wie findet man heraus, welche nichtkodierenden Segmente die Genexpression regulieren?

Vermutung: Diese sind evolutionär konserviert, könnten also beim Vergleich eng verwandter Spezies identifiziert werden.https://en.wikipedia.org/wiki/Conserved_non-coding_sequence

Die Regulationsapparate müssten noch eine Ähnlichkeit aufweisen.

Später vergleichen wir in einer Aufgabe Genome("Comparative Genomics")

Datenbankgestützte Genomanalyse

Gen: Kodierende Seq., nichtkodierende regulatorische Seq. Genidentifikation/Annotation (gene prediction)● 6 mögliche Leserahmen bei DNA● Bestimme den tatsächlichen Leserahmen

Datenbankgestützte Genomanalyse

Frage: Welcher Leserahmen ist kein ORF?ORF (offener Leserahmen): enthält kein Stop-Codon (TAG,TAA,TGA)

Aussage: Lange ORFs sind Kandidaten für CDS

Datenbankgestützte Genomanalyse

Genidentifikation/Annotation (gene prediction)Praktisch: Unbekannte Sequenz per BLAST auf Homologie prüfen.

NCBI RefSeqGene Nucleotide-BLAST

● RefSeq-Datenbank: nicht redundant, annotierte Sequenzen von 18512 Organismen (11/2012)

● Detektiert Sequenzähnlichkeit einer Query-Sequenz zu bekannten Genen, ESTs, ..

● Limitation: Gene können nur identifiziert werden, wenn eine signifikante Homologie vorliegt (>30%)

Datenbankgestützte Genomanalyse

BLASTn Basic Local Alignment Search Tool for nucleotides

Algorithmus, um n Sequenzen möglichst deckungsgleich anzuordnen - zu einer optimalen Anordnung (optimal alignment)Das Prinzip1) Seeding - Identifiziert identische Bruchstücke (words). Diese word hits werden als alignment seeds verwendet.

faster < word size < more sensitive2) Extension - Ist der search space seeded, können von den seeds aus Alignments erstreckt werden. Wann diese abgebrochen werden, hängt von der Bewertung von mismatches (Fehlpaarungen) oder gaps (Lücken) ab.3) Evaluation - statistisch signifikante Alignments (d.h. Zufälligkeit kann ausgeschlossen werden) heissen HSPs (highest scoring pairs)

Datenbankgestützte Genomanalyse

NCBI RefSeqGene Blastn result

RefSeq Accession format: AB_123456Description: Organism, annotationMax score: höchster score eines HSPTotal score: Score aller HSPquery coverage: Percentage covered by matching sequencesE value: Expect value. Maß für statistische Signifikanz (wie wenig zufällig). Alles kleiner 1e-04 ist homolog (Fehlerrate 0.01%)Max ident: Anteil identischer Nukleotide am AlignmentLinks: to other resources

Datenbankgestützte Genomanalyse

Aufgaben zu RefSeqGene1) Geht auf http://pastebin.com/zypD6zBg, kopiert die DNA-Sequenz, geht auf RefSeqGene Blastn, fügt die Sequenz ein und klickt BLAST. 3)Nachdem Ihr Euch die grafische Darstellung der results angesehen habt, scrollt darunter und überprüft, welche hits homologe Sequenzen darstellen.4) Klickt auf den Score-Link des besten Hits. Wieviele Nukleotide sind identisch?4) Klickt auf die Accession des besten Hits. Ihr kommt auf den Genbankeintrag der zugehörigen Sequenz, die sich im Chromosom X befindet. Welcher Bereich kodiert für das Endprodukt?

Datenbankgestützte Genomanalyse

Einschub: woher kommen die Gensymbole?z.B. TNF, IGF, ...Geht auf http://www.genenames.org und gebt ein Akronym Eurer Wahl ein. Es erscheint ein sogenannter Gene Symbol Report. Dort sind sämtliche Ressourcen zu dem Gen aufgelistet.In jedem GenBank-Eintrag gibt es eine Verlinkung zum Gene Symbol Report:

/db_xref="HGNC:4170"

HGNC: HuGO Gene Nomenclature CommitteeNomenklatur für alle bekannten menschlichen Gene (und von Mäusen und Ratten)

Datenbankgestützte Genomanalyse

Funktionelle Genomik: Syntaxanalyse langer DNA-Sequenzen auf funktionelle Einheiten (regulatorische Sequenzen, CDS, ...)Prokarya/Archaea: zirkuläre DNA, wenige Mbp groß, Gendichte 1Gen /1000 bp, Großteil des Genoms CDS (längste mRNA-ORF)Eukarya: Chromosomen, 10¹-10² Gbp, 1 Gen / 100000bp,kleiner Teil des Genoms CDS, genregulatorische Seq. ausserhalb des Gens, Transkript-Prozessierung, Gengrößen bis zu Mbp

Datenbankgestützte Genomanalyse

Kartierung großer Sequenzen (Physical mapping)Mehrere DNA-Klone werden fragmentiert, überlappende Fragmente (reads, max. 1000bp) werden zu contigs zusammengefasst, deren Summe (scaffold) das gesamte Genom abdeckt (coverage). Die relative Orientierung der contigs kann über Short Tagged Seq. (STS, 200-500bp) festgestellt werden.

Datenbankgestützte Genomanalyse

Anwendungsbeispiele: ● DNA-Klon eines Genomsegments aus bekanntem

Organismus auf STS-Bereiche untersuchen und Locus zuordnen.

● Reife mRNA kann in komplementäre DNA (cDNA) transkribiert werden (Methode: RT-PCR). STS von solchen cDNA-Klonen enthalten Information über die Loci von Genen.

Datenbankgestützte Genomanalyse

Entdeckung neuer GenecDNA-Klone stammen von reifer mRNA ab, also exprimierten Genen. cDNA-Fragmente werden daher als expressed sequence tags (ESTs, 100-800bp) bezeichnet. ESTs sind herstellungsbedingt fehlerbehaftet und Ihnen fehlen die Informationen über genregulatorische Einheiten wie Promotoren und Introns.Verwendung: ESTs aus cDNA-Bibliotheken von Genen unbekannter Sequenz werden mit bereits bekannten Proteinen verglichen.(BLASTx translatiert EST-Sequenz in alle 6 Leserahmen)

Datenbankgestützte Genomanalyse

● Man vergleicht ESTs nicht mit BLASTn aufgrund des codon usage bias: von den 64 möglichen Kodons werden von verschiedenen Spezies unterschiedliche für die jeweilige Aminosäure verwendet.

● ESTs können auch per Sequence Assembly zu contigs zusammengesetzt werden, was die Identifikation großer Bereiche eines Proteins ermöglicht.

● ESTs können auch Informationen über verschiedene Spleißvarianten eukaryotischer Gene enthalten.

NCBI EST-Datenbank:https://www.ncbi.nlm.nih.gov/dbEST/

Datenbankgestützte Genomanalyse

MutationenHäufigste: Single Nucleotide Polymorphisms (SNPs), Insertion Deletion Polymorphisms (DIPs).SNPs in Genen kausal für Phänotypausbildung (z.B. Haar-/Augenfarbe, Krankheiten)● ca. 1 SNP pro 300-500 Nukleotide, hochkonserviert →

präzise genetische Karte mit hoher Auflösung (SNP Array)

● Nutzung für Pharmacogenetics / individualisierte Med.NCBI-Datenbank identifizierter Polymorphismen: https://www.ncbi.nlm.nih.gov/projects/SNP/

Datenbankgestützte Genomanalyse

Aufgaben:1) ESTsWieviele ESTs sind in der dbEST eingetragen?Von welchen Organismen existieren die meisten Einträge?2) SNPsGeht auf https://en.wikipedia.org/wiki/DbSNP .Wieviele verschiedene Polymorphismen werden in der Datenbank gespeichert?Welche Qualitätsprobleme hat dbSNP?Geht auf http://www.snpedia.comWelches SNPs ist mit HIV-Resistenz assoziiert?

Datenbankgestützte Genomanalyse

Comparative GenomicsSequenzierte Genome von Mensch, Tier, Pflanze, pathogenen Mikroorganismen, usw.GOLD - Genomes Online DatabaseVergleich ganzer Genome zur Identifizierung der Genomstruktur, kodierender und nichtkodierender BereicheUnterschiede in Genomgröße, Codon UsageGemeinsamkeiten: konservierte Regionen, CG-Gehalt

Datenbankgestützte Genomanalyse

Comparative GenomicsDefinitionen:syntheny: Mehrere Gene auf einem Chromosom (eine Spezies)conserved segments/linkages: Loci und Abfolge von Genen konserviert (z.B. zwischen allen Säugern festgestellt)

Datenbankgestützte Genomanalyse

Comparative GenomicsZiele:● Entdeckung regulatorischer Einheiten (z.B. konservierte

Transkriptionsfaktor-Bindestellen)● Identifizierung stoffwechselrelevanter Gene,

metabolischer TargetsBeispiel: Vergleich zweier Genome, bei einem Gene für best. Stoffwechsel bekannt. Beim anderen vorhanden? Fähigkeit nicht vorhanden oder anders realisiert→unbekannter Stoffwechselweg?

Datenbankgestützte Genomanalyse

Comparative GenomicsRelevante Datenbank: KEGG - Kyoto Encyclopedia of Genes/GenomesPATHWAY, LIGAND: metabolische Vorgänge in Zellen, Organismen. Vergleich von Stoffwechselwegen verschiedener Organismen.

Datenbankgestützte Genomanalyse

Aufgaben:● Geht auf GOLD und findet heraus, an

wievielen Orten auf der Welt das menschliche Genom sequenziert wurde. (genomesonline, search, homo sapiens)

● KEGG: Wieviele Pathways findet man unter "Cell Growth and Death"?

Datenbankgestützte Genomanalyse

Zu guter Letzt:NDB - Nucleic Acid Database 3D-Strukturen von Nukleinsäuren und Nukleinsäurekomplexen

Frage:Mit welchen Methoden wurden die Strukturen aufgelöst? In welchen Formaten kann man diese herunterladen?