![Page 1: Bioinformatik-Seminar 12.5.04 Multiples Sequenz-Alignment Phylogenie](https://reader035.vdocuments.net/reader035/viewer/2022062512/55204d6649795902118bbca6/html5/thumbnails/1.jpg)
Bioinformatik-Seminar12.5.04
Multiples Sequenz-AlignmentPhylogenie
![Page 2: Bioinformatik-Seminar 12.5.04 Multiples Sequenz-Alignment Phylogenie](https://reader035.vdocuments.net/reader035/viewer/2022062512/55204d6649795902118bbca6/html5/thumbnails/2.jpg)
Multiple Sequenz-Alignments
Multiples Alignment: Gleichzeitiger Vergleich mehrerer Sequenzen
![Page 3: Bioinformatik-Seminar 12.5.04 Multiples Sequenz-Alignment Phylogenie](https://reader035.vdocuments.net/reader035/viewer/2022062512/55204d6649795902118bbca6/html5/thumbnails/3.jpg)
Multiple Sequenz-Alignments
Multiples Alignment: Gleichzeitiger Vergleich mehrerer Sequenzen
Anwendungen:
• Funktionsvorhersage, Suche nach konservierten Motiven• Datenbanksuche (z. B. PSI-BLAST: Position-Specific Iterated BLAST;
zuerst wird ein Profil erstellt)
• Phylogenie
• Sequenzassemby (Sequenzierprojekte)
Vorteile:
• ähnliche Bereiche (Motive) können herausgearbeitet werden
• Unähnlichkeiten können für die Rekonstruktion phylogenetischer Zusammenhänge
verwendet werden
![Page 4: Bioinformatik-Seminar 12.5.04 Multiples Sequenz-Alignment Phylogenie](https://reader035.vdocuments.net/reader035/viewer/2022062512/55204d6649795902118bbca6/html5/thumbnails/4.jpg)
Global:
Lokal:
Multiple Sequenz-Alignments
![Page 5: Bioinformatik-Seminar 12.5.04 Multiples Sequenz-Alignment Phylogenie](https://reader035.vdocuments.net/reader035/viewer/2022062512/55204d6649795902118bbca6/html5/thumbnails/5.jpg)
Für L=300 bedeutet das:
Sequenzzahl Zahl der Zellenin der Matrix
Speicherbedarf(4 byte/Zelle)
Zeitbedarf(106 Op./s)
2 3002=90000 351 kb 0,36 s
3 3003=27000000 105 MB 216 s
4 3004=8,1 x 109 30,2 GB 36 h
5 3005=2,4 x 1012 9052 GB 900 d
Optimale Lösungsansätze (dynamisches Programmieren):
Zeit- und Speicherbedarf wächst ins Unermessliche
Bei einer Sequenzlänge L und n Sequenzen: Speicherbedarf: O(Ln), Zeitbedarf: O(2nLn). Das Problem ist NP-vollständig.
Multiple Sequenz-Alignments
![Page 6: Bioinformatik-Seminar 12.5.04 Multiples Sequenz-Alignment Phylogenie](https://reader035.vdocuments.net/reader035/viewer/2022062512/55204d6649795902118bbca6/html5/thumbnails/6.jpg)
Optimierungsmöglichkeiten durch z.B. divide and conquer
Multiple Sequenz-Alignments
![Page 7: Bioinformatik-Seminar 12.5.04 Multiples Sequenz-Alignment Phylogenie](https://reader035.vdocuments.net/reader035/viewer/2022062512/55204d6649795902118bbca6/html5/thumbnails/7.jpg)
Heuristische Ansätze:
Halten Aufwand in Grenzen, bei akzeptabel guten Ergebnissen
- PileUp (GCG)
- CLUSTALW
- Lösungen basierend auf Hidden Markov Modellen
- PSI-BLAST
Multiple Sequenz-Alignments
![Page 8: Bioinformatik-Seminar 12.5.04 Multiples Sequenz-Alignment Phylogenie](https://reader035.vdocuments.net/reader035/viewer/2022062512/55204d6649795902118bbca6/html5/thumbnails/8.jpg)
1. Beispiel für globale multiple Alignments:
Progressives Alignment nach Feng und Doolittle (1987)
Beispiel: PileUp in GCG
• Iterativer Ansatz mit paarweisen globalen Alignments (ergibt jeweils einen score S)
• Berechnung jeweils eines korrigierten score Seff und daraus eines „Unähnlichkeitsscores“ D (difference score)
• Erzeugung einer Matrix mit diesen Abweichungs-Scores der paarweisen Alignments als Basis für den guide tree
• Alignment der Sequenzen dem guide tree folgend (progressiv)
Multiple Sequenz-Alignments
![Page 9: Bioinformatik-Seminar 12.5.04 Multiples Sequenz-Alignment Phylogenie](https://reader035.vdocuments.net/reader035/viewer/2022062512/55204d6649795902118bbca6/html5/thumbnails/9.jpg)
Die difference score-Matrix beinhaltet für n Sequenzen (n-1) x n/2 Felder.
Die Matrix ist spiegelsymmetrisch, d. h. es genügt der Informationsgehalt einerDiagonalhälfte.
Seq1 Seq2 Seq3 Seq4
Seq1 0
Seq2 12 0
Seq3 24 19 0
Seq4 41 43 33 0
Beispiel:
- Für 4 Sequenzen entsteht eine Matrix mit 10 Feldern.
- Aus dieser Matrix wird der guide tree erstellt, bei dem ähnliche Sequenzen
in Clustern zusammengefaßt werden.
Seq 1
Seq 2Seq 3
Seq 4
1. Cluster
2. Cluster3. Cluster
Multiple Sequenz-Alignments
![Page 10: Bioinformatik-Seminar 12.5.04 Multiples Sequenz-Alignment Phylogenie](https://reader035.vdocuments.net/reader035/viewer/2022062512/55204d6649795902118bbca6/html5/thumbnails/10.jpg)
Progressives Alignment:UPGMA-Methode: unweighted pair-group method using arithmetic averages
Annahme: alle Sequenzen evolvieren gleichmäßig und mit konstanterGeschwindigkeit
- Sequenzen je einer Verzweigung ergeben Alignment, arithmetische Mittelung ihrer Distanzen
- Alignments der benachbarten Äste werden in neues Alignment gefaßt
- Weitere Alignments bis letzte Einzelsequenz oder Ast-Alignment erfaßt ist
Multiple Sequenz-Alignments
![Page 11: Bioinformatik-Seminar 12.5.04 Multiples Sequenz-Alignment Phylogenie](https://reader035.vdocuments.net/reader035/viewer/2022062512/55204d6649795902118bbca6/html5/thumbnails/11.jpg)
Probleme:
- Fehler am Anfang (bei den paarweisen Alignments) bleiben erhalten; "once a gap, always a gap", z. B. bei mehreren Möglichkeiten:
x: ACTTA y: AGTA
x ACTTA ACTTA ACTTAy A-GTA AG-TA AGT-A
- Nicht-überlappende Fragmente können gesamtes MSA ins Chaos stürzen (zerstört guide tree, da die paarweisen Distanz-Scores nicht stimmen)
Multiple Sequenz-Alignments
![Page 12: Bioinformatik-Seminar 12.5.04 Multiples Sequenz-Alignment Phylogenie](https://reader035.vdocuments.net/reader035/viewer/2022062512/55204d6649795902118bbca6/html5/thumbnails/12.jpg)
2. Beispiel für globale multiple Alignments:
Progressives Alignment nach Thompson, Higgins und Gibson (1994)
ClustalW
Besonderheiten:- beachtet differenzierte Lückenfunktionen und Matrizenauswahl- Auswahl, ob dynamic programming oder Heuristik bei der Erstellung der paarweisen Alignments
- Neighbor Joining-Verfahren für die Erstellung des guide tree (statt UPGMA wie bei PileUp)-> verschiedene Gewichtung der Äste; Wurzel in der Mitte des Baumes-> Abstand durch Summe der Astlängen definiert (zusätzlich wird durch die Anzahl der
Sequenzen, die sich diesen Ast teilen, dividiert)
Multiple Sequenz-Alignments
![Page 13: Bioinformatik-Seminar 12.5.04 Multiples Sequenz-Alignment Phylogenie](https://reader035.vdocuments.net/reader035/viewer/2022062512/55204d6649795902118bbca6/html5/thumbnails/13.jpg)
Darstellung von MSA:
Darstellung der Konsensus-Sequenz:
- Pretty (GCG)- GeneDoc (Windows)- Sequenzlogo (http://www.lecb.ncifcrf.gov/~toms/sequencelogo.html)
Multiple Sequenz-Alignments
![Page 14: Bioinformatik-Seminar 12.5.04 Multiples Sequenz-Alignment Phylogenie](https://reader035.vdocuments.net/reader035/viewer/2022062512/55204d6649795902118bbca6/html5/thumbnails/14.jpg)
Stammbaumberechung (Phylogenie)
Grundlage:
gutes multiples Sequenzalignment
wichtig also:
- Sorgfalt bei der Auswahl der Sequenzen (1 nicht passende Sequenz macht das Alignment kaputt)
- manuelle Nachbearbeitung/Überprüfung des Alignments bei Bedarf Miteinbeziehen weiterer Sequenzen
![Page 15: Bioinformatik-Seminar 12.5.04 Multiples Sequenz-Alignment Phylogenie](https://reader035.vdocuments.net/reader035/viewer/2022062512/55204d6649795902118bbca6/html5/thumbnails/15.jpg)
Definitionen:
• Phylogramm: Darstellung der verwandtschaftlichen Beziehungen in einem Baum
• Dendrogramm: Astlängen haben keine Ausagekraft
• Cladogramm: Astlängen spiegeln evolutionären Abstand wider
• rooted: Baum mit Wurzel
• unrooted: Sterntopologie ohne Wurzel
Stammbaumberechung (Phylogenie)
![Page 16: Bioinformatik-Seminar 12.5.04 Multiples Sequenz-Alignment Phylogenie](https://reader035.vdocuments.net/reader035/viewer/2022062512/55204d6649795902118bbca6/html5/thumbnails/16.jpg)
nur Topologie Miteinbeziehung evolutionärer Abstände
aus: Burmester & Hankeln, Genomforschung und Sequenzanalyse, Uni Mainz
Stammbaumberechung (Phylogenie)
![Page 17: Bioinformatik-Seminar 12.5.04 Multiples Sequenz-Alignment Phylogenie](https://reader035.vdocuments.net/reader035/viewer/2022062512/55204d6649795902118bbca6/html5/thumbnails/17.jpg)
ungewurzelter Baum
aus: Burmester & Hankeln, Genomforschung und Sequenzanalyse, Uni Mainz
Stammbaumberechung (Phylogenie)
![Page 18: Bioinformatik-Seminar 12.5.04 Multiples Sequenz-Alignment Phylogenie](https://reader035.vdocuments.net/reader035/viewer/2022062512/55204d6649795902118bbca6/html5/thumbnails/18.jpg)
aus: Burmester & Hankeln, Genomforschung und Sequenzanalyse, Uni Mainz
Stammbaumberechung (Phylogenie)
![Page 19: Bioinformatik-Seminar 12.5.04 Multiples Sequenz-Alignment Phylogenie](https://reader035.vdocuments.net/reader035/viewer/2022062512/55204d6649795902118bbca6/html5/thumbnails/19.jpg)
Baumberechnungsmethoden:
1. Distanz-Methoden:
- Für die Berechnung werden (normalerweise) nur Positionen ohne Lücken herangezogen- Berechnung einer Distanzmatrix (ähnlich wie bei MSA) Es gibt dafür verschiedene Berechnungs-Modelle:
- Kimura-Distanz: Zahl der Substitutionen- basierend auf PAM-Matrix: Konservative Substitutionen werden anders bewertet als nicht-konservative- Kimura-2-Parameter-Modell und Kategorien-Modell: für Nukeotid-Alignments, unterschiedl. Bewertung v. Transition u. Transversion
- auf Basis der Distanzmatrix UPGMA oder Neighbor-Joining für Baumerstellung
Stammbaumberechung (Phylogenie)
![Page 20: Bioinformatik-Seminar 12.5.04 Multiples Sequenz-Alignment Phylogenie](https://reader035.vdocuments.net/reader035/viewer/2022062512/55204d6649795902118bbca6/html5/thumbnails/20.jpg)
2. Parsimony-Methoden:
- Parsimony (engl.): Sparsamkeit- aus allen theoretisch möglichen Bäumen wird der Baum gesucht, der mit wenigsten Substitutionen die Sequenzunterschiede erklärt- dazu wird pro Baum ein Score berechnet- Nur bestimmt Positionen sind informativ: es muß einen Baum geben, der sich durch weniger Austausche erklären lässt als andere.- nicht informativ sind demnach: * Positionen mit nur gleichen AS/Nucl. * Positionen mit nur verschiedenen AS/Nucl.
Stammbaumberechung (Phylogenie)
1 2 3 4 5Seq 1 C G T A ASeq 2 G G C C ASeq 3 G G T T CSeq 4 G G A G C
nur Pos. 5 ist informativ
Seq 1
Seq 3
Seq 2
Seq 4
Seq 1
Seq 2
Seq 3
Seq 4
Seq 1
Seq 4
Seq 2
Seq 3
![Page 21: Bioinformatik-Seminar 12.5.04 Multiples Sequenz-Alignment Phylogenie](https://reader035.vdocuments.net/reader035/viewer/2022062512/55204d6649795902118bbca6/html5/thumbnails/21.jpg)
3. Maximum-Likelihood-Methoden:
- Matrix mit Übergangswahrscheinlichkeiten der AS/Codons- Annahme: Mutationen erfolgen unabhängig von ihrer Position in der Sequenz- wiederum werden alle theoretisch möglichen Bäume durchgerechnet- für jeden Baum wird die Wahrscheinlichkeit (L) berechnet, daß er für die zugrundeliegenen Sequenzdaten und die Matrix richtig ist.
Ziel ist es, den Baum mit der höchsten Wahrscheinlichkeit zu finden.
Stammbaumberechung (Phylogenie)
![Page 22: Bioinformatik-Seminar 12.5.04 Multiples Sequenz-Alignment Phylogenie](https://reader035.vdocuments.net/reader035/viewer/2022062512/55204d6649795902118bbca6/html5/thumbnails/22.jpg)
Statistische Signifikanz: Bewertung von Bäumen
Bootstrapping:
Alignment, das dem Baum zugrunde liegt, wird durch "Ziehen und Zurücklegen"permutiert.
Aus den permutierten Alignments werden Bäume berechnet.
Ein Baum, der trotz des Mischens immer gleich berechnet wird, gilt als statistisch signifikant.
Stammbaumberechung (Phylogenie)
![Page 23: Bioinformatik-Seminar 12.5.04 Multiples Sequenz-Alignment Phylogenie](https://reader035.vdocuments.net/reader035/viewer/2022062512/55204d6649795902118bbca6/html5/thumbnails/23.jpg)
Stammbaumberechung (Phylogenie)
vorgestellte Software:
- ClustalW: http://www-igbmc.u-strasbg.fr/BioInfo/ClustalX/Top.html
- SequenceLogo: http://www.bio.cam.ac.uk/seqlogo/
- GeneDoc: http://www.psc.edu/biomed/genedoc/
- (Phylip: http://evolution.genetics.washington.edu/phylip.html)
- Phylip Online: http://bioportal.bic.nus.edu.sg/phylip/
- (PAUP: http://paup.csit.fsu.edu [kommerziell]
- MEGA: http://www.megasoftware.net/
Phylip und PAUP gelten als Standardprogramme in der Phylogenie