Download - Statistische Tests in der Phylogenie
![Page 1: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/1.jpg)
Statistische Tests in der Phylogenie
Likelihood-Based Tests of Topologies in Phylogenetics
Nick Goldman, Jon P. Anderson, Allen G. Rodrigo
-Lisha Naduvilezhath
![Page 2: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/2.jpg)
2
Gliederung
1. Hintergrund-“wissen“- Signifikanz-/ Hypothesentest- Bootstrap
2. Verschiedene Tests- KH- / SH- / SOWH- Test- Beispiel HIV-1 / Säugetiere
3. Zusammenfassung/ Ausblick
![Page 3: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/3.jpg)
3
Thema
Seq1 : CGGTTCA… Seq2 : AGGTTCA… Seq3 : ATGTTCA… Seq4 : AGGTTCT…Seq5 : CGATTGA…
T1/ L1
T2/ L2LX ist log- Likelihood für TX
![Page 4: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/4.jpg)
4
Signifikanz-/ Hypothesentest Statistische Hypothese: Annahme
über Wahrscheinlichkeitsverteilung der Grundgesamtheit, die wahr oder falsch sein kann
Nullhypothese (H0): statistische Hypothese, die meist verworfen wirdz.B.: Aussage: „Münze präpariert“
Hypothese: Münze fairH0: p= 0,5 für Kopf
![Page 5: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/5.jpg)
5
Signifikanz-/ Hypothesentest
Alternativhypothese (HA, H1): jede von H0 andere Hypothese (z.B.: p<0,5)
Signifikanztest: Verfahren zum Errechnen, ob beobachtete Daten unter Annahme von H0 signifikant sind
Beobachtete Daten sind signifikant, wenn geneigt H0 abzulehnen
![Page 6: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/6.jpg)
6
Signifikanz-/ Hypothesentest
Signifikanzlevel/ -niveau/ Irrtumswahrscheinlichkeit (α): maximale WS mit der Hypothese abgelehnt wurde, die akzeptiert werden sollte; oft α=5% oder 1%
P-Wert: WS den beobachteten oder extremeren Wert anzutreffen/ kleinstes α, auf dem H0 abgelehnt wird
![Page 7: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/7.jpg)
7
Signifikanz-/ Hypothesentest
Einseitiger Test
Zweiseitiger Test
![Page 8: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/8.jpg)
8
Bootstrap Bootstrap- Gedanke: Neu erzeugte
Parameter sind genauso weit entfernt vom ML- Schätzer wie ML- vom wahren Parameter.
Nichtparametrischer (NP) Bootstrap: Bootstrap- Stichproben durch Ziehen mit Zurücklegen aus Originaldaten erzeugen
Parametrischer (P) Bootstrap (Monte Carlo Simulation): durch zugrunde gelegte Verteilung für benötigten Parameter Schätzung einsetzen und Bootstrap- Daten simulieren
![Page 9: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/9.jpg)
9
Bootstrap
In der Phylogenie:
Aufgrund der Verteilungsannahme parametrischer Tests abhängiger von zugrunde gelegten Modellen
Seq1 : C G G T T C A… Seq2 : A G G T T C A… Seq3 : A T G T T C A… Seq4 : A G G T T C T…Seq5 : C G A T T G A…
Site
![Page 10: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/10.jpg)
10
Kishino- Hasegawa Test (KH-Test)
Gegeben: Topologien T1 (L1) und T2(L2) Fragestellung: Unterstützen T1 und T2
die Daten gleichermaßen? H0: E[δ] =0 mit δ = L1 - L2
(HA: E[δ] =0)
keine Verteilung für δ gegeben in H0 nichtparametrischer Bootstrap
![Page 11: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/11.jpg)
11
KH- Test (=Test priNPfcd)1. Test Statistik: δ = L1 - L2 2. Mit NP-Bootstrap Datenmengen i
erzeugen3. Für jedes i:
- Schätzen von Θ1 und Θ2 für maximale log-likelihoods L1,(i) und L2,(i)
- δ(i)= L1,(i) - L2,(i)
4. Zentrieren der δ(i) Δ(i)
(Verteilung der Δ(i) ist Schätzung für δ- Verteilung)
5. Zwei-seitiger Test: Fällt δ in Konfidenz-intervall für E[δ]?
![Page 12: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/12.jpg)
12
Resampling estimated log-likelihood (RELL- Methode)
Zeitgewinn RELL-Methode:
für L1,(i) - bzw. L2,(i) - Berechnung stets
ΘML,1 und ΘML,2 verwenden (ΘML,X: optimierter Parameter für
Originaldaten) Vorrausetzung für Anwendung:
Korrektes Evolutionäres Modell Ausreichend große Datenmengen
![Page 13: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/13.jpg)
13
Test priNPncd1. Test Statistik: δ = L1 - L2 2. Mit NP-Bootstrap Datenmengen i
erzeugen3. Für jedes i:
- Mit ΘML,1 und ΘML,2 bestimmen von Ľ1,(i) und Ľ2,(i) („΄“ bedeutet
Schätzung) - δ̛(i)= Ľ1,(i) - Ľ2,(i)
4. Zentrieren der δ̛(i) Δ̛(i)5. Zwei-seitiger Test: Fällt δ in Konfidenz-
intervall für E[δ]?
![Page 14: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/14.jpg)
14
Test priNPncn Kishino und Hasegawa (1989):
δ ist normalverteilt (mit Varianz und Mittel abhängig von δ(i)) Zentralem Grenzwertsatz:
(normierte) Summe einer großen Zahl von unabhängigen, identisch verteilten Zufallsvariablen ist fast (standard) normalverteilt
![Page 15: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/15.jpg)
15
Test priNPncn
Im Test priNPncd letzten Schritt mit folgendem austauschen:
5. Berechne Varianz von Δ̛(i)
(=ν²) und teste, ob δ bei N(0, ν²)- Verteilung im Konfidenzintervall liegt
![Page 16: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/16.jpg)
16
Test priNPnca
:= log- Wahrscheinlichkeit am Site k von Baum TX
(k= 1,2,… S)
Zusätzliche Annahme: Varianz von δ mit Varianz über δ(k) berechenbar
![Page 17: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/17.jpg)
17
Test priNPnca
1. Test Statistik: δ = L1 - L2
2. Mit ΘML,1 und ΘML,2 bestimmen von L1(k) und L2(k) der Sites k der Originaldaten δ(k) = L1(k) - L2(k)
3. Zentrieren der δ(k) Δ(k)
![Page 18: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/18.jpg)
18
Test priNPnca
4. Schätzen der Varianz von Δ(k) (=Var(δ(k))) mit ν²= ΣK(Δ(k))²/(S-1) Varianz von δ = S * ν²
5. Zweiseitiger Test: Liegt δ im Konfidenzintervall bei einer N(0, S*ν²)- Verteilung?
Implementiert in PHYLIP, PUZZLE (MOLPHY)
![Page 19: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/19.jpg)
19
Test priNPncs Letzte beiden Schritte von Test
priNPnca ersetzen mit:4. paired- t- Test von L1(k) und L2(k)
(Paare {L1(1), L2(1)}, {L1(2), L2(2)},…,
{L1(S), L2(S)})
zur Überprüfung, ob Mittelwerte
gleich sind (E[μ1 - µ2] =0)
![Page 20: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/20.jpg)
20
Students t- Verteilung Nach dem
Pseudonym des „Entdeckers“ William S. Gosset benannt
m = Anzahl Freiheitsgrade (m ∞: Normverteilung)
![Page 21: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/21.jpg)
21
Test priNPncs
implementiert in PAUP*
Keine theoretische Erklärung
denkbar für zusätzliche Annahme Trotzdem ähnliche Signifikanzlevels
in Anwendung wie bei DNAML (Unterprogramm von PHYLIP)
![Page 22: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/22.jpg)
22
Falscher Gebrauch des KH-Tests
T1 und T2 müssen unabhängig voneinander UND ohne vorherige Analyse der Daten ausgewählt sein zur Rechtfertigung von H0
Falls TX = TML INKORREKTER KH-T
- Keine Ergebnisse stützen E[δ] =0, stattdessen E[δ] >0
! einseitige Tests erforderlich
![Page 23: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/23.jpg)
23
Korrektes Vorgehen Trainer: Unterscheiden
sich die Zeiten von Asterix und Obelix im 100m Sprint im Mittel signifikant?
Vorgehen: Über viele Rennen δ(Asterix, Obelix)= t(Asterix)- t(Obelix) (wenn gleich gut E[δ] 0)
![Page 24: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/24.jpg)
24
Korrektes Vorgehen
Team- Statistiker: H0: E[δ(Asterix, Obelix)] =0 HA: E[δ(Asterix, Obelix)] =0
![Page 25: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/25.jpg)
25
Verdeutlichen des Fehlers Trainer glaubt Idefix ist
schnellster δ(Idefix, schnellster)=
t(Idefix) – t(schnellster) Vermutung: wenn gleich
gut E[δ] 0 Team-Statistiker: Falsch!!
- Grund: Es gilt stets δ(Idefix, schnellster) ≥ 0
![Page 26: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/26.jpg)
26
Shimodaira- Hasegawa Test (SH- Test)
Vergleicht gleichzeitig alle Topologien einer Menge M (= Menge aller möglichen Topologien)
a priori Wahl der Topologien in M H0: alle Tx ε M sind gleichgute
Erklärungen
![Page 27: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/27.jpg)
27
SH- Test (=Test posNPfcd)
1. Für jedes TX ε M: δX:=LML – LX
2. Mit NP-Bootstrap Datenmengen i erzeugen
3. Für jedes i und jedes TX :
maximiere LX,(i) über ΘX
4. Für jedes TX : LX,(i) L ̃X,(i) durch Zentrieren (=Abziehen der Mittel über i von LX,(i))
![Page 28: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/28.jpg)
28
SH- Test (=Test posNPfcd)
5. Für jedes i:- Finde L ̃ML,(i) (Maximum über L ̃X,(i))- Bootstrap-Statistik: δX,(i)= L ̃ML,(i) - LX,(i)
6. Einseitiger Test (da, L ̃ML,(i) ≥ LX,(i)) :Liegt δX im Konfidenzintervall für E[δX] bei einer δX,(i)- Verteilung?
![Page 29: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/29.jpg)
29
Test posNPncd
Zeitgewinn mit RELL-Methode1. Für jedes TX ε M: δX:= LML – LX
2. Mit NP-Bootstrap Datenmengen i erzeugen
3. Für jedes i und jedes TX :
approximiere LX,(i) mit ΘML,X
4. Rest wie bei Test posNPncd
![Page 30: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/30.jpg)
30
SH- Test …
… schätzt gleichzeitig Signifikanzlevels für jede Topologie TX
… als modifizierte Version des KH- Tests mit a priori- gewählte T1 und a posteriori- gewählte TML (Unterschied: bei Verteilungsbestim-mung Menge aller Topologien M betrachtet)
![Page 31: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/31.jpg)
31
Rettung falscher KH- Test- Ergebnisse
Wenn P-Wert mindestens doppelt so groß wie Signifikanzlevel ist
Vorgehen: P-Wert des zweiseitigen Tests zu dem eines einseitigen abändern
den P-Wert p des falsch angewandten KH- Tests halbieren, da im SH- Test P- Wert ≥ p/2 beträgt
Beispiel: p/2 > 0,05 SH- Test erlaubt ebenfalls keine Ablehnung von H0
![Page 32: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/32.jpg)
32
Keine Rettung der KH- Ergebnisse
Wenn p/2 zu klein ist, d.h. p führt zur Ablehnung im KH-Test oder lag in der Nähe des Signifikanzlevels
Grund: SH- Test liefert Ergebnis ≥ p/2 Beispiel:
a. p< 0,05 p/2<0,025b. 0,05< p< 0,1 (keine H0-Ablehnung)
0,025< p/2< 0,05
Wie viel größer?
![Page 33: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/33.jpg)
33
SOWH- Test (=Test posPfud)
Von Swofford et al. beschrieben und Hillis et al. implementiert
Schätzt, ob a priori- gewählte Topologie T1 Daten unterstützt oder für andere verwerfen werden sollte
H0: T1 ist wahre TopologieHA: wahre Topologie ist andere
![Page 34: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/34.jpg)
34
SOWH- Test (=Test posPfud)
1. Test Statistik: δ = LML – L1
2. Mit P- Bootstrap und ML-Schätzer ΘML,1 Datenmengen i erzeugen
3. Für alle Tx: Schätzen von ΘX für maximale LX,(i)
4. Finde LML,(i)
5. δ(i) = LML,(i) - L1,(i) (Verteilung für δ)6. Einseitiger Test: δ signifikant?
![Page 35: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/35.jpg)
35
SOWH- Test (=Test posPfud)
Test Statistik δ wie bei KH und SH-Test Da TML benutzt Annahme E[δ] =0
nicht möglich Da P- Bootstrap keine Zentrierung Zeit für Maximierung über alle TX
Vorschlag 1: RELL-like für (a priori) T1
![Page 36: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/36.jpg)
36
Test posPpud (Schätzung unter H0)
1. Schritte 1 und 2 siehe Test posPfud 2. Für alle Tx/{T1}: Schätzen von ΘX
für maximale LX,(i)
3. Für T1 benutze ΘML,1 Ľ1,(i)
4. Finde LML,(i)
5. δ̛(i)= LML,(i) – Ľ1,(i) (Verteilung für δ)6. Einseitiger Test: δ signifikant?
![Page 37: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/37.jpg)
37
Test posPpud (Schätzung unter H0)
nicht besonders schneller Test posPnud unvernünftig, da
original TML (ΘML) weit entfernt von optimalen Werten der Bootstrap-Daten (mit T1 und Θ1 geschätzt)
Bekannt: Es gibt über verschiedene Topologien stabile Parameter (Bsp. Basenhäufigkeit)
![Page 38: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/38.jpg)
38
Test posPpud (Schätzung unter HA)
Alle Parameterkomponenten, die gleich für alle TX sind, feste Werte (von ΘML,1) zuweisen
Unterschied zum vorigen Test:- nur „freie“ Parameterwerte (Astlängen) werden maximiert
Wenn beide Tests H0 nicht verwerfen Wenn beide Tests H0
verwerfen ?
![Page 39: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/39.jpg)
39
Beispiel HIV-1 - DNA
Geg: 6 homologe DNA Sequenzen à 2000 bp von gag und pol Gen von HIV (A1, A2, B, D, E1, E2)
Alignieren Konventionelle Phylogenie:
T1= ((A1,A2), (B,D), (E1,E2))L1= -5073,75
![Page 40: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/40.jpg)
40
Beispiel HIV-1 - DNA ML Phylogenie:
TML=(A1, (B,D), (A2, (E1,E2)))LML= -5069,9
SH-Test: M enthält alle 105 möglichen Tx
Für ML-Berechnungen: Zeitreversibles Modell mit Γ- Verteilung unter den Sites zur Ratenheterogenitätsmodellierung
![Page 41: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/41.jpg)
41
Gamma (Γ) - Verteilung Kontinuierliche, reproduktive
Wahrscheinlichkeitsverteilung über positive reelle Zahlen
Wahrscheinlichkeitsdichte gegeben durch
E(X)= α/β V(X)= α/β²
![Page 42: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/42.jpg)
42
Gamma (Γ) - Verteilung
![Page 43: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/43.jpg)
43
Beispiel HIV-1 - DNA ΘX: Astlängen, Basenhäufigkeiten, relative
Substitutionsrate zwischenNukleotidpaaren, α (Parameter für Γ- Verteilung)
1000 Bootstrap-Datenmengen erzeugt Für alle Test: Teststatistik
δ= LML -L1 = 3,90 α = 0,05
Da TML posteriori gewählt wurde KH- Test FALSCH!! (nur zum Vergleich)
![Page 44: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/44.jpg)
44
Beispiel HIV-1 - DNA
![Page 45: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/45.jpg)
45
Beispiel HIV-1 - DNA Mögliche Erklärungen für Unterschied in
SH- und SOWH- Testergebnis:- unterschiedliche H0- Hypothesen(- parametrische (SOWH-) Tests sind mächtiger als
nichtparametrische (SH-))
- parametrische Tests vom zugrunde gelegten Modell abhängig
![Page 46: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/46.jpg)
46
Beispiel HIV-1 - DNA
![Page 47: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/47.jpg)
47
Beispiel Säugetiere - aa
Geg: - 6 mt Proteinsequenzen à 3414 Aminosäuren (aa): Mensch(H), Seehund(S), Kuh(C), Hase(R), Maus(M), Opossum(O)
- (S, C) 15 mögliche TX
SH- Test: 15 TX gleichzeitig verglichen 7 TX nicht verworfen
![Page 48: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/48.jpg)
48
Beispiel Säugetiere - aa SOWH- Test:
- T1= ((H, ((S, C), R)), M, O) (a priori)- TML= (((H, (S, C)), R), M, O)
Mit „model of mammalian mt aa replacement + F + Γ “ (Yang et al. 1998):L1 = - 21727,26LML = - 21724,60
Teststatistik δ= LML -L1 = 2,66
![Page 49: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/49.jpg)
49
Beispiel Säugetiere - aa
![Page 50: Statistische Tests in der Phylogenie](https://reader036.vdocuments.net/reader036/viewer/2022062801/568143db550346895db067e7/html5/thumbnails/50.jpg)
50
Zusammenfassung/ Ausblick Veröffentlichte KH- Test Ergebnisse mit
Vorsicht behandeln!! Alle zukünftigen Tests mit SH- oder
SOWH- Tests ausführen Untersuchung von Ergebnissen mit
kombinierten Tests Untersuchung der Unterschiede
zwischen SH- und SOWH- Testergebnissen