lezione 5 -...

40
Lezione 5 Cambiamenti evolutivi nelle sequenze nucleotidiche Distanze

Upload: vandien

Post on 17-Feb-2019

218 views

Category:

Documents


0 download

TRANSCRIPT

Lezione 5

Cambiamenti evolutivi nelle sequenze nucleotidiche

Distanze

materiale • Graur and Li ch 3

La lezione 5 ci permetterà di capire

1. come possa evolvere una sequenza di nucleotidi

2. quanto due sequenze nulceotidiche sono diverse fra loro

3. mettere questa differenza in relazione con il tempo trascorso dall’antenato comune

tem

po

10 siti; 3 differenze ACTGGAGGAA

Sostituzioni nucleotidiche

AATGAAAGAA

• Processo base nell’evoluzione molecolare

• Essenziale per comprendere i meccanismi di evoluzione del DNA

• I cambiamenti delle sequenze nucleotidiche vengono usati per

– Stimare il tasso di evoluzione

– Ricostruire la storia evolutiva degli organismi

Sostituzioni nucleotidiche

tem

po

10 siti; 3 differenze ACTGGAGGAA

Sostituzioni nucleotidiche

AATGAAAGAA

C T Non direttamente osservabili

Se vogliamo davvero capire come evolve una sequenza dobbiamo:

• Stabilire che cosa ci aspettiamo ad un determinato sito al passare del tempo

• Stabilire i cambiamenti temporali nella probabilità di avere un determinato nucleotide ad un dato sito, considerando possibili «complicazioni» (sostituzioni multiple etc)

Sostituzioni nucleotidiche: modelli

• Modello: descrizione teorica del modo in cui un processo funziona

• Parametro: un fattore che definisce il sistema e ne determina il comportamento

Sostituzioni nucleotidiche: modelli

• Per studiare la dinamica delle sostituzioni dobbiamo fare delle assunzioni sulla probabilità di cambiamento di un nucleotide con un altro

• Quanti parametri? Modelli diversi con un diverso numero di parametri

Sostituzioni nucleotidiche: modelli

Sostituzioni nucleotidiche: modelli

Un processo stocastico markoviano è un processo stocastico nel quale la probabilità di transizione che determina il passaggio ad uno stato di sistema dipende unicamente dallo stato di sistema immediatamente precedente (proprietà di Markov) e non dal come si è giunti a tale stato

Le probabilità di transizione p(A|A), p(A|C), p(A|T), p(A|G) etc modellano la probabilità di transizione da A ad A, C, T e G rispettivamente. La matrice verrà definita come segue:

Attenzione! Il termine TRNSIZIONE usato in questo contesto indica il CAMBIAMENTO, il PASSAGGIO da un nucleotide ad un altro. Qui non si intende come PUR→PUR o PIR →PIR come alternativa alla trasversione

probabilità di transizione tra gli stati della catena

• Tutti i cambiamenti sono equiprobabili: modello ad UN parametro: un solo tasso di sostituzione (α)

• Tutti i nucleotidi sono presenti alla stessa frequenza (25%)

Sostituzioni nucleotidiche: JC69

Modello di Jukes e Cantor (1969)

Assunzioni:

Esempio di : 10-9 sostituzioni/sito /anno

Sostituzioni nucleotidiche: JC69

Qual è la probabilità che il nucleotide A al tempo 0 sia ancora A al tempo 2? Due possibili percorsi:

1. Il nucleotide è rimasto lo stesso dal tempo 0 al tempo 2.

2. Il nucleotide è cambiato in T, C, o G al tempo 1, ma è tornato ad essere A al tempo 2

JC69 permette di correggere per sostituzioni multiple (multiple hits)

Sostituzioni nucleotidiche: K80 o K2P

Modello di Kimura (1980): Kimura 2 parametri

• In questo modello il tasso con cui avvengono le transizioni (α) può essere diverso da quello con cui avvengono le trasversioni (β): 2 parametri

• Tutti i nucleotidi sono presenti alla stessa frequenza (25%)

β

β β

β β

β

β β

Assunzioni:

Sostituzioni nucleotidiche: K80 o K2P

Qual è la probabilità che il nucleotide A al tempo 0 sia ancora A al tempo 2? Quattro possibili percorsi:

Sostituzioni nucleotidiche: K80 o K2P

Modello di Kimura (1980): Kimura 2 parametri

Assumiamo di nuovo che al tempo 0 il nucleotide sia A,

trasversioni transizioni

β

β β

β β

β

β β

C

T

G

Sostituzioni nucleotidiche: altri modelli

T C A G

T

C

A

G

• Non tutti i nucleotidi sono presenti alla stessa frequenza!!

Assunzioni:

Sostituzioni nucleotidiche: altri modelli

T C A G

T

C

A

G

Sostituzioni nucleotidiche: JC69

Come si può correggere per tutte le possibili sostituzioni multiple contemplando tutti i passaggi nascosti?

Sostituzioni nucleotidiche: JC69

Il calcolo della probabilità di transizione considera TUTTI i possibili percorsi evolutivi che potrebbero essere avvenuti

i

X= (T, C, A, G) j

t1

t2

Teorema di Chapman-Kolmogorov: la probabilità di transizione di ogni nucleotide i ad ogni nucleotide j nel tempo t1 + t2 è la sommatoria di tutti i possibili stati X ad ogni tempo intermedio t1

x x x

Dopo la divergenza fra due sequenze nucleotidiche ognuna inizia ad accumulare sostituzioni Per comparare due sequenze omologhe si stima K = numero di sostituzioni per sito dal momento della divergenza fra due sequenze

Distanze fra sequenze te

mpo

K

Se il tasso di evoluzione è costante nel tempo la distanza in termini di differenze nucleotidiche tra due sequenze crescerà linearmente con il crescere del tempo di divergenza.

AATGAAAGAA 10 siti; 3 differenze ACTGGAGGAA

Una semplice misura di distanza è la proporzione dei siti differenti (a volte chiamata distanza p)

10 siti; 3 differenze distanza = 30% = 0.3

Distanze fra sequenze

Sostituzioni nucleotidiche

AATGAAAGAA 10 siti; 3 differenze ACTGGAGGAA distanza = 30% = 0.3 Questa proporzione grezza funziona per sequenze che sono molto vicine evolutivamente. Se è passato molto tempo dalla divergenza, p sottostima il numero di sostituzioni che sono realmente avvenute. Un sito variabile può originarsi attraverso più percorsi e perfino un sito uguale in due sequenze può nascondere retro sostituzioni o sostituzioni parallele. Sostituzioni multiple nascondono alcuni cambiamenti, perciò p non è una funzione diretta del tempo evolutivo. La proporzione grezza p può essere usata solo se p < al 5%

Distanze fra sequenze

Distanze fra sequenze

Complichiamo lo scenario: correggiamo per “multiple hits” I modelli di Jukes e Cantor, Kimura, Tamura e Nei etc. possono essere usati oltre che per prevedere l’evolversi di una sequenza, anche per valutare la distanza fra due sequenze originatesi da una divergenza

Modello di Jukes e Cantor (1969)

Distanze fra sequenze: non coding sites

K: numero di sostituzioni per sito dal momento della divergenza p: proporzione osservata di siti differenti tra due sequenze

K

Modello di Kimura 2 parametri (1980)

K: numero di sostituzioni per sito dal momento della divergenza (se P e Q sono uguali si torna all’equazione di JC)

Distanze fra sequenze: non coding sites

Esempio: rRNA 12s mtDNA

Da Yang “computational molecular evolution” Oxford University Press 2006

Distanze fra sequenze: non coding sites

Tempo di divergenza: 15.7 Mya (www.timetree.org)

Esempio: rRNA 12s mtDNA N= (179+219+291+169) + (30+2+0+23+1+0+1+2+21+10) = 948 p= (30+2+0+23+1+0+1+2+21+10)/948= 90/948= 0.0949 P = transiz = (30+23+21+10)/948 =84/948=0.088 Q= trasv= (2+1+1+2)/948 = 6/948 = 0.0063

Da Yang “computational molecular evolution”

JC69

K2P80

JC69 : K = 0.1015

K2P80: K = 0.1038

La differenza è minima

Distanze fra sequenze: non coding sites K

Aumentiamo la divergenza: N= 948 p= 500/948 = 0.527 P = transiz = 400/948 = 0.4219 Q= trasv= 100/948 = 0.1055

JC69

K2P80

JC69 : K = 0.91

K2P80: K = 1.55

La differenza tra le due stime aumenta all’aumentare della

divergenza

Se c’è un alto livello di divergenza (diciamo p>5%) e, soprattutto, se ci sono motivi a priori di pensare che il tasso di transizione differisca da quello di trasversione è meglio considerare modelli più complessi di Jukes and Cantor

Distanze fra sequenze: non coding sites K

Distanze fra sequenze: coding sites

Calcolare il numero di sostituzioni tra due sequenze codificanti proteine è più complesso perché è necessario distinguere tra sostituzioni sinonime e non sinonime

Distanze fra sequenze: coding sites

Seq1

Seq2

Ser Thr Glu Met Cys Leu

TCA ACT GAG ATG TGT TTA

↕ ↕ ↕ ↕

TCG ACA GAG ATA TGT CTA

Ser Thr Glu Ile Cys Leu Basta contare?

NO: Problemi con il denominatore

Non Sin

Sin Sin Sin

KS

KA

Distanze fra sequenze: coding sites

Perché non basta contare?

Sinonimo Non sinonimo

Per esempio alcuni siti non sono solo sinonimi o solo non sinonimi, dipende da come mutano

Distanze fra sequenze: coding sites

Seq1

Seq2

Ser Thr Glu Met Cys Leu

TCA ACT GAG ATG TGT TTA

↕ ↕ ↕ ↕

TCG ACA GAG ATA TGT CTA

Ser Thr Glu Ile Cys Leu Basta contare?

NO: Problemi con il numeratore

Non Sin

Sin Sin Sin

Distanze fra sequenze: coding sites Problemi col numeratore: Esempio: quando due codoni omologhi differiscono per due o più sostituzioni l’ordine delle sostituzioni deve essere conosciuto per classificare il sito come sinonimo o non sinonimo.

Esempio: CCC nella sequenza 1 e CAA nella sequenza 2 La classificazione dei siti dipende dall’ordine in cui le sostituzioni sono avvenute

Percorso I: CCC (Pro) CCA (Pro) CAA (Gln) 1 sinonimo e 1 non sinonimo Percorso II: CCC (Pro) CAC (His) CAA (Gln) 2 non sinonimi

Distanze fra sequenze: coding sites Basta contare?

NO: possibili soluzioni Metodi di Miyata & Yasunaga (1980) e Nei & Gojobori (1986)

Nei and Gojobori calculate average number of synonymous and nonsynonymous sites allowing particular sites to be a portion in each category (can also “weight” substitution pathway probabilities).

Distanze fra sequenze: coding sites

Basta contare? NO: possibili soluzioni

1. Consideriamo una posizione specifica in un codon. Se i è il numero di possibili cambiamenti sinonimi a quel sito allora lo conteremo come i/3 sinonimo e (3 – i)/3 non sinonimo.

2. Contiamo il numero di siti sinonimi e non sinonimi in ogni sequenza e calcoliamo la media tra le due sequenze. Il numero medio si siti sinonimi è NS e quello di non sinonimi è NA.

Cambiamenti syn MS (o nonsyn MA) Tot basi syn NS (o nonsyn NA)

denominatore

Distanze fra sequenze: coding sites

Metodi di Miyata & Yasunaga (1980) e Nei & Gojobori (1986)

numeratore

Differenze syn MS (o nonsyn MA) Tot basi syn NS (o nonsyn NA)

per più di una differenza: considerare i diversi percorsi in che ordine sono avvenute le mutazioni?

Percorso I: CCC (Pro) CCA (Pro) CAA (Gln) 1 sinonimo e 1 non sinonimo Percorso II: CCC (Pro) CAC (His) CAA (Gln) 2 non sinonimi

3. Classifichiamo le differenze in sinonime e non sinonime per due codon con 1 differenza è semplice Val GTC GTT > sinonimo Val

Val GTC GCC > non sinonimo Ala

Approccio non pesato: Tutto è equiprobabile Nei and Gojobori Ma=differenze non sin: (1+2)/2 = 1.5 Ms=differenze sinonime: (1+0)/2 = 0.5

Distanze fra sequenze: coding sites

Metodi di Miyata & Yasunaga (1980) e Nei & Gojobori (1986)

4. Il numero di mutazioni sinonime per sito sinonimo pS = MS / NS

Il numero di mutazioni non sinonime per sito non sinonimo pA = MA / NA

Ma ricordate il problema delle “multiple hits” ? > Usiamo Jukes e Cantor (o altro) per correggere

Differenze syn MS (o nonsyn MA) Tot basi syn NS (o nonsyn NA)

Distanze fra sequenze: coding sites

Nei & Gojobori (1986)

Distanze fra sequenze: coding sites

Nr Siti S Nr siti A Ka Ks Ka/Ks