1.codon-based selection tests

Post on 12-Jan-2016

83 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

1.CODON-BASED SELECTION TESTS. SITI SINONIMI , si assume siano sotto neutralità d S o K S SITI NON SINONIMI d N o K N d N / d S = ω d N =d S ω=0 neutralità - PowerPoint PPT Presentation

TRANSCRIPT

1.CODON-BASED SELECTION TESTS

SITI SINONIMI, si assume siano sotto neutralità dS o KS

SITI NON SINONIMI dN o KN

dN / dS =ω dN =dS ω=0 neutralità

dN >dS ω>1 diversifying selection (aumenta la probabilità che una nuova variante si fissi)

dN <dS ω<1 selezione purificatrice

(software PAML)

McDONALD-KREITMAN TEST (McDonald and Kreitman, 1991)

(software DNASP)

Confronta il rapporto dN / dS in una specie con lo stesso rapporto in specie diverse

1. Sotto evoluzione neutrale le sostituzioni intra- e inter-specifiche sono dovute alle mutazioni e quindi sono uguali. Il rapporto tra diversità e divergenza è lo stesso per i siti dN e dS .

2. Sotto selezione positiva le sostituzione non-sinonime inter-specifiche dovrebbero essere maggiori rispetto a quelle intra-specifiche. Questo porta a una riduzione del rapporto diversità-divergenza ai siti non-sinonimi.

2. SELECTION TESTS BASED ON THE FREQUENCIES OF VARIANT SITES

Site frequency spectrum influenzata sia dalla selezione che da processi demografici

Eccesso di alleli rari

•Recente espansione, molte varianti apparse da poco tempo in tutti i loci

•Selezione positiva su un locus. Con l’aumento di frequenza si osservano molti alleli rari per quel locus, ma non in altri loci.

Eccesso di alleli con frequenze intermedieSuddivisione della popolazione. Effetto su tutti i lociBalancing selection (=selezione che favorisce più di un allele e perciò previene la fissazione ) sul solo locus sul quale sta agendo.

TAJIMA’s D (software DNASP) confronta due diverse misure di θ (quantità di variabilità attesa per ciascun nucleotide sotto evoluzione neutrale) una basata su S e una su .

Assunzione dei metodi: sotto evoluzione neutrale le diverse stime di theta devono dare lo stesso valore.

Si confrontano misure indipendenti dalle freq alleliche (S, numero di siti segreganti) con misure basate su freq. alleliche (π, nucleotide diversity) che sono influenzate dallo scostamento dalla neutralità.

D=0 neutralitàD significativamente positivo= suddivisione della popolazione o balancing selectionD significativamente negativo= espansione della popolazione o selezione positiva

Analisi Inter-popolazione

Mira a quantificare le differenze tra le popolazioni da

un punto di vista genetico.

Due diversi approcci:

1. basato sulle frequenze alleliche

2. basato sugli stati allelici confronto diretto tra i diversi aplotipi

confronto tra le frequenze dei diversi aplotipi

DISTANZA GENETICA

Le distanze genetiche vengono usate per ricostruire le relazioni genetiche tra individui o tra popolazioni o tra specie.

Il metodo utilizzato varia in base al marcatore genetico.

Sotto determinate assunzioni (mutation-drift balance), le distanze genetiche risultano correlate linearmente con il tempo e sono quindi di grande utilità per ricostruire e datare le relazioni filogenetiche

1. confronto tra frequenze aplotipiche

Esempio: distanza genetica Fst

E' una misura di distanza genetica generale che può essere applicata a qualsiasi

tipo di polimorfismo genetico.

2. confronto tra aplotipi

Esempio: distanza genetica intermatch-mismatch, D

2

jjiiij

dddD

dij differenza media fra coppie di sequenze (una della popolazione i e l’altra di j)

dii, djj differenze medie all’interno delle pop i e j

Rappresentazione visiva delle distanze genetiche

n popolazioni = n-1 dimensioni necessarie per rappresentare le relazioni tra popolazioni

Confronto a gruppi di due popolazioni per volta = per ogni campione popolazionistico viene calcolata la relativa distanza genetica da ogni altro considerato.

MATRICI QUADRATE DI AFFINITÀ/DISTANZA, costruite in modo tale da esibire il confronto di una popolazione con ognuna delle altre e con se stessa (diagonale della matrice)

SARD TRAP CORS BOLO FOGG L'AQ FROS AUST FINL BASC SPAG SPA1

SARD 0 0.021 0.031 0.013 0.003 0.007 0.006 0.011 0.034 0.010 0.025 0.003

TRAP 0.021 0 0.037 0.018 0.013 0.008 0.008 0.036 0.037 0.016 0.022 0.014

CORS 0.031 0.037 0 0.027 0.037 0.034 0.030 0.030 0.075 0.033 0.025 0.023

BOLO 0.013 0.018 0.027 0 0.003 0.005 0.004 0.001 0.037 0.007 0.020 0.003

FOGG 0.003 0.013 0.037 0.003 0 0.000 0.001 0.002 0.036 0.017 0.001 0.006

L'AQ 0.007 0.008 0.034 0.005 0.000 0 0.002 0.004 0.041 0.019 0.004 0.007

FROS 0.006 0.008 0.030 0.004 0.001 0.002 0 0.004 0.038 0.017 0.005 0.006

AUST 0.011 0.036 0.030 0.001 0.002 0.004 0.004 0 0.043 0.013 0.004 0.004

FINL 0.034 0.037 0.075 0.037 0.036 0.041 0.038 0.043 0 0.056 0.046 0.044

BASC 0.010 0.016 0.033 0.007 0.017 0.019 0.017 0.013 0.056 0 0.010 0.003

SPAG 0.025 0.022 0.025 0.020 0.001 0.004 0.005 0.004 0.046 0.010 0 0.002

SPA1 0.003 0.014 0.023 0.003 0.006 0.007 0.006 0.004 0.044 0.003 0.002 0

Matrice di distanze genetiche

ANALISI MULTIVARIATE: permettono di ridurre lo spazio multidimensionale a due, tre dimensioni che possono essere interpretate, riducendo al minimo la perdita inevitabile di informazioni.

Rappresentazione grafica di una matrice di distanze genetiche

Diversi metodi permettono di rappresentare graficamente la matrice di distanze genetiche ottenuta precedentemente.

Tra questi:

•MULTIDIMENSIONAL SCALING (MDS) Plot •ANALISI DELLE COMPONENTI PRINCIPALI (PCA)

•MAPPE SINTETICHE riassumono informazioni su diversi alleli secondo una distribuzione geografica

costrizione delle distanze genetiche in uno spazio a due

dimensioni con la minor perdita di informazione possibile

(minore distorsione possibile)

distorsione rappresentata dal parametro stress

costruzione iterativa del plot (si continua fino a che il parametro

di stress risulta minimo)

MULTIDIMENSIONAL SCALING (MDS) Plot

Stress 0.0337

Final Configuration, dimension 1 vs. dimension 2

Dimension 1

Dim

ensio

n 2

ANDALUCIA

BARIBA

BERBA

CAYAPA INDIANS

CATALUNIA

DENDI

FON

GALICIA

NORD SPAINCENTRAL SPAIN

YORUBA

RIO CAYAPAS VICHE

-1.2

-0.8

-0.4

0.0

0.4

0.8

-1.4 -1.0 -0.6 -0.2 0.2 0.6 1.0 1.4

ALTRI DESCRITTORI DELLE RELAZIONI GENETICHE TRA POPOLAZIONI

COSTRUZIONE DI ALBERI EVOLUTIVI

MAPPE SINTETICHE

ELABORARE IN MANIERA SINTETICA l'andamento della distribuzione geografica delle frequenze alleliche ed ottenere delle mappe utili per inferire i movimenti umani avvenuti nel passato e per comprendere le forze evolutive in azione

METODO PIÙ UTILIZZATO È QUELLO DELLE COMPONENTI PRINCIPALICOMPONENTI PRINCIPALI che derivano dalle medie ponderate di tutte le frequenze geniche.

METODO PER LA RIDUZIONE O PER L'INDIVIDUAZIONE DELLA STRUTTURA DEI DATI

FINALITA’

RIDURRE IL NUMERO DI VARIABILI

INDIVIDUARE UNA STRUTTURA nelle relazioni tra le variabili, cioè CLASSIFICARE LE VARIABILI

IDEA BASE = Combinare due variabili in un singolo fattore

È possibile riassumere la correlazione tra due variabili in uno scatterplot.

Può quindi essere adattata UNA RETTA DI REGRESSIONEUNA RETTA DI REGRESSIONE che rappresenti il "miglior" riassunto delle relazione lineare tra le variabili.

DUE VARIABILI DEFINISCONO UN PIANO

Dopo aver individuato la retta su cui la varianza risulta massima, rimane della variabilità attorno questa retta.

Se si estende l'esempio delle due variabili a più variabili, i calcoli diverranno più complicati, ma il principio di base di esprimere due o più variabili per mezzo di un singolo fattore rimarrà lo stesso. Sono estratti diversi fattori consecutivi. Poiché ogni fattore successivo è definito in modo tale da massimizzare la variabilità non catturata dai fattori precedenti, I DIVERSI FATTORI CONSECUTIVI SONO INDIPENDENTI TRA LORO.

UN NUMERO MOLTO PIÙ PICCOLO DI NUOVE VARIABILI (LE COMPONENTI PRINCIPALI)

L'estrazione delle componenti principali consiste in una rotazione massimizzante la varianza (varimax) dello spazio originale delle variabili.

La prima componente è quella che rende conto della maggiore quantità di variabilità, e quindi di informazione, ricavabile dai dati; la seconda, il massimo possibile dell'informazione residua e così via fìno a che non viene spiegata la totalità dell'informazione contenuta nelle variabili originali (le frequenze alleliche).

In genere ci si ferma alla terza componente perché le successive spiegano una quota troppo piccola della variabilità osservata.

CP1

CP2

OBIETTIVO: RIASSUMERE LA GRANDE MASSA DI INFORMAZIONI ORIGINARIE

Per ogni componente si può costruire una mappa che descriva le variazioni delle diverse forme alleliche nella zona geografica considerata e, se alle componenti si abbinano dei colori, la distribuzione della variabilità risulterà dalle variazioni cromatiche. Un esempio classico di rappresentazioni di questo tipo è il lavoro pionieristico del gruppo di Cavalli-Sforza

Come costruire una filogenesi

Dati usati come INPUT

•Distanze genetiche, matriciCaratteri, unità evolutive discrete. Consentono di inferire le caratteristiche dell’antenato. Confronto diretto tra gli stati allelici dei taxa considerati. I rami dell’albero rappresentano le mutazioni avvenute nel corso dell’evoluzione dei vari taxa, e non il valore di distanza genetica fra i taxa.

Metodi

•“clustering method” usa algoritmo che combina i taxa in modo gerarchico (NJ e UPGMA)

•“searching method” considera tutti gli alberi possibili e sceglie quello che meglio si adatta ai dati (MP e ML)

•Networks

In un cladogramma, tutti i nodi terminali sono taxa (gruppi di popolazioni o molecole note collegati dall’albero, OTUs Operational Taxonomic Units), quelli interni sono antenati ipotetici (HTUs Hypothetical Taxonomic Units).

Cladogramma rappresenta le relazioni tra taxa, ma la lunghezza dei rami non riflette distanza evolutiva (≠ additive tree= le lunghezze dei rami riflettono quantitativamente le distanze evolutive).

Albero rooted: esiste taxon ancestrale e un outgroup orientato rispetto al tempo evolutivo

Processi biologici come ricombinazione o mutazioni parallele portano i rami a convergere, si formano allora dei reticoli, rappresentati da networks

In un ALBERO ROOTED esiste un particolare nodo, la RADICEla RADICE, dal quale partono a senso unico tutte le vie che lo collegano ad ogni altro nodo.

LA LUNGHEZZA DI CIASCUNA VIA LA LUNGHEZZA DI CIASCUNA VIA CORRISPONDE AL TEMPO DI CORRISPONDE AL TEMPO DI EVOLUZIONE E LA RADICE EVOLUZIONE E LA RADICE RAPPRESENTA L'ANTENATO COMUNE RAPPRESENTA L'ANTENATO COMUNE DI TUTTE LE DI TUTTE LE OTUs OTUs IN STUDIO.IN STUDIO.

Un ALBERO UNROOTED la cui forma può anche non essere quella di un vero e proprio albero, ma quella di una rete (o network) è invece UN ALBERO IN CUI VENGONO ILLUSTRATE UNICAMENTE LE RELAZIONI TRA LE OTUs SENZA DEFINIRE ALCUN PERCORSO EVOLUTIVO.

Caratteristiche di un buon albero:

•EFFICIENTE, rapido da costruire

•CONSISTENTE, si ottiene lo stesso albero quando si aggiungono nuovi dati

•ROBUSTO, non risente delle variazioni delle assunzioni su cui è basato il metodo

•DOTATO DI POTERE, bastano pochi dati per un albero corretto

•RIPRODUCIBILE, la validità delle assunzioni può essere testata

Nessun metodo possiede tutte le caratteristiche

A) Le distanze genetiche tra popolazioni o molecole vengono calcolate da dati di riga (per ciascuna coppia di taxa) e rappresentate in forma di MATRICE DI DISTANZA.

Gli indici di distanza genetica si BASANO SULL'IMPORTANZA RELATIVA CHE SI DÀ IN CIASCUN MODELLO ALLE VARIE FORZE EVOLUTIVE.

1. IL TIPO DI DATI USATI COME INPUT

Matrice triangolare di distanza tra 5 popolazioni

Alpha 0.000000

Beta 0.303893 0.000000

Gamma 0.857546 0.339731 0.000000

Delta 1.158921 0.913519 1.631729 0.000000

Epsilon 1.542897 0.619666 1.293707 0.165882 0.000000

A.METODI FILOGENETICI CON MATRICI DI DISTANZA

UPGMAUPGMA ( Unweighted Pair-Group Method with Arithmetic mean)

Utilizza un ALGORITMO DI CLUSTERIZZAZIONE (RAGGRUPPAMENTO) SEQUENZIALE in cui le relazioni topologiche sono identificate sulla base della similarità (minore distanza genetica) e l'albero è costruito con un processo a tappe successive.

Combina i due taxa con distanza genetica minore, questi creano un nuovo taxon che viene confrontato con gli altri taxa considerando la distanza genetica media dei due taxa di partenza (vedi dopo).

Può essere applicato se i tassi di evoluzione sono approssimativamente costanti tra le diverse linee, in modo da ammettere una RELAZIONE LINEARE TRA LE DISTANZE EVOLUTIVE E IL TEMPO DI DIVERGENZA. Affidabile per analisi di specie sincroniche.

   A  B  C  D  E

 B  2  

 C  4  4  

 D  6  6  6  

 E  6  6  6  4  

 F  8  8  8  8  8

In pratica viene inizialmente identificata tra tutte le OTU la coppia più simile e trattata come una nuova OTU singola, definita OTU composta. Quindi fra tutte le OTU si identifica la coppia con la maggiore somiglianza e così via finchè non rimangono che due sole OTU. Quando si calcolano successivamente le varie distanze, quella tra una OTU semplice ed una composta è data dalla media delle distanze tra l'OTU semplice e ciascun costituente l'OTU composta.

Numero di differenze nel citocromo C di diverse specie (da Margoliash & Fish, 1967)

top related