metodologie di analisi dei dati

22
Metodologie di analisi dei dati Descrizione della variabilità attuale (Metodi descrittivi ) Descrivono la variabilità presente all’interno di una popolazione Permettono di confrontare popolazioni o loci differenti Inferenze ottenute dalla variabilità attuale (Metodi inferenziali) Permettono di ricostruire la storia genetica delle popolazioni passate (origini, movimenti, cambiamenti demografici) Richiedono la costruzione di modelli dei processi evolutivi

Upload: gad

Post on 12-Feb-2016

66 views

Category:

Documents


0 download

DESCRIPTION

Metodologie di analisi dei dati. Descrizione della variabilità attuale ( Metodi descrittivi ) Descrivono la variabilità presente all’interno di una popolazione Permettono di confrontare popolazioni o loci differenti Inferenze ottenute dalla variabilità attuale ( Metodi inferenziali) - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Metodologie di analisi dei dati

Metodologie di analisi dei dati

Descrizione della variabilità attuale (Metodi descrittivi)

Descrivono la variabilità presente all’interno di una popolazione Permettono di confrontare popolazioni o loci differenti

Inferenze ottenute dalla variabilità attuale (Metodi inferenziali)

Permettono di ricostruire la storia genetica delle popolazioni passate (origini, movimenti, cambiamenti demografici)Richiedono la costruzione di modelli dei processi evolutivi

Page 2: Metodologie di analisi dei dati

Analisi intra-popolazionistica

• numero di aplotipi (k)È un parametro descrittivo. È il numero dei diversi aplotipi osservati nella popolazione (diverso dal numero di individui!)

•numero di siti polimorfici (S)= Numero dei siti segregantiRappresenta il numero di siti in cui si osserva un polimorfismo.

•Gene Diversity (Haplotype Diversity) È l’eterozigosità. È una delle misure più efficaci per misurare il grado di polimorfismo ad un locus.

• mismatch distribution

Modo per rappresentare la diversità mediante confronti a coppie (sequenze o aplotipi). Si usa per dati molecolari discreti (SNPs, siti RFLPs, STRs)

• mean number of pairwise differences (MNPD) È la media della mismatch distribution

Page 3: Metodologie di analisi dei dati

Sistemi diploidiCorrisponde concettualmente alla proporzione attesa di individui eterozigoti per il locus considerato (si assume l’equilibrio di Hardy-Weinberg)

Sistemi aploidiÈ una misura della variabilità genetica, è la probabilità che due aplotipi presi a caso nella popolazione siano diversi.

k

iipn

nh1

211

Gene Diversity (Haplotype Diversity)

Page 4: Metodologie di analisi dei dati

MISURE DI DIVERSITA’ NUCLEOTIDICAConsiderano anche la distanza tra alleli

Diversità nucleotidica Analogo a Nei’s (software ARLEQUIN)

Diversità genetica per sequenze =probabilità che due nucleotidi presi a caso da un insieme di sequenze siano differenti

π =n(Σxixj πij)/(n-1)Sotto selezione neutrale π = θ

Modo più semplice per descrivere la quantità di diversità è contare il numero di alleli presenti. Tale misura non considera la distanza molecolare tra alleli e dipende molto dalla dimensione del campione

Nei’s gene diversity (software ARLEQUIN) misura la probabilità che due alleli presi a caso da una popolazione siano differenti.

MISURE DI IDENTITA’

Page 5: Metodologie di analisi dei dati

θ “theta” population mutation parameter (software ARLEQUIN): definisce il livello di diversità atteso in una popolazione in termini di tasso di mutazione (μ) e deriva genetica (Ne=dimensioni effettive della popolazione)

θ = 2nNe μ

n*= 2 per loci diploidi n= 0.5 per Chr Y e mt

n= 1.5 per Chr X

*n= numero di copie ereditate per individuo.

Page 6: Metodologie di analisi dei dati

BABINGA

44 individui

Analisi di sequenza della regione HVR-1 del mtDNA

K=11

S=19

HD=0,693 ± 0,074

BATEKE

50 individui

Analisi di sequenza della regione HVR-1 del mtDNA

K=23

S=43

HD=0,944 ± 0,017

HD= Tiene in considerazione N

ESEMPIO

Page 7: Metodologie di analisi dei dati

Mismatch distribution (software ARLEQUIN)

Partendo da una matrice di distanze a coppie viene costruito un istogramma ottenuto contando le coppie che condividono lo stesso numero di mutazioni tra le sequenze

Page 8: Metodologie di analisi dei dati

Es. mismatch distributionBABINGA

44 individui

Analisi di sequenza della regione HVR-1 del mtDNA

BATEKE

50 individui

Analisi di sequenza della regione HVR-1 del mtDNA

BABINGA

0

10

20

30

40

0 2 4 6 8 10 12 14 16

BATEKE

0

10

20

30

40

0 2 4 6 8 10 12 14 16

Oltre a descrivere la diversità interna, può essere messa in relazione alla storia della popolazione, essendo influenzata da fenomeni demografici

Sovrapposizione tra statistica descrittiva ed inferenziale

Page 9: Metodologie di analisi dei dati

Indice che permette di distinguere tra i due tipi di distribuzione

Robustezza (raggedness) r, somma dei quadrati delle differenze tra due picchi vicini.

r più basso per le distribuzioni a campana

r <0,03 per i dati di sequenza, indica un’espansione della popolazione nel passato.

Page 10: Metodologie di analisi dei dati

L’età dell’espansione può essere stimata in diversi modi, molti dei quali sono correlati con la distanza della media della distribuzione dall’asse Y, con il passare del tempo la media si allontana dall’asse.

Page 11: Metodologie di analisi dei dati

MISURE DI DISTRIBUZIONE DI DIVERSITA’

Una metapopolazione è una popolazione suddivisa in sottopopolazioni parzialmente isolate; ciò determina un deficit di eterozigoti (no equilibrio Hardy Weinberg).

Il processo di suddivisione genera una struttura gerarchica della popolazione. Ogni volta che i dati non rispecchiano il random mating possiamo pensare ad una struttura nella popolazione e quindi possiamo misurare la distribuzione di variabilità.

Fst, (software ARLEQUIN) usato per i marcatori classici, misura il grado di variabilità di una metapopolazione suddivisa in subpopolazioni.

Fst = Vp/ p (1-p)dove p e Vp sono la media e la varianza delle frequenze geniche tra le due

subpopolazioni;Misura la porzione di varianza totale nelle frequenze alleliche tra le subpopolazioni

0<Fst<1

Fst medio tra continenti = 9-13% (valori più alti dipendono da selezione o basso Ne)

Questo metodo può essere applicato all’analisi sia delle frequenze alleliche che dei dati di sequenza o di microsatelliti.

Page 12: Metodologie di analisi dei dati

TEST DI SIGNIFICATIVITA’

Per dimostrare che la suddivisione della popolazione è maggiore di quella attesa per caso.

Bisogna escludere che:

•La popolazione non sia differenziata

•Le differenze tra le frequenze alleliche siano dovute al campionamento

•L’accoppiamento sia casuale

Il test è realizzato mediante permutazioni o Monte-Carlo method (si usano numeri casuali).

Page 13: Metodologie di analisi dei dati

TEST di PERMUTAZIONE (metodo Monte Carlo)

I dati sono presi a caso più volte, ogni allele è assegnato casualmente a una subpopolazione, in modo che la freq di ogni allele resti costante nella metapopolazione. La misura di interesse (Fst) viene calcolata per i 1000 datasets simulati. Perché il valore osservato di Fst sia significativamente diverso da 0, deve essere più grande di una certa porzione (X) dei valori simulati, dove 1-X è il limite di significatività.

Per es. se il valore di Fst è più grande in più di 950 simulazioni su 1000, il livello di significatività sarà del 5%.

Page 14: Metodologie di analisi dei dati

AMOVA Analysis of Molecular Variance Φ(phi)(software ARLEQUIN)

•Tiene conto della relazione molecolare tra gli alleli piuttosto che la loro frequenza quando .

•Si usa per tutti i dati per i quali si può calcolare la distanza genetica tra gli alleli

Si definisce una particolare struttura genetica attraverso la costruzione di gruppi particolari; il metodo di analisi permette di saggiare la validità della struttura scelta. Mediante un’analisi gerarchica la varianza totale viene divisa nelle componenti dovute alle differenze intra-popolazione, tra popolazione e fra gruppi di popolazioni.

Attraverso un test di randomizzazione, viene testata la significatività della diversità genetica ai diversi livelli.

Page 15: Metodologie di analisi dei dati

Esempio

ROTTE MIGRATORIE BANTU NELL’AFRICA SUB-SAHARIANA

GRUPPI LINGUISTICIGRUPPI LINGUISTICI

Le popolazioni Shona sono Le popolazioni Shona sono linguisticamente imparentate con i linguisticamente imparentate con i Bantu centro-orientali e probabilmente Bantu centro-orientali e probabilmente si stabilirono nell’attuale Zimbabwe si stabilirono nell’attuale Zimbabwe durante la grande espansione Bantu.durante la grande espansione Bantu.

Page 16: Metodologie di analisi dei dati

SCOPO DELLA RICERCASCOPO DELLA RICERCA

Variabilità a livello del DNA mitocondriale

Variabilità a livello del cromosoma Y

Storia del popolamento dello Zimbabwe e stima del contributo delle due rotte migratorie Bantu

Flusso genico e del tasso di mescolamento con le popolazioni preesistenti sul territorio

Individuazione di eventuali differenti comportamenti delle linee materne e paterne

Page 17: Metodologie di analisi dei dati

Cromosoma Y Cromosoma Y

Analisi mediante multiplex PCR di 6 loci microsatellite : Analisi mediante multiplex PCR di 6 loci microsatellite : DYS393,DYS393, DYS19, DYS389II, DYS390, DYS391, DYS385DYS19, DYS389II, DYS390, DYS391, DYS385

Analisi mediante enzimi di restrizione di 2 loci SNPsAnalisi mediante enzimi di restrizione di 2 loci SNPs

Marcatori analizzatiMarcatori analizzati

mtDNA mtDNA

Analisi della regione di controllo HVR I (16000 - 16400 bp)Analisi della regione di controllo HVR I (16000 - 16400 bp)

Analisi mediante enzimi di restrizione dei siti diagnostici della Analisi mediante enzimi di restrizione dei siti diagnostici della regione codificanteregione codificante

Page 18: Metodologie di analisi dei dati

Diversità aplotipica

Comparazione mtDNA e cromosoma Y

Y chromosome D= 0.5249 +/- 0.3187

mtDNA D= 0.9782 +/- 0.0076

Diffusa pratica della poliginia Maggiore mobilità matrimoniale delle donne

Alta frequenza dell’aplotipo ancestrale Bantu

Presenza di numerose linee

Page 19: Metodologie di analisi dei dati

Fst (P) Fct (P)

Y STRs

Popolazioni di lingua Bantu 0.050 (0.000)

Bantu occidentali 0.015 (0.176)

Bantu orientali 0.050 (0.000)

Totale 0.072 (0.000) 0.029 (0.047)

MtDNA HVR I

Popolazioni di lingua Bantu 0.024 (0.003)

Bantu occidentali 0.054 (0.002)

Bantu orientali 0.009 (0.169)

Totale 0.042 (0.001) 0.033 (0.006)

AMOVA

Differenziazione genetica tra Bantu orientali e occidentali

Page 20: Metodologie di analisi dei dati

Selection in the human genome

time

NeutralNegative

(Purifying,Background)

Balancing Positive(Directional)

Bamshad & Wooding (2003) Nature Rev. Genet. 4, 99-111

Page 21: Metodologie di analisi dei dati

TESTING FOR SELECTIONBassa diversità genetica= limitato flusso genico, forte deriva, pressione selettiva contro un set di alleli

Alta diversità genetica= elevato flusso genico, bassa deriva, selezione che favorisce l’incremento della diversità genetica

Spesso la diversità genetica è data dalla combinazione di tutti i fattori.

Diversi tipi di selezione portano a effetti diversi sulla diversità genetica.

Selezione agisce su un solo locus o su i linked loci

NEUTRALITY TEST confronto tra la diversità osservata e quella attesa sotto evoluzione neutrale. I test considerano anche i fattori demografici (es: pop umana non ha dimensioni costanti)

Il potere dei diversi tests di determinare effetti di selezione dipende:• dal tipo di selezione •dalla forza della selezione• dalla lunghezza del periodo in cui la selezione ha agito o agisce

Page 22: Metodologie di analisi dei dati

1.CODON-BASED SELECTION TESTS

SITI SINONIMI, si assume siano sotto neutralità dS o KS

SITI NON SINONIMI dN o KN

dN / dS =ω dN =dS ω=0 neutralità

dN >dS ω>1 diversifying selection (aumenta la probabilità che una nuova variante si fissi)

dN <dS ω<1 selezione purificatrice

(software PAML)