conteúdo modelodemisturas departamentodegenética...

Mapeamento por Intervalo Referências

LGN5830 - Biometria de Marcadores GenéticosTópico 9: Mapeamento de QTLs IIIMapeamento por Intervalo (cont.)

Antonio Augusto Franco Garciahttp://about.me/augusto.garcia

[email protected]

Departamento de GenéticaESALQ/USP

2017


Conteúdo

1 Mapeamento por IntervaloRevisãoInterpretação dos ResultadosAproximação usando quadrados mínimosNível de significânciaViés nas estimativas

2 Referências


Revisão

Referência

Lander, E. S.; Botstein, D. 1989.Mapping Mendelian factors underlying quantitative traits using RFLPlinkage maps.Genetics 121: 185-199.


Revisão

Modelo de Misturas

Modelo para Retrocruzamentos

yj = µ+ β∗x∗j + εj

j = 1, 2, . . . , n

yj = valor fenotípico do indivíduo j

µ = intercepto

x∗j =

{1 se o genótipo do QTL do indivíduo j é QQ0 se o genótipo do QTL do indivíduo j é Qq

β∗ = efeito do possível QTL

εj ∼ N(0, σ2)

http://about.me/augusto.garcia

[email protected]


Revisão

Verossimilhança

Função densidade de probabilidades da dist. normal (reduzida):

ϕ(z) =1√2Π

e−z2

2

Assumindo distribuição normal dentro de cada classe (para cadagenótipo do QTL):

L(µ, β∗, σ2, θ) =

n∏j=1

[p1jϕ

(yj − µ− β∗

σ

)+ p0jϕ

(yj − µ

σ

)]


Revisão

Algoritmo EM

L(µ, β∗, σ

2, θ) =

n∏j=1

[p1jϕ

(yj − µ − β∗

σ

)+ p0jϕ

(yj − µ

σ

)]

Passo E:

π1j =

p1jϕ

(yj−µ̂[s]−β̂∗[s]

σ̂[s]

)

p1jϕ

(yj−µ̂[s]−β̂∗[s]

σ̂[s]

)+ p0jϕ

(yj−µ̂[s]

σ̂[s]

)π0j = 1 − π1j

Passo M:

µ̂[s+1]

=

∑nj=1(yj − π1j β̂∗[s]

)

n

β̂∗[s+1]=

∑nj=1 π1j(yj − µ̂[s+1])∑n

j=1 π1j

σ̂2[s+1]=

∑nj=1

[π1j(yj − µ̂[s+1] − β̂∗[s+1]

)2 + (1 − π1j)(yj − µ̂[s+1])2]

n


Revisão

Interval Mapping

Mouse Data

●

●

●

●

●

●

●

●

●● ●

● ●

●

LOD

01

23

45

6

0 10 20 30 40 50

0

1

2

3

4

5

6

IM (LODs)


Interpretação dos Resultados

Mapeamento por Intervalo

Delineamento IIIP1 P2AA aax

AaF1

1 AA: 2 Aa: 1 aaF2

AA aax x

F3

1 AA : 1 aaFn

AA aax x

...

AA aax x

(genótipos)

(fenótipos) (fenótipos)




Stuber et al. 19920

24

68

10LO

D

BC to Mo17BC to B73

Chr 1 Chr 2 Chr 3 Chr 4 Chr 5




Stuber et al. 1992

01

23

45

LOD

BC to Mo17BC to B73

Chr 6 Chr 7 Chr 8 Chr 9 Chr 10



Resultados

Cromos. Marcador LOD R2 Efeito

RC com B731 NPI255 6,91 15,1 10,402 NPIB1 6,63 13,3 9,725 Amp3 9,73 18,0 11,307 NPI216 4,44 8,8 7,989 NPI427 4,80 10,3 8,7010 NPI264 3,16 6,2 6,52

RC comMo171 NPI429 4,78 9,5 9,503 NPI212 6,53 14,4 12,384 NPI444 8,01 13,9 11,345 Amp3 6,86 12,9 13,727 NPI216 3,31 6,4 8,028 BLN1.45 2,73 5,8 7,689 NPI427 2,97 5,6 7,5210 Glu1 3,56 6,5 7,06



Algumas Considerações

Vantagens do IM

Possível fazer inferência sobre as posições dos QTLs

Estimativas de posição e efeito não são viesadas (assintoticamente),caso exista um único QTL no intervalo

Maior poder estatístico que as análises feitas para cada marcadoresindividualmente

No caso de mapas muito saturados (ex: ummarcador a cada cM), IMe single marker produzem o mesmo resultado



Algumas Considerações

Desvantagens do IM

Não é propriamente um teste de intervalo, uma vez que não excluiefeitos de outros QTLs fora da região do teste

Os efeitos não excluídos podem resultar em falsos positivos (QTLsfantasmas)

Se houver mais de um QTL no cromossomo pode haver viés

Não usa toda a informação do genoma em cada análise

Não permite estudos de epistasia de forma apropriada


Aproximação usando quadrados mínimos

Aproximação - Quadrados Mínimos

Haley, C.S.; Knott, S.A. 1992.A simple regression method for mapping quantitative trait loci in linecrosses using flanking markersHeredity 69: 315-324.

Martinez, O.; Curnow, R.N. 1992.Estimating the locations and the sizes of the effects of quantitativetrait loci using flanking markers.Theor. Appl. Genet. 85: 480-488.



Princípios Básicos

Aproximação muito fácil de implementar que produz resultadossemelhantes aos obtidos com verossimilhança

Lander e Botstein:yj = µ+ β∗x∗j + εj

x∗j =

{1 se o genótipo do QTL é QQ0 se o genótipo do QTL é Qq

β∗ = efeito do possível QTL

Idéia: usar E(x∗j |Mi,Mi+1)

Isso é muito comum em Regressão Linear, quando x tem “erros”associados



Esperança Matemática

São usadas as Probabilidade Condicionais em cada posição nogenoma (da mesma forma que para o IM)

Retrocruzamento

Genótipo Marcador N. indiv. P (QQ|Mi,Mi+1) P (Qq|Mi,Mi+1)

MiMiMi+1Mi+1 n1 1 0MiMiMi+1mi+1 n2 1− θ θMimiMi+1Mi+1 n3 θ 1− θMimiMi+1mi+1 n4 0 1

θ =rMiQ

rMiMi+1



Esperanças

E(Q|MiMiMi+1Mi+1) =∑[

x∗j × P (Q|MiMi+1)]= 1×1+0×0 = 1

E(Q|MiMiMi+1mi+1) = (1− θ)× 1 + θ × 0 = 1− θ

E(Q|MimiMi+1Mi+1) = θ × 1 + (1− θ)× 0 = θ

E(Q|MimiMi+1mi+1) = 0× 1 + 1× 0 = 0

Estes são os chamados genetic predictors (preditores genéticos)

Tal abordagem é muito comum no mapeamento de QTLs usandomodelos mistos



Modelo - RC

yj = µ+ βxj + εj

j = 1, 2, . . . , n

yj = valor fenotípico do indivíduo j

µ = intercepto

xj = 1× P (QQ|Mi,Mi+1, θ) +

0× P (Qq|Mi,Mi+1, θ)

β = efeito do possível QTL

εj ∼ N(0, σ2)



Exemplo - RC

rMiMi+1 = 0.04

θ =r1r

= 0.000.04

= 0.00

Marcador P (QQ|Mi,Mi+1, θ = 0.00) P (Qq|Mi,Mi+1, θ = 0.00)

MiMiMi+1Mi+1 1.00 0.00MiMiMi+1mi+1 1 − θ = 1.00 θ = 0.00MimiMi+1Mi+1 θ = 0.00 1 − θ = 1.00MimiMi+1mi+1 0.00 1.00

θ =r1r

= 0.010.04

= 0.25





Exemplo - RC

rMiMi+1 = 0.04

θ =r1r

= 0.020.04

= 0.50


MiMiMi+1Mi+1 1 0MiMiMi+1mi+1 1 − θ = 0.50 θ = 0.50MimiMi+1Mi+1 θ = 0.50 1 − θ = 0.50MimiMi+1mi+1 0 1

θ =r1r

= 0.030.04

= 0.75





Ajuste do modelo, estimação e testes

Para cada posição (cada θ):

yj = µ+ βxj + εj

Y = Xβ + e

X ′Xβ = X ′Y

β̂ = (X ′X)−1X ′Y

LOD Score

LOD =n

2log10

RSSo

RSS1

RSS0,RSS1: SQres dos modelos reduzido (sem β) e completo,respectivamenteOs códigos do R para single marker podem ser usados



Fundamentos

Vimos que yj |gj ∼ N(µgj , σ2)

Note que a distribuição de yj |Mj também é uma mistura de normais

E(yj |Mj) =∑

k pjkµk , linear para µk

Assim, µk pode ser estimado fazendo-se uma regressão de yj sob pjkEsse é o fundamento da regressão de Haley-Knott

Em outras palavras, yj |Mj ∼ N(∑

k pjkµk, σ2), ou seja, substitui-se a

mistura de normais por uma única distribuição normal



Considerações

xj pode ser facilmente obtido para cada posição no genoma

Omodelo é então ajustado em cada posição, usando quadradosmínimos para obter estimativas e testar a significância de β (LRT,LOD)

Simplicidade: todos os programas computacionais que fazemregressão linear podem ser usados

Não há necessidade de calcular a verossimilhança e usar o algoritmoEM

Os cálculos são feitos muito rapidamente (vantagem relativa) emodelos mais complexos podem ser ajustados (p. ex., QTL x E,modelos mistos para efeitos ambientais, etc)

As mesmas idéias podem ser usadas para populações F2, etc.



Avaliação da Aproximação

Mouse Data

0 10 20 30 40 50

0

1

2

3

4

5

6

Posição (cM)

LOD

Sco

re

IMHK



Avaliação da Aproximação

Mouse Data

0 10 20 30 40 50

−0.4

−0.2

0.0

0.2

0.4

Posição (cM)

LOD

HK

−LO

DIM



Considerações

1 Métodos baseados em quadrados mínimos não têm algumas daspropriedades da verossimilhança, mas têmmostrado podersemelhante para detecção de QTLs

2 Aproximações: muito simples de implementar; não necessitamprogramas específicos

3 Permitem uso de modelos complexos (ex: modelos mistos comdiferentes estruturas de var-cov)

4 Regressão usando quadrados mínimos é igual à verossimilhançaquando os erros são independentes e têm distribuição normal

5 Contudo, a pressuposição de distribuição normal é violada, já quedentro de cada genótipo do marcador há mistura de normais

6 Em outras palavras, mínimos quadrados fornecem aproximação paraa verossimilhança, e não o contrário!


Nível de significância

Considerações

A estatística LRT, para uma dada posição, tem distribuiçãoaproximada de χ2 sobH0

Graus de liberdade: núm. parâmetros sob restrição (dimensão doespaço paramétrico irrestrito− dim. esp. paramétrico restrito)

Ex: 2 GL para F2 seH0 : a = 0; d = 0 vsHa : a ̸= 0; d ̸= 0

Note porém que a busca por QTLs é feita ao longo de todo genoma

Isso causa os problemas comuns à realização de múltiplos testes



Métodos Analíticos

São feitas suposições supostamente gerais (tamanho do genoma,saturação do mapa, número de indivíduos, tipo de marcador, etc)

O limiar (threshold) é então determinado com base em distribuiçõesque podem ser assumidas para o LRT

Exemplo

Tomate: LOD entre 2 e 3

Milho: LOD próximo de 3

Problema: nem sempre as suposições são válidas para os dados emquestão

Vantagem: facilidade de implementação



PermutaçõesMétodos Monte Carlo

Churchill, G.A.; Doerge, R. W. 1994.Empirical Threshold Values for Quantitative Trait Mapping.Genetics 183: 963-971.

Doerge, R. W.; Churchill, G.A. 1996.Permutation Tests for Multiple Loci Affecting a QuantitativeCharacter.Genetics 142: 285-294.



Permutações

O limiar (threshold) é determinado com base em testes depermutação

O threshold é particular para cada conjunto de dados

Se as suposições dos métodos analíticos forem válidas, tende arepetir os mesmos valores

Método muito aceito em situações reais e publicações

Problema: tendência de ser conservativo, difícil de implementar paramodelos muito complexos, elevado tempo de processamento (emalgumas situações)



Permutações

Princípio: simular a distribuição do LOD (LRT ) sobH0

H0 : β = 0 (ausência de associação entre fenótipo e genótipo)SobH0, qualquer associação observada é devida ao acaso

Mouse Data

1 3 5 7 9 11 14 17 20 23 26 29 32 35 38 41 44 47 50

15

913

1823

2833

3843

4853

5863

6873

7883

8893

9810

3

Distância (cM)



Princípio

Uma amostra “permutada” provém de um pareamento ao acasoentre o fenótipo e o genótipo

Nas amostras permutadas, o fenótipo e o genótipo não possuemnenhuma relação intrínseca

Mouse Data - 3 permutações



Permutações

Para cada uma das permutações, o mapeamento é realizadonormalmente, considerando todas as posições do genomaOmaior valor de LOD (LRT ) para cada permutação é entãoarmazenado (max(LOD))Com base nesses valores armazenados, constrói-se a distribuiçãoempírica da estatística LOD (LRT )

Permutações - simulaçãoDistribuição Empírica da Estatística do Teste (exemplo)

Estatística

Fre

qüên

cia

0 5 10 15

050

100

150



Permutações

O valor do limiar (threshold) é então obtido a partir dos percentis dadistribuição empírica: T̂α = (1− α)-ésimo percentil da distribuiçãoempírica

Ex: α = 0.05, usa-se T̂0.95

Na prática, podem ser usadas 1000 permutações para obter T̂0.95



Threshold

Mouse data, 1000 permutações

Distribuição Empírica do LOD

LOD máximo

Fre

qüên

cia

0 1 2 3 4

020

4060

80 Threshold: 1.43



Threshold

Mouse data, 1000 permutações

0 10 20 30 40 50

0

1

2

3

4

5

6


Posição (cM)

LOD

Sco

re



SimulaçõesSimulação sobH0

Omapa estimado e o resultado do IM podem ser usados para simulara distribuição do LOD sobH0

A ideia é bastante simples: dado o mapa, dados genotípicos efenotípicos (sem QTL) são simulados muitas vezes

Para cada uma das simulações, o LOD máximo é calculado earmazenado

O percentil de interesse (ex: 0.95) é tomado da distribuição dosmáximos, sendo ele uma estimativa do limiar desejado



Simulação

Mouse data, 10000 simulações, α = 0.05

LODs máximos

Fre

quên

cia

0 1 2 3 4

020

040

060

080

0

Limiar: 1.42



Simulação

Mouse data, 10000 simulações, α = 0.05

0 10 20 30 40 50

0

1

2

3

4

5

6


Posição (cM)

LOD

Sco

re

Permut.: 1.43Simul.: 1.42



FDR

Chen, L.; Storey, J. D. 2006Relaxed significance criteria for linkage analysis.Genetics 173: 2371-2381.



GWER generalizado (GWERk)

FDR não é apropriado para controle de falsos positivos emexperimentos de mapeamento de QTLs

Motivo: as estatísticas obtidas em todas as posições sãocorrelacionadas; se todos os picos forem usados, não faz sentidodefinir algum FDR

Permutações: GWERAlternativa: ao invés de controlar para a presença de um único falsopositivo, k falsos positivos poderiam ser considerados. Para um dadothreshold λ:

GWERk = P (número de falsos positivos ≥ k)

GWERk = P (mais de k LODs nulos verdad. excederem λ)

O critério usualmente empregado equivale à k = 0, ou seja, GWER0Possivelmente, isso explica o fato do threshold obtido usandoGWER0 ter se mostrado conservativo na prática



GWERk

Vantagens1 Um dado threshold pode ser tomado de modo que GWERk sejarazoável para múltiplos valores de k

2 Diferentemente do que ocorre para o FDR, não há dependência nosmúltiplos sinais (posições próximas ao QTL)

3 Os algoritmos para controlar GWER0 (ex: Churchill e Doerge) podemser usados com pequenas modificações



GWERk

Algoritmo1 Permute os valores fenotípicos entre os indivíduos, obtendoBconjuntos de amostras sobH0

2 Para cada um dosB conjuntos, obtenha os picos das estatísticas,ordenando-os. Tome o (k + 1)-ésimo pico de cada conjuntoB earmazene-o.

3 Ordene asB estatísticas em ordem decrescente. O 100(1− α)-ésimopico é o valor estimado do threshold GWERk .



GWERk

Note a semelhança com o algoritmo de Churchill e Doerge

Contudo, geralmente é difícil definir o que é um picoAlternativas:

Considerar o maior valor dentro de um cromossomo como sendo umpicoDefinir janelas independentes (ex: 30 cM) e tomar o maior valordentro delas como sendo o picoUsar smooth regression para obter os máximos locais da curva do LOD



Simulação

Mouse genome, 1000 RCs, n = 250, efeitos 0.1, 0.15, 0.1, 0.16, 0.2, 0.15, 0.1


Viés nas estimativas

Selection Bias

Broman, K. W. 2001Review of statistical methods for QTL mapping in experimentalcrosses.Lab Animal 30: 44-52.




Efeitos: importantes para previsão de ganhos genéticos e estudosevolutivos

Decisões sobre clonagem de QTLs e mapeamento fino

Porém, geralmente não se considera que o efeito estimado podevariar bastante

Como apenas os efeitos significativos são detectados, geralmente osefeitos são superestimados

Isto pode explicar porque dificilmente os efeitos se repetem namesma magnitude em experimentos semelhantes



Simulação

Características do Mouse Data,H0

LODs máximos

Fre

quên

cia

0 1 2 3 40

200

400

600

800

Limiar: 1.42



Simulação

Características do Mouse DataAdição de um único QTL, 15 cM

Herdabilidade 7.5%

LODs máximos

Fre

quên

cia

0 2 4 6 8

050

100

150

200

250

300

350

Limiar: 1.42Poder: 73 %



Simulação

Características do Mouse Data

Herdabilidade 7.5%

% explicada da variância fenotípica (h2)

Fre

quên

cia

0.00 0.05 0.10 0.15 0.20 0.25 0.30

010

020

030

040

0 Média sim.: 9.83 %Acima lim.: 11.86 %Viés: 20.65 %



Simulação


Herdabilidade 5.5%

LODs máximos

Fre

quên

cia

0 2 4 6 8

010

020

030

040

0 Limiar: 1.42Poder: 55 %



Simulação


Herdabilidade 5.5%


Fre

quên

cia

0.00 0.05 0.10 0.15 0.20 0.25 0.300

100

200

300

400

500

Média sim.: 7.47 %Acima lim.: 10.52 %Viés: 40.81 %



Simulação


Herdabilidade 2.5%

LODs máximos

Fre

quên

cia

0 1 2 3 4 5 6

050

100

150

200

250

300

Limiar: 1.42Poder: 30 %



Simulação


Herdabilidade 2.5%


Fre

quên

cia

0.00 0.05 0.10 0.15 0.20 0.25

050

100

150

200

250

300

Média sim.: 4.97 %Acima lim.: 9.37 %Viés: 88.41 %


Principais Referências

Haley, C.S.; Knott, S.A. 1992.A simple regression method for mapping quantitative trait loci in linecrosses using flanking markersHeredity 69: 315-324.

Churchill, G.A.; Doerge, R. W. 1994.Empirical Threshold Values for Quantitative Trait Mapping.Genetics 183: 963-971.

Broman, K. W. 2001Review of statistical methods for QTL mapping in experimentalcrosses.Lab Animal 30: 44-52.

conteúdo modelodemisturas departamentodegenética...

Documents