conteúdo modelodemisturas departamentodegenética...
TRANSCRIPT
Mapeamento por Intervalo Referências
LGN5830 - Biometria de Marcadores GenéticosTópico 9: Mapeamento de QTLs IIIMapeamento por Intervalo (cont.)
Antonio Augusto Franco Garciahttp://about.me/augusto.garcia
Departamento de GenéticaESALQ/USP
2017
Mapeamento por Intervalo Referências
Conteúdo
1 Mapeamento por IntervaloRevisãoInterpretação dos ResultadosAproximação usando quadrados mínimosNível de significânciaViés nas estimativas
2 Referências
Mapeamento por Intervalo Referências
Revisão
Referência
Lander, E. S.; Botstein, D. 1989.Mapping Mendelian factors underlying quantitative traits using RFLPlinkage maps.Genetics 121: 185-199.
Mapeamento por Intervalo Referências
Revisão
Modelo de Misturas
Modelo para Retrocruzamentos
yj = µ+ β∗x∗j + εj
j = 1, 2, . . . , n
yj = valor fenotípico do indivíduo j
µ = intercepto
x∗j =
{1 se o genótipo do QTL do indivíduo j é QQ0 se o genótipo do QTL do indivíduo j é Qq
β∗ = efeito do possível QTL
εj ∼ N(0, σ2)
Mapeamento por Intervalo Referências
Revisão
Verossimilhança
Função densidade de probabilidades da dist. normal (reduzida):
ϕ(z) =1√2Π
e−z2
2
Assumindo distribuição normal dentro de cada classe (para cadagenótipo do QTL):
L(µ, β∗, σ2, θ) =
n∏j=1
[p1jϕ
(yj − µ− β∗
σ
)+ p0jϕ
(yj − µ
σ
)]
Mapeamento por Intervalo Referências
Revisão
Algoritmo EM
L(µ, β∗, σ
2, θ) =
n∏j=1
[p1jϕ
(yj − µ − β∗
σ
)+ p0jϕ
(yj − µ
σ
)]
Passo E:
π1j =
p1jϕ
(yj−µ̂[s]−β̂∗[s]
σ̂[s]
)
p1jϕ
(yj−µ̂[s]−β̂∗[s]
σ̂[s]
)+ p0jϕ
(yj−µ̂[s]
σ̂[s]
)π0j = 1 − π1j
Passo M:
µ̂[s+1]
=
∑nj=1(yj − π1j β̂∗[s]
)
n
β̂∗[s+1]=
∑nj=1 π1j(yj − µ̂[s+1])∑n
j=1 π1j
σ̂2[s+1]=
∑nj=1
[π1j(yj − µ̂[s+1] − β̂∗[s+1]
)2 + (1 − π1j)(yj − µ̂[s+1])2]
n
Mapeamento por Intervalo Referências
Revisão
Interval Mapping
Mouse Data
●
●
●
●
●
●
●
●
●● ●
● ●
●
LOD
01
23
45
6
0 10 20 30 40 50
0
1
2
3
4
5
6
IM (LODs)
Mapeamento por Intervalo Referências
Interpretação dos Resultados
Mapeamento por Intervalo
Delineamento IIIP1 P2AA aax
AaF1
1 AA: 2 Aa: 1 aaF2
AA aax x
F3
1 AA : 1 aaFn
AA aax x
...
AA aax x
(genótipos)
(fenótipos) (fenótipos)
Mapeamento por Intervalo Referências
Interpretação dos Resultados
Mapeamento por Intervalo
Stuber et al. 19920
24
68
10LO
D
BC to Mo17BC to B73
Chr 1 Chr 2 Chr 3 Chr 4 Chr 5
Mapeamento por Intervalo Referências
Interpretação dos Resultados
Mapeamento por Intervalo
Stuber et al. 1992
01
23
45
LOD
BC to Mo17BC to B73
Chr 6 Chr 7 Chr 8 Chr 9 Chr 10
Mapeamento por Intervalo Referências
Interpretação dos Resultados
Resultados
Cromos. Marcador LOD R2 Efeito
RC com B731 NPI255 6,91 15,1 10,402 NPIB1 6,63 13,3 9,725 Amp3 9,73 18,0 11,307 NPI216 4,44 8,8 7,989 NPI427 4,80 10,3 8,7010 NPI264 3,16 6,2 6,52
RC comMo171 NPI429 4,78 9,5 9,503 NPI212 6,53 14,4 12,384 NPI444 8,01 13,9 11,345 Amp3 6,86 12,9 13,727 NPI216 3,31 6,4 8,028 BLN1.45 2,73 5,8 7,689 NPI427 2,97 5,6 7,5210 Glu1 3,56 6,5 7,06
Mapeamento por Intervalo Referências
Interpretação dos Resultados
Algumas Considerações
Vantagens do IM
Possível fazer inferência sobre as posições dos QTLs
Estimativas de posição e efeito não são viesadas (assintoticamente),caso exista um único QTL no intervalo
Maior poder estatístico que as análises feitas para cada marcadoresindividualmente
No caso de mapas muito saturados (ex: ummarcador a cada cM), IMe single marker produzem o mesmo resultado
Mapeamento por Intervalo Referências
Interpretação dos Resultados
Algumas Considerações
Desvantagens do IM
Não é propriamente um teste de intervalo, uma vez que não excluiefeitos de outros QTLs fora da região do teste
Os efeitos não excluídos podem resultar em falsos positivos (QTLsfantasmas)
Se houver mais de um QTL no cromossomo pode haver viés
Não usa toda a informação do genoma em cada análise
Não permite estudos de epistasia de forma apropriada
Mapeamento por Intervalo Referências
Aproximação usando quadrados mínimos
Aproximação - Quadrados Mínimos
Haley, C.S.; Knott, S.A. 1992.A simple regression method for mapping quantitative trait loci in linecrosses using flanking markersHeredity 69: 315-324.
Martinez, O.; Curnow, R.N. 1992.Estimating the locations and the sizes of the effects of quantitativetrait loci using flanking markers.Theor. Appl. Genet. 85: 480-488.
Mapeamento por Intervalo Referências
Aproximação usando quadrados mínimos
Princípios Básicos
Aproximação muito fácil de implementar que produz resultadossemelhantes aos obtidos com verossimilhança
Lander e Botstein:yj = µ+ β∗x∗j + εj
x∗j =
{1 se o genótipo do QTL é QQ0 se o genótipo do QTL é Qq
β∗ = efeito do possível QTL
Idéia: usar E(x∗j |Mi,Mi+1)
Isso é muito comum em Regressão Linear, quando x tem “erros”associados
Mapeamento por Intervalo Referências
Aproximação usando quadrados mínimos
Esperança Matemática
São usadas as Probabilidade Condicionais em cada posição nogenoma (da mesma forma que para o IM)
Retrocruzamento
Genótipo Marcador N. indiv. P (QQ|Mi,Mi+1) P (Qq|Mi,Mi+1)
MiMiMi+1Mi+1 n1 1 0MiMiMi+1mi+1 n2 1− θ θMimiMi+1Mi+1 n3 θ 1− θMimiMi+1mi+1 n4 0 1
θ =rMiQ
rMiMi+1
Mapeamento por Intervalo Referências
Aproximação usando quadrados mínimos
Esperanças
E(Q|MiMiMi+1Mi+1) =∑[
x∗j × P (Q|MiMi+1)]= 1×1+0×0 = 1
E(Q|MiMiMi+1mi+1) = (1− θ)× 1 + θ × 0 = 1− θ
E(Q|MimiMi+1Mi+1) = θ × 1 + (1− θ)× 0 = θ
E(Q|MimiMi+1mi+1) = 0× 1 + 1× 0 = 0
Estes são os chamados genetic predictors (preditores genéticos)
Tal abordagem é muito comum no mapeamento de QTLs usandomodelos mistos
Mapeamento por Intervalo Referências
Aproximação usando quadrados mínimos
Modelo - RC
yj = µ+ βxj + εj
j = 1, 2, . . . , n
yj = valor fenotípico do indivíduo j
µ = intercepto
xj = 1× P (QQ|Mi,Mi+1, θ) +
0× P (Qq|Mi,Mi+1, θ)
β = efeito do possível QTL
εj ∼ N(0, σ2)
Mapeamento por Intervalo Referências
Aproximação usando quadrados mínimos
Exemplo - RC
rMiMi+1 = 0.04
θ =r1r
= 0.000.04
= 0.00
Marcador P (QQ|Mi,Mi+1, θ = 0.00) P (Qq|Mi,Mi+1, θ = 0.00)
MiMiMi+1Mi+1 1.00 0.00MiMiMi+1mi+1 1 − θ = 1.00 θ = 0.00MimiMi+1Mi+1 θ = 0.00 1 − θ = 1.00MimiMi+1mi+1 0.00 1.00
θ =r1r
= 0.010.04
= 0.25
Marcador P (QQ|Mi,Mi+1, θ = 0.25) P (Qq|Mi,Mi+1, θ = 0.25)
MiMiMi+1Mi+1 1.00 0.00MiMiMi+1mi+1 1 − θ = 0.75 θ = 0.25MimiMi+1Mi+1 θ = 0.25 1 − θ = 0.75MimiMi+1mi+1 0.00 1.00
Mapeamento por Intervalo Referências
Aproximação usando quadrados mínimos
Exemplo - RC
rMiMi+1 = 0.04
θ =r1r
= 0.020.04
= 0.50
Marcador P (QQ|Mi,Mi+1, θ = 0.50) P (Qq|Mi,Mi+1, θ = 0.50)
MiMiMi+1Mi+1 1 0MiMiMi+1mi+1 1 − θ = 0.50 θ = 0.50MimiMi+1Mi+1 θ = 0.50 1 − θ = 0.50MimiMi+1mi+1 0 1
θ =r1r
= 0.030.04
= 0.75
Marcador P (QQ|Mi,Mi+1, θ = 0.75) P (Qq|Mi,Mi+1, θ = 0.75)
MiMiMi+1Mi+1 1.00 0.00MiMiMi+1mi+1 1 − θ = 0.25 θ = 0.75MimiMi+1Mi+1 θ = 0.75 1 − θ = 0.25MimiMi+1mi+1 0.00 1.00
Mapeamento por Intervalo Referências
Aproximação usando quadrados mínimos
Ajuste do modelo, estimação e testes
Para cada posição (cada θ):
yj = µ+ βxj + εj
Y = Xβ + e
X ′Xβ = X ′Y
β̂ = (X ′X)−1X ′Y
LOD Score
LOD =n
2log10
RSSo
RSS1
RSS0,RSS1: SQres dos modelos reduzido (sem β) e completo,respectivamenteOs códigos do R para single marker podem ser usados
Mapeamento por Intervalo Referências
Aproximação usando quadrados mínimos
Fundamentos
Vimos que yj |gj ∼ N(µgj , σ2)
Note que a distribuição de yj |Mj também é uma mistura de normais
E(yj |Mj) =∑
k pjkµk , linear para µk
Assim, µk pode ser estimado fazendo-se uma regressão de yj sob pjkEsse é o fundamento da regressão de Haley-Knott
Em outras palavras, yj |Mj ∼ N(∑
k pjkµk, σ2), ou seja, substitui-se a
mistura de normais por uma única distribuição normal
Mapeamento por Intervalo Referências
Aproximação usando quadrados mínimos
Considerações
xj pode ser facilmente obtido para cada posição no genoma
Omodelo é então ajustado em cada posição, usando quadradosmínimos para obter estimativas e testar a significância de β (LRT,LOD)
Simplicidade: todos os programas computacionais que fazemregressão linear podem ser usados
Não há necessidade de calcular a verossimilhança e usar o algoritmoEM
Os cálculos são feitos muito rapidamente (vantagem relativa) emodelos mais complexos podem ser ajustados (p. ex., QTL x E,modelos mistos para efeitos ambientais, etc)
As mesmas idéias podem ser usadas para populações F2, etc.
Mapeamento por Intervalo Referências
Aproximação usando quadrados mínimos
Avaliação da Aproximação
Mouse Data
0 10 20 30 40 50
0
1
2
3
4
5
6
Posição (cM)
LOD
Sco
re
IMHK
Mapeamento por Intervalo Referências
Aproximação usando quadrados mínimos
Avaliação da Aproximação
Mouse Data
0 10 20 30 40 50
−0.4
−0.2
0.0
0.2
0.4
Posição (cM)
LOD
HK
−LO
DIM
Mapeamento por Intervalo Referências
Aproximação usando quadrados mínimos
Considerações
1 Métodos baseados em quadrados mínimos não têm algumas daspropriedades da verossimilhança, mas têmmostrado podersemelhante para detecção de QTLs
2 Aproximações: muito simples de implementar; não necessitamprogramas específicos
3 Permitem uso de modelos complexos (ex: modelos mistos comdiferentes estruturas de var-cov)
4 Regressão usando quadrados mínimos é igual à verossimilhançaquando os erros são independentes e têm distribuição normal
5 Contudo, a pressuposição de distribuição normal é violada, já quedentro de cada genótipo do marcador há mistura de normais
6 Em outras palavras, mínimos quadrados fornecem aproximação paraa verossimilhança, e não o contrário!
Mapeamento por Intervalo Referências
Nível de significância
Considerações
A estatística LRT, para uma dada posição, tem distribuiçãoaproximada de χ2 sobH0
Graus de liberdade: núm. parâmetros sob restrição (dimensão doespaço paramétrico irrestrito− dim. esp. paramétrico restrito)
Ex: 2 GL para F2 seH0 : a = 0; d = 0 vsHa : a ̸= 0; d ̸= 0
Note porém que a busca por QTLs é feita ao longo de todo genoma
Isso causa os problemas comuns à realização de múltiplos testes
Mapeamento por Intervalo Referências
Nível de significância
Métodos Analíticos
São feitas suposições supostamente gerais (tamanho do genoma,saturação do mapa, número de indivíduos, tipo de marcador, etc)
O limiar (threshold) é então determinado com base em distribuiçõesque podem ser assumidas para o LRT
Exemplo
Tomate: LOD entre 2 e 3
Milho: LOD próximo de 3
Problema: nem sempre as suposições são válidas para os dados emquestão
Vantagem: facilidade de implementação
Mapeamento por Intervalo Referências
Nível de significância
PermutaçõesMétodos Monte Carlo
Churchill, G.A.; Doerge, R. W. 1994.Empirical Threshold Values for Quantitative Trait Mapping.Genetics 183: 963-971.
Doerge, R. W.; Churchill, G.A. 1996.Permutation Tests for Multiple Loci Affecting a QuantitativeCharacter.Genetics 142: 285-294.
Mapeamento por Intervalo Referências
Nível de significância
Permutações
O limiar (threshold) é determinado com base em testes depermutação
O threshold é particular para cada conjunto de dados
Se as suposições dos métodos analíticos forem válidas, tende arepetir os mesmos valores
Método muito aceito em situações reais e publicações
Problema: tendência de ser conservativo, difícil de implementar paramodelos muito complexos, elevado tempo de processamento (emalgumas situações)
Mapeamento por Intervalo Referências
Nível de significância
Permutações
Princípio: simular a distribuição do LOD (LRT ) sobH0
H0 : β = 0 (ausência de associação entre fenótipo e genótipo)SobH0, qualquer associação observada é devida ao acaso
Mouse Data
1 3 5 7 9 11 14 17 20 23 26 29 32 35 38 41 44 47 50
15
913
1823
2833
3843
4853
5863
6873
7883
8893
9810
3
Distância (cM)
Mapeamento por Intervalo Referências
Nível de significância
Princípio
Uma amostra “permutada” provém de um pareamento ao acasoentre o fenótipo e o genótipo
Nas amostras permutadas, o fenótipo e o genótipo não possuemnenhuma relação intrínseca
Mouse Data - 3 permutações
Mapeamento por Intervalo Referências
Nível de significância
Permutações
Para cada uma das permutações, o mapeamento é realizadonormalmente, considerando todas as posições do genomaOmaior valor de LOD (LRT ) para cada permutação é entãoarmazenado (max(LOD))Com base nesses valores armazenados, constrói-se a distribuiçãoempírica da estatística LOD (LRT )
Permutações - simulaçãoDistribuição Empírica da Estatística do Teste (exemplo)
Estatística
Fre
qüên
cia
0 5 10 15
050
100
150
Mapeamento por Intervalo Referências
Nível de significância
Permutações
O valor do limiar (threshold) é então obtido a partir dos percentis dadistribuição empírica: T̂α = (1− α)-ésimo percentil da distribuiçãoempírica
Ex: α = 0.05, usa-se T̂0.95
Na prática, podem ser usadas 1000 permutações para obter T̂0.95
Mapeamento por Intervalo Referências
Nível de significância
Threshold
Mouse data, 1000 permutações
Distribuição Empírica do LOD
LOD máximo
Fre
qüên
cia
0 1 2 3 4
020
4060
80 Threshold: 1.43
Mapeamento por Intervalo Referências
Nível de significância
Threshold
Mouse data, 1000 permutações
0 10 20 30 40 50
0
1
2
3
4
5
6
Mapeamento por Intervalo
Posição (cM)
LOD
Sco
re
Mapeamento por Intervalo Referências
Nível de significância
SimulaçõesSimulação sobH0
Omapa estimado e o resultado do IM podem ser usados para simulara distribuição do LOD sobH0
A ideia é bastante simples: dado o mapa, dados genotípicos efenotípicos (sem QTL) são simulados muitas vezes
Para cada uma das simulações, o LOD máximo é calculado earmazenado
O percentil de interesse (ex: 0.95) é tomado da distribuição dosmáximos, sendo ele uma estimativa do limiar desejado
Mapeamento por Intervalo Referências
Nível de significância
Simulação
Mouse data, 10000 simulações, α = 0.05
LODs máximos
Fre
quên
cia
0 1 2 3 4
020
040
060
080
0
Limiar: 1.42
Mapeamento por Intervalo Referências
Nível de significância
Simulação
Mouse data, 10000 simulações, α = 0.05
0 10 20 30 40 50
0
1
2
3
4
5
6
Mapeamento por Intervalo
Posição (cM)
LOD
Sco
re
Permut.: 1.43Simul.: 1.42
Mapeamento por Intervalo Referências
Nível de significância
FDR
Chen, L.; Storey, J. D. 2006Relaxed significance criteria for linkage analysis.Genetics 173: 2371-2381.
Mapeamento por Intervalo Referências
Nível de significância
GWER generalizado (GWERk)
FDR não é apropriado para controle de falsos positivos emexperimentos de mapeamento de QTLs
Motivo: as estatísticas obtidas em todas as posições sãocorrelacionadas; se todos os picos forem usados, não faz sentidodefinir algum FDR
Permutações: GWERAlternativa: ao invés de controlar para a presença de um único falsopositivo, k falsos positivos poderiam ser considerados. Para um dadothreshold λ:
GWERk = P (número de falsos positivos ≥ k)
GWERk = P (mais de k LODs nulos verdad. excederem λ)
O critério usualmente empregado equivale à k = 0, ou seja, GWER0Possivelmente, isso explica o fato do threshold obtido usandoGWER0 ter se mostrado conservativo na prática
Mapeamento por Intervalo Referências
Nível de significância
GWERk
Vantagens1 Um dado threshold pode ser tomado de modo que GWERk sejarazoável para múltiplos valores de k
2 Diferentemente do que ocorre para o FDR, não há dependência nosmúltiplos sinais (posições próximas ao QTL)
3 Os algoritmos para controlar GWER0 (ex: Churchill e Doerge) podemser usados com pequenas modificações
Mapeamento por Intervalo Referências
Nível de significância
GWERk
Algoritmo1 Permute os valores fenotípicos entre os indivíduos, obtendoBconjuntos de amostras sobH0
2 Para cada um dosB conjuntos, obtenha os picos das estatísticas,ordenando-os. Tome o (k + 1)-ésimo pico de cada conjuntoB earmazene-o.
3 Ordene asB estatísticas em ordem decrescente. O 100(1− α)-ésimopico é o valor estimado do threshold GWERk .
Mapeamento por Intervalo Referências
Nível de significância
GWERk
Note a semelhança com o algoritmo de Churchill e Doerge
Contudo, geralmente é difícil definir o que é um picoAlternativas:
Considerar o maior valor dentro de um cromossomo como sendo umpicoDefinir janelas independentes (ex: 30 cM) e tomar o maior valordentro delas como sendo o picoUsar smooth regression para obter os máximos locais da curva do LOD
Mapeamento por Intervalo Referências
Nível de significância
Simulação
Mouse genome, 1000 RCs, n = 250, efeitos 0.1, 0.15, 0.1, 0.16, 0.2, 0.15, 0.1
Mapeamento por Intervalo Referências
Viés nas estimativas
Selection Bias
Broman, K. W. 2001Review of statistical methods for QTL mapping in experimentalcrosses.Lab Animal 30: 44-52.
Mapeamento por Intervalo Referências
Viés nas estimativas
Viés nas estimativas
Efeitos: importantes para previsão de ganhos genéticos e estudosevolutivos
Decisões sobre clonagem de QTLs e mapeamento fino
Porém, geralmente não se considera que o efeito estimado podevariar bastante
Como apenas os efeitos significativos são detectados, geralmente osefeitos são superestimados
Isto pode explicar porque dificilmente os efeitos se repetem namesma magnitude em experimentos semelhantes
Mapeamento por Intervalo Referências
Viés nas estimativas
Simulação
Características do Mouse Data,H0
LODs máximos
Fre
quên
cia
0 1 2 3 40
200
400
600
800
Limiar: 1.42
Mapeamento por Intervalo Referências
Viés nas estimativas
Simulação
Características do Mouse DataAdição de um único QTL, 15 cM
Herdabilidade 7.5%
LODs máximos
Fre
quên
cia
0 2 4 6 8
050
100
150
200
250
300
350
Limiar: 1.42Poder: 73 %
Mapeamento por Intervalo Referências
Viés nas estimativas
Simulação
Características do Mouse Data
Herdabilidade 7.5%
% explicada da variância fenotípica (h2)
Fre
quên
cia
0.00 0.05 0.10 0.15 0.20 0.25 0.30
010
020
030
040
0 Média sim.: 9.83 %Acima lim.: 11.86 %Viés: 20.65 %
Mapeamento por Intervalo Referências
Viés nas estimativas
Simulação
Características do Mouse Data
Herdabilidade 5.5%
LODs máximos
Fre
quên
cia
0 2 4 6 8
010
020
030
040
0 Limiar: 1.42Poder: 55 %
Mapeamento por Intervalo Referências
Viés nas estimativas
Simulação
Características do Mouse Data
Herdabilidade 5.5%
% explicada da variância fenotípica (h2)
Fre
quên
cia
0.00 0.05 0.10 0.15 0.20 0.25 0.300
100
200
300
400
500
Média sim.: 7.47 %Acima lim.: 10.52 %Viés: 40.81 %
Mapeamento por Intervalo Referências
Viés nas estimativas
Simulação
Características do Mouse Data
Herdabilidade 2.5%
LODs máximos
Fre
quên
cia
0 1 2 3 4 5 6
050
100
150
200
250
300
Limiar: 1.42Poder: 30 %
Mapeamento por Intervalo Referências
Viés nas estimativas
Simulação
Características do Mouse Data
Herdabilidade 2.5%
% explicada da variância fenotípica (h2)
Fre
quên
cia
0.00 0.05 0.10 0.15 0.20 0.25
050
100
150
200
250
300
Média sim.: 4.97 %Acima lim.: 9.37 %Viés: 88.41 %
Mapeamento por Intervalo Referências
Principais Referências
Haley, C.S.; Knott, S.A. 1992.A simple regression method for mapping quantitative trait loci in linecrosses using flanking markersHeredity 69: 315-324.
Churchill, G.A.; Doerge, R. W. 1994.Empirical Threshold Values for Quantitative Trait Mapping.Genetics 183: 963-971.
Broman, K. W. 2001Review of statistical methods for QTL mapping in experimentalcrosses.Lab Animal 30: 44-52.