predição genômica de caracteres quantitativos por meio de ... · seleção genômica (sg)...
TRANSCRIPT
Predição genômica de caracteres
quantitativos por meio de
Redes Neurais Artificias
Isabela de Castro Sant’Anna
Supervisor: Moysés Nascimento
Laboratório de Inteligência Computacional – LICAE
Programa de Pòs graduaçāo em Estatística Aplicada e Biometria
Universidade Federal de
Viçosa
Sant’Anna et al.,
Introdução
8
Valor Genotípico ( dois locos A/a e B/b)
A/a = ij B/b = kl
Yijkl = (αi + αj + δij) + (αk + αl + δkl) + αα + αδ + δδ
αα = αiαk + αiαl + αjαk + αjαl (aditiva x aditiva)
αδ = αiδkl + αjδkl + αkδij + αlδij(aditiva x dominante)
δδ = δijδkl (dominante x dominante)
E= αα + αδ + δδ
Sant’Anna et al.,
Introdução
9
Seleção Genômica (SG)
Modelar a arquitetura das características de acordo
com os dados utilizados para seu treinamento.
Escolher um modelo de SG
Treinamento
Validação
Sant’Anna et al.,
Introdução
10
Inteligência Computacional
Inferir sobre a Arquitetura das características pelos
dados utilizados em seu treinamento.
Não há necessidade de atender pressuposições sobre
as distribuições dos dados e dos resíduos.
Introdução
11Sant’Anna et al.,
Adaptação por experiência
Capacidade de aprendizado
Habilidade de generalização
Suporta ruídos e perda de informações
Objetivo Geral
Sant’Anna et al., 18
Uso de seleção genômica (GS) e redes neurais
artificiais (RNA’s), para fins de predição de valores
genéticos.
Observar se as interações epistáticas podem
melhorar as estimativas de predição no contexto
genotípico e fenotípico.
Utilizar um método de redução de
dimensionalidade: Sonda e Stepwise.
Sant’Anna et al., 19
P1 P2
F1
50 locos controladores das características
𝑌𝑖 = 𝜇 + 𝑗=150 𝑝𝑗𝛼𝑗 + 𝐸𝑖
𝑌𝑖 = 𝜇 + 𝑗=1
50
𝑝𝑗𝛼𝑗 + 𝑗=1
49
𝑝𝑗𝛼𝑗 𝛼𝑗+1 + 𝐸𝑖
Material e Métodos
Sant’Anna et al., 20
𝑌𝑖 = 𝜇 + 𝑗=150 𝑝𝑗𝛼𝑗 + 𝐸𝑖
𝑌𝑖 = 𝜇 + 𝑗=1
50
𝑝𝑗𝛼𝑗 + 𝑗=1
49
𝑝𝑗𝛼𝑗 𝛼𝑗+1 + 𝐸𝑖
d=0
d=0.5
d=1
h2 =30
h2=60
h2 =30
h2=60
Cenários
d=0
d=0.5
d=1
Material e Métodos
Sant’Anna et al., 21
Cenários
Característica Herdabilidade (%) Modelo Gmd
V1 - D0H30_Ad 30 aditivo 0
V2 -D0.5H30_Ado 30 aditivo-dominante 0.5
V3- D1H30_Ado 30 aditivo-dominante 1
V4 - D0H30_Ep 30 epistático 0
V5 -D0.5H30_Ep 30 epistático 0.5
V6 -D1H30_Ep 30 epistático 1
V7 - D0H60_Ad 60 aditivo 0
V8 - D0.5H60_Ado 60 aditivo-dominante 0.5
V9 - D1H60_Ado 60 aditivo-dominante 1
V10 - D0H60_Ep 60 epistático 0
V11 -D0.5H60_Ep 60 epistático 0.5
V12 - D1H60_Ep 60 epistático 1
Tabela 1. Características avaliadas no estudo com seus respectivos valores de herdabilidade,
modelo adotado e grau médio de dominância (Gmd).
Material e Métodos
Sant’Anna et al., 22
Predição Genômica
Meuwissen et al. (2001) onde:
y = Xb + Za + e,
y é o vetor de observações fenotípicas,
b é o vetor de efeitos fixos,
a é o vetor dos efeitos aleatórios dos marcadores e
e refere-se ao vetor de erros aleatórios.
X e Z são as matrizes de incidência para b e a.
A estrutura de médias e variâncias no modelo em questão é definida como: a~ N (0,G),
E(y)=Xb, e ~N (0,R=I ), Var(y)=V=ZGZ’+ R.
G= I𝜎𝑔
𝑛
2
G 𝐸BVs = 𝑦j= 𝑖𝑛 𝑍𝑖𝑗 𝑎i
Material e Métodos
Sant’Anna et al., 24
Rede de Base Radial
Figura 1. Arquitetura e topologia de uma Rede Funções de Base Radial com número de
entradas igual a 1000, K neurônios na camada intermediária (variando de 1 a 200) e uma
saída (Yn) que envolvia 400 observações no processo de treinamento e 100 no processo de
validação.
Material e Métodos
Sant’Anna et al.,
Capitulo 1
25
Simulação dos dados genotípicos e fenotípicos
ryr,y2 =
Cov(yr, y)
σyr2 σy
2
2
REQM = (𝑦𝑟 – 𝑦)2
𝑛
Material e Métodos
Sant’Anna et al.,
Resultados
26
Modelos Cenários R² REQM
RR-BLUPd0h30 0.580 91.85
d0.5h300.540 118.405
d1h300.083 157.173
RNA-RBFd0h30 0.314 5.243
d0.5h30 0.3175.473
d1h30 0.25014.549
R² REQM
0.100 ± 0.02 97.353 ± 2.14
0.120± 0.07 122.647 ± 3.02
0.003 ± 0.01 267.593 ± 21.72
0.11 ± 0.03 5.89 ± 0.12
0.120 ± 0.06 6.17 ± 0.14
0.10 ± 0.01 16.78 ± 1.19
Validação Genotípica Validação Fenotipica
Sant’Anna et al.,
Resultados
27
Modelos Cenários R² REQM
RR-BLUPd0h30e
0.134 155.658
d0.5h30e0.195 221.138
d1h30e0.257 329.691
RNA-RBFd0h30e
0.317 14.475
d0.5h30e0.268 16.584
d1h30e0.282 20.785
R² REQM
0.01 ± 0.02 278.61 ± 23.91
0.02 ± 0.06 366.06 ± 19.67
0.06 ± 0.00 575.41 ± 23.59
0.03 ± 0.02 16.85 ± 1.17
0.05 ± 0.02 18.51 ± 0.54
0.06 ± 0.05 23.84 ± 1.65
Validação Genotípica Validação Fenotipica
Sant’Anna et al.,
Resultados
28
Modelos Cenários R² REQM
RR-BLUPd0h60 0.77 81.619
d0.5h600.71 108.537
d1h600.63 134.403
RNA-RBFd0h60
0.313.82
d0.5h600.25
4.029
d1h600.61 4.271
R² REQM
0.362 ± 0.07 85.764 ± 2.92
0.30 ± 0.07 111.50 ± 3.87
0.19 ± 0.05 137.09 ± 3.89
0.38 ± 0.08 4.52 ± 0.12
0.34 ± 0.07 4.67 ± 0.19
0.18 ± 0.04 5.40 ± 0.16
Validação Genotípica Validação Fenotípica
Sant’Anna et al.,
Resultados
29
Modelos Cenários R² REQM
RR-BLUPd0h60e 0.314 148.638
d0.5h60e 0.363 209.792
d1h60e 0.464 335.007
RNA-RBFd0h60e 0.561 10.735
d0.5h60e 0.564 12.394
d1h60e 0.561 15.306
R² REQM
0.01 ± 0.02 278.61 ± 23.91
0.02 ± 0.06 366.06 ± 19.67
0.06 ± 0.00 575.41 ± 23.59
0.03 ± 0.02 16.85 ± 1.17
0.05 ± 0.02 18.51 ± 0.54
0.06 ± 0.05 23.84 ± 1.65
Validação Genotípica Validação Fenotipica
Sant’Anna et al.,
Conclusões Parte 1
30
Os modelos RNA-RBF se igualam ou superam um
modelo aditivo linear, RR-BLUP, na predição de valores
genéticos totais de caracteres quantitativos usando
marcadores SNP.
Número grande de marcadores, a demanda
computacional no RNA-RBF é intensiva sugerindo a
utilização de uma seleção de variáveis para melhoria do
processo preditivo.
Sant’Anna et al.,
PARTE 2
31
Utilização de métodos de Redução da
Dimensionalidade
Stepwise;
Sonda;
Métodos : RR-BLUP e RNA: RBF E MLP;
Estatístico;
Genético.
Sant’Anna et al., 32
Estatística utilizada para estudo da redução da dimensionalidade em modelo de
regressão Stepwise considerando uma variável resposta no cenário mais complexo e
um conjunto de 1000 marcadores moleculares.
Sant’Anna et al., 33
Estatística utilizada para estudo da redução da dimensionalidade em modelo de Sondas
considerando uma variável resposta no cenário mais complexo e um conjunto de 1000
marcadores moleculares.
Sant’Anna et al., 34
Rede de Base Radial
Arquitetura e topologia de uma Rede Funções de Base Radial com número de entradas igual a
100, K neurônios na camada intermediária (variando de 1 a 200) e uma saída (Yn) que
envolvia 400 observações no processo de treinamento e 100 no processo de validação.
Sant’Anna et al., 35
Estrutura da RNA
Backpropagation
Camadas 1 a 3;
Funções de ativação:Tansig, Logsig;
(M1) a (M100) Marcadores utilizados na camada de entrada. As camadas ocultas foram
compostas por ni (ni variando de 1 a 3 neurônios), com funções de ativação tansig ou
logsig. Na camada de saída, a RNA retornou o valor genético ou fenotípico predito.
Perceptron Multiplas Camadas
Sant’Anna et al., 36
Predição Genômica
Sondagem, iguais a 100.
RaioAlgoritmo de treinamentoExemplos!!!!
Sant’Anna et al.,
Resultados
37
R² REQMv
CENÁRIOS 1000 100 SW 100S 1000 100 SW 100 S
D0H30_Ad 0.03 ± 0.12 0.57 ± 0.03 0.24 ± 0.05 5.89 ± 0.1 4.9 ± 0.1 5.6 ± 0.2
D0H30_Ep 0.03 ± 0.00 0.47 ± 0.07 0.23 ± 0.03 16.85 ± 1.2 14.2 ± 0.6 15.6 ± 0.6
D0H60_Ad 0.38 ± 0.08 0.79 ± 0.03 0.52 ± 0.08 4.52 ± 0.1 3.5 ± 0.1 4.2 ± 0.1
D0H60_Ep 0.06 ± 0.03 0.58 ± 0.05 0.31 ± 0.06 13.55 ± 0.3 11.1 ± 0.3 12.6 ± 0.3
RBF
RRBLUP
R² REQMv
D0H30_Ad 0.19 ± 0.02 0.57 ± 0.03 0.27 ± 0.05 97 ± 2 90 ± 0 37 ± 4
D0H30_Ep 0.01 ± 0.01 0.42 ± 0.05 0.22 ± 0.04 278 ± 24 443 ± 48 244 ± 27
D0H60_Ad 0.36 ± 0.07 0.79 ± 0.03 0.56 ± 0.09 86 ± 3 71 ± 1 48 ± 3
D0H60_Ep 0.03 ± 0.05 0.57 ± 0.04 0.32 ± 0.08 197 ± 13 320 ± 36 154 ± 5
Sant’Anna et al.,
Resultados
38
R² REQM
CENARIOS MLP RBF RR-BLUP RBF MLP RR-BLUP
D0H30_Ad 0.59 ± 0.02 0.57± 0.03 0.57± 0.03 4.8± 0.1 4.9 ± 0.0 90.3 ± 0.0
D0.5H30_Ad 0.59 ± 0.03 0.59 ± 0.04 0.58 ± 0.05 5.0 ± 0.1 5.0 ± 0.1 138.2± 3.7
D1H30_Ad 0.56 ± 0.07 0.52 ± 0.07 0.54 ± 0.06 13.2 ± 0.2 13.5 ± 0.3 291.6 ± 17.7
D0H30_Ep 0.45 ± 0.05 0.47 ± 0.07 0.42 ± 0.05 14.2 ± 0.4 14.2 ± 0.5 442.6 ± 48.1
D0.5H30_Ep 0.58 ± 0.05 0.54 ± 0.04 0.54 ± 0.06 15.2 ± 0.2 15.5 ± 0.2 249.4 ± 18.9
D1H30_Ep 0.50 ± 0.05 0.44 ± 0.05 0.41 ± 0.04 19.9 ± 0.5 20.7 ± 0.2 427.9 ± 40.6
Sant’Anna et al.,
Resultados
39
D0H60_Ad 0.79 ± 0.03 0.78 ± 0.03 0.79 ± 0.03 3.4 ± 0.13 3.5 ± 0.06 71.4 ± 1
D0.5H60_Ad 0.74 ± 0.04 0.74 ± 0.03 0.73 ± 0.03 3.7 ± 0.11 3.7 ± 0.05 107.4 ± 1
D1H30_Ad 0.64 ± 0.02 0.59 ± 0.04 0.64 ± 0.01 4.4 ± 0.07 4.5 ± 0.15 145.9 ± 5
D0H60_Ep 0.58 ± 0.05 0.59 ± 0.03 0.57 ± 0.04 11.1 ± 0.28 10.9 ± 0.29 320.1 ± 36
D0.5H60_Ep 0.62 ± 0.04 0.60 ± 0.06 0.59 ± 0.05 12.4 ± 0.45 12.5 ± 0.55 280.9 ± 29
VD1H60_Ep 0.58 ± 0.08 0.59 ± 0.08 0.58 ± 0.09 15.7 ± 0.72 15.6 ± 0.55 473.8 ± 22
R² REQM
CENARIOS RBF MLP RR-BLUP RBF MLP RR-BLUP
Sant’Anna et al.,
Considerações Finais
40
As redes neurais do tipo Perceptron de múltiplas
camadas ou a rede de base radial (RBF-RNA) são
igualmente recomendáveis para a predição do valor
genético (efeitos da epistasia e dominância).
Reduzir o número de variáveis explicativas resolve
os problemas de multicolinearidade e de
dimensionalidade, sem que haja perda de
informações genéticas relevantes.
Referências Bibliográficas
[1] HASTIE, T.; TIBSHIRANI, R.; FRIEDMAN, J. The Elements of Statistical
Learning: Data Mining, Inference, and Prediction. 2ª ed. Nova York: Springer,
2009. 745p.
[2] HAYKIN, S. Redes Neurais – Princípios e Práticas. 2ª ed. Porto Alegre:
Bookman, 2009. 900p.
43Sant’Anna et al.