metodologias de classificação supervisionada para análise de dados de microarrays

Metodologias de Metodologias de Classificação Classificação

Supervisionada para Supervisionada para Análise de Dados de Análise de Dados de

MicroarraysMicroarrays

Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL)

Co-orientadora: Professora Doutora Ana Pires ( CEMAT, IST-UTL)

20/02/2010

Centro de Estatística e Aplicações da Universidade de Lisboa

Sílvia Pedro Rebouças

[email protected]

1. Introdução2. Objectivos3. Estado da arte4. Aplicação5. Referências bibliográficas

CEAUL Sílvia Pedro Rebouças

SumárioSumário

20/02/2010 2

Monitorização do nível de expressão de milhares de genes em simultâneo, através

de microarrays.


1. Introdução1. Introdução

20/02/2010 3

Biologia

EstatísticaAprendizagem

Automática

Necessidade de tratar conjuntos de dados complexos, com um número muito elevado de variáveis (p) para um número geralmente reduzido de observações (n).

Os estudos desenvolvidos na área da análise de dados de microarrays tentam dar resposta a 3 questões fundamentais (Stekel, 2003):

◦ Quais os genes com expressão diferencial num conjunto de dados relativamente a outro?

◦ Quais as relações presentes entre os genes ou entre os indivíduos em estudo?

◦Como classificar indivíduos tendo por base as suas medidas de expressão genética?

CEAUL Sílvia Pedro Rebouças 20/02/2010 4

ClassificaçãoClassificação

SupervisionadaSupervisionadaNão

supervisionada

Classificação Supervisionada:

◦ X é uma matriz contendo a informação referente à quantificação da expressão de p genes para n indivíduos.

◦ xij representa o nível de expressão do j-ésimo gene

(variável) para o i-ésimo indivíduo (observação).

◦ yi identifica o grupo a que pertence o indivíduo.

◦ Para cada indivíduo têm-se xi = (xi1, ..., xip) e yi.

◦ Pretende-se treinar classificadores numa amostra de modelação (learning set)

L = {(x1, y1), …, (xnL, ynL)}

e utilizá-los para classificar novas amostras, denominadas amostras de validação ou teste (test set)

T = {x1, …, xnT}CEAUL Sílvia Pedro Rebouças 20/02/2010 5


2. Objectivos2. Objectivos

20/02/2010 6

Objectivo geral:Implementar, testar e comparar técnicas de classificação supervisionada aplicadas à análise de dados de microarrays.

Objectivos específicos:◦ Implementar, testar e comparar técnicas de:

Pré-processamento Normalização Imputação de valores omissos Redução de dimensionalidade

Classificação supervisionada 2 grupos ou mais Séries temporais

Avaliação da qualidade do ajustamento e da capacidade preditiva


◦ Desenvolver aplicações em R: A Language and Environment for Statistical Computing (http://www.R-project.org) capazes de implementar os métodos propostos;

◦ Contribuir para a definição de linhas orientadoras no que diz respeito à escolha da(s) técnica(s) mais adequada(s) de classificação supervisionada de dados de microarrays;

◦ Aplicar as várias técnicas de Data Mining a conjuntos de dados reais de microarrays, na área da saúde, contribuindo para o avanço da investigação nesta área.

Métodos de classificação supervisionada aplicados a dados de microarrays:

◦ Análise discriminante linear de Fisher, linear diagonalizada e quadrática (Lee et al., 2005);

◦ Regressão logística penalizada (Liao & Chin, 2007);

◦ Árvores de classificação (Boulesteix & Tutz, 2006);◦ Modelos Bayesianos (Roth & Lange, 2004);◦ Vizinhos mais próximos (Boulesteix & Tutz, 2006);◦ Médias difusas (Asyali et al., 2005);◦ Modelos factoriais de misturas (Martella, 2006);◦ Redes neuronais artificiais (O’Neill & Song, 2003);◦ Máquinas de suporte vectorial (Pirooznia & Deng,

2006). CEAUL Sílvia Pedro Rebouças

3. Estado da arte3. Estado da arte

20/02/2010 8

Estudos comparativos: Dudoit et al. (2002) e Lee et al. (2005) Estudos de revisão: Boulesteix et al. (2008) e Dupuy & Simon (2007) Classificação em mais do que 2 grupos: Li et al. (2004), Boulesteix &

Tutz (2006) e Kim et al. (2006)

A elevada dimensionalidade dos dados de microarrays tornam a aplicação dos métodos de classificação morosa e por vezes inviável, requerendo uma redução prévia de dimensionalidade.

Métodos de selecção de genes:◦ Selecção de genes com expressão diferencial

teste t, teste de Mann-Whitney, Análise de Variância ou teste de Kruskall-Wallis;

False Discovery Rate (Benjamini & Hochberg, 1995); Métodos bayesianos (Antunes & Sousa, 2008).

◦ Algoritmos moleculares (Ooi & Tan, 2003) Métodos de redução de dimensionalidade:

◦ Análise de componentes principais;◦ Método dos mínimos quadrados parciais (Nguyen & Rocke, 2004);◦ Padrões de interacção (Boulesteix & Tutz, 2006).


A aplicação de metodologias de classificação supervisionada a dados temporais de microarrays é uma área emergente na genómica funcional, que constitui uma importante fonte de informação para o conhecimento dos processos biológicos e para o desenvolvimento de fármacos e terapêuticas eficientes.

Classificação supervisionada aplicada a dados temporais de microarrays: Laegreid et al. (2003), Liang and Kelemen (2004), Liang and Kelemen (2005) e Tucker et al. (2005)

Pré-processamento de dados temporais de microarrays: Liang et al. (2005)

Esta é uma área pouco estudada e um desafio do ponto de vista estatístico!



4. Aplicação4. Aplicação

20/02/2010 11

Aplicação realizada no Curso de Formação Avançada:◦ Bases de dados:

Leucemia (Golub et al., 1999) Cancro do cólon (Alon et al., 1999)

◦ Métodos de classificação aplicados (biblioteca do R): Regressão logística penalizada (GeneLogit) Àrvores de classificação (tree) Redes neuronais (nnet) Classificador dos vizinhos mais próximos (class)

◦ Pré-processamento: Método 1: thresholding, filtragem e transformação

logarítmica de base 10 (Dudoit et al., 2002) Método 2: Selecção dos genes com expressão diferencial

(teste t)


◦ Resultados: Leucemia (modelação: 38 ind., validação: 34 ind. )

Método de classificaçãoPré-proces-

samentoNúmero de

genes

Proporção de erros na amostra de modelação

Proporção de erros na amostra de validação

Regressão logística penalizadaMét. 1 3571 (q = 20) 0,0000 0,0294

Méts. 1 e 2 471 (q = 20) 0,0526 0,0588

Árvore de classificaçãoMét. 1 3571 0,0000 0,0882

Méts. 1 e 2 471 0,0526 0,2647

Rede neuronal (Perceptrão simples)

Mét. 1 e 2 471 0,0000 0,2059

Mét. 1 1 0,0000 0,0882

Mét. 1 2 0,1053 0,0882

Rede neuronal (5un) Mét. 1 2 0,0000 0,2059

Classificador vizinhos mais

próximos

k = 1 Mét. 1 e 2 471 0,0000 0,0882

k = 4 Mét. 1 e 2 471 0,0526 0,0000

k = 3 Mét. 1 3571 0,0000 0,0294


Cancro do cólon (modelação: 31 ind., validação: 31 ind. )


samentoNúmero de

genes



Regressão logística penalizada

Nenhum 2000 (q = 2) 0,0645 0,1935Mét. 1 1224 (q = 2) 0,3226 0,3871Mét. 2 60 (q = 2) 0,0645 0,2581

Méts. 1 e 2 43 (q = 2) 0,3226 0,3871

Árvore de classificação

Nenhum 2000 0,0526 0,3226Mét. 1 1224 0,0645 0,3226Mét. 2 60 0,0645 0,3226

Méts. 1 e 2 43 0,0645 0,3226


Mét. 1 2 0,0968 0,1613Mét. 2 60 0,1935 0,3226

Méts. 1 e 2 43 0,0000 0,3871

Rede neuronal com 5 unidades na camada escondida

Mét. 1 2 0,0000 0,2903Mét. 2 60 0,1290 0,3871

Méts. 1 e 2 43 0,0323 0,3548


Próximos

k = 1 Nenhum 2000 0,0000 0,1481k = 1 Mét. 1 1224 0,0000 0,1935k = 1 Mét. 2 60 0,0000 0,2258k = 1 Mét. 1 e 2 43 0,0000 0,2258


Cancro do cólon (modelação: 40 ind., validação: 22 ind. )


samentoNúmero de

genes



Regressão logística penalizada

Nenhum 2000 (q = 2) 0,1000 0,3636

Mét. 1 1224 (q = 2) 0,0750 0,6818

Mét. 2 86 (q = 2) 0,1250 0,1364

Méts. 1 e 2 64 (q = 2) 0,3750 0,6818

Árvore de classificação

Nenhum 2000 0,0750 0,4091

Mét. 1 1224 0,0750 0,4091

Mét. 2 86 0,0750 0,4091

Méts. 1 e 2 64 0,0750 0,4091


Mét. 1 3 0,0750 0,4091

Mét. 2 86 0,0000 0,5909

Méts. 1 e 2 64 0,0250 0,3636

Rede neuronal com 5 unidades na camada escondida

Mét. 1 3 0,0500 0,3636

Mét. 2 86 0,0250 0,3636

Méts. 1 e 2 64 0,0500 0,3636


Próximos

k = 1 Nenhum 2000 0,0000 0,2273

k = 1 Mét. 1 1224 0,0000 0,1818

k = 1 Mét. 2 86 0,0000 0,2727

k = 1 Mét. 1 e 2 64 0,0000 0,1818


◦ Conclusões: A regressão logística penalizada é suportada por

uma teoria matemática sólida e apresenta bom desempenho, contudo, o algoritmo proposto por Liao & Chin (2007) e implementado na biblioteca GeneLogit revelou-se computacionalmente muito intenso e moroso.

As árvores de classificação apresentam boas capacidades de ajustamento recorrendo a poucas variáveis. Têm como principal atractivo a facilidade de interpretação.

As redes neuronais são um método emergente e com bom desempenho, contudo, o uso de camadas escondidas conduziu geralmente a problemas de sobreaprendizagem. O número de pesos a estimar nos dados de microarrays ultrapassam as capacidades computacionais da biblioteca nnet.


O classificador dos vizinhos mais próximos, apesar de muito simples, revelou-se um método com excelente desempenho.

Alguns dos genes com maior poder explicativo não apresentam expressão diferencial. A selecção de genes com expressão diferencial pode não ser a melhor forma de lidar com a elevada dimensionalidade dos dados.

Como continuação deste trabalho, está planeado ensaiar e avaliar a aplicação de técnicas multivariadas de redução de dimensionalidade, entre as quais, a análise de componentes principais robusta.

Os resultados diferem consoante a divisão efectuada nas bases de dados em amostra de modelação e amostra de validação, pelo que, pretende-se aplicar em trabalhos futuros o método da validação cruzada para evitar este problema.


Principais linhas de investigação futura

◦ Metodologias de redução de dimensionalidade

Análise de Componentes Principais Robustas (Branco & Pires, 2009)

◦ Análise comparativa de métodos de classificação supervisionada

◦ Classificação supervisionada de dados temporais de microarrays


5. Referências 5. Referências bibliográficasbibliográficas

20/02/2010 18

Alon, U.; Barkai, N.; Notterman, D.; Gish, K.; Ybarra, S.; Mack, D. & Levine, A. (1999) Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonucleotide arrays, Proc. Natl. Acad. Sci. USA, 96, 6745-6750.

Antunes, M. & Sousa, L. (2008) Bayesian classification and non-bayesian label estimation via EM algorithm to identify differentially expressed genes: a comparative study, Biometrical Journal, 50 (5), 824-836.

Asyali, M. & Alci, M. (2005) Reliability analysis of microarray data using fuzzy c-means and normal mixture modelling based classification Methods, Bioinformatics, 21, 644-649.

Benjamini, Y. & Hochberg, Y. (1995) Controlling the false discovery rate: a practical and powerful approach to multiple testing, Journal of the Royal Statistical Society, Series B, 57, 289 -300.

Boulesteix, A.-L.; Strobl, C.; Augustin, T. & Daumer, M. (2008) Evaluating microarray-based classifiers: An overview, Cancer Informatics, 6, 77-97.

20/02/2010

CEAUL Sílvia Pedro Rebouças 19

Boulesteix, A.-L. & Tutz, G. (2006) Identification of interaction patterns and classification with applications to microarray data, Computational Statistics & Data Analysis, 50, 783-802.

Branco, J.A. & Pires, A.M. (2009) Robust principal component analysis for high-dimensional data. Trabalho submetido.

Dudoit, S.; Fridlyand, J. & Speed, T. (2002) Comparison of discrimination methods for the classification of tumours using gene expression data, Journal of the American Statistical Association, 97 (457), 77-87.

Dupuy, A. & Simon, R. (2007) Critical review of published microarray studies for cancer outcome and guidelines on statistical analysis and reporting, Journal of National Cancer Institute, 99, 147-157.

Golub, T., Slonim, D., Tamayo, P., Huard, C., Gaasenbeek, M., Mesirov, J., Coller, H., Loh, M., Downing, J., Caligiuri, M., Bloomfield, C. & Lander, E. (1999) Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science, 286, 531-537.

Kim, Y.; Kwon, S. & Song, S. (2006) Multiclass sparse logistic regression for classification of multiple cancer types using gene expression data, Computational Statistics & Data Analysis, 51, 1643-1655.

20/02/2010


Laegreid, A.; Hvidsten, T.; Midelfart, H. et al. (2003) Predicting gene ontology biological process from temporal gene expression patterns, Genome Research, 13, 965-979.

Lee, J.; Lee, J.; Park, M. & Song, S. (2005) An extensive comparison of recent classification tools applied to microarray data, Computational Statistics & Data Analysis, 48, 869-885.

Li, T.; Zhang, C. & Ogihara, M. (2004) A comparative study of feature selection and multiclass classification methods for tissue classification based on gene expression, Bioinformatics, 20, 15, 2429-2437.

Liang, Y. and Kelemen, A. (2004) Hierarchical Bayesian neural network for gene expression temporal patterns, Statistical Applications in Genetics and Molecular Biology, 3 (1), article 20.

Liang, Y. and Kelemen, A. (2005) Temporal gene expression classification with regularised neural networks, International Journal of Bioinformatics Research and Applications, 1 (4), 399-413.

Liao, J. & Chin, K.-V. (2007) Logistic regression for disease classification using microarray data: model selection in a large p and small n, Bioinformatics, 23, 1945-1951.

Martella, F. (2006) Classification of microarray data with factor mixture models, Bioinformatics, 22, 2, 202-208.

20/02/2010


Nguyen, D. & Rocke, D. (2004) On partial least squares dimension reduction for microarray-based classification: a simulation study, Computational Statistics & Data Analysis, 46, 407-425.

O’Neill, M. & Song, L. (2003) Neural network analysis of lymphoma microarray data: prognosis and diagnosis near-perfect, BMC Bioinformatics, 4: 13.

Ooi, C. & Tan, P. (2003) Genetic algorithms applied to multi-class prediction for the analysis of gene expression data, Bioinformatics, 19 (1), 37-44.

Pirooznia, M. & Deng, Y. (2006) SVM classifier – a comprehensive Java interface for support vector machine classification of microarray data, BMC Bioinformatics, 7, Suppl 4, S25.

Roth, V. & Lange, T. (2004) Bayesian class discovery in microarray datasets, IEEE Transactions on Biomedical Engineering, 51, 5, 707-718.

Stekel, D. (2003) Microarray Bioinformatics, Cambridge University Press.

Tucker, A.; Vinciotti, V.; Hoen, P. and Liu, X. (2005) Bayesian Network Classifiers for Time-Series Microarray Data, Inteligent Data Analysis, Lecture Notes in Computer Science, 3646, 475-485.

metodologias de classificação supervisionada para análise de dados de microarrays

Documents