metodologias de classificação supervisionada para análise de dados de microarrays orientadora:...

21
Metodologias de Metodologias de Classificação Classificação Supervisionada para Supervisionada para Análise de Dados de Análise de Dados de Microarrays Microarrays Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL) Co-orientadora: Professora Doutora Ana Pires ( CEMAT, IST-UTL) 20/02/2010 Centro de Estatística e Aplicações da Universidade de Lisboa Sílvia Pedro Rebouças [email protected]

Upload: internet

Post on 21-Apr-2015

114 views

Category:

Documents


2 download

TRANSCRIPT

Page 1: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL) Co-orientadora:

Metodologias de Metodologias de Classificação Classificação

Supervisionada para Supervisionada para Análise de Dados de Análise de Dados de

MicroarraysMicroarrays

Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL)

Co-orientadora: Professora Doutora Ana Pires ( CEMAT, IST-UTL)

20/02/2010

Centro de Estatística e Aplicações da Universidade de Lisboa

Sílvia Pedro Rebouças

[email protected]

Page 2: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL) Co-orientadora:

1. Introdução2. Objectivos3. Estado da arte4. Aplicação5. Referências bibliográficas

CEAUL Sílvia Pedro Rebouças

SumárioSumário

20/02/2010 2

Page 3: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL) Co-orientadora:

Monitorização do nível de expressão de milhares de genes em simultâneo, através

de microarrays.

CEAUL Sílvia Pedro Rebouças

1. Introdução1. Introdução

20/02/2010 3

Biologia

EstatísticaAprendizagem

Automática

Necessidade de tratar conjuntos de dados complexos, com um número muito elevado de variáveis (p) para um número geralmente reduzido de observações (n).

Page 4: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL) Co-orientadora:

Os estudos desenvolvidos na área da análise de dados de microarrays tentam dar resposta a 3 questões fundamentais (Stekel, 2003):

◦ Quais os genes com expressão diferencial num conjunto de dados relativamente a outro?

◦ Quais as relações presentes entre os genes ou entre os indivíduos em estudo?

◦Como classificar indivíduos tendo por base as suas medidas de expressão genética?

CEAUL Sílvia Pedro Rebouças 20/02/2010 4

ClassificaçãoClassificação

SupervisionadaSupervisionadaNão

supervisionada

Page 5: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL) Co-orientadora:

Classificação Supervisionada:

◦ X é uma matriz contendo a informação referente à quantificação da expressão de p genes para n indivíduos.

◦ xij representa o nível de expressão do j-ésimo gene

(variável) para o i-ésimo indivíduo (observação).

◦ yi identifica o grupo a que pertence o indivíduo.

◦ Para cada indivíduo têm-se xi = (xi1, ..., xip) e yi.

◦ Pretende-se treinar classificadores numa amostra de modelação (learning set)

L = {(x1, y1), …, (xnL, ynL)}

e utilizá-los para classificar novas amostras, denominadas amostras de validação ou teste (test set)

T = {x1, …, xnT}CEAUL Sílvia Pedro Rebouças 20/02/2010 5

Page 6: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL) Co-orientadora:

CEAUL Sílvia Pedro Rebouças

2. Objectivos2. Objectivos

20/02/2010 6

Objectivo geral:Implementar, testar e comparar técnicas de classificação supervisionada aplicadas à análise de dados de microarrays.

Objectivos específicos:◦ Implementar, testar e comparar técnicas de:

Pré-processamento Normalização Imputação de valores omissos Redução de dimensionalidade

Classificação supervisionada 2 grupos ou mais Séries temporais

Avaliação da qualidade do ajustamento e da capacidade preditiva

Page 7: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL) Co-orientadora:

CEAUL Sílvia Pedro Rebouças 20/02/2010 7

◦ Desenvolver aplicações em R: A Language and Environment for Statistical Computing (http://www.R-project.org) capazes de implementar os métodos propostos;

◦ Contribuir para a definição de linhas orientadoras no que diz respeito à escolha da(s) técnica(s) mais adequada(s) de classificação supervisionada de dados de microarrays;

◦ Aplicar as várias técnicas de Data Mining a conjuntos de dados reais de microarrays, na área da saúde, contribuindo para o avanço da investigação nesta área.

Page 8: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL) Co-orientadora:

Métodos de classificação supervisionada aplicados a dados de microarrays:

◦ Análise discriminante linear de Fisher, linear diagonalizada e quadrática (Lee et al., 2005);

◦ Regressão logística penalizada (Liao & Chin, 2007);

◦ Árvores de classificação (Boulesteix & Tutz, 2006);◦ Modelos Bayesianos (Roth & Lange, 2004);◦ Vizinhos mais próximos (Boulesteix & Tutz, 2006);◦ Médias difusas (Asyali et al., 2005);◦ Modelos factoriais de misturas (Martella, 2006);◦ Redes neuronais artificiais (O’Neill & Song, 2003);◦ Máquinas de suporte vectorial (Pirooznia & Deng,

2006). CEAUL Sílvia Pedro Rebouças

3. Estado da arte3. Estado da arte

20/02/2010 8

Page 9: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL) Co-orientadora:

Estudos comparativos: Dudoit et al. (2002) e Lee et al. (2005) Estudos de revisão: Boulesteix et al. (2008) e Dupuy & Simon (2007) Classificação em mais do que 2 grupos: Li et al. (2004), Boulesteix &

Tutz (2006) e Kim et al. (2006)

A elevada dimensionalidade dos dados de microarrays tornam a aplicação dos métodos de classificação morosa e por vezes inviável, requerendo uma redução prévia de dimensionalidade.

Métodos de selecção de genes:◦ Selecção de genes com expressão diferencial

teste t, teste de Mann-Whitney, Análise de Variância ou teste de Kruskall-Wallis;

False Discovery Rate (Benjamini & Hochberg, 1995); Métodos bayesianos (Antunes & Sousa, 2008).

◦ Algoritmos moleculares (Ooi & Tan, 2003) Métodos de redução de dimensionalidade:

◦ Análise de componentes principais;◦ Método dos mínimos quadrados parciais (Nguyen & Rocke, 2004);◦ Padrões de interacção (Boulesteix & Tutz, 2006).

CEAUL Sílvia Pedro Rebouças 20/02/2010 9

Page 10: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL) Co-orientadora:

A aplicação de metodologias de classificação supervisionada a dados temporais de microarrays é uma área emergente na genómica funcional, que constitui uma importante fonte de informação para o conhecimento dos processos biológicos e para o desenvolvimento de fármacos e terapêuticas eficientes.

Classificação supervisionada aplicada a dados temporais de microarrays: Laegreid et al. (2003), Liang and Kelemen (2004), Liang and Kelemen (2005) e Tucker et al. (2005)

Pré-processamento de dados temporais de microarrays: Liang et al. (2005)

Esta é uma área pouco estudada e um desafio do ponto de vista estatístico!

CEAUL Sílvia Pedro Rebouças 20/02/2010 10

Page 11: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL) Co-orientadora:

CEAUL Sílvia Pedro Rebouças

4. Aplicação4. Aplicação

20/02/2010 11

Aplicação realizada no Curso de Formação Avançada:◦ Bases de dados:

Leucemia (Golub et al., 1999) Cancro do cólon (Alon et al., 1999)

◦ Métodos de classificação aplicados (biblioteca do R): Regressão logística penalizada (GeneLogit) Àrvores de classificação (tree) Redes neuronais (nnet) Classificador dos vizinhos mais próximos (class)

◦ Pré-processamento: Método 1: thresholding, filtragem e transformação

logarítmica de base 10 (Dudoit et al., 2002) Método 2: Selecção dos genes com expressão diferencial

(teste t)

Page 12: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL) Co-orientadora:

CEAUL Sílvia Pedro Rebouças 20/02/2010 12

◦ Resultados: Leucemia (modelação: 38 ind., validação: 34 ind. )

Método de classificaçãoPré-proces-

samentoNúmero de

genes

Proporção de erros na amostra de modelação

Proporção de erros na amostra de validação

Regressão logística penalizadaMét. 1 3571 (q = 20) 0,0000 0,0294

Méts. 1 e 2 471 (q = 20) 0,0526 0,0588

Árvore de classificaçãoMét. 1 3571 0,0000 0,0882

Méts. 1 e 2 471 0,0526 0,2647

Rede neuronal (Perceptrão simples)

Mét. 1 e 2 471 0,0000 0,2059

Mét. 1 1 0,0000 0,0882

Mét. 1 2 0,1053 0,0882

Rede neuronal (5un) Mét. 1 2 0,0000 0,2059

Classificador vizinhos mais

próximos

k = 1 Mét. 1 e 2 471 0,0000 0,0882

k = 4 Mét. 1 e 2 471 0,0526 0,0000

k = 3 Mét. 1 3571 0,0000 0,0294

Page 13: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL) Co-orientadora:

CEAUL Sílvia Pedro Rebouças 20/02/2010 13

Cancro do cólon (modelação: 31 ind., validação: 31 ind. )

Método de classificaçãoPré-proces-

samentoNúmero de

genes

Proporção de erros na amostra de modelação

Proporção de erros na amostra de validação

Regressão logística penalizada

Nenhum 2000 (q = 2) 0,0645 0,1935Mét. 1 1224 (q = 2) 0,3226 0,3871Mét. 2 60 (q = 2) 0,0645 0,2581

Méts. 1 e 2 43 (q = 2) 0,3226 0,3871

Árvore de classificação

Nenhum 2000 0,0526 0,3226Mét. 1 1224 0,0645 0,3226Mét. 2 60 0,0645 0,3226

Méts. 1 e 2 43 0,0645 0,3226

Rede neuronal (Perceptrão simples)

Mét. 1 2 0,0968 0,1613Mét. 2 60 0,1935 0,3226

Méts. 1 e 2 43 0,0000 0,3871

Rede neuronal com 5 unidades na camada escondida

Mét. 1 2 0,0000 0,2903Mét. 2 60 0,1290 0,3871

Méts. 1 e 2 43 0,0323 0,3548

Classificador vizinhos mais

Próximos

k = 1 Nenhum 2000 0,0000 0,1481k = 1 Mét. 1 1224 0,0000 0,1935k = 1 Mét. 2 60 0,0000 0,2258k = 1 Mét. 1 e 2 43 0,0000 0,2258

Page 14: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL) Co-orientadora:

CEAUL Sílvia Pedro Rebouças 20/02/2010 14

Cancro do cólon (modelação: 40 ind., validação: 22 ind. )

Método de classificaçãoPré-proces-

samentoNúmero de

genes

Proporção de erros na amostra de modelação

Proporção de erros na amostra de validação

Regressão logística penalizada

Nenhum 2000 (q = 2) 0,1000 0,3636

Mét. 1 1224 (q = 2) 0,0750 0,6818

Mét. 2 86 (q = 2) 0,1250 0,1364

Méts. 1 e 2 64 (q = 2) 0,3750 0,6818

Árvore de classificação

Nenhum 2000 0,0750 0,4091

Mét. 1 1224 0,0750 0,4091

Mét. 2 86 0,0750 0,4091

Méts. 1 e 2 64 0,0750 0,4091

Rede neuronal (Perceptrão simples)

Mét. 1 3 0,0750 0,4091

Mét. 2 86 0,0000 0,5909

Méts. 1 e 2 64 0,0250 0,3636

Rede neuronal com 5 unidades na camada escondida

Mét. 1 3 0,0500 0,3636

Mét. 2 86 0,0250 0,3636

Méts. 1 e 2 64 0,0500 0,3636

Classificador vizinhos mais

Próximos

k = 1 Nenhum 2000 0,0000 0,2273

k = 1 Mét. 1 1224 0,0000 0,1818

k = 1 Mét. 2 86 0,0000 0,2727

k = 1 Mét. 1 e 2 64 0,0000 0,1818

Page 15: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL) Co-orientadora:

CEAUL Sílvia Pedro Rebouças 20/02/2010 15

◦ Conclusões: A regressão logística penalizada é suportada por

uma teoria matemática sólida e apresenta bom desempenho, contudo, o algoritmo proposto por Liao & Chin (2007) e implementado na biblioteca GeneLogit revelou-se computacionalmente muito intenso e moroso.

As árvores de classificação apresentam boas capacidades de ajustamento recorrendo a poucas variáveis. Têm como principal atractivo a facilidade de interpretação.

As redes neuronais são um método emergente e com bom desempenho, contudo, o uso de camadas escondidas conduziu geralmente a problemas de sobreaprendizagem. O número de pesos a estimar nos dados de microarrays ultrapassam as capacidades computacionais da biblioteca nnet.

Page 16: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL) Co-orientadora:

CEAUL Sílvia Pedro Rebouças 20/02/2010 16

O classificador dos vizinhos mais próximos, apesar de muito simples, revelou-se um método com excelente desempenho.

Alguns dos genes com maior poder explicativo não apresentam expressão diferencial. A selecção de genes com expressão diferencial pode não ser a melhor forma de lidar com a elevada dimensionalidade dos dados.

Como continuação deste trabalho, está planeado ensaiar e avaliar a aplicação de técnicas multivariadas de redução de dimensionalidade, entre as quais, a análise de componentes principais robusta.

Os resultados diferem consoante a divisão efectuada nas bases de dados em amostra de modelação e amostra de validação, pelo que, pretende-se aplicar em trabalhos futuros o método da validação cruzada para evitar este problema.

Page 17: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL) Co-orientadora:

CEAUL Sílvia Pedro Rebouças 20/02/2010 17

Principais linhas de investigação futura

◦ Metodologias de redução de dimensionalidade

Análise de Componentes Principais Robustas (Branco & Pires, 2009)

◦ Análise comparativa de métodos de classificação supervisionada

◦ Classificação supervisionada de dados temporais de microarrays

Page 18: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL) Co-orientadora:

CEAUL Sílvia Pedro Rebouças

5. Referências 5. Referências bibliográficasbibliográficas

20/02/2010 18

Alon, U.; Barkai, N.; Notterman, D.; Gish, K.; Ybarra, S.; Mack, D. & Levine, A. (1999) Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonucleotide arrays, Proc. Natl. Acad. Sci. USA, 96, 6745-6750.

Antunes, M. & Sousa, L. (2008) Bayesian classification and non-bayesian label estimation via EM algorithm to identify differentially expressed genes: a comparative study, Biometrical Journal, 50 (5), 824-836.

Asyali, M. & Alci, M. (2005) Reliability analysis of microarray data using fuzzy c-means and normal mixture modelling based classification Methods, Bioinformatics, 21, 644-649.

Benjamini, Y. & Hochberg, Y. (1995) Controlling the false discovery rate: a practical and powerful approach to multiple testing, Journal of the Royal Statistical Society, Series B, 57, 289 -300.

Boulesteix, A.-L.; Strobl, C.; Augustin, T. & Daumer, M. (2008) Evaluating microarray-based classifiers: An overview, Cancer Informatics, 6, 77-97.

Page 19: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL) Co-orientadora:

20/02/2010

CEAUL Sílvia Pedro Rebouças 19

Boulesteix, A.-L. & Tutz, G. (2006) Identification of interaction patterns and classification with applications to microarray data, Computational Statistics & Data Analysis, 50, 783-802.

Branco, J.A. & Pires, A.M. (2009) Robust principal component analysis for high-dimensional data. Trabalho submetido.

Dudoit, S.; Fridlyand, J. & Speed, T. (2002) Comparison of discrimination methods for the classification of tumours using gene expression data, Journal of the American Statistical Association, 97 (457), 77-87.

Dupuy, A. & Simon, R. (2007) Critical review of published microarray studies for cancer outcome and guidelines on statistical analysis and reporting, Journal of National Cancer Institute, 99, 147-157.

Golub, T., Slonim, D., Tamayo, P., Huard, C., Gaasenbeek, M., Mesirov, J., Coller, H., Loh, M., Downing, J., Caligiuri, M., Bloomfield, C. & Lander, E. (1999) Molecular classification of cancer: class discovery and class prediction by gene expression monitoring. Science, 286, 531-537.

Kim, Y.; Kwon, S. & Song, S. (2006) Multiclass sparse logistic regression for classification of multiple cancer types using gene expression data, Computational Statistics & Data Analysis, 51, 1643-1655.

Page 20: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL) Co-orientadora:

20/02/2010

CEAUL Sílvia Pedro Rebouças 20

Laegreid, A.; Hvidsten, T.; Midelfart, H. et al. (2003) Predicting gene ontology biological process from temporal gene expression patterns, Genome Research, 13, 965-979.

Lee, J.; Lee, J.; Park, M. & Song, S. (2005) An extensive comparison of recent classification tools applied to microarray data, Computational Statistics & Data Analysis, 48, 869-885.

Li, T.; Zhang, C. & Ogihara, M. (2004) A comparative study of feature selection and multiclass classification methods for tissue classification based on gene expression, Bioinformatics, 20, 15, 2429-2437.

Liang, Y. and Kelemen, A. (2004) Hierarchical Bayesian neural network for gene expression temporal patterns, Statistical Applications in Genetics and Molecular Biology, 3 (1), article 20.

Liang, Y. and Kelemen, A. (2005) Temporal gene expression classification with regularised neural networks, International Journal of Bioinformatics Research and Applications, 1 (4), 399-413.

Liao, J. & Chin, K.-V. (2007) Logistic regression for disease classification using microarray data: model selection in a large p and small n, Bioinformatics, 23, 1945-1951.

Martella, F. (2006) Classification of microarray data with factor mixture models, Bioinformatics, 22, 2, 202-208.

Page 21: Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL) Co-orientadora:

20/02/2010

CEAUL Sílvia Pedro Rebouças 21

Nguyen, D. & Rocke, D. (2004) On partial least squares dimension reduction for microarray-based classification: a simulation study, Computational Statistics & Data Analysis, 46, 407-425.

O’Neill, M. & Song, L. (2003) Neural network analysis of lymphoma microarray data: prognosis and diagnosis near-perfect, BMC Bioinformatics, 4: 13.

Ooi, C. & Tan, P. (2003) Genetic algorithms applied to multi-class prediction for the analysis of gene expression data, Bioinformatics, 19 (1), 37-44.

Pirooznia, M. & Deng, Y. (2006) SVM classifier – a comprehensive Java interface for support vector machine classification of microarray data, BMC Bioinformatics, 7, Suppl 4, S25.

Roth, V. & Lange, T. (2004) Bayesian class discovery in microarray datasets, IEEE Transactions on Biomedical Engineering, 51, 5, 707-718.

Stekel, D. (2003) Microarray Bioinformatics, Cambridge University Press.

Tucker, A.; Vinciotti, V.; Hoen, P. and Liu, X. (2005) Bayesian Network Classifiers for Time-Series Microarray Data, Inteligent Data Analysis, Lecture Notes in Computer Science, 3646, 475-485.