clustering algorithms for gene expression analysis pablo viana fagner nascimento
TRANSCRIPT
Clustering Algorithms for Gene Expression Analysis
Pablo VianaFagner Nascimento
Roteiro
1. Gene Expression Analysis2. Redução de Dimensionalidade3. Clustering4. Hierarchical Clustering5. K-Means6. Self-Organizing Maps7. Gene Clustering8. Sample Clustering9. Região Reguladora10. Conclusão
Gene Expression Analysis
Estudo dos padrões de ativação (expressão) dos genes sobre diversas condições.
Genes que possuem a mesma funcionalidade são comumente ativados pelas mesmas condições.
Gene Expression Analysis Genes codificadores de enzimas que catalisam
um conjunto de reações encadeadas são geralmente co-regulados (e normalmente se localizam próximos no cromossomo).
A ativação conjunta também ajuda a inferir funcionalidades de genes dos quais ainda não temos informações.
Ou ainda o inverso, o padrão de ativação dos genes pode caracterizar doenças e assim gerar novas ferramentas precisas de diagnóstico.
Gene Expression Analysis
Dessa forma diversas técnicas de análise de dados tem sido aplicadas para problemas dessa classe: Redução de Dimensionalidade:
Principal Component Analysis Clustering:
Hierarchical Clustering K-Means
Self-Organizing Maps
Redução de Dimensionalidade
Vetores de dados biológicos possuem muitas dimensões, desta forma métodos que diminuem a dimensionalidade dos dados, facilitam a extração de informações dos mesmos. Seja para sua melhor visualização ou como métodos de pré-processamento.
Redução de Dimensionalidade
Principal Component Analysis (PCA): Método estatístico para projetar pontos de
dimensão M num espaço de dimensão K (K << M).
Encontra a representação num espaço de dimensionalidade menor que descreve os pontos dados com o menor erro possível.
Clustering
O que é clusterizar? Classificar, agrupar, comprimir.
Clustering
Clustering
Tipos de dados Numérico Relacional Nominal
Similaridade / Distância
Número de Clusters
Clustering
Supervisionado: Baseado num conjunto de vetores ou classes
dados. Não-Supervisionado:
Não existe nenhum conhecimento prévio de classificação.
Métodos Híbridos: Métodos supervisionados utilizando
classificações previamente obtidas pela aplicação de um método não-supervisionado.
Hierarchical Clustering Algoritmo:
Os dois elementos mais similares(na matriz de similaridade) unem-se criando-se um novo nó.
A matriz de similaridade é recalculada, com o novo nó substituindo os dois antigos e com valor igual a média dos anteriores.
Com N pontos iniciais, esse processo é repetido N-1 vezes até restar apenas um nó.
Hierarchical Clustering
Hierarchical Clustering
Árvore de Visualização Problema:
Encontrar a melhor ordenação da árvore. Cada filho pode estar a esquerda ou direita.
2N-1 possibilidades. Solução:
Conhecido algoritmo de programação dinâmica: inside portion of the inside-outside algorithm for stochastic context-free grammar
Hierarchical Clustering
Vantagens / Desvantagens
K-Means
Algoritmo: Escolhe-se uma quantidade K de elementos
representativos, do conjunto de dados. Cada ponto é associado ao ‘cluster’ do
representante mais próximo. Novos pontos representantes são calculados
pela média ou centro de gravidade do cluster. Os dois últimos procedimentos são repetidos até
o sistema convergir.
K-Means
K-Means
Vantagens / Desvantagens
Self-Organizing Maps
Parecido com o K-Means Preserva as propriedade topológicas
dos dados Também conhecido como Kohonen
Map, foi descrito pela primeira vez como uma rede neural artificial.
Algoritmo não-supervisionado
Self-Organizing Maps
Possui uma forma muito conveniente para visualização dos dados.
Manipula bem dados não uniformes e irregulares.
Não tem base teórica para determinar a dimensão ótima.
Pode demorar muitas iterações para convergir.
Self-Organizing Maps
Gene Clustering
Sample Clustering
Sample Clustering
DNA e Regiões Reguladoras
Conclusão