clustering algorithms for gene expression analysis pablo viana fagner nascimento

27
Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento

Upload: mariana-de-oliveira-azeredo

Post on 07-Apr-2016

228 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento

Clustering Algorithms for Gene Expression Analysis

Pablo VianaFagner Nascimento

Page 2: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento

Roteiro

1. Gene Expression Analysis2. Redução de Dimensionalidade3. Clustering4. Hierarchical Clustering5. K-Means6. Self-Organizing Maps7. Gene Clustering8. Sample Clustering9. Região Reguladora10. Conclusão

Page 3: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento

Gene Expression Analysis

Estudo dos padrões de ativação (expressão) dos genes sobre diversas condições.

Genes que possuem a mesma funcionalidade são comumente ativados pelas mesmas condições.

Page 4: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento

Gene Expression Analysis Genes codificadores de enzimas que catalisam

um conjunto de reações encadeadas são geralmente co-regulados (e normalmente se localizam próximos no cromossomo).

A ativação conjunta também ajuda a inferir funcionalidades de genes dos quais ainda não temos informações.

Ou ainda o inverso, o padrão de ativação dos genes pode caracterizar doenças e assim gerar novas ferramentas precisas de diagnóstico.

Page 5: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento

Gene Expression Analysis

Dessa forma diversas técnicas de análise de dados tem sido aplicadas para problemas dessa classe: Redução de Dimensionalidade:

Principal Component Analysis Clustering:

Hierarchical Clustering K-Means

Self-Organizing Maps

Page 6: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento

Redução de Dimensionalidade

Vetores de dados biológicos possuem muitas dimensões, desta forma métodos que diminuem a dimensionalidade dos dados, facilitam a extração de informações dos mesmos. Seja para sua melhor visualização ou como métodos de pré-processamento.

Page 7: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento

Redução de Dimensionalidade

Principal Component Analysis (PCA): Método estatístico para projetar pontos de

dimensão M num espaço de dimensão K (K << M).

Encontra a representação num espaço de dimensionalidade menor que descreve os pontos dados com o menor erro possível.

Page 8: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento

Clustering

O que é clusterizar? Classificar, agrupar, comprimir.

Page 9: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento

Clustering

Page 10: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento

Clustering

Tipos de dados Numérico Relacional Nominal

Similaridade / Distância

Número de Clusters

Page 11: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento

Clustering

Supervisionado: Baseado num conjunto de vetores ou classes

dados. Não-Supervisionado:

Não existe nenhum conhecimento prévio de classificação.

Métodos Híbridos: Métodos supervisionados utilizando

classificações previamente obtidas pela aplicação de um método não-supervisionado.

Page 12: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento
Page 13: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento

Hierarchical Clustering Algoritmo:

Os dois elementos mais similares(na matriz de similaridade) unem-se criando-se um novo nó.

A matriz de similaridade é recalculada, com o novo nó substituindo os dois antigos e com valor igual a média dos anteriores.

Com N pontos iniciais, esse processo é repetido N-1 vezes até restar apenas um nó.

Page 14: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento

Hierarchical Clustering

Page 15: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento

Hierarchical Clustering

Árvore de Visualização Problema:

Encontrar a melhor ordenação da árvore. Cada filho pode estar a esquerda ou direita.

2N-1 possibilidades. Solução:

Conhecido algoritmo de programação dinâmica: inside portion of the inside-outside algorithm for stochastic context-free grammar

Page 16: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento

Hierarchical Clustering

Vantagens / Desvantagens

Page 17: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento

K-Means

Algoritmo: Escolhe-se uma quantidade K de elementos

representativos, do conjunto de dados. Cada ponto é associado ao ‘cluster’ do

representante mais próximo. Novos pontos representantes são calculados

pela média ou centro de gravidade do cluster. Os dois últimos procedimentos são repetidos até

o sistema convergir.

Page 18: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento

K-Means

Page 19: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento

K-Means

Vantagens / Desvantagens

Page 20: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento

Self-Organizing Maps

Parecido com o K-Means Preserva as propriedade topológicas

dos dados Também conhecido como Kohonen

Map, foi descrito pela primeira vez como uma rede neural artificial.

Algoritmo não-supervisionado

Page 21: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento

Self-Organizing Maps

Possui uma forma muito conveniente para visualização dos dados.

Manipula bem dados não uniformes e irregulares.

Não tem base teórica para determinar a dimensão ótima.

Pode demorar muitas iterações para convergir.

Page 22: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento

Self-Organizing Maps

Page 23: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento

Gene Clustering

Page 24: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento

Sample Clustering

Page 25: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento

Sample Clustering

Page 26: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento

DNA e Regiões Reguladoras

Page 27: Clustering Algorithms for Gene Expression Analysis Pablo Viana Fagner Nascimento

Conclusão