clustering algorithms for gene expression analysis pablo viana fagner nascimento

Clustering Algorithms for Gene Expression Analysis

Pablo VianaFagner Nascimento

Roteiro

1. Gene Expression Analysis2. Redução de Dimensionalidade3. Clustering4. Hierarchical Clustering5. K-Means6. Self-Organizing Maps7. Gene Clustering8. Sample Clustering9. Região Reguladora10. Conclusão

Gene Expression Analysis

Estudo dos padrões de ativação (expressão) dos genes sobre diversas condições.

Genes que possuem a mesma funcionalidade são comumente ativados pelas mesmas condições.

Gene Expression Analysis Genes codificadores de enzimas que catalisam

um conjunto de reações encadeadas são geralmente co-regulados (e normalmente se localizam próximos no cromossomo).

A ativação conjunta também ajuda a inferir funcionalidades de genes dos quais ainda não temos informações.

Ou ainda o inverso, o padrão de ativação dos genes pode caracterizar doenças e assim gerar novas ferramentas precisas de diagnóstico.

Gene Expression Analysis

Dessa forma diversas técnicas de análise de dados tem sido aplicadas para problemas dessa classe: Redução de Dimensionalidade:

Principal Component Analysis Clustering:

Hierarchical Clustering K-Means

Self-Organizing Maps

Redução de Dimensionalidade

Vetores de dados biológicos possuem muitas dimensões, desta forma métodos que diminuem a dimensionalidade dos dados, facilitam a extração de informações dos mesmos. Seja para sua melhor visualização ou como métodos de pré-processamento.

Redução de Dimensionalidade

Principal Component Analysis (PCA): Método estatístico para projetar pontos de

dimensão M num espaço de dimensão K (K << M).

Encontra a representação num espaço de dimensionalidade menor que descreve os pontos dados com o menor erro possível.

Clustering

O que é clusterizar? Classificar, agrupar, comprimir.

Clustering

Clustering

Tipos de dados Numérico Relacional Nominal

Similaridade / Distância

Número de Clusters

Clustering

Supervisionado: Baseado num conjunto de vetores ou classes

dados. Não-Supervisionado:

Não existe nenhum conhecimento prévio de classificação.

Métodos Híbridos: Métodos supervisionados utilizando

classificações previamente obtidas pela aplicação de um método não-supervisionado.

Hierarchical Clustering Algoritmo:

Os dois elementos mais similares(na matriz de similaridade) unem-se criando-se um novo nó.

A matriz de similaridade é recalculada, com o novo nó substituindo os dois antigos e com valor igual a média dos anteriores.

Com N pontos iniciais, esse processo é repetido N-1 vezes até restar apenas um nó.

Hierarchical Clustering


Árvore de Visualização Problema:

Encontrar a melhor ordenação da árvore. Cada filho pode estar a esquerda ou direita.

2N-1 possibilidades. Solução:

Conhecido algoritmo de programação dinâmica: inside portion of the inside-outside algorithm for stochastic context-free grammar


Vantagens / Desvantagens

K-Means

Algoritmo: Escolhe-se uma quantidade K de elementos

representativos, do conjunto de dados. Cada ponto é associado ao ‘cluster’ do

representante mais próximo. Novos pontos representantes são calculados

pela média ou centro de gravidade do cluster. Os dois últimos procedimentos são repetidos até

o sistema convergir.

K-Means

K-Means

Vantagens / Desvantagens


Parecido com o K-Means Preserva as propriedade topológicas

dos dados Também conhecido como Kohonen

Map, foi descrito pela primeira vez como uma rede neural artificial.

Algoritmo não-supervisionado


Possui uma forma muito conveniente para visualização dos dados.

Manipula bem dados não uniformes e irregulares.

Não tem base teórica para determinar a dimensão ótima.

Pode demorar muitas iterações para convergir.

Gene Clustering

Sample Clustering

DNA e Regiões Reguladoras

Conclusão

clustering algorithms for gene expression analysis pablo viana fagner nascimento

Documents