gtm: generative topographic mapping

9

Upload: goth4christ1

Post on 09-Aug-2015

945 views

Category:

Technology


1 download

TRANSCRIPT

Page 1: GTM: Generative Topographic Mapping
Page 2: GTM: Generative Topographic Mapping

O que é GTM?GTM – Mapeamento Topográfico Gerativo – é

uma ferramenta da Mineração de Dados e um modelo algorítmico/computacional adaptativo e o uso desse modelo se aplica na recuperação de informação (representação, armazenamento e acesso aos dados).

Page 3: GTM: Generative Topographic Mapping

O que é GTM?O modelo GTM (BISHOP,

SVENSÉN & WILLIAMS, 1998) é um modelo que executa um mapeamento paramétrico não linear de um espaço L-dimensional de variáveis (chamadas latentes) para um espaço D-dimensional de dados de entrada onde, normalmente, L<D. Este mapeamento define um subespaço S (contido no espaço de entrada) que representa o espaço de variáveis latentes segundo a transformação y(x,W), a qual mapeia pontos x do espaço latente para pontos v no espaço de dados, como ilustrado na Figura 5 para o caso em que o espaço latente reside em R² (L=2) e o espaço de dados, em R³ (D=3).

Page 4: GTM: Generative Topographic Mapping

Como é? Cada ponto do espaço latente (X-espaço, à esquerda) é levado ao espaço de dados (Vespaço, à

direita) através de um mapeamento paramétrico não linear y(x,W), o qual define um subespaço S contido no espaço de dados. Cada ponto pertencente a S é resultante da aplicação de y(x,W) sobre um ponto pertencente ao X-espaço. Assim, a transformação y(x,W) leva um ponto xa residente no espaço latente e definido pelas suas coordenadas (x1(a), x2(a)), para um ponto y(xa,W), pertencente ao espaço S e definido por suas coordenadas (v1(a), v2(a), v3(a)) no espaço de dados.

A hipótese feita pelo modelo GTM é a de que o comportamento do conjunto de dados no espaço D-dimensional pode de fato ser expresso por um conjunto menor de atributos 2 (as variáveis latentes) através de um mapeamento paramétrico não linear y(x,W). Uma aproximação para esse raciocínio é imaginar que, embora a dimensão do conjunto de entrada possa ser elevada, muitas das variáveis são correlacionadas entre si, resultando num conjunto potencialmente mais simples que pode representar o comportamento dos dados no espaço original (BISHOP, SVENSÉN & WILLIAMS, 1998). Os modelos baseados nesta ideia são chamados modelos de variáveis latentes (BARTHOLOMEW, 1987). O mapeamento realizado pelo GTM utiliza-se normalmente de um modelo de probabilidade baseado em mistura de gaussianas, o qual é adaptado pelo algoritmo EM (Expectation Maximization) (DEMPSTER, LAIRD & RUBIN, 1987; BISHOP, SVENSÉN & WILLIAMS, 1996, 1998;

SVENSÉN, 1998).

Page 5: GTM: Generative Topographic Mapping

Características do modelo GTM Capacidade de operar com conjuntos volumosos de dados;Capacidade de operar com dados representados por um

grande número de características (alta dimensionalidade)Utilização de aprendizado não supervisionado;Capacidade de realizar projeção de dados, reduzindo assim

a dimensionalidade do conjunto de dadosCapacidade de realizar redução de dados, diminuindo a

quantidade de dados exibidos e pela ferramenta;Possibilidade de avaliação gráfica dos resultados obtidos;Algoritmos relativamente simples e rápidos;Capacidade de generalização dos modelos, de forma a

possibilitar a representação de dados não disponíveis no momento do treinamento.

Page 6: GTM: Generative Topographic Mapping

Para que serve?GTM oferece recursos consistentes para análise de

dados, onde há variação de dimensionalidade, quantidade e tipo de dados disponíveis (discretos, contínuos, binários etc.).

Há uma grande variedade de bancos de dados disponíveis(Glass, Ionosphere, Letter, Zoo) para utilização com o método GTM passíveis de uso em mineração de dados.

http://parati.dca.fee.unicamp.br/media/Attachments/courseIA368Q1S2012/Monografia/zuchini_mest.pdf (pag 102)

Page 7: GTM: Generative Topographic Mapping

Quem usa / Onde se aplica?A rede de lojas Walmart na década de 90, fez um grande investimento em

mineração de dados, com uma pergunta básica: Que produto está relacionado a qual? Uma pessoa que compra cervejas compraria mais o que?”. Investiram em hardware com super processadores para buscar essa informação e com os ferramentas da mineração de dados, descobriram que quem compra cervejas, também comprava fraldas, o perfil da pessoa era: homem com filho pequeno, normalmente o primogênito, com habito de tomar cerveja as sextas-feiras e finais de semana. O Walmart com essa informação fazia promoções na quinta ou sexta feira com esses produtos.

Banco Itaú com as malas diretas, através da mineração de dados, eles traçaram o perfil das pessoas que respondiam essas malas diretas e a partir das informações começaram a investir num determinado perfil.

Bank of America utilizou a mineração de dados para verificar para quem o banco deveria fornecer crédito/empréstimo e saber qual perfil de usuário é inadimplente, com isso para quem o banco deveria oferecer esse empréstimo.

O banco Nossa Caixa, Nosso Banco em 2008 desenvolveu um data mining para detecção de fraudes.

Um site de poker que promove partidas online com grandes profissionais suspendeu um jogador, porque o mesmo utilizava a mineração de dados para traçar o perfil dos seus adversários.

Page 8: GTM: Generative Topographic Mapping

Referências Bibliográficashttp://parati.dca.fee.unicamp.br/media/Attach

ments/courseIA368Q1S2012/Monografia/zuchini_mest.pdf

http://www.anchieta.br/unianchieta/revistas/ubiquidade/Site/ubiquidade/pdf/Artigo1.pdf

CPBR10 - Software Livre. Oficina: Data Mining Weka (http://youtu.be/sDD8nsZ1fQo)

Page 9: GTM: Generative Topographic Mapping

GTM: Generative Topographic Mapping

Élide Matos de OliveiraFábio Martins da Silva

Lidiane Cristina de Moraes Marcelo Henrique Fernandes Ribeiro