agrupamento espectral

23
Agrupamento espectral e um experimento educacional Nicolau L. Werneck LTI—PCS—USP Geekie, São Paulo 20 de Novembro de 2012

Upload: nicolau-werneck

Post on 26-May-2015

307 views

Category:

Technology


3 download

DESCRIPTION

Short presentation about spectral clustering, including one experiment with simulated data...

TRANSCRIPT

Page 1: Agrupamento espectral

Agrupamento espectral e umexperimento educacional

Nicolau L. Werneck

LTI—PCS—USP

Geekie, São Paulo20 de Novembro de 2012

Page 2: Agrupamento espectral

Resumo e Sumário

O agrupamento espectral, ou spectral clustering é umatécnica que permite a classificação não-supervisionada.

Discutiremos a técnica, e um experimento com dados deuma simulação de testes respondidos por alunos.

Referência: von Luxburg [2007].

Sumário:

1 Teoria2 Experimentos3 Conclusão

1 / 18

Page 3: Agrupamento espectral

Algumas definições

Cada amostra di ∈ Rc possui um conjunto decaracterísticas, e existe uma função de similaridade

sij = f (di ,dj), sij ∈ R.

O resultado do método é um mapeamento

di → bi , bi ∈ Rn.

A partir de sij são produzidos os bi , permitindo aplicartécnicas de agrupamento por densidade, como k-médias.

2 / 18

Page 4: Agrupamento espectral

Exemplo

Algoritmos como k-médias não suportam regiõescôncavas. A clusterização espectral lida com isto,simplificando a análise.

(Figura de Ng et al. [2002].)

3 / 18

Page 5: Agrupamento espectral

Modelo de grafo

4 / 18

Page 6: Agrupamento espectral

Modelo de grafo

4 / 18

Page 7: Agrupamento espectral

Modelo de grafo

4 / 18

Page 8: Agrupamento espectral

Modelo de grafo

4 / 18

Page 9: Agrupamento espectral

Interpretações

Corte de grafo — MinCut, RatioCut, etc.Cadeia de Markov. (PageRank)Teoria de perturbação.

5 / 18

Page 10: Agrupamento espectral

Algoritmo

1 Determinar vértices vizinhos.2 Montar matriz com valores de similaridade.3 Calcular matriz Laplaciana.4 Encontrar menores autovalores e autovetores.5 Utilizar linhas dos autovetores como coordenadas deum espaço transformado.

6 Limiarizar, ou aplicar k-médias ou outros algoritmosde agrupamento mais simples.

6 / 18

Page 11: Agrupamento espectral

Experimento

Foi simulada uma classificação de alunos a partir de suasrespostas em um teste.

A classificação indicaria grupos de alunos comdificuldades nas mesmas disciplinas ou tópicos.

7 / 18

Page 12: Agrupamento espectral

Modelo probabilístico

O teste possui questões de múltipla escolha com 4opções. Há diferentes tipos de PDF para cada questão:

Item A B C DQuestão fácil 90% 3,3% 3,3% 3,3%Questão difícil 70% 10% 10% 10%Erro sistemático 10% 70% 10% 10%Chute 25% 25% 25% 25%

A resposta de um teste é uma amostra da PDF conjunta.Simulamos 30 questões respondidas por 100 alunos.

8 / 18

Page 13: Agrupamento espectral

Definição das classes

Há quatro grupos de 25 alunos. Cada classe possui PDFsdiferentes para cada questão.

A primeira classe é o caso base.

1 10 questões fáceis, 10 médias e 10 difíceis.2 Erros sistemáticos em 9 questões.3 6 erros sistemáticos, 5 chutes puros.4 Chute puro em 11 questões.

9 / 18

Page 14: Agrupamento espectral

Dados produzidos

0 20 40 60 80 100Aluno

05

1015202530

Ques

tão

10 / 18

Page 15: Agrupamento espectral

Função de Similaridade

A similaridade entre as respostas de dois alunos é umasoma das similaridades de cada questão, pela tabela:

A B C DA 1.0 0.0 0.0 0.0B 0.0 1.0 0.5 0.5C 0.0 0.5 1.0 0.5D 0.0 0.5 0.5 1.0

Certas ou erradas idênticas → 1.0,Resposta certa + errada → 0.0,Erradas diferentes → 0.5.

11 / 18

Page 16: Agrupamento espectral

Matrizes do problema

0 20 40 60 80 1000

20

40

60

80

100 Matriz de pesos

0 20 40 60 80 1000

20

40

60

80

100 Matriz Laplaciana

12 / 18

Page 17: Agrupamento espectral

Edgels e retas

Edgels são pontos amostrados sobre curvas ou retas.

0 1 2 3 4 5 6 7 8 9Nº autovalor

0.90

0.91

0.92

0.93

0.94

0.95

0.96

0.97

0.98

Valo

r

Primeiros autovalores

0 20 40 60 80 100Aluno

2.0

1.5

1.0

0.5

0.0

0.5

1.0

1.5

2.0

2.5 Primeiros autovetores

13 / 18

Page 18: Agrupamento espectral

Classificação no espaço transformado

As amostras no espaço dos autovetores podem agora serclassificadas utilizando métodos convencionais.

SVM, k-médias, ANN...

Fizemos uma simples classificação de acordo com oquadrante de cada amostra.

14 / 18

Page 19: Agrupamento espectral

Classificação no espaço transformado

2 1 0 1 2

2

1

0

1

2

Amostras no espaço dos autovetores

15 / 18

Page 20: Agrupamento espectral

Resultado da classificaçãoMatriz de confusão

C1 C2 C3 C4C1 21 4 0 0C2 3 20 2 0C3 0 1 23 1C4 1 0 1 23

Desempenho do classificador

C1 C2 C3 C4

Precisão 84% 80% 88% 96% µ: 87%Revocação 84% 80% 92% 92% µ: 87%F-score 84% 80% 90% 94% µ: 87%

16 / 18

Page 21: Agrupamento espectral

Conclusão

Apresentamos a técnica da clusterização espectral, edemonstramos como ela poderia ser útil para ensino.

Nosso experimento ilustra bem a técnica, mas:

1 O modelo probabilístico é bastante rudimentar.2 É preciso analisar dados reais.3 Uma aplicação com muitos dados precisa utilizartécnicas numeŕicas sofisticadas.

17 / 18

Page 22: Agrupamento espectral

Fim

Obrigado!

Nicolau Werneck <[email protected]>

18 / 18

Page 23: Agrupamento espectral

Referências BibliográficasAndrew Y. Ng, Michael I. Jordan, and Yair Weiss. On spectral clustering:

Analysis and an algorithm. In Neural Information Processing Systems,2002. URLhttp://books.google.com/books?hl=en&lr=&id=GbC8cqxGR7YC&oi=fnd&pg=PA849&dq=On+Spectral+CLustering:+Analysis+and+an+algorithm&ots=ZvN1H01DB5&sig=NsxAYwu8QzKmCeEo-FUfwMwkI4k.

Ulrike von Luxburg. A tutorial on spectral clustering. Statistics andComputing, 17(4):395–416, August 2007. ISSN 0960-3174. doi:10.1007/s11222-007-9033-z. URLhttp://www.springerlink.com/index/10.1007/s11222-007-9033-z.

1 / 1