aprendizagem não-supervisionada
TRANSCRIPT
Aprendizagem Automática
Mestrado em Engenharia Informática
13-04-2023 Aprendizagem Automática / Machine Learning
Sumário
Aprendizagem Não Supervisionada
2
13-04-2023 Aprendizagem Automática / Machine Learning
Tipos de Aprendizagem (revisão) Procura
Dado um espaço de soluções, procurar a melhor (ou uma aceitável)
Aprendizagem por Reforço
Interagir com um ambiente e descobrir qual a melhor acção para cada estado
Aprendizagem Não supervisionada
Dados vários padrões descobrir semelhanças entre eles, agrupá-los
Reduzir número de atributos considerados
Aprendizagem Supervisionada
Sabendo o que se passou no passado, prever o que se segue
Induzir uma regra dados exemplos
3
13-04-2023 Aprendizagem Automática / Machine Learning
Aprendizagem Não-Supervisionada
4
Temp. Max. Humidade Nuvens Ondulação
31º 10% Altas 2m
10º 80% Carregadas 3m
35º 9% Sem nuvens 1.5m
36º 8% Sem nuvens 3m
2º 90% Carregadas 3m
27º 15% Altas 1m
Como agrupar padrões e criar classes?
13-04-2023 Aprendizagem Automática / Machine Learning
Redução de dimensionalidade
Maior facilidade na recolha de informação
Modelos mais simples e rápidos (algoritmos seguintes)
Mais fácil de entender a solução (análise e visualização)
5
Análise de componentes principais (Principal Components Analysis)
Encontrar o sub-espaço, de dimensão menor que maximiza a variância dos dados (os dados ficam "eapalhados" por uma maior superfície).
Análise de componentes principais
Substituição de 2 dimensões por uma combinação linear de ambas (dados a 1 dimensão)
Análise de componentes principais
Calculando a os valores próprios da matriz de covariância e seleccionando a base com os maiores valores próprios associados (para conjuntos grandes: demorado e sujeito a problemas de arredondamentos)
... ou por métodos iterativos
13-04-2023 Aprendizagem Automática / Machine Learning
Agrupamento (Clustering)
Agrupar dados em conjuntos de modo a minimizar a distância entre membros do mesmo conjunto
Dividir conjuntos em N blocos / regiões
9
13-04-2023 Aprendizagem Automática / Machine Learning
Aprendizagem Competitiva[Rumelhart and Zipser 85]
Criar N representantes ao acaso Para cada exemplo: Calcular o representante mais próximo “Aproximar” o representante do exemplo
(só um pouco) Enquanto os representantes “mudarem
muito de posição” do início para o fim da “época”, voltar ao ponto 2 (ou número fixo de épocas).
…10
*Termo usado para designar um sub-grupo dos algoritmos de aprendizagem não-supervisionada
13-04-2023 Aprendizagem Automática / Machine Learning
Online K-Means
Seja X = {x1, x2, x3, … xn} o conjunto de exemplos
E c1, c2, … cm (n >> m) os representantes (inicializados aleatoriamente)
Para cada exemplo (xi): Calcular distância (1) Seleccionar o centro mais próximo: ck (2) Aproximar ck de xi (3)
Enquanto mudar (4)12
13-04-2023 Aprendizagem Automática / Machine Learning
Online K-Means
13
(1)* distância
(2) mais próximo
(3) aproximar
(4) paragem
ikk xcc )1(
2)(),( j
ejijei cxcxd
c
),(minarg eie
cxdk
i
ki cxn
c )(1
)( kikk cxcc
* Podem ser usadas outras medidas de distância (por exemplo nº de atributos diferentes)
13-04-2023 Aprendizagem Automática / Machine Learning
Adaptive Ressonance Theory[Carpenter, Grosseberg 88]
Semelhante ao online K-Means, mas, incremental: Quando um exemplo está "demasiado
longe" de um representante é criada uma nova classe
14
13-04-2023 Aprendizagem Automática / Machine Learning
Mapas Topológicos, Self-Organizing Maps [Kohonen 90]
Semelhante à aprendizagem competitiva, mas:
Cada classe tem um conjunto de vizinhos,
Os vizinhos são alterados progressivamente menos de acordo com a distância
15
13-04-2023 Aprendizagem Automática / Machine Learning
Mapas Topológicos
16
))(( ,,, nvinvnv cxncc
)1()(,0, nncc kv kc
1,vc
1,vc
1,vc
1,vc
ix
2,vc
2,vc
2,vc
2,vc
2,vc
2,vc
2,vc
2,vc
Classificação não-supervisionada
Imagens: Dendrogram. (2008, August 19). In Wikipedia, The Free Encyclopedia. Retrieved 12:30, September 16, 2008, from http://en.wikipedia.org/w/index.php?title=Dendrogram&oldid=232979561
Dendrograma (dendro = árvore)
3 classes
4 classes
2 classes
6 classes
DadosDistância proporcional ao número de atributos diferentes
Classificação por agrupamento Normalmente aplicado a conjuntos com
atributos discretos
Single link: distância entre conjuntos é a menor das distâncias entre os seus elementos
Complete link: distância entre conjuntos é a maior das distâncias entre os seus elementos
COBWEB [Fisher 87]
Conjuntos com atributos discretos Para cada novo exemplo (ponto) pode:
Inserir numa classe existente(simula inserção em todas e calcula a utilidade);
Criar uma nova classe(simula a criação de uma nova classe apenas com o novo exemplo);
Combinar duas classes(simula a combinação das duas classes com maior utilidade para o novo exemplo);
Dividir uma classe(simula retirar o nó imediatamente acima do ponto de inserção do novo exemplo);
COBWEB [Fisher 87]
Utilidade de categoria Minimiza o número de atributos necessário
para determinar de que classe é um exemplo… ou … Maximiza o número de atributos que pode ser
previsto para os elementos de cada classe.
k
vaCvaC
CCCUC l i jijilijil
k
))Pr()|(Pr()Pr(
,...,,
22
21
Todas as categorias (l) Cada atributo (i), todos os valores possíveis (j)
Utilidade diminui com o aumento do número de classes
(Mitchell 97) Tom Mitchell, "Machine Learning", McGraw Hill, 1997, capítulos 2, 3 e 8
R. Duda and P. Hart. Pattern Classification and Scene Analysis. Wiley & Sons, Inc, 1973.
"Self-Organizing Maps and Learning Vector Quantization for Feature Sequences", P. Somervuo and T. Kohonen, Neural Processing Letters, 10(2), 1999, pp. 151-159.
J.R. Quinlan, Induction of Decision Trees, Machine Learning, vol. 1, no. 1, pp. 81-106, 1986.
Giorgio Ingargiola, Building Classification Models: ID3 and C4.5, Computer and Information Science Department, Temple University, Philadelphia.
Referências-base
22AA/ML, Luís Nunes, DCTI/ISCTE
Referências
Some Competitive Learning Methods, Bernd Fritzke, Systems Biophysics Institute for Neural Computation, Ruhr-Universität Bochum, April 5, 1997
Hinton, G. E. and Salakhutdinov, R. R Reducing the dimensionality of data with neural networks. Science, Vol. 313. no. 5786, pp. 504 - 507, 28 July 2006.
S. Lloyd, Last square quantization in PCM’s. Bell Telephone Laboratories Paper (1957). Published in journal much later: S. P. Lloyd. Least squares quantization in PCM. Special issue on quantization, IEEE Trans. Inform. Theory, 28:129–137, 1982.
WEBSOM Publications Bilmes
, J. A Gentle Tutorial on the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models. Technical Report, University of Berkeley, ICSI-TR-97-021, 1997. http://citeseer.ist.psu.edu/bilmes98gentle.ht
[Rumelhart and Zipser 86] Feature discovery by competitive learning, in Mit Press Computational Models Of Cognition And Perception Series, Parallel distributed processing: explorations in the microstructure of cognition, vol. 1: foundations, pp.151 – 193, (1986), ISBN:0-262-68053-X Authors D. E. Rumelhart D. Zipser, Pub. MIT Press Cambridge, MA, USA
Jonathon Shlens, A Tutorial on Principal Component Analysis, Systems Neurobiology Laboratory, Salk Insitute for Biological Studies, 2005
G. A. Carpenter, S. Grosseberg, "The ART of Adaptive Pattern Recognition by Self-Organizing Neural Network", IEEE Computer 21(3), 77-88.
13-04-2023 Aprendizagem Automática / Machine Learning
Sumário
Aprendizagem Não Supervisionada
24