seminario raissa carol
TRANSCRIPT
BAG-OF-FEATURES
Carolina Toledo Ferraz
Raissa Tavares
Visão Computacional 12-06-2012
AGENDA
� Introdução� Bag-of-Words� Bag-of-features� AplicaçõesReferências� Referências
2
INTRODUÇÃO
� Gerenciamento e recuperação de imagens comeficiência
� Recuperação de imagens por conteúdo (CBIR -Content Based Image Retrieval)Content Based Image Retrieval)
Bag-of-words Bag-of-features
3
BAG-OF-WORDS
� Aplicada em recuperação de informações textuais(RI -Information Retrieval)
� Cria um ”dicionário de palavras” responsávelpela categorização textual quando aplicado apela categorização textual quando aplicado arecuperação textual
� Estima a probabilidade de uma palavra estar emum determinado contexto
4
BAG-OF-WORDS
� Usado para a representação de documentos: frequênciasde palavras de um dicionário.
Hoje é o dia dos namorados. O dia dos namorados é comemorado hoje. Feliz dia dos namorados!
Dicionário={1: "hoje"Dicionário={1: "hoje"2:" é"3: "dia"4: "dos"5: "namorados"6:" o"7:" comemorado"8: "feliz"}
[1 1 1 1 1 1 0 0][1 1 2 2 2 1 1 1]
5
Dicionário com 8
palavras visuais
Frequência das
palavras visuais
BAG-OF-FEATURES
Fase 1• Extração de características
Fase 1• Extração de características
Fase 1• Extração de características
6
Fase 2• Aprendizado do vocabulário visual
Fase 3
•Quantificação dos recursos utilizando o vocabuláriovisual•Representação das imagens por meio das frequências depalavras visuais
Fase 2• Aprendizado do vocabulário visual
Fase 3
•Quantificação dos recursos utilizando o vocabuláriovisual•Representação das imagens por meio das frequências depalavras visuais
Fase 2• Aprendizado do vocabulário visual
Fase 3
•Quantificação dos recursos utilizando ovocabulário visual
•Representação das imagens por meio dasfrequências de palavras visuais
BAG-OF-FEATURES – FASE 1
� Identificar trechos locais de interesse emum conjunto de imagens:
� Grid Regular [1],[2]� Detector de ponto de interesse [3],[2],[4]
Fase 1
� Detector de ponto de interesse [3],[2],[4]� Amostragem aleatória [5]� Segmentação baseada em fragmentos(“patches”) [6]
�Representação dos trechos locais(Descritores Visuais)
7
IDENTIFICAR TRECHOS LOCAIS DEINTERESSE EM UM CONJUNTO DE IMAGENS
Fase 1
� Grid Regular
8
IDENTIFICAR TRECHOS LOCAIS DEINTERESSE EM UM CONJUNTO DE IMAGENS
Fase 1
� Detector de pontos de interesse
9
IDENTIFICAR TRECHOS LOCAIS DEINTERESSE EM UM CONJUNTO DE IMAGENS
Fase 1
� Segmentação baseada em fragmentos(“patches”)
10Detecão de fragmentos (“patches”)
REPRESENTAÇÃO DOS TRECHOS LOCAIS(DESCRITORES VISUAIS)
Fase 1
� SURF – Speeded Up Robust Features [7]
� SIFT – Scale Invariant Feature Tranform [8]
� GLOH – Gradient Location and Orientation
11
� GLOH – Gradient Location and OrientationHistogram [9]
� LESH – Local Energy based Shape
Histogram [10]
BAG-OF-FEATURES – FASE 2� Agrupar as características extraídas doconjunto de imagens
� Clusterização: k-means
� Representação de uma palavra visual: centrode cada agrupamento
Fase 2
Representação de uma palavra visual: centrode cada agrupamento
� CODE BOOK: vocabulário visual compostopelas palavras visuais identificadas
� * Outras formas de gerar codebooks:
� Mapas auto-organizáveis [11]� Abordagem estatística [12]
12
AGRUPAR AS CARACTERÍSTICASEXTRAÍDAS DO CONJUNTO DE IMAGENS
Fase 2
� Clusterização: k-means
…
13
Cada “patch” é representadopor um Vetor deCaracterísticas
AGRUPAR AS CARACTERÍSTICASEXTRAÍDAS DO CONJUNTO DE IMAGENS
Fase 2
� Clusterização: k-means
Cada Vetor representaum ponto no espaçomulti-dimensional
14
multi-dimensional
AGRUPAR AS CARACTERÍSTICASEXTRAÍDAS DO CONJUNTO DE IMAGENS
Fase 2
� Clusterização: k-means
15Clustering
REPRESENTAÇÃO DE UMA PALAVRA VISUAL: CENTRO DE CADA AGRUPAMENTO
Fase 2 Palavra visual
1616Clustering
CODE BOOK: VOCABULÁRIO VISUAL COMPOSTO
PELAS PALAVRAS VISUAIS IDENTIFICADAS
Fase 2
17
BAG-OF-FEATURES – FASE 3
�Quantificação das ocorrências de cadapalavra visual em uma determinadaimagem
� Histograma: passa a ser a representação da
Fase 3
� Histograma: passa a ser a representação daimagem
�Aplicação de classificadores e/ou modelosde categorias para definir categorias paraimagens (Paisagens, fotos de carros,retrato de uma pessoa,…)
18
QUANTIFICAÇÃO DAS OCORRÊNCIAS DE CADA
PALAVRA VISUAL EM UMA DETERMINADA
IMAGEM
Fase 3
� Histograma: passa a ser a representação daimagem
19
APLICAÇÃO DE CLASSIFICADORES E/OUMODELOS DE CATEGORIAS PARA DEFINIR
CATEGORIAS PARA IMAGENS
Fase 3
� Redes neurais,� Sistemas Fuzzy,� Algoritmos genéticos,� Classificadores de Bayes� SVM (Support Vector Machine)
20
� SVM (Support Vector Machine)
aprendizadoaprendizado
Detecção de características e representação
DicionárioDicionário de de
palavraspalavras visuaisvisuais
Representação da imagem
reconhecimentoreconhecimento
DecisãoDecisão::
categoriacategoria
Representação da imagem
ModelosModelos de de categorizaçãocategorização
(e/(e/ouou) ) classificadoresclassificadores21
BAG-OF-FEATURES
Aplicações
REPRESENTING AND RECOGNIZING THE VISUAL APPEARANCE OF
MATERIALS USING THREE-DIMENSIONAL TEXTONS
THOMAS LEUNG AND JITENDRA MALIK - 2001
� Problema:
23
OBJETIVOS
� Construir um vocabulário de textons 3D
� Reconhecer na base de modelos uma imagem deum destes materiais sob uma nova visualizaçãoou iluminação.ou iluminação.
24
BANCO DE FILTROS
Fig. 1: Total de 48 filtros
25
TEXTONS 3D
26
CONSTRUINDO O MODELO PARA CADAMATERIAL
� Para cada imagem da base de dados faça:� Encontre a distância mínima entre o vetor de textondo dicionário e o vetor resposta dos filtros no ponto
� Constrói o histograma
27
RECONHECIMENTO DE TEXTURAMÚLTIPLAS IMAGENS
� Amostras de diferentes iluminações e visualização
� Os rótulos são calculados
O histograma é calculado� O histograma é calculado
� Achar a menor distância do histograma da amostra com o histograma do modelo
28
Taxa de reconhecimento
29
reconhecimento global: 95,6%
RECONHECIMENTO DE TEXTURAIMAGEM ÚNICA
� Problema:� Achar o rótulo do texton para cada pixel é difícil
� Características físicas diferentes podem ter a mesma aparênciaaparência
� Algoritmo Markov chain Monte Carlo (MCMC)
30
MCMCMCMC
31
Fig.2: Linha pontilhada material errado, linha contínua material correto
32
87% raio de detecção
13% falso alarme
33
A STATISTICAL APPROACH TO TEXTURECLASSICATION FROM SINGLE IMAGESMANIK VARMA AND ANDREW ZISSERMAN - 2004
34
RESULTADOS
35
ANÁLISE COMPARATIVA ENTRE DESCRITORES VISUAIS APLICADOS ÀSEGMENTAÇÃO EM CENAS
TAMIRES TESSAROLLI DE SOUZA 2011
K-MeansDicionário de palavras visuais
36
Para cada arquivo extrai novamente as características das imagens
Compara cada arquivo com o dicionário de palavras visuais
RESULTADOS DA SEGMENTAÇÃOAUTOMÁTICA
37
RESULTADOS
� Resultados similares com o Sift e o Surf
� Para limiares baixos, excesso de segmentação em cenas rápidas
� Para limiares muito altos, pouca segmentação em cenas lentas
38
VOCABULÁRIOS VISUAIS APLICADOS A DETECÇÃO DEEDIFÍCIOS EM FOTOGRAFIAS HISTÓRICASNATÁLIA COSSE BATISTA 2009
39
PROCESSO
Sift
CodebookCodebook
Histograma de palavras visuais 40
RESULTADOS
Taxa de acerto
Matriz de confusão41
NUDE DETECTION IN VIDEO USING BAG-OF-VISUAL-FEATURESANA PAULA B. LOPESY, SANDRA E. F. DE AVILA, ANDERSON N. A. PEIXOTO,RODRIGO S. OLIVEIRA, MARCELO DE M. COELHOZ AND ARNALDO DE A. ARAÚJOSIBGRAPI 2009
42
MÉTODO
43
RESULTADOS
44
ROBUST FACE RECOGNITION USING BLOCK-BASED BAG OF
WORDS
ZISHENG LI JUN-ICHI IMAIMASAHIDE KANEKO - 2010
45
MÉTODO
46
EXEMPLO
47
RESULTADOS
48
RESULTADOS
49
REFERÊNCIAS[1]Vogel, J.; Schiele, B. Natural scene retrieval based on a semantic modelingstep. In: Conference on image and video retrieval, 2004, Dublin, Irlanda.Proceedings...2004.
[2]Fei-Fei, L.; Perona, P. A Bayesian hierarchical model for learning naturalscene categories. In Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition, San Diego, CA, volume 2, pages 524-531,June 2005.
[3]Csurka, G.; Bray, C.; Dance, C.; Fan, L. Visual categorization with bags ofkeypoints. In Workshop on Statistical Learning in Computer Vision,keypoints. In Workshop on Statistical Learning in Computer Vision,ECCV, pages 1-22, 2004.
[4]Sivic, J.; Russell, B.; Efros, A.; Zisserman, A.; Freeman, W. Discoveringobject categories in image collections. Technical Report A. I. Memo 2005-005, Massachusetts Institute of Technology, 2005.
[5]Ullman, S.; Vidal-Naquet, M.; Sali, E. Visual features of intermediatecomplexity and their use in classification. Nature Neuroscience, v. 5, n. 7,2002, pp. 1-6.
[6]Barnard, K.; Duygulu, P.; Freitas, N.; Forsyth, D.; Blei, D.;Jordan, M. Matching words and pictures. JMLR, 3:1107-1135,February 2003.
50
REFERÊNCIAS[7]Bay, H.; Tuytelaars, T.; Gool, L. V. SURF: Speeded Up Robust Features.CVIU, Vol.110, No. 3, pp. 346-359, 2008.
[8]Lowe, D. G. Distinctive image features from scale-invariant keypoints,Internacional Jornal of Computer Vision, v. 60, n. 2, p 91-110, 2004
[9]Mikolajczyk, K.; Schmid, C. A performance evaluation of local descriptors.IEEE Transactions on Pattern Analysis e Machine Intelligence, 27(10),pp. 1615–1630, 2005.pp. 1615–1630, 2005.
[10]Sarfraz, M. S.; Hellwich, O. Head pose estimation in face recognitionacross pose scenarios. In International conference on Computer VisionTheory and Applications, pp. 235–242, 2008
[11]Kinnunen, T. et al. Bag-of-Features Codebook Generation by Self-Organisation. In: Workshop on advances in self-organizing maps, 7, 2009,Berlim, Alemanha. Proceedings... Springer-Verlag: Berlim. 2009, pp. 124-132.
[12]Zhang, Y.; Jin, R.; Zhou, Z.-H. Understanding bag-of-words model: Astatistical framework. International Journal of Machine Learning andCybernetics, v.1, n.1, 2010, pp. 43-52. 51
REFERÊNCIAS[13] T. Leung and J. Malik. Representing and recognizing the visualappearance of materials using three-dimensional textons. InternationalJournal of Computer Vision, 43(1):29-44, June 2001.
[14] M. Varma and A. Zisserman. A Statistical Approach to TextureClassication from Single Images. Kluwer Academic Publishers. 2004
[15] T. Tessarolli de Souza. Análise comparativa entre descritores visuaisaplicados à segmentação em cenas. Monografia de conclusão de curso.aplicados à segmentação em cenas. Monografia de conclusão de curso.ICMC Usp São Carlos, 2011.
[16] N. C. Batista. Vocabulários visuais aplicados à detecção de edifícios emfotografias históricas. Dissertação de mestrado. UFMG, 2009.
[17] A. P. B. Lopes, S. E. F de Avila, A. N. M. Peixoto, R. S. Oliveira, M. M.Coelho, A. A. Araujo. XXII Brazilian Symposium on Computer Graphicsand Image Processing, 2009;
[18] Z. Lie, J. Imai and M. Kaneko. Robust Face Recognition Using Block-based Bag of Words. 2010 International Conference on PatternRecognition
52
53