capítulo 11 detecção de tipos de tomadas em vídeos de futebol...

18
Capítulo 11 Detecção de Tipos de Tomadas em Vídeos de Futebol Utilizando a Divergência de Kullback-Leibler Guilherme Alberto Wachs-Lopes * , Werner Fukuma e Paulo S. Rodrigues Resumo: Atualmente, os sistemas de TV Digital apresentam v´ arios desafios na ´ area de an´alise de v´ ıdeo e imagem. Entre eles, h´a a quan- tifica¸c˜ao do tempo de exposi¸ c˜ao de logotipos em eventos esportivos. Uma maneira tradicional de lidar com estes desafios ´ e identificar o tipo de tomada como cˆamera principal e cˆamera secund´ aria. Os passos seguintes, necess´arios para extra¸c˜ao dos logotipos na cena, dependem diretamente da qualidade desta classifica¸c˜ ao. Trabalhos recentes mostram que a an´alise de histograma baseado no sistema HSV gera resultados com bom desempenho. Al´ em disto, pesquisas em mostrado que a an´ alise de imagens e v´ ıdeos usando entropia ao-extensiva como uma ferramenta de classifica¸c˜ao ´ e uma nova e promissora abordagem de investiga¸ c˜ao. Neste trabalho, prop˜ oe-se o uso de entropia n˜ ao-extensiva para um classificador bin´ario de toma- das de cˆamera principal. Os resultados confirmam os desempenhos encontrados na literatura. Palavras-chave: Processamento de v´ ıdeos, Teoria da informa¸c˜ ao, Entropia, Classificador bin´ario. Abstract: Currently, Digital TV systems present several challenges in the area of video and image analysis. Among them, there are the detection of logo time exposure in sports events. A traditional way to face these challenges is to classify the camera shots as main camera shot and secondary camera shot. The main camera shot detection is a step that all the following processes depend of. Recent works show that the histogram analysis based on the HSV system generates results with good performance. Furthermore, researches have shown that the video and image analysis using non-extensive entropy as a classification tool is a new and promising approach of investigation. In this paper we propose the use of non-extensive entropy for a binary classification of main camera shot. The results confirm the performance found in the literature. Keywords: Video processing, Information theory, Entropy, Binary classifier. * Autor para contato: [email protected] Neves et al. (Eds.), Avanços em Visão Computacional (2012) DOI: 10.7436/2012.avc.11 ISBN 978-85-64619-09-8

Upload: others

Post on 24-Aug-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Capítulo 11 Detecção de Tipos de Tomadas em Vídeos de Futebol …omnipax.com.br/livros/2012/AVC/avc-cap11.pdf · 2012. 12. 2. · c˘ao~3resume-se a entropia tradicional de Shannon,

Capítulo 11

Detecção de Tipos de Tomadas em Vídeos de FutebolUtilizando a Divergência de Kullback-Leibler

Guilherme Alberto Wachs-Lopes∗, Werner Fukuma e Paulo S. Rodrigues

Resumo: Atualmente, os sistemas de TV Digital apresentam variosdesafios na area de analise de vıdeo e imagem. Entre eles, ha a quan-tificacao do tempo de exposicao de logotipos em eventos esportivos.Uma maneira tradicional de lidar com estes desafios e identificaro tipo de tomada como camera principal e camera secundaria. Ospassos seguintes, necessarios para extracao dos logotipos na cena,dependem diretamente da qualidade desta classificacao. Trabalhosrecentes mostram que a analise de histograma baseado no sistemaHSV gera resultados com bom desempenho. Alem disto, pesquisastem mostrado que a analise de imagens e vıdeos usando entropianao-extensiva como uma ferramenta de classificacao e uma nova epromissora abordagem de investigacao. Neste trabalho, propoe-se ouso de entropia nao-extensiva para um classificador binario de toma-das de camera principal. Os resultados confirmam os desempenhosencontrados na literatura.

Palavras-chave: Processamento de vıdeos, Teoria da informacao,Entropia, Classificador binario.

Abstract: Currently, Digital TV systems present several challengesin the area of video and image analysis. Among them, there are thedetection of logo time exposure in sports events. A traditional wayto face these challenges is to classify the camera shots as maincamera shot and secondary camera shot. The main camera shotdetection is a step that all the following processes depend of. Recentworks show that the histogram analysis based on the HSV systemgenerates results with good performance. Furthermore, researcheshave shown that the video and image analysis using non-extensiveentropy as a classification tool is a new and promising approachof investigation. In this paper we propose the use of non-extensiveentropy for a binary classification of main camera shot. The resultsconfirm the performance found in the literature.

Keywords: Video processing, Information theory, Entropy, Binaryclassifier.

∗Autor para contato: [email protected]

Neves et al. (Eds.), Avanços em Visão Computacional (2012) DOI: 10.7436/2012.avc.11 ISBN 978-85-64619-09-8

Page 2: Capítulo 11 Detecção de Tipos de Tomadas em Vídeos de Futebol …omnipax.com.br/livros/2012/AVC/avc-cap11.pdf · 2012. 12. 2. · c˘ao~3resume-se a entropia tradicional de Shannon,

202 Wachs-Lopes et al.

1. Introdução

A analise de vıdeos de futebol e uma area que tem ganhado muita atencao,principalmente de emissoras de TV. Seu principal interesse remete a ne-cessidade de se calcular a quantidade e o tempo de propagandas que estaopresentes em cada evento.

Muitos trabalhos tem sido propostos para resolver este problema. EmYeh et al. (2005), os autores consideram duas caracterısticas para detectarcomerciais. A primeira consta de caracterısticas especıficas dos proprioscomerciais e a segunda esta relacionada com a deteccao de cenas. Outrostrabalhos, como Hsu et al. (2003) e Kuhmunch (1997), utilizam templatematching para encontrar a ocorrencia de propagandas.

Entretanto, sabe-se que ha diversos tipos de tomadas presentes emuma transmissao completa de futebol, tais como tomadas de curto e longoalcance. Uma tomada de curto alcance caracteriza-se por imagens deta-lhadas, com foco em um determinado jogador ou objeto. Nestes tipos detomadas, as propagandas sao geralmente encontradas nas camisetas dos jo-gadores. Por outro lado, uma tomada de longo alcance mostra a visao geralsobre o evento. As propagandas normalmente sao encontradas em letreirosou placares ao redor do campo. O reconhecimento destas tomadas pode serutil para eliminar partes do vıdeo onde nao ha propagandas. Alem disto,pode-se utilizar detectores especıficos para cada tipo de camera, resultandoem uma melhoria na qualidade do reconhecimento.

Com o objetivo de utilizar a informacao de tomada, Watve & Sural(2008) propuseram um metodo que, inicialmente, detecta o tipo de cadacena e utiliza segmentacao para encontrar possıveis regioes de interesse.Tais regioes podem potencialmente conter outdoors. Finalmente, utilizandotemplate matching, os outdoors sao reconhecidos individualmente.

Trabalhos recentes na area de analise de imagens (Rodrigues & Gi-raldi, 2009), principalmente baseados em mecanica estatıstica e informacaomutua (Esqueff, 2002), sugerem que imagens naturais podem ser melhorestudadas, caso sejam consideradas sistemas nao-extensivos. Assim, o pre-sente trabalho propoe analisar uma imagem de evento esportivo, comofutebol, nao como um sistema fısico tradicional (como tendo distribuicaode probabilidades de caracterısticas com igual importancia no calculo dainformacao), mas como um sistema fısico cujos elementos correlacionadosentre si possuem importancia ponderada. Desta forma, tais elementos,como caracterısticas de cor, podem ser modelados como um sistema fısiconao-extensivo Tsalliano (Tsallis, 1988).

Resultados experimentais mostram que, considerar a informacao mu-tua entre os histogramas dos frames do vıdeo e do histograma medio deuma classe melhora a deteccao dos frames como camera 1 e nao-camera 1,tratando-se esta a conclusao e contribuicao principal deste trabalho.

Page 3: Capítulo 11 Detecção de Tipos de Tomadas em Vídeos de Futebol …omnipax.com.br/livros/2012/AVC/avc-cap11.pdf · 2012. 12. 2. · c˘ao~3resume-se a entropia tradicional de Shannon,

Detecção de tipos de tomadas em vídeos de futebol 203

Assim, e proposto neste trabalho a medida da informacao mutua entreframes de um vıdeo com a media de uma classe, calculadas sob a distri-buicao de probabilidade da mantissa em um sistema HSV, utilizando umabase supervisionada de 45.000 frames. A medida do limiar de corte de se-paracao entre as classes e calculada como aquela que maximiza a area soba curva ROC.

Este capıtulo esta organizado da seguinte forma. As Secoes 2 e 3 apre-sentam os conceitos presentes na teoria da informacao. Na Secao 4 descre-vemos o modelo e os experimentos. Finalmente, na Secao 5 os resultadosobtidos sao apresentados e discutidos.

2. Sistemas Não-Extensivos

Muitos sistemas estudados em areas classicas como a mecanica estatısticae, ate mesmo, a termodinamica, apresentam caracterısticas macroscopicasque podem ser investigadas estatisticamente a partir de caracterısticas mi-croscopicas. Estes sistemas possuem uma das propriedades fısicas maisconhecidas, chamada entropia, cujo tipo mais estudado e a entropia deShannon, dada pela equacao 1:

S = −k∑i

pi log pi (1)

onde k e a quantidade de estados do sistema e pi e a probabilidade doestado i ocorrer no sistema, sob a restricao que 0 ≤ pi ≤ 1 e

∑pi = 1, 0.

Tome-se como um exemplo um sistema que contem 2 estados: o lancarde uma moeda. Neste tipo de sistema, se a moeda nao for “viciada”, temosas probabilidades p1 = 0, 5 e p2 = 0, 5. Neste caso, o sistema se comportade forma totalmente aleatoria e nao temos certeza em qual estado a mo-eda pode cair. Desta forma, o sistema e imprevisıvel e a quantidade deinformacao e maxima. Porem, caso a moeda seja viciada e caia mais como mesmo lado no total de jogadas, temos um sistema previsıvel e a quan-tidade de informacao e baixa. A Figura 1 ilustra um grafico do resultadoda entropia em funcao da probabilidade pi. Note que a entropia maximaS = log(w) e alcancada quando as probabilidades dos estados sao iguais.Pode-se concluir entao que a entropia esta relacionada com a quantidadede desordem do sistema.

Dado o significado relevante de sua medida, a entropia chamou atencaode diversos cientistas, abrindo possibilidades de novas aplicacoes em diver-sas areas. No final da decada de 40, esta medida teve sua primeira aplicacaona area da Teoria da Informacao, proposta por Claude Shannon (Shannon,1948). A ideia de Shannon era medir a quantidade de informacao transmi-tida em uma mensagem (Equacao 1). De forma mais especıfica, Shannonconsiderou um microestado (da termodinamica) como sendo a probabili-dade de um possıvel acontecimento. Se a probabilidade de uma mensagem

Page 4: Capítulo 11 Detecção de Tipos de Tomadas em Vídeos de Futebol …omnipax.com.br/livros/2012/AVC/avc-cap11.pdf · 2012. 12. 2. · c˘ao~3resume-se a entropia tradicional de Shannon,

204 Wachs-Lopes et al.

Figura 1. Entropia maxima para um sistema de dois estados.

ocorrer for pequena, entao o sistema contem muita informacao (problemada moeda nao viciada). Porem, se uma mensagem ocorre muito frequente-mente, o sistema tera pouca informacao (problema da moeda viciada).

Uma propriedade importante da entropia de Shannon e conhecida poraditividade. Esta propriedade considera que, para dois sistemas total-mente independentes A e B, a entropia do sistema composto e dada por

S(A⊕B) = S(A) + S(B) (2)

onde S(A) e S(B) sao as entropias dos sistemas A e B, consideradas inde-pendentes.

Contudo, a entropia de Shannon pode nao gerar os mesmos resultadosesperados para muitos sistemas que apresentam caracterısticas especıficas,tais como: interacoes de longo alcance, tanto espacial quanto temporal, ecomportamento fractal nas fronteiras. Tais sistemas sao chamados sistemasnao-extensivos.

Partindo deste princıpio, Tsallis (1988, 1999, 2001) propos uma ge-neralizacao da entropia tradicional, criando o conceito de entropia nao-extensiva, definida por:

Sq = k

1−n∑

i=1

pqi

q − 1(3)

onde k e a constante de Boltzmann, n e o numero de estados do sistemafısico considerado, pi, tal como na secao anterior, e a probabilidade doestado i ocorrer e q e o parametro entropico ajustavel ou parametro denao-extensividade. E importante notar que, quando q tende a 1, a equa-cao 3 resume-se a entropia tradicional de Shannon, sendo portanto umageneralizacao da mesma.

Page 5: Capítulo 11 Detecção de Tipos de Tomadas em Vídeos de Futebol …omnipax.com.br/livros/2012/AVC/avc-cap11.pdf · 2012. 12. 2. · c˘ao~3resume-se a entropia tradicional de Shannon,

Detecção de tipos de tomadas em vídeos de futebol 205

Figura 2. Distribuicoes de entropias para diferentes valores de q em umsistema de dois estados.

Da mesma forma como foi abordado anteriormente, a Figura 2 ilus-tra a entropia nao-extensiva com diversos valores de q para o sistema delancamento de moeda.

3. Entropia Relativa

Definida em 1951 por Kullback e Leibler para sistemas tradicionais, a En-tropia Relativa e uma medida de divergencia estatıstica entre duas dis-tribuicoes probabilısticas. Alguns trabalhos referem-se a entropia relativatambem como distancia de Kullback-Leibler, divergencia I ou ganhode informacao de Kullback-Leibler. A entropia relativa e definidacomo sendo:

DKL(P, P ′) =

k∑i=1

pi · logpip′i

(4)

onde P e P ′ sao as distribuicoes e k o numero de estados do sistemafısico considerado. E importante destacar que, para aplicar a equacao 4, oalfabeto das distribuicoes deve ser o mesmo.

A entropia relativa isoladamente nao deve ser considerada como umamedida de distancia metrica, uma vez que nao atende a propriedade dadesigualdade triangular. Entao,

DKL(p, p′) 6= DKL(p′, p) (5)

Page 6: Capítulo 11 Detecção de Tipos de Tomadas em Vídeos de Futebol …omnipax.com.br/livros/2012/AVC/avc-cap11.pdf · 2012. 12. 2. · c˘ao~3resume-se a entropia tradicional de Shannon,

206 Wachs-Lopes et al.

Desta forma, em Jeffreys (1939) foi proposta uma versao simetrica paraentropia relativa:

D(p, p′) = DKL(p, p′) + DKL(p′, p) (6)

Borland et al. (1998) propuseram a generalizacao da entropia relativapara sistemas nao-extensivos, adicionando o parametro entropico q a com-paracao estatıstica entre duas distribuicoes, conforme a Equacao 7:

DKLq (p, p′) =

k∑i=1

pqi1− q

· (p1−qi − p

′1−qi ) (7)

A vantagem da utilizacao da divergencia de Kullback-Leibler estendidae a adicao do parametro q como um ajuste fino na equacao. Desta forma,podemos obter um q que maximiza os resultados.

4. Metodologia

Neste trabalho, propomos a classificacao dos frames como: tomadas decamera principal (classe 1) e tomadas de camera secundaria (classe 2) (verFigura 4). Entao, pode-se considerar este sistema como um classificadorbinario.

De maneira generica, ha duas maneiras de solucionar este tipo de pro-blema. A primeira delas e atraves da analise direta da imagem, utilizandotecnicas de reconhecimento de objetos inseridos na cena. Este processo re-quer geralmente o uso de algoritmos computacionalmente pesados, muitasvezes inviaveis para processamento em tempo real, uma vez que deman-dam heurısticas com alto nıvel de abstracao. A segunda maneira utilizadescritores estatısticos para extrair informacoes relacionadas a quantidadede informacao.

A maneira mais tradicional para se medir a quantidade de informacaoem uma distribuicao e atraves da entropia classica de Shannon. Porem, osurgimento da entropia nao-extensiva de Tsallis permitiu a inclusao de umnovo parametro que possibilitou o uso da entropia para sistemas onde ateoria classica nao era valida. Um exemplo e o trabalho de Rodrigues &Giraldi (2009) onde foi proposto um metodo de segmentacao de imagenscom calculo automatico do parametro q. Os resultados mostraram que estae uma tecnica promissora para o tratamento de imagens naturais.

Com isto em mente, propoe-se o fluxograma da Figura 3 para a classi-ficacao dos frames utilizando a teoria da informacao.

A parte esquerda da Figura 3 refere-se a base de dados utilizada nestetrabalho. Esta base e composta por 3 vıdeos de aproximadamente meiahora cada um, com um total de 45.000 quadros, obtidos atraves de gravacaode uma partida de futebol televisionada. A Figura 4 mostra alguns quadroscaracterısticos da base.

Page 7: Capítulo 11 Detecção de Tipos de Tomadas em Vídeos de Futebol …omnipax.com.br/livros/2012/AVC/avc-cap11.pdf · 2012. 12. 2. · c˘ao~3resume-se a entropia tradicional de Shannon,

Detecção de tipos de tomadas em vídeos de futebol 207

3.1: Fluxograma da Fase Supervisi-onada da Metodologia. a) Entradade um vıdeo de futebol. b) Su-pervisao manual de cada frame dovıdeo. c) Extracao do histogramahsv-162 de todos os frames do vı-deos. d) Media dos histogramas dosframes classificados como camera 1.e) Fase Classificadora.

3.2: Fluxograma da Fase Classifica-dora de Frames da Metodologia. a)Extracao do histograma HSV-162do frame atual. b) Calculo da di-vergencia de Kullback-Leiber entreo histograma do frame atual e damedia dos histogramas classificadoscomo camera 1. c) Traca a curvaROC, se todas as divergencias fo-ram calculadas. d) Calcula o me-lhor limiar da curva ROC

Figura 3. Fluxogramas da parte supervisionada e da parte classificadorado sistema.

Com o objetivo de estudar as caracterısticas mais discriminantes entreas classes, os vıdeos foram supervisionados e cada frame foi manualmenteclassificado como camera 1 ou camera 2. Este processo corresponde a partedireita da Figura 3.

Page 8: Capítulo 11 Detecção de Tipos de Tomadas em Vídeos de Futebol …omnipax.com.br/livros/2012/AVC/avc-cap11.pdf · 2012. 12. 2. · c˘ao~3resume-se a entropia tradicional de Shannon,

208 Wachs-Lopes et al.

Figura 4. Exemplo de alguns quadros da base. Os quadros 2, 3, 4, 6 e 8sao considerados camera 1, e os demais nao camera 1.

Durante a classificacao, percebeu-se que os frames que foram classifica-dos como tomada principal (classe 1) continham alta concentracao da corverde, porem, em diferentes nıveis de intensidade.

Tendo isto em vista, propos-se o uso do histograma HSV como carac-terıstica discriminante entre ambas as classes, uma vez que diversos tonsde verde sao representados em um intervalo contınuo e reduzido neste tipode histograma.

Conforme o trabalho de Bimbo (1999), a representacao de cores dosistema HSV baseia-se na percepcao humana. Neste modelo, propomosa discretizacao das cores HSV da seguinte forma. O componente H ediscretizado em 18 valores de mantissa, o componente S em 3 valores desaturacao e, finalmente, o componente V em 3 valores de intensidade. Estadiscretizacao gera um histograma de 162 posicoes possıveis. Para efeitos

Page 9: Capítulo 11 Detecção de Tipos de Tomadas em Vídeos de Futebol …omnipax.com.br/livros/2012/AVC/avc-cap11.pdf · 2012. 12. 2. · c˘ao~3resume-se a entropia tradicional de Shannon,

Detecção de tipos de tomadas em vídeos de futebol 209

Figura 5. Histograma HSV medio para ambas as classes, c1 e c2

de comparacao, foram calculados os histogramas medios das classes 1 e 2.Estes histogramas sao calculados a partir da Equacao 8.

Histm =1

|C1|∑i∈C1

Hist(i) (8)

Onde C1 e o conjunto de frames que correspondem as tomadas da cameraprincipal, |C1| e o numero de elementos de C1 e Hist(i) e a funcao para ocalculo do histograma do frame i. Os histogramas medios sao mostrados naFigura 5. A extracao dos histogramas HSV-162 corresponde ao processo cda Figura 3.1.

Em seguida, o processo d esta relacionado ao calculo da media dos his-togramas HSV-162 dos frames supervisionados como camera 1. A Figura5 mostra o histograma medio dos frames supervisionados como camera 1.Por motivos de comparacao, o histograma medio dos frames classificadoscomo camera 2 sao exibidos tambem na Figura 5. Note que as mediasdas classes sao diferentes, indicando que a cor pode ser uma caracterıs-tica discriminante. Desta forma, considerou-se a media da classe 1 como adistribuicao padrao.

O processo e da Figura 3.1 equivale a Fase Classificadora representadapela Figura 3.2. Nesta fase de classificacao dos frames, utilizou-se a di-vergencia de Kullback-Leibler estendida para medir o quanto o histogramade cada frame diferencia do histograma padrao (processos a e b da Figura3.2).

Um experimento foi realizado comparando, atraves da divergencia deKullback-Leibler estendida, todos os frames da classe 1 e da classe 2 com

Page 10: Capítulo 11 Detecção de Tipos de Tomadas em Vídeos de Futebol …omnipax.com.br/livros/2012/AVC/avc-cap11.pdf · 2012. 12. 2. · c˘ao~3resume-se a entropia tradicional de Shannon,

210 Wachs-Lopes et al.

a media da classe 1. Esta medida de distancia servira como base paraclassificar os frames. Se a distancia for abaixo de um valor t, o framesera classificado como camera 1, caso contrario como camera 2. Uma dascontribuicoes deste trabalho e um metodo automatico para o calculo destelimiar t, representados pelos processos c e d da Figura 3.2. Este metodo eexplicado com maiores detalhes na Secao 5.

5. Resultados Experimentais

Para o modelo proposto neste artigo, ha dois parametros que devem serajustados com o objetivo de maximizar os resultados. O primeiro e olimiar t das distancias entre as distribuicoes para separar as classes. Osegundo esta diretamente relacionado a funcao de distancia (Divergenciade Kullback-Leibler estendida) e e conhecido como parametro entropico q.

E proposto o uso da curva ROC para medir a qualidade da classifi-cacao. Desta forma, variando os parametros t e q, e possıvel observar odesempenho do classificador. De acordo com Fawcett (2006), a curva ROCe uma tecnica que relaciona a quantidade de falsos positivos e verdadei-ros positivos. Esta curva e gerada a partir de um parametro t que variasobre uma distribuicao, separando-a em dois grupos. Quanto mais separa-veis forem as classes (menor sobreposicao de elementos das classes), maiorsera a area sob a curva ROC (Az). Portanto, ajustando os parametros doclassificador, pode-se maximizar a area sob a curva ROC (Az).

Para este experimento, definiu-se que TP (True Positive) sao os fra-mes que foram supervisionados como pertencentes a classe 1 e corretamenteclassificados pelo sistema como pertencentes a esta classe; FP (False Posi-tive) sao os frames que foram supervisionados como pertencentes a classe2 e classificados de forma incorreta como pertencentes a classe 1.

Em relacao ao tempo computacional, este experimento e da ordem deO(h×w×n), onde h e a altura do frame, w e a largura e n e quantidade deframes analisados. A divergencia de Kullback-Leibler e utilizada para fazera comparacao dos histogramas par-a-par em tempo O(l), onde l = 162 e onumero de entradas do histograma, ou seja, nao e afetado pela quantidadede frames. A geracao dos histogramas e feita em tempo O(h×w×n), umavez que e necessario a passagem por todos os pixels de todas as imagens.Como a comparacao de todos os frames com a media da classe e da ordemO(n), a complexidade do algoritmo e limitada superiormente por O(h ×w × n).

Os resultados da classificacao sao apresentados Figura 6. Nesta dis-tribuicao, cada ponto representa a distancia de Kullback-Leibler do histo-grama HSV do frame para o histograma HSV medio da classe 1. A linhatracejada separa a distribuicao de duas formas: o lado esquerdo representaos frames que foram supervisionados como pertencentes a classe 1 e, dolado direito, os que pertencem a classe 2. Desta forma, nota-se que a mai-

Page 11: Capítulo 11 Detecção de Tipos de Tomadas em Vídeos de Futebol …omnipax.com.br/livros/2012/AVC/avc-cap11.pdf · 2012. 12. 2. · c˘ao~3resume-se a entropia tradicional de Shannon,

Detecção de tipos de tomadas em vídeos de futebol 211

oria das distancias do lado esquerdo sao baixas (proximas ao padrao) e, asdistancias do lado direito sao altas (fora do padrao). A linha contınua re-presenta o limiar que melhor separa ambas as classes (topt). Os pontos queestao do lado esquerdo devem estar abaixo da linha horizontal contınua. Eos pontos que estao do lado direito devem estar acima da linha horizontal.Quando isto nao ocorre, ha uma classificacao como Falso Negativo e FalsoPositivo, respectivamente. A Figura 7 representa a melhor curva ROC ge-rada nos experimentos. A Figura 8 mostra as areas das curvas ROC paradiferentes valores de q. Pode-se notar que a maior area, Az = 0, 974, estarelacionada ao q = 0, 5.

Na Figura 7, o asterisco representa a melhor relacao entre FPR e TPR,ou seja, a melhor classificacao das classes. O valor de t e o parametrovariante para obtencao desta curva, variando de 0 ao maximo da distri-buicao. Com isto, o valor de topt (que melhor classifica os dois grupos) etopt = 0, 44. Na Figura 6, a linha contınua representa topt. Os resultadosindicam que o histograma HSV e uma caracterıstica que pode classificarcom precisao de ate 97% dos frames (de acordo com a curva ROC ).

6. Discussão

Os resultados obtidos na Secao 5 mostram que o classificador teve um de-sempenho de 97% dos frames supervisionados com q = 0, 5. Este resultadosugere que o sistema em estudo se comporta de maneira nao-extensiva.

Porem, mesmo utilizando a teoria da informacao nao-extensiva, os re-sultados nao foram totalmente corretos. Por este motivo, decidiu-se ana-lisar quais frames tiveram as piores classificacoes. A Figura 9 mostra umframe supervisionado como camera 1 e classificado como nao camera 1.Uma justificativa para este resultado pode ser dada pela concentracao dacor verde no campo. Na Figura 9, nota-se que a camera 1 esta ampli-ada em uma determinada parte do campo. Isto pode ter feito com que adistribuicao de verde diminuısse, uma vez que as faixas de grama estao am-pliadas, causando uma diferenca maior entre o histograma HSV do framee o histograma HSV padrao.

Com relacao ao pior falso positivo, a Figura 10 ilustra o frame em ques-tao. Esta figura trata-se de uma transicao entre cenas. As transicoes saocriadas considerando informacoes tanto da cena anterior quanto da pro-xima cena. Isto significa que o histograma HSV de um frame de transicaoproximo a um frame de camera 1 e semelhante ao histograma HSV medioda classe 1, justificando o resultado obtido.

Os erros de classificacao obtidos sao justificados pela propria composi-cao histogramica dos frames. Os resultados mostraram que esta caracterıs-tica nao e suficiente para classificar corretamente os frames como camera1. Isto significa que, para se alcancar 100% de acerto, deve-se eleger umanova caracterıstica discriminante.

Page 12: Capítulo 11 Detecção de Tipos de Tomadas em Vídeos de Futebol …omnipax.com.br/livros/2012/AVC/avc-cap11.pdf · 2012. 12. 2. · c˘ao~3resume-se a entropia tradicional de Shannon,

212 Wachs-Lopes et al.

Figura 6. Distancias entre os histogramas dos frames e o histogramamedio da classe 1.

Page 13: Capítulo 11 Detecção de Tipos de Tomadas em Vídeos de Futebol …omnipax.com.br/livros/2012/AVC/avc-cap11.pdf · 2012. 12. 2. · c˘ao~3resume-se a entropia tradicional de Shannon,

Detecção de tipos de tomadas em vídeos de futebol 213

Figura 7. Curva ROC para qopt.

Figura 8. Areas abaixo da curva ROC para diferentes valores de q.

Page 14: Capítulo 11 Detecção de Tipos de Tomadas em Vídeos de Futebol …omnipax.com.br/livros/2012/AVC/avc-cap11.pdf · 2012. 12. 2. · c˘ao~3resume-se a entropia tradicional de Shannon,

214 Wachs-Lopes et al.

Figura 9. Pior Falso Negativo.

Alem disto, pode-se notar que a variacao do valor do parametro en-tropico q nao alterou os resultados de forma significativa (menor que 4%),

Figura 10. Pior Falso Positivo.

Page 15: Capítulo 11 Detecção de Tipos de Tomadas em Vídeos de Futebol …omnipax.com.br/livros/2012/AVC/avc-cap11.pdf · 2012. 12. 2. · c˘ao~3resume-se a entropia tradicional de Shannon,

Detecção de tipos de tomadas em vídeos de futebol 215

como pode ser observado na Figura 8. Os mesmos testes foram efetuadospara diferentes discretizacoes do histograma HSV. Os resultados ficaramproximos aos apresentados neste artigo.

7. Conclusão

Neste artigo propos-se um metodo para classificacao da tomada de camerasem jogos de futebol atraves da divergencia de Kullback-Leibler estendida.Foram analisados uma hora e meia de vıdeo em cores num total de 45.000frames de tres vıdeos diferentes. Os tipos de tomadas classificadas foramcamera 1 (camera principal) e nao camera 1. A classificacao como camera1 e fundamental para outras finalidades posteriores, tal como a deteccaode placas de propagandas, demandada por emissoras de TV.

A metodologia proposta usa o histograma HSV-162 para reduzir oespaco de busca com 18 valores de mantissa, 3 de saturacao e 3 de Intensi-dade. Os experimentos mostram que a maior predominancia da mantissae na faixa da cor verde, o que esta de acordo com o valor de mantissapredominante nos frames que representam a camera 1, e tambem e a ca-racterıstica predominante na classificacao, levando a 97% da area maximapossıvel da curva ROC, o que representa uma perda pouco significativaem relacao ao total. Este resultado tambem reforca os dados apresentadosem trabalhos previos da literatura que nao usam entropia nao-extensiva(Halin et al., 2009), mas indicam tambem que a mantissa verde e a maisdiscriminante.

No uso da divergencia de Kulback-Leibler estendida, o valor de q foivariado para uma faixa de 0 a 2, e mostrou influencia pouco significanteno calculo automatico do limiar de separacao entre as classes, indicandoque a escolha deste valor nao e uma tarefa crıtica do processo proposto, noentanto, verificando que a variacao do valor otimo de q encontra-se abaixode 1,0. Assim, pela literatura da entropia nao-extensiva sugere-se que osistema estudado aqui pode ser nao-extensivo. Uma consequencia imediatadesta conclusao e que o sistema fısico estudado pode entao ser melhoravaliado caso sejam consideradas interacoes de longo alcance espaciais etemporais entre os seus estados. A camera 1, uma vez encontrada, podeser subdividida em sub-classes, onde finalmente podem ser feitas analisesmais precisas para deteccao de objetos e pessoas em cenas.

As conclusoes tomadas aqui podem ser estendidas, como trabalhos fu-turos para outros tipos de eventos televisivos que envolvem analise de vıdeo,tais como: deteccao de movimento e analise de cena para indexacao, outrostipos de eventos como volei, basquete e corridas automobilısticas.

Page 16: Capítulo 11 Detecção de Tipos de Tomadas em Vídeos de Futebol …omnipax.com.br/livros/2012/AVC/avc-cap11.pdf · 2012. 12. 2. · c˘ao~3resume-se a entropia tradicional de Shannon,

216 Wachs-Lopes et al.

Agradecimentos

Os autores gostariam de agradecer ao CNPq, CAPES e FAPESP (Fundacaode Amparo a Pesquisa do Estado de Sao Paulo, projeto no 2010/04917-8)– agencias de financiamento cientıfico, bem como ao Centro Universitarioda FEI (Fundacao Educacional Inaciana), pelo suporte a este trabalho.

Referências

Bimbo, A.D., Visual Information Retrival. San Francisco, USA: MorganKaufmann, 1999.

Borland, L.; Plastino, A.R. & Tsallis, C., Information gain withinnonextensive thermostatistics. Journal Of Mathematical Physics,39(12):6490–6501, 1998.

Esqueff, I.A., Tecnicas de Entropia em Processamento Digital de Imagens.Dissertacao de mestrado em instrumentacao cientıfica, Centro Brasi-leiro de Pesquisas Fısicas, Rio de Janeiro, RJ, 2002.

Fawcett, T., An introduction to ROC analysis. Pattern Recognition Letters,27:861–874, 2006.

Halin, A.A.; Rajeswari, M. & Ramachandram, D., Shot view classificationfor playfield-based sports video. In: Proceedings of IEEE InternationalConference on Signal and Image Processing Applications. p. 410–414,2009.

Hsu, W.; Chang, S.F.; Huang, C.W.; Kennedy, L.; Lin, C.Y. & Iyengar,G., Discovery and fusion of salient multi-modal features towards newsstory segmentation. In: Yeung, M.M.; Lienhart, R.W. & Li, C.S.(Eds.), Proceedings of Storage and Retrieval Methods and Applicationsfor Multimedia. v. 5307, p. 244–258, 2003.

Jeffreys, H., Theory Of Probability. Oxford, UK: Oxford University Press,1939.

Kuhmunch, C., On the detection and recognition of television commercials.In: Proceedings of the 1997 International Conference on MultimediaComputing and Systems. Piscataway, USA: IEEE Computer Society,p. 509, 1997.

Rodrigues, P.S. & Giraldi, G.A., Computing the q-index for Tsallis nonex-tensive image segmentation. In: Proceedings of XXII Brazilian Con-ference on Computer Graphics and Image Processing. Los Alamitos,USA: IEEE Computer Society, p. 232–237, 2009.

Shannon, C.E., A mathematical theory of communication. The Bell SystemTechnical Journal, 27:379–423; 623–656, 1948.

Tsallis, C., Possible generalization of Boltzmann-Gibbs statistics. Journalof Statistical Physics, 52(1/2), 1988.

Page 17: Capítulo 11 Detecção de Tipos de Tomadas em Vídeos de Futebol …omnipax.com.br/livros/2012/AVC/avc-cap11.pdf · 2012. 12. 2. · c˘ao~3resume-se a entropia tradicional de Shannon,

Detecção de tipos de tomadas em vídeos de futebol 217

Tsallis, C., Nonextensive statistics: Theoretical, experimental and com-putational evidences and connections. Brazilian Journal Of Physics,29(1):1–35, 1999.

Tsallis, C., Nonextensive statistical mechanincs and thermodynamics: his-torical background and present status. In: Abe, S. & Okamoto, Y.(Eds.), Nonextensive Statistical Mechanics And Its Applications. Ber-lin, Germany: Springer, v. 560 de Lecture Notes In Physics, p. 3–98,2001.

Watve, A. & Sural, S., Soccer video processing for the detection of adver-tisement billboards. Pattern Recognition Letters, 29:994–1006, 2008.

Yeh, J.H.; Chen, J.C.; Kuo, J.H. & Wu, J.L., TV commercial detection innews program videos. In: Proceedings of IEEE International Sympo-sium on Circuts and Systems. Piscataway, USA: IEEE Press, v. 5, p.4594–4597, 2005.

Page 18: Capítulo 11 Detecção de Tipos de Tomadas em Vídeos de Futebol …omnipax.com.br/livros/2012/AVC/avc-cap11.pdf · 2012. 12. 2. · c˘ao~3resume-se a entropia tradicional de Shannon,

218 Wachs-Lopes et al.

Notas BiográficasGuilherme Alberto Wachs Lopes e bacharel e mestre em Ciencia da Com-putacao (Centro Universitario da FEI, 2009 e 2011), atuando principalmente nosseguintes temas: redes complexas, reconhecimento de padroes, visao computaci-onal, computacao grafica e simulacao de fluidos. Atualmente, e doutorando noInstituto de Matematica e Estatıstica da Universidade de Sao Paulo (IME-USP).

Werner Fukuma e graduado em Ciencia da Computacao (Centro Universitarioda FEI, 2009) e atualmente e mestrando no grupo de Inteligencia ArtificialAplicada a Automacao Industrial (Depto. Engenharia Eletrica no CentroUniversitario da FEI). Tem como foco de seu trabalho a area de redes complexase visao computacional.

Paulo Sergio Rodrigues e bacharel, mestre e doutor em Ciencia a Computa-cao (1996, 1999 e 2003, Universidade Federal de Minas Gerais), com estagio naUnivertita Degli Studi di Ancona, Italia (1999). Durante os anos de 2003 a 2006fez pos-doutorado no Laboratorio Nacional de Computacao Cientıfica (LNCC).Ha cerca de 15 anos, suas principais areas de interesse tem sido visao compu-tacional, processamento de imagens, realidade aumentada e reconhecimento depadroes. Tem a area medica como um dos principais alvos dos resultados de seustrabalhos. Em 2005-2006 publicou varios trabalhos na area de analise de imagensde cancer de mama e atualmente vem desenvolvendo tecnicas para reconstrucaode proteses craniofacial. Desde 2007 e professor do Departamento de Ciencia daComputacao do Centro Universitario da FEI e membro do Grupo de InteligenciaArtificial do Departamento de Eletrica da mesma Instituicao. E professor do mes-trado em Engenharia Eletrica ministrando as disciplinas de visao computacionale geometria computacional.