Identificação Visual de Caixas de Medicamentos
Usando Features Correspondentes
Xiankleber Cavalcante Benjamim
Orientador: Prof. Dr. Aquiles Filgueira de Medeiros Burlamaqui
Dissertação de Mestrado apresentada ao
Programa de Pós-Graduação em Engenharia
Elétrica da UFRN (área de concentração:
Engenharia de Computação) como parte dos
requisitos para obtenção do título de Mestre
em Engenharia de Computação e Elétrica.
Número de ordem PPgEE: M000
Natal, RN, julho de 2012
UFRN / Biblioteca Central Zila Mamede
Catalogação da Publicação na Fonte
Benjamim, Xiankleber Cavalcante.
Identificação visual de caixas de medicamentos usando features correspondentes / Xiankleber Cavalcante
Benjamim. – Natal, RN, 2012.
61 f. : il.
Orientador: Prof. Dr. Aquiles Medeiros Filgueira Burlamaqui.
Dissertação (Mestrado) – Universidade Federal do Rio Grande do Norte. Centro de Tecnologia. Programa de
Pós-Graduação Engenharia Elétrica e da Computação.
1. Visão computacional - Algoritmos - Dissertação. 2. Algoritmos - Visão ocular - Dissertação. 3. Features de
identificação - Dissertação. 4. Open Source Computer Vision Library - Dissertação. 4. Medicamentos -
Dissertação. 5. Deficiência visual - Dissertação. I. Burlamaqui, Aquiles Medeiros Filgueira. II. Universidade Federal
do Rio Grande do Norte. III. Título.
RN/UF/BCZM CDU 004.93
Identificação Visual de Caixas de Medicamentos
Usando Features Correspondentes
Xiankleber Cavalcante Benjamim
Dissertação de Mestrado aprovada em 30 de julho de 2012 pela banca examinadora composta
pelos seguintes membros:
_____________________________________________________________________________
Prof. Dr.Aquiles Filgueira de Medeiros Burlamaqui(orientador) . . . . . . . . . . . DCA/UFRN
_____________________________________________________________________________
Prof. Dr. Ricardo Alexsandro de Medeiros Valentim. . . . . . . . . . . . . . . . . . . . DCA/UFRN
Prof.a Dr.a Angélica Félix De Castro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .UFERSA
Dedico este trabalho aos meus pais
Alda e Teodorico (in memoriam),
bem como a tia Alba, que sempre me
apoiaram e me ofereceram toda a
educação necessária ao exercício da
cidadania. À minha esposa, Eloyse,
pela força e ajuda na nossa luta
diária. Finalmente, à Comunidade,
esperando ter contribuído, de
alguma forma, para esclarecer
algumas questões do seu interesse
AGRADECIMENTOS
Primeiramente, agradeço a Deus por ter me proporcionado persistência, dedicação, toda a força e
energia para a conclusão de mais uma etapa na minha vida.
Agradeço à minha família que sempre me apoiou nos momentos mais difíceis.
Agradeço a todos os professores, em especial àqueles que me inspiraram e orientaram, Aquiles
Burlamaqui, Luiz Eduardo Cunha Leite e Luiz Affonso H. Guedes de Oliveira os Coordenadores
do Programa Andres Ortiz Salazar e Luiz Marcos G Goncalves.
Agradeço também àqueles que contribuíram, quer de forma direta ou indireta durante todo o
mestrado, a saber:
- Aos meus amigos Rafael Gomes Bezerra e Gutemberg Santiago, pelas horas e horas de estudo
na construção da dissertação.
- À diretora da Rádio Universitária, Sandra Mara Oliveira de Souza; ao jornalista e ao locutor
Fernando Luiz Amaral Ferreira de Souza, e ao Editor de Áudio, Eduardo Pandolphi.
- Aos demais colegas de pós-graduação, pelas críticas construtivas e sugestões.
RESUMO
Este trabalho utiliza algoritmos de visão computacional relacionados às features na
identificação de caixas de medicamentos para deficientes visuais. O sistema é para pessoas que
apresentam alguma enfermidade que comprometa sua visão, prejudicando a identificação do
medicamento correto a ser ingerido. Utilizamos a câmera, disponível em vários dispositivos
populares como computadores, televisores e celulares, para identificar a caixa do medicamento
correto através da imagem e áudio, mostrando ao deficiente as informações sobre a medicação,
tais como: a posologia, indicação e contra indicações da medicação. Para isso, utilizamos um
modelo de detecção de objetos, usando algoritmos, para identificar as features nas caixas dos
medicamentos e tocando o áudio na hora da detecção das feauteres nas referidas caixas. Os
experimentos realizados com 15 pessoas mostram que onde 93% acreditam que o sistema é útil e
muito útil para identificar os medicamentos pelas caixas. Portanto, torna-se necessário fazer uso
dessa tecnologia para ajudar várias pessoas com deficiência visual a tomarem o medicamento
certo, na hora indicada, previamente pelo médico.
Palavras-chave: Health, Feature, identificação de caixas de medicamento.
ABSTRACT
This work uses computer vision algorithms related to features in the identification of
medicine boxes for the visually impaired. The system is for people who have a disease that
compromises his vision, hindering the identification of the correct medicine to be ingested. We
use the camera, available in several popular devices such as computers, televisions and phones,
to identify the box of the correct medicine and audio through the image, showing the poor
information about the medication, such: as the dosage, indication and contraindications of the
medication. We utilize a model of object detection using algorithms to identify the features in the
boxes of drugs and playing the audio at the time of detection of feauteres in those boxes.
Experiments carried out with 15 people show that where 93 % think that the system is useful and
very helpful in identifying drugs for boxes. So, it is necessary to make use of this technology to
help several people with visual impairments to take the right medicine, at the time indicated in
advance by the physician.
Keywords: Health, Feature, identification of medicine boxes.
SUMÁRIO
Sumário i
Lista de Figuras iii
Lista de Tabelas v
1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .13
1.1 Motivação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.2 Objetivo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3 Metodologia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2 Embasamento Teórico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1 Visão Computacional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 18
2.2 FEATURES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .19
2.2.1 SIFT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. .19
2.2.2 SURF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2.3 Detector Heissiano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 21
2.3 Deficiência visual. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3.1 Catarata. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . .. . . . .23
2.3.2 Glaucoma. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3.3 Degeneração Macular Relacionada à Idade – DMRI. . . . . . . . . . . . . . . . . . . . . . . . . . .. 25
2.3.4 Retinopatia Diabética. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3.5 Cegueira Infantil. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .27
2.3.6 Tracoma. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ..27
2.3.7 Oncocerose. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .29
3 Trabalhos Relacionados. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . .31
3.1 Visão em tempo real usando fóvea móvel com multi-resolução . . . . . . . . . . . . . . . . . . . .31
3.2 Bengala Eletrônica para a navegação de cego. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .32
3.3 Voz ativada para calcular a dosagem de insulina para diabetes em deficientes visuais. . .34
3.4 Detecção de Objetos Rápidos através de um robô em um ambiente desordenado. . . . . . 36
3.5 Reconhecimento de imagens usando técnicas visuais . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.6 Google Goggles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4 Identificação Visual dos Medicamentos através das Features . . . . . . . . . . . . . . . . . . . . . .45
4.1 Reconhecimento das caixas utilizando recursos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.1.1 Detecção das imagens pelo Algoritmo SURF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.1.2 Aplicando a Fóvea . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . 48
4.1.3 Reprodução do Áudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 48
4.2 Interação Humano X Computador . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . 50
5 Experimentos e Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.1 Experimentos e Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.1.1 Recurso na detecção dos objetos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.1.2 Comportamento com olhos vendados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
6 Conclusões e Trabalhos Futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
Referências Bibliográficas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .59
i
Lista de Figuras
1.1 Detecção da caixa de medicamento usando uma Câmera . . . . . . . . . . . . . . . . . . . . . . . . ..15
2.1 Reconhecimento entre duas imagens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2 Exemplo de extração de features SURF. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3 Exemplo de uso de imagens integrais. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . .22
3.1 Rastreamento de uma bola usando uma fóvea em movimento . . . . . . . . . . . . . . . . . . . . . 32
3.2 (a) Diagrama do projeto SmartVision. (b) projeto SmartVision com as
etiquetas RFID no chão. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.3 Diagrama de nível do bloco do sistema. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.4 Sistema de robô móvel equipado com uma câmera Flea2, um SR-4000
TOF sensor, e um sensor de UTM-30LX LRF. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.5 Diagrama do Sistema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .38
3.6 Visão geral de detecção de objetos, que consiste em extração de características,
caixa deslizante, e cálculo da similaridade. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . 39
3.7 Ambiente de destino: (A) layout da sala, e (B) do mapa em 2D criado por
SLAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 40
3.8 Exemplos de imagens capturadas durante o rastreamento automático . . . . . . . . . . . . . . . 40
3.9 Imagens de 59 objetos-alvo, dispostos em ordem aproximada de tamanho
cada vez maior de cima da esquerda para a direita. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.10 Fotos pertencentes a cada classe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .42
3.11 Google Goggles caixa do carregador Ipod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.1 Diagrama do sistema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . .. . . . . . . .45
4.2 Detecção das features pelo algoritmo Surf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.3 Imagens Originais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .49
4.4 Imagens com as remoções . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.1 Detecção da caixa pelas features . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.2 Detecção da caixa pelas features . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
iii
Lista de Tabelas
5.1 Tempos de processamento das características de extração de cada caixa da
medicação computado apenas uma vez. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.2 Taxa de sucesso na detecção das caixas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.3 Dimensões das Caixas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.4 Aplicação do Formulário . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
v
15
Capítulo 1
Introdução
Uma pesquisa realizada pelo Instituto Brasileiro de Geografia e Estatística (IBGE) revela
que no Brasil temos 9,6 % de analfabetos na população com idade acima de 15 anos. A maioria
dos analfabetos no país está concentrada na região Nordeste, representando 53,3 % (7,43
milhões) de todos os brasileiros que não sabem nem ler nem escrever. Esta porcentagem é maior
do que no ano de 2000, quando era de 51,4% (IBGE, 2010). Mesmo assim, o brasileiro agrega
muito valor a dispositivos como celular e TV. Hoje temos mais de um celular por pessoa no
Brasil, e a TV está presente em 96% das residências brasileiras.
Outra informação importante, considerando os objetivos deste trabalho, é salientar o
número igualmente expressivo de pessoas idosas que segundo o IBGE (2000) a quantidade de
idosos (60 anos e mais de idade) chega a 14,5 milhões, passando a representar 9,1% da
população brasileira.
A visão é o principal sentido para percebermos o ambiente em que vivemos. Porém,
grande parcela da população possui algum grau de cegueira ou baixa visão. Uma pesquisa
estatística afirma que cerca de 36 milhões (0,57%) da população mundial são cegos e 124
milhões têm baixa visão (2%) (RESNIKOFF et al., 2004). Entre as causas estão: catarata,
glaucoma, DMRI, retinopatia diabética, cegueira infantil, tracoma e oncocercose, que serão
detalhadas do Capítulo 2. Relaciona-se à velhice o aparecimento de doenças oculares que podem
levar à baixa visão, associando-se à perda da autonomia e independência. A baixa visão é
relatada como o terceiro maior problema crônico do idoso, após as artrites e as cardiopatias, e
não podem ser corrigidas por cirurgias, tratamento clínico, ou lentes convencionais, sendo
indicada uma conduta reabilitacional (GASPARETTO, 2012). Além de ajudar idosos com
deficiência visual este trabalho poderá ser estendido a uma grande parcela da população, que
apresenta certos tipos de deficiências, as quais comprometem a capacidade de enxergar, e que, de
alguma maneira, a impedem de fazer uso de sua medicação correta. Apesar de a Associação
Nacional de Vigilância Sanitária (ANVISA) ter publicado, no dia 23 de dezembro de 2009, em
16
seu Diário Oficial, uma norma na qual diz que os fabricantes de medicamentos são obrigados a
colocar nas caixas o nome do medicamento em braile, além de incluir informações sobre
conservação e prazo de validade do produto após a abertura, grande parcela da população não é
familiarizada com o método braile.
Pessoas com deficiência visual usam outros sentidos como o tato e a audição para
perceber o ambiente. Todavia, muitas tarefas necessitam da visão para a sua realização, como a
verificação de um semáforo, reconhecimento de edifícios, atravessar a rua e muitas outras. Para
pessoas com baixa visão, ou com certos tipos de deficiência visual, existem ampliadores de
óculos, telescópios e dispositivos eletrônicos, que as auxiliam nas tarefas diárias (MARGRAIN,
2000; SCOTT et al., 1999).
No nosso trabalho, propomos um sistema que utiliza técnicas de visão computacional
para detectar caixas de medicamentos (Figura 1.1). Uma pessoa com deficiência visual pode usar
este sistema para obter informações sobre o medicamento, identificar o nome da medicação, a
posologia e as indicações e contraindicações, sem a ajuda de outra pessoa.
17
Figura 1.1: Detecção da caixa de medicamento usando uma Câmera.
Visão computacional é o conjunto de métodos e técnicas, através dos quais, sistemas
computacionais são capazes de interpretar imagens. A interpretação de uma imagem pode ser
definida em termos computacionais, como a transformação de um conjunto de dados digitais,
representando uma imagem (TRUCCO e VERRI, 1998). Visão é o processo de descoberta, a
partir de imagens que estão presentes no mundo (MARR, 1993).
1.1 Motivação
A população mundial está envelhecendo, o número de pessoas idosas está tornando-se
cada vez maior; fato comum em países de primeiro mundo, hoje vem tornando-se realidade em
países em desenvolvimento, como no Brasil (KALACHE, 1987). A perspectiva é que, em 2025,
o Brasil venha a ser o sexto país do mundo em número de idosos. A prevalência da deficiência
visual na população idosa é alta. A acuidade visual diminuída têm repercussões importantes na
função visual e na capacidade funcional dos idosos. Há na visão várias alterações orgânicas
18
comumente manifestadas durante o envelhecimento e que levam à diminuição da acuidade
visual, a qual pode ser ou não restabelecida (GASPARETTO, 2012). As doenças da visão se
apresentam não somente na terceira idade, mas são muito numerosas também em indivíduos
mais jovens, na vida adulta. De acordo com o Censo de 2000, 57,16% da população têm alguma
dificuldade de enxergar, 9,90% da população têm grande dificuldade de enxergar e 0,6% da
população é incapaz de enxergar (NERI, 2004).
O surgimento de novas tecnologias nos move a pensar em iniciativas eficientes que
venham a contribuir com a melhoria da saúde e qualidade de vida, principalmente, dos idosos.
Pensando nisso este trabalho propõe-se, através de uma câmera instalada em qualquer
dispositivo (Computador, celular ou televisão), a reconhecer as imagens das caixas dos
medicamentos utilizando as Features, ajudando os idosos, os deficientes visuais em geral, os
analfabetos, e outras pessoas que, por motivos diversos, apresentam problemas na visão, a
tomarem seus medicamentos certos. Ao fazer uso dos medicamentos receitados pelo médico,
sabendo da posologia do medicamento, das indicações e contraindicações, haverá uma melhoria
tanto em qualidade quanto na expectativa de vida desta parcela da população.
1.2 Objetivo
O objetivo deste trabalho é ajudar adultos em geral e idosos em particular, alfabetizados
ou não, portadores de deficiência visual, a identificar os medicamentos através das Features,
utilizando uma câmera em qualquer dispositivo (Computador, Celular, TV) para assim melhorar
a qualidade de vida desta parcela da população.
1.3 Metodologia
Para identificar as features das caixas dos remédios, devemos apontar a caixa para a
câmera onde a mesma irá identificar os pontos da imagem. Para isso, utilizamos a biblioteca
OpenCV (Open Source Computer Vision Library), originalmente desenvolvida pela Intel, em
2000; essa biblioteca é multiplataforma e totalmente livre para uso acadêmico e comercial. No
desenvolvimento de aplicativos na área de Visão Computacional basta seguir o modelo de
19
licença da BSD Intel. O OpenCV possui módulos de Processamento de Imagens e Video I/O,
Estrutura de dados, Álgebra Linear, GUI (Interface Gráfica do Usuário) básica com sistema de
janelas independentes, controle de mouse e teclado, além de mais de 350 algoritmos de Visão
Computacional como: filtros de imagem, calibração de câmera, reconhecimento de objetos,
análise estrutural e outros (BRADSKY et al, 2006).
20
Capítulo 2
Embasamento Teórico
2.1 Visão Computacional
Com o surgimento da visão computacional na década de 70, pesquisadores
implementaram técnicas para processar imagens. Uma das técnicas utilizada foi subdividida em
partes específicas da visão computacional. Uma dessas subdivisões foi a utilização dos
algoritmos de processamento de imagem: filtros, detecção de borda, etc., para extrair
características humanas de uma imagem.
Em visão computacional existem algumas etapas importantes como:
a) Aquisição de Imagem: O processo de aquisição de imagem consiste em obter uma
sequência de imagens digitais através, de sensores contidos em câmeras digitais.
b) Pré-processamento: O pré-processamento de imagem tem como objetivo preparara
imagem para as etapas seguintes. Entre as técnicas comumente utilizadas em visão
computacional está à correção da distorção barril, redução de ruídos de imagens e ajuste de
contraste (TRUCCO e VERRI, 1998).
c) Extração de características: Alguns pontos da imagem são mais representativos que os
demais. Esses pontos são caracterizados, por exemplo, por cantos, textura, bordas, etc. Tais
pontos são denominados de características (features). Existem diversos algoritmos propostos na
literatura que visam extrair tais pontos na imagem, como SURF (BAY et al., 2006) e SIFT
(LOWE, 2004).
d) Detecção e segmentação: A detecção e segmentação destacam uma região da imagem
e a segmentam, guardando a informação para um processamento posterior.
e) Processamento de alto nível: Nessa etapa, as informações obtidas pelo processamento
de mais baixo nível são utilizadas para o processamento de mais alto nível. Por exemplo, as
features podem ser utilizadas para detectar um objeto na cena (GONZALES e WOODS, 1992).
21
Uma vez detectado o objeto, um módulo de inteligência artificial pode utilizar essa informação
para algum processo de decisão.
Nas aplicações de visão computacional, os computadores já são pré-programados para
resolver uma determinada função. Os métodos de inteligência artificial estão se tornando cada
vez mais comuns. A visão computacional é uma área bastante utilizada atualmente, como, por
exemplo, em sistemas de aprendizagem ao analisar as imagens para reconhecimento de padrões,
como o reconhecimento facial, que identifica e diferencia uma face da outra, ou também, para
sistemas de rastreamento e para que robôs possam enxergar.
2.2 FEATURES
As features são pontos na imagem com variações constantes que destacam-se na região.
Vários métodos estão disponíveis para detecção de features, tais como filtro de Roberts, filtro de
Sobel e detectores de cantos, como o detector de Canny e o detector de Harris (GONZALES e
WOODS, 1992).
Quando trabalhamos com as features, utilizamos dois modelos: SIFT (LOWE, 2004) e
SURF (BAY et al., 2006). São features projetadas para serem invariantes à escala e à rotação.
Quando a região ao redor de uma feature esteja numa rotação ou num escalonamento, o ponto
continua a ser detectado como features.
2.2.1 SIFT
Segundo Lowe (2004), o SIFT é um algoritmo que realiza a análise de qualquer imagem
e descreve a figura sucintamente, com pequenos dados da imagem. Informa e detecta a posição
dos pixels e uma determinada característica na imagem. Por exemplo, em uma foto da face de
uma pessoa ou animal, agrupam-se características dos olhos, boca e nariz. O SIFT transforma
uma imagem em diversos vetores; as características, são por sua vez invariante a translação,
escala, rotação, pouca variação às mudanças de iluminação, ruído de imagem e pequenas
mudanças de perspectivas. Os vetores de características são conhecidos como descritores
utilizados para comparar regiões de imagens diferentes. Com esta técnica, encontram-se
correspondências ponto a ponto entre duas imagens (SPERANDIO 2011) ,como podemos ver na
figura 2.1.
22
Figura 2.1Reconhecimento entre duas imagens.(SPERANDIO e SANTOS, 2011)
2.2.2 SURF
Segundo Bay et al (2006), o algoritmo SURF é inspirado parcialmente no SIFT, na
medida em que irá detectar os pontos de interesse de uma imagem com bom desempenho. O
algoritmo se divide em três etapas: Criação Integral da Imagem, Determinação de Pontos de
Interesse e Criação do Descritor de cada ponto-chave.
Quando o algoritmo do SURF detecta as features, diversas tarefas vão ser realizadas,
como: reconstrução 3D, SLAM, reconhecimento de objetos, etc. (BAY et al., 2006). Na figura
abaixo 2.2 temos um exemplo de features.
23
Figura 2.2: Exemplo de extração de features SURF. Fonte: BAY et al ( 2006)
No SURF os detectores têm como objetivo detectar pontos salientes, distensíveis das
imagens, como cantos. A repetição de um ponto refere-se a quanto esse mesmo ponto continua
sendo detectado sob outros pontos de vista.
O descritor de uma feature é um vetor que atribui um valor único. É desejável que esse
descritor seja robusto a ruído, às mudanças de iluminação e a deformações geométricas. Um
vetor grande pode identificar melhor cada feature, porém é mais custoso computacionalmente.
Enquanto um vetor curto tende a ser menos representativo, porém de baixo custo computacional.
2.2.3 Detector Hessiano
O detector usado é o mesmo proposto por Bay et al (2006), a matriz Hessiana.
Detecta-se como uma feature quando a determinante da matriz é maior que um
determinante limiar. A matriz Hessiana é dada por:
H(x,s) = "Lxx(x,s) Lxy(x,s) Lxy(x,s) Lyy(x,s) #
onde Lxx(x,s) é o resultado da convolação da imagem no ponto x com a derivada segunda
do gaussiano. Para acelerar o cálculo da resposta aos filtros, utilizam-se imagens integrais. Com
as imagens integrais é possível somar qualquer região da imagem utilizando 1 soma, 2 sub.
atrações e 4 consultas à matriz de imagem integral.
24
3 Imagens integrais.
As imagens integrais são definidas como:
Para se obter o somatório de uma região delimitada pelos pontos A, B, C e D, realiza-se
I(A)−I(B)−I(C)+I(D), conforme ilustra a Figura 2.3.
Figura 2.3 Exemplo de uso de imagens integrais. Fonte: [Bay et al. 2006].
Os filtros utilizados para calcular Lxy e Lyy, os dois primeiros filtros usam valores
flutuantes. Se utilizarmos somente pesos inteiros, podemos aproveitar os cálculos obtidos pela
imagem integral e obter a resposta ao filtro com poucas operações.
A determinante da Hessiana é calculada da seguinte forma [BAY et al. 2006):
det(Happrox) = DxxDyy−(wDxy)2 , onde w ≃ 0.9.
O espaço escala é dividido em oitavas. A cada oitava, a frequência de amostras é
reduzida pela metade. Então, na primeira oitava teremos candidatos a features em todos.
25
Derivadas parciais em Y e em XY, e a aproximação usando imagens integrais.Fonte:
(BAY et al. 2006)
Na segunda, passaremos por metade dessa frequência, isto é, de dois em dois pixels. Na
terceira oitava, teremos intervalo de 22 = 4 pixels, e assim por diante para as demais oitavas.
2.3 Deficiência Visual
Deficiência visual é a perda ou redução da capacidade visual em ambos os olhos, com
carácter definitivo, não sendo susceptível de ser melhorada ou corrigida com o uso de lentes e/ou
tratamento clínico ou cirúrgico. De entre os deficientes visuais, podemos ainda distinguir os
portadores de cegueira e os de visão subnormal.
As causas das deficiências visuais são de dois tipos, congênitas e adquiridas. Dentre as
congênitas existem as malformações oculares, glaucoma congênito, catarata congênita. As
adquiridas são traumas oculares, catarata, degeneração senil de mácula, glaucoma, alterações
relacionadas à hipertensão arterial ou diabetes.
Dentre os problemas mais comuns existem:
2.3.1 Catarata
A catarata, definida como qualquer opacificação do cristalino que reduza a acuidade
visual, acomete 75% dos indivíduos acima dos 70 anos de idade e pode causar cegueira
(FERRAZ et al., 2002). A cegueira por catarata é reconhecida como grave problema de saúde
pública nos países em desenvolvimento e, desta forma, programas de prevenção e controle têm
sido estabelecidos para diminuir sua ocorrência. Esta doença ocular que pode ser congênita (mais
rara) ou adquirida, que é a forma mais frequente. As cataratas adquiridas, em geral, ocorrem em
pessoas acima dos 60 anos e também são conhecidas como cataratas senis (envelhecimento do
cristalino). Traumas oculares, uso de corticoesteróides, inflamações intraoculares, exposição
excessiva à radiação ultravioleta e diversas doenças associadas, como o diabetes, por exemplo,
são causas conhecidas. (LOTTEN EYES, 2012)
Além de causar a diminuição da visão, as pessoas podem observar imagens duplas,
confusão para ver e distinguir cores, alteração frequente do grau de óculos, muita dificuldade
26
para a leitura e a distância também e visão pior com luminosidade. Pode ocorrer bilateralmente e
ainda é a maior causa de cegueira no mundo, atingindo milhões de pessoas.
Não existe tratamento clínico para catarata, este é sempre cirúrgico. A partir do momento
em que a baixa acuidade visual não é mais corrigida com o uso de correções ópticas há indicação
cirúrgica. O momento propício para a realização da cirurgia depende também do prejuízo e do
comprometimento que esta opacificação vem trazendo ao cotidiano e as funções habituais do
paciente. A técnica cirúrgica mais moderna para o tratamento da catarata, consiste da remoção do
cristalino por microfragmentação e aspiração do núcleo, num processo chamado Faco-
emulsificação com implante de lente intra-ocular, onde após a retirada completa da catarata, é
implantada uma nova lente. Atualmente, temos também a opção de corrigir erros refrativos
(miopia, hipermetropia, astigmatismo e presbiopia) na cirurgia de catarata, ou seja, além de
retirarmos a catarata contamos com uma variedade de lentes intra-oculares que ajudam a corrigir
esses erros refrativos. Consulte o nosso especialista em catarata para saber qual a lente intra-
ocular é a mais indicada para melhor satisfazer a sua visão no pós-operatório (LOTTEN EYES,
2012).
2.3.2 Glaucoma
Glaucoma é uma doença ocular causada principalmente pela elevação da pressão
intraocular que provoca lesões no nervo ótico e, como consequência, comprometimento visual.
Se não for tratado adequadamente, pode levar à cegueira. Há vários tipos de glaucoma.
Glaucoma é uma doença assintomática no início. A perda visual só ocorre em fases mais
avançadas e compromete primeiro a visão periférica. Depois, o campo visual vai estreitando
progressivamente até transformar-se em visão tubular. Sem tratamento, o paciente fica cego. A
principal característica do glaucoma de ângulo fechado é o aumento súbito de pressão
intraocular. O glaucoma congênito (forma mais rara) acomete os recém-nascidos e o glaucoma
secundário que é decorrente de enfermidades como diabetes, uveítes, cataratas, etc.(VARELLA,
2012).
Inicialmente, o tratamento é clínico e à base de colírios. Existem drogas por via oral que
só são usadas em casos emergenciais.
Alguns tipos de glaucoma estão associados a distúrbios que requerem tratamento
específico. Cessada a causa, a pressão intra-ocular regride e o problema visual desaparece.
27
Portanto, a medicação oftalmológica é usada por prazo curto enquanto se trata a outra doença
que provocou o glaucoma, por exemplo, diabetes. (ABRAG, 2012)
O glaucoma crônico – tipo mais comum da doença – exige o uso constante de colírios
pela vida inteira, porque não tem cura. Como pode ser controlado por meio de medicação,
cirurgia ou raio laser, o paciente precisa ser mantido sob controle ininterruptamente. Tratamento
inadequado ou falta de tratamento podem levar à cegueira. (ABRAG, 2012)
2.3.3 Degeneração Macular Relacionada à Idade – DMRI
A Degeneração Macular Relacionada à Idade (DMRI) ou Age Related Macular
Degeneration (AMD) é uma condição freqüentemente relacionada ao envelhecimento, de causa
desconhecida, na qual ocorre crescimento anormal dos vasos sangüíneos sob a retina
especificamente sob o tecido da coróide. A mácula é afetada e o resultado é a baixa súbita ou
progressiva da visão central. É comum em pacientes com mais de 55 anos e chega a atingir, em
todas as suas formas, mais de 25% dos pacientes acima de 75 anos. A falta de tratamento
adequado pode levar à cegueira. Entre a retina (camada do olho altamente sensível aos raios
luminosos) e a esclerótica (camada de proteção mecânica do olho, o branco do olho) existe a
coróide (camada rica em vasos sanguíneos e células pigmentares estas funcionando como a
câmara escura de uma máquina fotográfica). Entre 85 e 90% dos portadores de DMRI
apresentam a forma seca da doença, mais branda e de evolução mais lenta. Entre 10 e 15%
apresentam a forma exsudativa, bem mais agressiva. Cerca de 90% dos casos de cegueira ou de
incapacitação ocorrem entre os que sofrem da forma úmida da doença (LAVINSKY, 2001).
O diagnóstico é comprovado pela cuidadosa avaliação biomicroscópica da mácula
(região central da retina que é responsável pelo detalhamento da visão) com lentes de contato e
por vários testes angiográficos do olho.
Segundo Lavinsky (2001) as opções terapêuticas para tratamento até recentemente, eram
limitadas à fotocoagulação por laser ou observação, dependendo do tamanho dos vasos sub-
retinianos anormais e a sua posição em relação à fóvea. Houve um grande aumento nas opções
de tratamento, incluindo terapia fotodinâmica com a verteporfirina, radiação, termoterapia
transpupilar, fotocoagulação de vaso nutridor, cirurgias de translocação macular, bem como
novas terapias, ainda em estudo, com drogas antiangiogênicas e angiostáticas.Na verdade não
existe um tratamento único efetivo e a tendência é associar os vários recursos existentes para
28
obter um melhor resultado. A terapia fotodinâmica com verteporfirina tem como perspectiva ser
associada à terapia antiangiogênica à terapia com esteróide modificado ou desde já, com a
terapia sobre o vaso nutridor, à termoterapia transpupilar (TTT), à fotocoagulação com laser
argônio, à cirurgia submacular e à translocação macular.
Existem alguns fatores de risco para a Degeneração Macular Relacionada à Idade que
são: idade (acima de 40 anos), sexo (ocorrência mais comum no sexo feminino), dieta e nutrição
(deficiente em frutas e vegetais), incidência de luz solar, fumo, doenças cardíacas e
hereditariedade.
2.3.4 Retinopatia Diabética
A diabetes é uma doença complexa e progressiva que afeta os vasos sanguíneos do olho.
Um material anormal é depositado nas paredes dos vasos sanguíneos da retina que é a região
conhecida como "fundo de olho", causando estreitamento e às vezes bloqueio do vaso sanguíneo,
além de enfraquecimento da sua parede – o que ocasiona deformidades conhecidas como micro-
aneurismas. Estes micro-aneurismas frequentemente rompem ou extravasam sangue causando
hemorragia e infiltração de gordura na retina. Existem duas formas de retinopatia diabética:
exsudativa e proliferativa. Em ambos os casos, a retinopatia pode levar a uma perda parcial ou
total da visão. O diabetes melittus é o fator desencadeante desta doença, na qual o corpo humano
não pode fazer uso adequado de alimentos, especialmente de açúcares. O problema específico é
uma quantidade deficiente do hormônio insulina nos diabéticos. As pessoas que têm diabetes
apresentam um risco de perder a visão 25 vezes mais do que as que não portam a doença. A
Retinopatia Diabética atinge mais de 75% das pessoas que têm diabetes há mais de 20 anos. O
controle cuidadoso da diabetes com uma dieta adequada usa de pílulas hipoglicemiantes, insulina
ou com uma combinação destes tratamentos, que são prescritos pelo médico endocrinologista,
são a principal forma de evitar a Retinopatia Diabética. Outro tratamento seria a fotocoagulação
por raios laser, que é o procedimento pelo qual pequenas áreas da retina doente são cauterizadas
com a luz de um raio-laser na tentativa de prevenir o processo de hemorragia. O ideal é que este
tratamento seja administrado no início da doença, possibilitando melhores resultados por isso é
extremamente importante a consulta periódica ao oftalmologista (BOELTER et al., 2003).
29
2.3.5 Cegueira Infantil
A cegueira infantil continua sendo um problema global sério, principalmente nos países
em desenvolvimento. Quando doenças ou outros problemas oculares acometem as pessoas ainda
na infância e não são tratados, eles podem resultar em deficiência visual ou cegueira. As causas
principais variam e são determinadas, sobretudo por condições socioeconômicas e acesso aos
cuidados básicos de saúde e atendimento oftalmológico. (BRITO e VEITZMAN, 2000)
Em países com baixa renda per capita, a cegueira infantil é normalmente causada por
cicatrizes na córnea provocadas por sarampo e falta de vitamina A. Em países com renda média
per capita, a retinopatia prematura (desenvolvimento anormal de vasos sanguíneos na retina de
recém-nascidos) é uma das principais causas de cegueira infantil. Em todos os países, a cegueira
infantil pode ser causada por anomalias congênitas, como catarata e glaucoma. Estima-se que 1,4
milhão de crianças são cegas e que 500.000 novos casos surgem a cada ano. Desses novos casos,
50% das crianças morrem em um ou dois anos. Em 1992, a OMS estimava em 1,5 milhões o
número de cegos menores do que 16 anos no mundo, 90% dos quais viviam em países em
desenvolvimento. Aquelas que sobrevivem, enfrentam grandes dificuldades para se
desenvolverem educacional, física e socialmente e para viverem sem enxergar. O impacto
econômico é substancial nas crianças e famílias, pois na maioria das vezes, a falta de
oportunidades de aprendizagem e treinamento impossibilita as pessoas com deficiência visual de
trabalharem. Os casos de deficiência visual infantil causada por Erro Refrativo Não Corrigido
podem ser facilmente diagnosticados e corrigidos com o uso de óculos, lentes de contato ou
cirurgia refrativa. A cegueira causada por catarata pode ser tratada com uma cirurgia simples e
econômica (BRITO e VEITZMAN, 2000).
2.3.6 Tracoma
O tracoma é uma afecção inflamatória crônica da conjuntiva e da córnea, uma
ceratoconjuntivite crônica recidivante que em decorrência das infecções repetidas pode levar a
cicatrizes na conjuntiva palpebral. Em casos mais graves evoluem para sequelas, provocando
lesões corneanas importantes, podendo produzir cegueira.
30
O agente etiológico do tracoma é a Chlamydia trachomatis, uma bactéria de
aproximadamente 200 a 300 milimicra, GRAM negativa, de vida obrigatoriamente intracelular.
Apresenta um tropismo pelas células epiteliais, onde se instala e se multiplica, formando
inclusões citoplasmáticas. Além do tracoma, a Chlamydia trachomatis é responsável pela
conjuntivite de inclusão, pelo linfogranuloma venéreo e por outros quadros de doenças
sexualmente transmissíveis. Indivíduos até 10 anos de idade com infecção ativa são considerados
o maior reservatório de transmissão da doença em uma comunidade. Crianças com tracoma
também podem portar C. trachomatis nos tratos respiratório e gastrointestinal. Não há
reservatório animal do tracoma e a Clamídia sobrevive mal fora do hospedeiro humano
(FREITAS, 1976).
A transmissão da doença ocorre de forma direta, de olho para olho, ou de forma indireta,
através de objetos contaminados. Os insetos podem atuar como vetores mecânicos, em especial a
mosca doméstica e a mosca Hippelates sp (lambe-olhos) de importância em algumas regiões. O
período de incubação dura em média de 5 a 12 dias. A doença é transmissível enquanto
persistirem as lesões ativas da conjuntiva. A infectividade é maior no início da doença e quando
coexistem infecções bacterianas agudas ou crônicas. Todos indivíduos são suscetíveis à doença,
sendo que crianças reinfectam-se com maior frequência dependendo das condições do meio
(LUNA, 1993).
A resposta imune celular é considerada necessária para a cura da infecção, mas
provavelmente, também contribuí para o desenvolvimento das lesões conjuntivais cicatriciais.Os
anticorpos responsáveis pela proteção podem ser diferentes dos que causam reações deletérias.
Se fosse possível estimular, especificamente, as respostas imunológicas protetoras então teriam
uma vacina de tracoma eficaz (PELICIONI, 1992).
O objetivo do tratamento é a cura da infecção, com a consequente interrupção da cadeia
de transmissão da doença, feito com antibióticos. Todos os casos de tracoma inflamatório
devem ser examinados para controle de tratamento após 6 meses do tratamento e serem revistos
pelo menos uma vez, a cada 6 meses, para o controle da cura, por um período total de 1 (um)
ano. (LUNA, 1993)
31
2.3.7 Oncocerose
A Oncocercose, conhecida também como Cegueira dos rios, doença de Robles,
volvulose, erisipela da costa, mal morado, é uma doença parasitária humana crônica. Pode atingir
ombros, membros inferiores, pelves e cabeça. Em infecções muito intensas, pode-se encontrar
microfilárias na urina, lágrima, escarro e sangue, podendo causar cegueira. A doença ocorre na
África, Mediterrâneo, América Central e América do Sul. No Brasil, a maioria dos casos advém
dos estados de Roraima e Amazonas, com ocorrência nas reservas das populações Yanomami e
Makiritari. A prevalência da Oncocercose é influenciada pela proximidade dos rios e afluentes,
locais de desenvolvimento larvar do vetor. Adultos, principalmente do sexo masculino, são
afetados nas zonas endêmicas (BRASIL, MINISTÉRIO DA SAÚDE, 2010).
Esta enfermidade (oncocercose ou oncocerciase) se adquiere através da inoculacão das
larvas da Onchocerca volvulus pela picada da mosca negra o Simulium, e em especial pela
Simulium damnosus, «mosca dos búfalos». O simulídeo é conhecido popularmente como
“borrachudo”, “pium”, que proliferam em córregos e rios de correnteza rápida. É caracterizada
pelo aparecimento de nódulos subcutâneos fibrosos sobre superfícies ósseas, em várias regiões, a
exemplo de ombros, membros inferiores, pelves e cabeça. Esses nódulos são indolores e móveis
e neles são encontrados os vermes adultos que eliminam as microfilárias, as quais, ao se
desintegrarem na pele, causam manifestações cutâneas agudas, como o prurido intenso, ou
crônicas, caracterizadas por xerodermia, liquenificação ou pseudoictiose, despigmentação nas
regiões pré-tibial e inguinal, atrofia, estase linfática (lesões típicas de dermatite crônica). Um dos
mais graves comprometimentos do verme ocorre nos olhos causando a cegueira, como ilustra a
figura ao lado (BRASIL, MINISTÉRIO DA SAÚDE, 2010).
Os nódulos de parasitas adultos são identificados por técnicas de imagiologia (tomografia
computadorizada ou ecografia) ou por análise microscópica de amostra de biópsia. As
microfilárias são detectadas em biópsias da pele, assim como frequentemente vistas diretamente
pela observação do fundo do olho com um oftalmoscópio. Existe ainda uma técnica de detecção
do DNA do parasita por PCR (BRASIL, MINISTÉRIO DA SAÚDE, 2010).
O tratamento é feito com ivermectina contra as microfilárias, porém é pouco eficaz
contra o verme adulto. Utiliza-se remoção cirúrgica dos nódulos dos adultos. As microfilárias
eram antigamente tratadas com antiparasíticos, que ainda são usados na prevenção em zonas
32
endêmicas. Contudo a descoberta de que as microfilárias são dependentes de bactérias rickettsias
endossimbiontes existentes dentro dos seus corpos, levou ao desenvolvimento da terapia com o
antibiótico doxiciclina, que é hoje preferível pelos seus menores efeitos secundários (BRASIL,
MINISTÉRIO DA SAÚDE, 2010).
33
Capítulo 3
Trabalhos Relacionados
Prover um sistema visual a deficientes visuais é um grande passo para aplicações em
visão computacional, onde a ideia consiste em os deficientes visuais identificarem seus remédios
sem a intervenção humana no ambiente em que se encontram. Porém, o processamento de
imagens em tempo real ainda hoje é um dos grandes desafios em visão computacional. Os dados
visuais adquiridos através de câmeras instaladas em vários dispositivos são requisitados em
tempo real. O problema torna-se crítico quando se extrair diversas informações das caixas de
medicamentos podendo haver na hora a troca dos remédios.
3.1 Visão em tempo real usando fóvea móvel com multi-resolução
Os robôs esforçam-se e levam um tempo relativamente longo para detectar imagens em
um espaço físico. Existem vários algoritmos que visam melhorar as estimativas do robô na hora
de detectar as imagens. De acordo com Hespanha et al.(1998), e Murray e Little (2000) afirmam
que existem outras formas de usar a visão nos robôs, sendo elas através das características:
textura, bordas, movimento, wavelets.
Esse procedimento melhora a detecção de imagens, através das câmeras do robô, em
tempo real, com o mínimo esforço físico, utilizando multi-resolução e as características citadas
Rafael Gomes et al (2008), utiliza o modelo da fóvea móvel para o desenvolvimento de sistemas
de visão ativa, na implementação de processos visuais em tempo real Segundo Marr e Batista
(1993) e Batista et al. (2000). Para realizar este trabalho utilizamos o este modelo fóvea móvel
para melhorar a velocidade quando processa as imagens das caixas dos medicamentos.
Na Figura 3, temos uma mão segurando uma bola na frente da câmera; o usuário sinaliza
a posição inicial da fóvea (na bola); o sistema proposto deve acompanhá-lo utilizando a fóvea
sem esforço físico do robô, apenas mudando a posição da fóvea na imagem dentro do campo de
visão. Usando a abordagem fóvea móvel é possível desengatar a partir da posição atual e engajá-
la em outra posição, a partir de um quadro para outro, em tempo real. A principal vantagem
34
desse trabalho é que o robô não precisa deslocar-se para a detecção de imagens, só a câmera
acompanha a imagem em tempo real, porém uma das desvantagens é à distância da câmera para
a detecção das imagens as quais não têm um alcance muito longo.
Figura 3.1: Rastreamento de uma bola usando uma fóvea em movimento Fonte [Gomes 2008]
3.2 Bengala Eletrônica para a navegação de cegos
Existem muitas pessoas no mundo com deficiência visual que se movimentam em
ambientes internos e externos, e que precisam detectar obstáculos em vários cenários diferentes.
A maioria das pessoas com essa deficiência usam um cão-guia ou uma bengala, porém ainda
existem certas limitações para chegar a determinados lugares. Há alguns trabalhos científicos
feitos visando melhorar a condição de locomoção dos deficientes visuais como o uso de RFID
(rádio frequência), em ambientes interiores (CHUMKAMON et al., 2008), e nos ambientes
exteriores, utilizando GPS (WILLIS e HELAL, 2005). Sensores implantados nos ambientes
internos e externos e sensores de RFID são implantados nas bengalas, conectados com algum
dispositivo como PDA, através de uma antena instalada na bengala, e comunica-se com as tags
instaladas no ambiente através de Bluetooth.
35
No sistema o SmartVision utiliza visão estéreo, tags e RFID para minimização dos erros
nas coordenadas enviadas pelo GPS para o deficiente chegar ao seu destino; os sinais são
enviados através dos pontos de acesso; essas informações enviadas aos deficientes estão
armazenadas no servidor chamado GIS que funciona gerenciando e atualizando as informações,
como é mostrado na figura 3.2. Essas tecnologias são utilizadas com dois objetivos, o primeiro
diz respeito à localização dos usuários cegos, e o segundo refere-se à orientação, fornecendo
informações sobre o meio ambiente (FARIA et al., 2010).
Figura 3.2: (a) Diagrama do projeto SmartVision. (b) projeto SmartVision com as etiquetas RFID no chão.
Fonte:[Faria et al. 2010].
A bengala apresentou algumas dificuldades para detectar e transmitir as coordenadas ao
deficiente, e o tempo de resposta foi bastante lento e desordenado para enviar as coordenadas
para a bengala do paciente por causa dos barulhos, buracos, movimentação de várias pessoas, na
cidade.
O trabalho da bengala eletrônica auxilia um deficiente visual a se localizar, onde utiliza a
RFID para guiar um deficiente visual pelas ruas de uma cidade e já no nosso utilizamos
uma câmera para identificar medicamentos usados pelos deficientes visuais.
36
3.3 Voz ativada para calcular a dosagem de insulina para diabetes em
deficientes visuais.
O número de pessoas portadoras de diabetes, tipos 1 e 2, está crescendo mundialmente,
por isso um dos objetivos deste trabalho foi abordar as deficiências de calculadoras. bolus para
os usuários diabéticos que têm deficiência visual. A deficiência visual é uma complicação para
diabéticos, atrapalhando usuário ao utilizar as ferramentas disponíveis para controlar sua doença.
Estima-se que 23,6 milhões de pessoas, somente nos Estados Unidos, têm diabetes,
(DIABETES, 2011); destes, aproximadamente 40 a 45% sofrem de alguma forma de retinopatia
diabética. A retinopatia diabética varia em gravidade, de visão turva à cegueira (DISEASE,
2012).
Esta diminuição da visão limita a capacidade do usuário para utilizar telas pequenas.
Durante as refeições da manhã e à noite, uma dose basal de insulina é administrada nos pacientes
com diabetes para coincidir com a taxa metabólica basal. Além disso, o usuário deve calcular
este bolus com base na quantidade de carboidratos a serem consumidos e o desvio do nível de
glicose no sangue. Para realizar esse cálculo, o usuário utiliza a calculadora bolus, que foi
desenvolvida para auxiliar no cálculo na hora das suas medicações.
No entanto, modelos testados para os diabéticos, com uso da calculadora, têm botões
pequenos para operá-los, criando uma barreira ao ser usado pelos diabéticos que são deficientes
visuais.
Este trabalho propõe um pequeno dispositivo portátil que irá automatizar a calculadora
bolus, através de uma interface de voz. A figura 3.3 mostra um diagrama de nível, através de um
bloco de sistema. Pressionando um único botão grande do dispositivo, o usuário começa a
introduzir a sua refeição, falando em um microfone wireless e um micro telefone utilizados perto
da boca, enquanto os cálculos que a calculadora realiza são exibidos na tela de um monitor; o
açúcar no sangue é visualizado e realiza as leituras da glicemia, com isso, os resultados serão
corrigidos pela calculadora bolus. O dispositivo utilizado tem um grande display LCD com
botões adicionais. O paciente fala o nome de um alimento, através da interface de voz que já está
gravado na tabela de alimentos, e o dispositivo recebe a informação da dosagem para calcular a
quantidade de carboidratos e fibras, que tem no alimento. Estas variáveis são passadas para o
módulo de cálculo, juntamente com uma medição de açúcar no sangue, onde a calculadora bolus
calcula e exibe para o usuário (RADFAR et al., 2011).
37
Figura 3.3: Diagrama de nível do bloco do sistema. Fonte: Radfar et al. (2011).
O sistema só funciona com um número limitado de palavras, porém seu vocabulário pode
ser estendido. O sistema de reconhecimento foi proposto pela primeira vez por.
O algoritmo consistiu em duas fases: na primeira fase foram utilizados quatro alto-
falantes e convidadas quatro pessoas para proferir o conteúdo das palavras relacionadas, que são
gravadas com um microfone de alta qualidade. As palavras selecionadas compreendem os
quarenta alimentos compostos na tabela, utilizados pelos pacientes. Na segunda fase, conhecida
como a fase de teste, utilizou-se alto-falantes, fazendo uma comparação com os modelos de
referência conhecida como tempo dinâmico. No teste final, escolheu-se o modelo de referência, e
falou-se palavras sem estarem gravadas em uma tabela de alimentos (RABINER e JUANG,
1994).
Esta experiência gerou bons resultados nas duas fases, utilizando a interface de voz para
deficientes visuais e utilizando a calculadora bolus. Assim houve um controle maior da glicose
no sangue dos diabéticos.
Com base neste trabalho implementamos as identificações dos medicamentos através do
áudio.
38
3.4 Detecção de Objetos Rápidos através de um robô em um ambiente
desordenado.
Muitas pessoas têm dificuldade de localizar objetos em um ambiente interno
desordenado. Isto é comum em um escritório ou laboratório, onde os objetos são muitas vezes
perdidos, porque eles foram mudados de lugar.
Este trabalho trata do desenvolvimento de um robô móvel (ver figura 3.4) para localizar,
automaticamente, objetos, em um vasto ambiente interior, no qual pessoas residem ou trabalham.
De forma automática, o robô atualiza os dados do ambiente em cena 3D; quando o sistema envia
um pedido para procurar um objeto específico, o robô executa uma pesquisa global dos dados
nas cenas em 3D e seleciona várias regiões em que aparecem mais objetos semelhantes ao objeto
a ser encontrado. O robô então prossegue para cada uma destas áreas, em ordem decrescente de
similaridade, para localizar o objeto.
Figura 3.4: Sistema de robô móvel equipado com uma câmera Flea2, um SR-4000 TOF sensor, e um sensor de
UTM-30LX LRF. Fonte: Kanezaki et al. (2011).
39
O foco dessa experiência é a detecção de objetos, usando os dados de cenas em 3D de um
meio ambiente. Existem várias abordagens para a detecção de objetos em um ambiente 3D; uma
delas envolve a detecção de pontos-chave através do SURF (BAY et al., 2006) ou em imagens
2D do meio ambiente, comparando-os aos pontos-chave nas imagens do objeto (LOWE, 2004).
Em seguida, verificar a validade 3D geométrico dos keypoints selecionados; a abordagem é para
coincidir com o ponto 3D no ambiente e os dos alvos dos objeto do modelo 3D, e então,
considerar a similaridade da cor e texturas nestes pontos.
Um diagrama do sistema de busca é mostrado na figura 3.5. O robô rotineiramente rasteja
em torno de um ambiente interno, fazendo a atualização regular dos dados das cenas em 3D do
meio ambiente.
Quando o sistema recebe um pedido para localizar um objeto, ele executa uma pesquisa
global dos dados da cena em 3D. Neste processo, o sistema realiza uma pesquisa para calcular
todas as semelhanças entre as regiões e locais do objeto a ser localizado, e, em seguida, gera uma
lista de regiões com similaridades superiores num certo limite. Com a movimentação da área em
ordem decrescente de similaridade, o robô procura na área os dados atualizando, as cenas em 3D,
e repetitivamente executa detecção de objetos. Se o objeto de destino não é descoberto, o robô se
move para a próxima área na lista. Se o alvo do objeto não pode ser encontrado em qualquer uma
das zonas na lista, o robô reinicia sua rotina e busca-o em todo o ambiente novamente
(KANEZAKI et al., 2011).
O sistema de detecção de objetos é mostrado na figura 3.6. Dados de cor do voxel de um
ambiente são divididos em pequenas regiões cúbicas de uma grade e, em seguida, apresentam
vetores que são calculados por sub-região. Quando o alvo do objeto é dado, o sistema encontra o
comprimento máximo (mm) dos lados do objeto, delimitando a faixa.
40
Figura 3.5: Diagrama do Sistema Fonte: Kanezaki et al. (2011)
41
Figura 3.6: Visão geral de detecção de objetos, que consiste em extração de características, caixa deslizante, e
cálculo da similaridade. Fonte: Kanezaki et al. (2011).
O local utilizado para testar o robô foi o laboratório em que eles trabalhavam (Figura 3.7
(a), que tem 7,950 (comprimento) x 11,800 (largura) x 2700 (altura) mm. Como uma etapa de
pré-processamento, criaram um mapa; 2D (Fig. 3.7 (b); os pesquisadores moviam o robô,
manualmente, em torno do quarto; as cenas iniciais 3D foram os dados utilizados para a
aprendizagem de projeção. Para coleta dos dados das cenas em 3D para o teste, o robô foi
movido ao redor da sala, automaticamente, ao longo de uma rota circular dada ao robô.
Neste experimento, foram coletadas 18 amostras diferentes das cenas de toda a sala dos
objetos-alvo (figura. 3.8) em diferentes orientações e em diferentes locais. Exemplos das
imagens captadas são mostrados na figura 3.9. O robô aprendeu os alvos dos objetos durante um
pré-processamento das imagens exibidas uma por uma para ele.
42
Figura 3.7: Ambiente de destino: (A) layout da sala, e (B) do mapa em 2D criado por SLAM Fonte: Kanezaki et al.
(2011).
Figura 3.8: Exemplos de imagens capturadas durante o rastreamento automático. Fonte: Kanezaki et al. (2011).
43
Figura 3.9: Imagens de 59 objetos-alvo, dispostos em ordem aproximada de tamanho cada vez maior de cima da
esquerda para a direita. Fonte: Kanezaki et al.(2011).
Nesta situação ou contexto foi desenvolvido um sistema robótico móvel, que realiza o
rastreamento automático em um ambiente interior, e reconstrói os dados das cores em 3D do
ambiente para a detecção de objetos, através de uma pesquisa local e global. Com isso, o sistema
robótico ajuda a encontrar objetos dentro de um ambiente, pelo reconhecimento 3D.
Em relação a este trabalho, conseguimos relacionar a identificação dos remédios através
dos pontos das imagens presente na caixa do medicamento utilizando o algoritmo SURF.
3.5 Reconhecimento de imagens usando técnicas visuais e classificando
características visuais
O número de pessoas que possui máquinas fotográficas e aparelhos celulares com
câmeras vem aumentando a cada dia. Partindo dessa ideia, este trabalho foi desenvolvido através
da utilização de algoritmos para avaliar e analisar as características de imagens.
Foram avaliadas características de fotos global e local. Como era esperado, as
características locais tiveram desempenho melhor dado a sua capacidade de ser menos afetada.
Entre as características locais, os algoritmos de SIFT (LOWE, 2004) e SURF (BAY et
al., 2006) superaram o ColorSIFT (BURGHOUTS e GEUSEBROEK, 2009).
44
Os smartphones equipados com câmeras têm a capacidade de procurar informações na
web, simplesmente apontando a câmera do aparelho para imagens como: um monumento, um
restaurante, uma pintura. Considerar a este respeito o serviço experimental "Google Goggles”
lançado em 2010 pelo Google, que permite que você obtenha informações sobre uma imagem,
através de seu smartphone.
Com os algoritmos utilizados neste trabalho (SIFT, Color SIFT e SURF) pudemos
observar analisar e em seguida escolherual usar na nossa pesquisa. Optamos por utilizar o SURF,
pois foi o mais rápido na hora da detecção dos medicamentos.
O conjunto de dados construídos, ou seja, as características extraídas das fotos utilizadas
e seus rótulos estão disponíveis para o público, na internet (AMATO et al., 2010).
A lista de rótulos atribuídos para as fotos e o número de fotos pertencentes a cada classe
pode ser verificada na figura 3.10.
Figura 3.10: Fotos pertencentes a cada classe Fonte: Amato et al. (2010).
45
3.6 Google Goggles
O Google lançou uma nova ferramenta de busca visual que é o goggles, criada para
smartphones com Android. O Goggles tem a capacidade de reconhecer recentes anúncios,
impressos em grandes revistas e jornais americanos, e retornar uma página de buscas sobre o
produto ou marca. O usuário aponta a câmera do aparelho para uma placa, um papel, um livro,
enfim, aperta um botão, aguarda o programa capturar a informação escrita, escolhe um idioma e,
em instantes, terá a tradução. Na figura 3.11 abaixo temos um exemplo do google goggles
identificando a caixa do carregador de Ipod.
Esta ferramenta do google nos auxiliou a criar, utilizar e melhorar um algoritmo no
momento da identificação das caixas de medicamento.
46
Figura 3.11: Google Goggles caixa do carregador Ipod
47
Capítulo 4
Identificação Visual dos Medicamentos através das Features
Como já foi citado anteriormente, esse trabalho é uma contribuição para pessoas com
deficiência visual, como glaucoma, alta miopia, ou outras retinopatias, ao ajudar a identificar os
nomes dos medicamentos pelas imagens e pelo áudio, como também associar o momento correto
de fazer uso das determinadas medicações. Para realizar este trabalho, foram utilizados
algoritmos para a identificação das caixas de medicação, através das Features, ajudando os
deficientes visuais a identificarem seus medicamentos, usando a câmera instalada num
dispositivo (Computador, celular, tv) e também a tomarem seus medicamentos certos, escutando
através do áudio a posologia, a indicação e contraindicação da medicação a ser utilizada.
O diagrama (figura 4.1) abaixo mostra o funcionamento do sistema. Primeiramente, se
executa o programa deixando a câmera pronta, depois o paciente identifica onde está a câmera e
aponta a caixa de remédio para a mesma, até ser identificada; em seguida, inicia-se o
funcionamento do áudio com a posologia, indicações e contraindicações do remédio; se não for o
medicamento correto, o paciente troca a caixa da medicação, e aponta novamente para câmera
até achar o remédio certo.
Figura 4.1: Diagrama do sistema
48
4.1 Reconhecimento das caixas utilizando recursos
Cada caixa de remédio é detectada através de suas características visuais. Recentemente,
entre os recursos mais utilizados são: SIFT (LOWE, 2004) e SURF (BAY et al., 2006).
São recursos destinados a ser invariantes de escala e rotação. Nesta condição, ambas as
propriedades permitem que o sistema detecte o medicamento.
Ao calcular uma homografia entre duas imagens usando o casamento de pontos entre o
modelo do objeto e a imagem capturada, e o modelo para o sistema da coordenada da imagem
através da decomposição em valores singulares (SVD), obtêm-se a matriz de homografia, e as
características dos seus pontos são extraídos e combinados. No entanto, todas as características
devem ser coplanares.
Normalmente, cada caixa de medicamento é reconhecida pelo seu lado frontal, que é
plano. A parte traseira pode também ser usada, mas pode não ser tão eficaz quanto ao número de
acertos como o lado da frente da caixa. No entanto, pode-se optar por registrar ambos os lados, a
fim de que o utilizador possa apresentar a caixa à câmera, usando os dois lados.
4.1.1 Detecção das imagens pelo Algoritmo SURF
O processamento da detecção é uma questão importante, porque o sistema deve fornecer
um feedback ao usuário sobre a detecção do objeto em tempo real, caso contrário, o utilizador
teria que estar com a caixa de medicamento por um longo período de tempo até que o sistema
resolvesse detectá-lo. Dentre tantas características sugeridas pela literatura, optamos por utilizar
as do SURF porque, atualmente, é uma das mais rápidas em termos de cálculo (BAY et al.,
2006). Geralmente, as características são extraídas toda a imagem, o que requer muito tempo de
processamento. Por exemplo, no processamento para extrair 780 características, o SURF leva
cerca de 150 ms utilizando um Intel Core i5 de 2,3 GHz.
A característica SURF baseia-se em um detector Hessian. Para acelerar as respostas dos
filtros, o SURF usa imagens integrais (BAY et al., 2006). Com esta abordagem, é possível
integrar qualquer região da imagem, usando apenas 3 e 4 operações elementares de acesso de
49
dados. A escala de espaço é dividida em oitavas. Para cada oitava, a taxa de amostragem é
reduzida em 2. Na primeira oitava, os filtros têm uma dimensão de 9 x 9.
Os seguintes filtros têm uma incrementação de 6 pixels. Esta incrementação é dobrada
após cada oitava. Se a resposta a estes filtros é maior do que um limite, então o ponto centrado é
extraído como um recurso. Para cada recurso, um descritor é extraído. Este descritor é utilizado
para coincidir com características diferentes (ver Figura 4.2); a orientação da característica é
obtida pelo cálculo da resposta dentro de um círculo de raio 6s,que é a escala de recurso .
Figura 4.2: Detecção das features pelo algoritmo SURF
50
4.1.2 Aplicando a Fóvea
A fim de reduzir este tempo de processamento usamos uma fóvea, o modelo guiado por
mecanismos visuais de atenção. Este modelo fóvea é formado por um conjunto consecutivo de
pequenas imagens do mesmo tamanho. O primeiro nível contém a imagem inteira, o segundo
nível contém uma menor, e assim por diante. O último nível é um redimensionamento de uma
região do mesmo tamanho. Este nível está centrado numa posição chamada fóvea. Em outras
palavras, a vizinhança da fóvea tem uma maior resolução e zona periférica (representada pelos
primeiros níveis) (GOMES et al., 2008).
Neste trabalho, a quantidade de características extraídas é inversamente proporcional à
distância para fóvea.
4.1.3 Reprodução do Áudio
A caixa do medicamento, estando numa posição plana, é detectada com sucesso, usando
os recursos correspondentes entre duas imagens, porém podem ocorrer detecções falsas. Esses
falsos positivos podem levar a erros inaceitáveis, uma vez que o sistema não deve, sob nenhuma
circunstância, indicar o remédio errado.
Desta forma, um histograma é computado contando quantas vezes cada medicamento das
caixas utilizadas foi detectado. Se uma caixa de remédio é visualmente detectada, então o áudio é
reproduzido.
É necessário um tempo maior suportando a caixa em frente a câmera. Um tempo
relativamente longo para acionar o funcionamento do áudio pode irritar o usuário, contudo o
algoritmo pode exigir esse tempo. A imagem da caixa ao ser captada de maneira mais rápida
aumenta a taxa de detecção de falsos positivos.
Outro ponto importante sobre a detecção de caixa de etiquetas, usando características, é
que várias caixas de medicamentos no Brasil têm imagens semelhante nas etiquetas das caixas,
como avisos sobre a medicação e um rótulo genérico. Estas características que vêm nas caixas
têm a facilidade de uma detecção falsa. Desta maneira, os rótulos que vem em cada caixa foram
removidos, utilizando a ferramenta de software de imagem (ver Figura 4.3 e Figura 4.4). Caixas
51
de remédios também podem ser muito semelhantes entre si em algumas características, que
podem induzir a erro do sistema.
Figura 4.3: Imagens Originais
Figura 4.4: Imagens com as remoções
52
4.2 Interação Humano X Computador
Antes do início da aplicação do sistema, cada medicamento é registrado com uma
imagem e um arquivo de som. A ideia é que, quando uma caixa de medicamento é colocada em
frente da câmera, o sistema relata as características da caixa que utilizam a combinação com o
áudio. Há duas possibilidades quando um medicamento da caixa é detectado: o sistema está
bloqueado e o respectivo arquivo de áudio é reproduzido até que chega ao fim, ou até colocar
outra caixa para ser detectada. Outra possibilidade é usar o nome da medicação automaticamente
para a detecção, podendo utilizar arquivos que estão na web, de modo que o registro da caixa de
medicamento não seria necessário.
Mas, estas abordagens são sujeitas a erros e foram evitadas. Além de fala, utilizamos um
sintetizador para ler a medicação, mas depois de algum ensaios, decidimos pedir a um locutor de
rádio para gravar partes da medicação como: a posologia indicações e contraindicações da
medicação a ser ingerida pelos pacientes.
Os usuários podem usar o sistema, mas devem localizar a câmera, para poder apontar a
caixa da medicação para a mesma e assim, ocorrer à detecção do medicamento.
53
Capítulo 5
Experimentos e Resultados
5.1 Experimentos e Resultados
Para realizar estes testes, usamos algumas ferramentas como biblioteca OpenCV (Open
Source Computer Vision Biblioteca). Os módulos têm imagem OpenCV Processamento e Vídeo
I / O, estruturas de dados, álgebra linear,GUI(Graphical User Interface), Basic janela, sistema
independente, controlar o mouse e teclado, além de mais de 350 algoritmos, visão por
computador, tais como filtros de imagem, calibração da câmera, objeto de reconhecimento,
análise estrutural e outros.
As experiências foram divididas em duas partes. Na primeira parte (5.1.1), os usuários
estavam com os olhos abertos, e os resultados foram satisfatórios, na detecção dos objetos, ou
seja, o sistema detectou com sucesso os medicamentos. Na segunda parte (5.1.2) o mesmo
processo é feito com os usuários de olhos vendados.
5.1.1 Recurso na detecção dos objetos
As experiências foram realizadas com sete caixas de medicamentos, mostrados nas
figuras 4.3 e 4.4. Para detectar os medicamentos foi utilizado o algoritmo de extracção SURF. O
hardware utilizado foi um laptop Core i5 2.63GHz com 4GB-RAM e uma webcam com
resolução de imagem de 640 x 480. O tempo de processamento da detecção e do número de
características utilizadas nas experiências de cada medicamento pode ser visto na Tabela 5.1. A
taxa de sucesso de detecção de cada medicamento pode ser visto na Tabela 5.2. Note que o
número 4 da tabela 5.2 tem 90% de taxa de sucesso, enquanto as demais tiveram 100% de taxa
de sucesso. Isto significa que a caixa com 90% de sucesso na detecção tem menos recursos do
que as outras. Na verdade, o rótulo pequeno e o logotipo podem ser confundidos com outra caixa
de medicamento. A taxa de detecção é viável para ser usado em tempo real (30 fps em nosso
caso). É possível notar que a taxa de sucesso é proporcional ao número de características, e é
54
também proporcional ao tempo de processamento. A detecção de duas caixas pode ser visto na
Figura 5.1 e 5.2.
Figura 5.1: Detecção da caixa pelas features
55
Figura 5.2: Detecção da caixa pelas features
Caixa de Medicamentos Número de Features Processamento de Tempo(ms)
#1 345 40.02ms
#2 300 28.77ms
#3 434 33.47ms
#4 242 23.30ms
#5 135 14.50ms
#6 408 32.72ms
#7 325 24.35ms
Tabela 5.1: Tempo de processamento das características de extração de cada caixa da medicação
computado apenas uma vez.
56
Caixa da Medicação Taxa de Sucesso
#1
#2
#3
#4
#5
#6
#7
100%
100%
100%
90%
100%
100%
100%
Tabela 5.2: Taxa de sucesso na detecção das caixas
5.1.2 Comportamento com olhos vendados
O sistema proposto foi testado com 15 voluntários vendados. Embora estejam vendados,
eles não têm quaisquer informações visuais sobre o sistema. Já os deficientes visuais usando seus
outros sentidos mais aguçados são capazes de perceber o ambiente de forma diferente das
pessoas com os olhos vendados. Após as experiências de identificar os medicamentos, os
voluntários são convidados a preencher um formulário (ver Tabela IV), onde responderam sobre
o uso do sistema visual.
Os medicamentos escolhidos foram difíceis de identificar com recursos não-visuais,
alguns deles têm semelhança na textura, forma e cores (ver Tabela 5.3). As caixas dos sete
medicamentos foram espalhadas numa mesa e foi pedido ao paciente pega qualquer uma. Esta
metodologia foi implantada devido ao fato de que do paciente não conhecer as características do
medicamento. Em seguida, o utilizador apontará a caixa escolhida para a câmera.
57
Caixa da Medicação Dimensões
#1 (11:6 7:0 3:5)cm3
#2 (7:1 3:2 3:0)cm3
#3 (10:5 5:0 2:2)cm3
#4 (11:0 4:6 2:5)cm3
#5 (13:6 5:0 2:5)cm3
#6 (11:1 4:7 2:4)cm3
#7 (7:1 3:2 3:0)cm3
Tabela 5.3: Dimensões das Caixas
58
O sistema permitiu que você possa identificar
com sucesso uma caixa de remédio?
Sim ( ) Não ( )
Em uma escala de 1 a 5, quão útil você acha o
sistema na ajuda para deficientes visuais na
identificação de remédios?
( ) 1 Inútil ( ) 2 ( ) 3 Útil ( ) 4 ( ) 5 Muito útil
Em uma escala de 1 a 5, quão difícil foi utilizar
o sistema?
( ) 1 Muito fácil ( ) 2 Fácil ( ) 3 Razoável ( ) 4
Difícil ( ) 5 Muito difícil
Indique as dificuldades na utilização do
sistema:
( ) Demora para detectar a caixa
( ) Eu não consegui usar
( ) É difícil localizar a câmera e apontar o
remédio
( ) É desconfortável usar
( ) Tenho medo que o sistema detecte o
remédio errado
( ) Outra: ______________________
Sugestões?
Tabela 5.4: Aplicação do Formulário
Este experimento foi aplicado em 15 estudantes universitários. Todos eles verificaram
que o sistema detecta com êxito o medicamento das caixas. Sobre o quão útil o sistema é para o
deficiente visual, 80% disse que poderia ser muito útil (escala de 5), cerca de 13% disse que
poderia ser útil (escala de 4) e cerca de 6% (1 aluno) disse que é apenas um pouco útil (escala 2).
Quando perguntado sobre como é fácil usar o sistema, 40% disse que é razoável (escala 3), cerca
de 6% disse que é difícil (escala 4), cerca de 46% disse que é fácil e cerca de 6% disseram que é
muito fácil.
Sobre as dificuldades para usar o sistema, cerca de 86% disseram era difícil localizar a
câmera. Três alunos disseram que o sistema é lento para detectar uma caixa de remédios e 2
59
alunos disseram que tinham medo de que o sistema identificasse o medicamento errado. Nenhum
estudante disse que era incapaz de utilizar o sistema ou desconfortável para utilizar.
60
Capítulo 6
Conclusão e Trabalhos Futuros
Propomos um sistema de visão computacional que se destina a ajudar pessoas com
deficiência visual, detectando e fornecendo informações sobre medicamentos. O uso da detecção
das características das caixas dos medicamentos selecionadas tem sido um sucesso.
Porém, rótulos comuns podem dificultar a detecção do objeto. O pré-processamento das
imagens pode ser utilizado para remover estas peças manualmente ou automaticamente.
A utilização de uma fóvea modelo proposto por Rafael Gomes et al. (2008) reduziu o
processamento do tempo. Deste modo, estes parâmetros devem ter um ajustamento mais fino.
Claro, com os olhos vendados, as pessoas podem subestimar ou superestimar alguns aspectos
sobre a interação de sistema de visão e tarefas imunológicas. Para trabalhos futuros, pretendemos
testar um grupo selecionado de pessoas com deficiência visual.
Depois das experiências, 93% dos voluntários disseram que o sistema poderia ser útil ou
muito útil para eles. Observamos que, apesar da maioria das caixas da medicação conter o nome
da medicação em Braille, eles não têm posologia, indicações e contra indicações legíveis para
pessoas com deficiência visual. Desta forma, o nosso trabalho, também, além de identificar as
caixas, ajuda o usuário a lê-los.
A título de informação, esclarecemos que o artigo desse trabalho Visual Identification of
Medicine Boxes Using Features Matching foi aceito e apresentado no congresso internacional
Ieee International Conference on Vecims Virtual Enviroments Human- Computer Interfaces and
Measurement Systems, 2012, Tianjin (China).
Sugerimos ainda, realizar esta experiência com o maior número de deficientes visuais,
implantando um serviço de mensagens (SMS) no celular dos parentes deles, avisando que o
paciente utilizou este sistema para identificar a medicação a ser tomada, o que tranquilizaria mais
a família no sentindo de saber se o seu familiar está cumprindo a orientação do médico sobre
horário de cada remédio.
61
Referências Bibliográficas
ABRAG (Associação brasileira dos amigos, familiares e portadores de glaucoma). Tipos de
Glaucoma. Em: <http://www.abrag.org.br/index.php?tipos-de-glaucoma>. Acesso em 30 junho
2012.
AMATO, G.; FALCHI, F; BOLETTIERI, P. Recognizing landmarks using automated
classification techniques: Evaluation of various visual features. In: Advances in Multimedia
(MMEDIA) Second International Conferences. 2010. Atenas. p. 78 –83.
BATISTA, J.; PEIXOTO P; ARAÚJO H. Binocular tracking and accommodation controlled
by retinal motion flow. In: Pattern Recognition, 2000. Proceedings. 15° International
Conference on’, Vol. 1, p. 171–174.
BAY, H. et al. Surf: Speeded up robust features. In: ECCV. 2006. p. 404–417.
BOELTER, Maria Cristina. et al. Fatores de risco para retinopatia diabética. Arq Bras
Oftalmol. v.66, p. 239-47. 2003.
BRASIL. Ministério da Saúde. Secretaria de Vigilância em Saúde. Departamento de Vigilância
Epidemiológica. Doenças infecciosas e parasitárias: guia de bolso. Ministério da Saúde,
Secretaria de Vigilância em Saúde, Departamento de Vigilância Epidemiológica. 8. ed. rev. –
Brasília : Ministério da Saúde, 2010.
BRITO, Patrícia Ribeiro; VEITZMAN, Sílvia. Causas de cegueira e baixa visão em ciranças.
Arq. Bras. Oftal. v.63. n.1.Fev. 2000.
BRADSKY, G. R. et al. Learning opencv, Computer Vision with the OpenCV Library. Springer.
2006
BURGHOUTS, G. J.; GEUSEBROEK, Jan-Mark. Performance evaluation of local colour
invariants, Comput. Vis. Image Underst. Vol.113. n.1. p. 48–62. 2009.
CHUMKAMON, S. et al. A blind navigation system using rfid for indoor environments, In:
Electrical Engineering/Electronics, Computer, Telecommunications and Information
Technology, 2008. ECTI-CON 2008. 5° International Conference. Vol. 2. p. 765 –768. Diabetes.
DISEASE, FACTS ABOUT DIABETIC EYE (2012). Facts about diabetic eye disease
nei health information. Em: www.diabetes.org/about- diabetes.jsp. Acesso em: 26 junho 2012
FARIA, J. Electronic white cane for blind people navigation assistance. In: World Automation
Congress (WAC). 2010. p. 1 –7.
FERRAZ, E. V. A. P. et al. Adaptação de questionário de avaliação da qualidade de vida para
aplicação em portadores de catarata. Arq Bras Oftalmol. v.65, p.293-8. 2002.
62
FREITAS, C. A. Prevalência do tracoma no Brasil.Rev. Bras. Malarial D.Trop., v.28.p. 227 –
380. 1976.
GASPARETTO, M. E. R. F. Perda visual em idosos.
Em: http://www.fcm.unicamp.br/auxiliosopticos/index.php/perda-visual-emidosos
33. Acesso em 26 Maio 2012.
GOMES, R. B. et al. Real time vision for robotics using a moving fovea approach with multi
resolution, In:IEEE International Conference on Robotics and Automation. pp. 2404–2409.
2008. Gonzales, Rafael C. & Richard E. Woods (1992), Digital Image Processing, Addison-
Wesley Publication Company.
HESPANHA, J.P et al. Decidability of robot positioning tasks using stereo vision systems, em
Decision and Control. 1998. Proceedings of the 37th IEEE Conference. v. 4. p. 3736 –3741
vol.4.
IBGE (2000). Ibge censo. Em:
http://www.ibge.gov.br/home/presidencia/noticias/25072002pidoso.sht. Acesso em 23 Maio
2012.
IBGE.Ibge censo.Em: http://www.ibge.gov.br/ Acesso em 23 Maio 2012.
KALACHE, A. et al. O envelhecimento da população mundial: Um desafio novo. Rev. Saude
publ. Sao Paulo. v. 2. n. 3. p.200-210. 1987.
KANEZAKI, A. et al. Fast object detection for robots in a cluttered indoor environment using
integral 3d feature table. In: Robotics and Automation (ICRA), 2011 IEEE International
Conference. p. 4026 –4033.
LEVINSKY, Jacó. Degeneração Macular relacionada à idade. 2001. Em: <
http://www.abcdasaude.com.br/artigo.php?98> Acesso em: 26 junho 2012.
LOTTEN EYES. O que é catarata. Em: < http://www.lotteneyes.com.br/patologias-catarata/>
Acesso em: 26 junho 2012.
LOWE, D. G. Distinctive image features from scale-invariant keypoints. Int.
J. Comput. Vision 60. p. 91–110. 2004.
LUNA, E. J. A. A epidemiologia do tracoma no Estado de São Paulo. 1993. Dissertação
(Mestrado em Saúde Coletiva)- Programa de Pós Graduação em Saúde coletiva. Faculdade de
Ciências Médica. Universidade Estadual de Campinas. Campinas, 1993.
MARGRAIN, T. H. Helping blind and partially sighted people to read: the effectiveness of low
vision aids. British Journal of Ophthalmology. n.84. v.8.p. 919–921. 2000.
MARR, D. Active Perception: Advances in Computer Vision Series. v. 1.
Lawrence Erlbaum Associates, New York, NY.1993
63
MURRAY, D.; LITTLE, J. Using real-time stereo vision for mobile robot navigation.
Autonomous Robots. 2000.
NERI, M.C.; SOARES, W.L. Idade incapacidade e o numero de pessoas com
Deficiência. R. bras. Est. Pop. Campinas. v. 21. n. 2. p. 303-321. 2004.
PELICIONI, M. C. F. e col.: Educação em saúde na prevenção, tratamento e controle do
tracoma: Rev. Bras. Saúde Esc. v. 2.2o sem. 1992.
RABINER, L.; JUANG B. J.Fundamental of speech recognition. Prentice Hall. 2ed. 1994.
RADFAR, M.H. et al. A voice activated device for insulin dosage calculations for visually
impaired diabetes, In: Electrical and Computer Engineering (CCECE), 2011. 24º Canadian
Conference. p. 904 –907.
RESNIKOFF, S. et al. Global data on visual impairment in the year. 2002. Bulletin of the World
Health Organization. v.82.p. 844 – 851.
SCOTT, I. U. et al. Quality of life of low-vision patients and the impact of low-vision services.
American Journal of Ophthalmology. n.128. v.1. p. 54 – 62.
SPERANDIO, C Mariana; SANTOS, E. Paulo. Interpretação de imagens de um
robô móvel usando logica probabilística. Centro universitário da Fei. 2011.
TRUCCO, E.; VERRI A. Introductory Techniques for 3-D Computer Vision, Prentice Hall PTR,
Upper Saddle River, NJ, USA. 1998.
VARELLA, Dráuzio. Glaucoma. Em: <http://drauziovarella.com.br/crianca-2/glaucoma/ >
Acesso em 30 junho 2012.
WILLIS, S.; HELAL, S. Rfid information grid for blind navigation and wayfinding,
In: Wearable Computers. 2005. Proceedings. Ninth IEEE International Symposium. p. 34 – 37.