dissertação 29555 - finala new product, based on a xeo product previously developed by itds, for...
TRANSCRIPT
Clas
Fa
Disserta
ssificação 29555, Ric
Universiaculdade d
Departam
ação de Mes
Automáticcardo Ferna
Prof. DoProf. Do
28
idade Novde Ciênciamento de I
strado em E2009/201
ca de Texando Muach
Orientadoroutor João Moutor José J
de Julho de
va de Lisboas e TecnoInformátic
Engenharia I10
tos baseadho Fernande
res Moura Piresúlio Alferes
e 2010
oa ologia ca
Informática
da em Ontes Lima Nev
s s
a
tologias ves
Resumo
Esta dissertação apresenta um motor de classificação automática de comunicações
(textuais) entradas numa organização. A classificação é efectuada mediante um conjunto
predefinido de propósitos, com vista ao seu encaminhamento dentro da organização.
Previamente são efectuadas anotações ao conteúdo das comunicações, servindo de auxílio
ao processo de classificação, que se baseia na aplicação do modelo enhanced Topic-based
Vector Space Model (eTVSM).
O trabalho foi desenvolvido no âmbito de um projecto da empresa iTds em colaboração
como Departamento de Informática da FCT/UNL: o projecto XEO.ECC (Enterprise
Communications Center). Este projecto, de âmbito mais geral que o desta dissertação, visa
o desenvolvimento de um novo produto, baseado no produto XEO já desenvolvido pela
iTds, para gestão de conteúdos e rastreamento de comunicações numa organização.
A técnica de classificação é baseada no uso de um conjunto de ontologias, ontologias
essas que são definidas para cada organização em que o XEO.ECC venha a ser utilizado. O
uso de ontologias neste trabalho não se cingiu apenas à técnica de classificação das
comunicações. Com efeito, a própria modelação dos propósitos e de todo o contexto dos
diversos domínios onde as comunicações se inserem fazem uso das ontologias.
Abstract
This thesis presents an automatic classification engine to incoming communications
(textual) in an organization, according to a predefined set of purposes, in order to properly
forward those communications within the organization. Previously there are made
annotations on the communications, with the aim to support the classification process,
based on enhanced Topic-based Vector Space Model (eTVSM).
This work was developed under a project entitled XEO.ECC (Enterprise
Communications Center); this project emerged from a collaboration of the company iTds
with the Computer Science Department of the FCT/UNL. This project aims to developing
a new product, based on a XEO product previously developed by iTds, for content
management and tracking of communications within an organization.
The classification technique is established according to an ontology set that is defined
for each organization in which the XEO.ECC will be applied. The use of ontologies in this
work does not confine itself to the classification technique. Indeed, the set of possible
purposes, and the entire context associated to each specific domain of communications use
ontologies.
Agradecimentos
Dedico esta tese a todos os familiares e amigos que me apoiaram ao longo de todo o
curso. Quero agradecer especialmente aos meus pais, Teresa e Fernando, pela confiança e
amor que sempre me deram, e pela pessoa que hoje sou. Agradeço também à Patrícia, o
amor da minha vida, detentora de uma paciência infindável, apoiando-me sempre nos
momentos mais difíceis.
Pretendo agradecer à iTds e toda a sua equipa, pela oportunidade de integrar um
projecto com um trabalho académico, em especial ao elemento de ligação entre a faculdade
e a iTds, Rui Leal, que demonstrou um apoio indispensável para a elaboração deste
projecto.
Agradecimentos aos Professores e orientadores João Moura Pires e José Júlio Alferes
pela ajuda, ambição e disponibilidade demonstrada, e aos meus colegas Ygor Cardoso e
Bernardo Oliveira, por todo o companheirismo ao longo deste último ano.
ix
Índice
1. Introdução .................................................................................................................... 1
1.1 Contexto ................................................................................................................. 1
1.2 Motivação .............................................................................................................. 4
1.3 Âmbito e Objectivos .............................................................................................. 4
1.4 Principais Contribuições ........................................................................................ 6
1.5 Estrutura do Documento ........................................................................................ 6
2. Trabalho Relacionado ................................................................................................. 9
2.1 Técnicas Básicas de Processamento de Texto ....................................................... 9
2.1.1 Segmentação de Texto (Tokenization) ............................................................ 9
2.1.2 Análise Morfossintáctica (Part-of-speech) ................................................... 10
2.1.3 Eliminação de Palavras não interessantes (Stopwords) ................................ 11
2.1.4 Radicalização (Stemming) ............................................................................ 12
2.1.5 Lematização (Lemmatization) ...................................................................... 13
2.1.6 Uso de Sinónimos ......................................................................................... 13
2.1.7 Conclusões .................................................................................................... 13
2.2 Detecção de Entidades e Expressões Relevantes ................................................. 14
2.2.1 Entidades Mencionadas ................................................................................ 15
2.2.2 Entidades e Expressões Específicas de Domínio .......................................... 22
2.2.3 Conclusões .................................................................................................... 24
2.3 Técnicas de Classificação Automática de Texto baseadas em Ontologias .......... 25
2.3.1 Recuperação de Informação (Information Retrieval) ................................... 26
x
2.3.2 Vector Space Model ....................................................................................... 27
2.3.3 Topic-based Vector Space Model .................................................................. 32
2.3.4 Abordagens baseadas em Ontologias ............................................................ 34
2.3.5 Conclusões ..................................................................................................... 43
2.4 Medidas para avaliar Classificadores ................................................................... 44
2.4.1 Precisão (Precision) e Abrangência (Recall) ................................................ 44
2.4.2 F-Measure ..................................................................................................... 45
2.4.3 Matriz de Confusão ....................................................................................... 46
3. Abordagem Seguida ................................................................................................... 47
3.1 Reconhecimento de Entidades e Expressões relevantes ....................................... 47
3.1.1 Entidades Mencionadas ................................................................................. 48
3.1.2 Entidades Específicas de Domínio ................................................................ 52
3.1.3 Expressões Específicas de Domínio .............................................................. 53
3.1.4 Interacção com a Ontologia ........................................................................... 54
3.2 Classificação de Comunicações ............................................................................ 56
3.2.1 Representação do conteúdo de uma comunicação ........................................ 60
3.2.2 Representação de um Propósito ..................................................................... 62
3.2.3 Cálculo de Similaridade entre uma Comunicação e um conjunto de
Propósitos ................................................................................................................. 66
4. Implementação ........................................................................................................... 69
4.1 Tecnologias utilizadas .......................................................................................... 69
4.2 Técnicas de Processamento de Texto ................................................................... 69
4.2.1 Segmentação de Texto ................................................................................... 70
4.2.2 Algoritmo de Radicalização .......................................................................... 72
4.3 Detecção de Entidades e Expressões Relevantes .................................................. 72
4.3.1 Criação de Novas Regras ............................................................................... 73
4.3.2 Interacção com a Ontologia de domínio ........................................................ 74
xi
4.4 Classificação de Comunicações ........................................................................... 77
4.4.1 Mapas de Tópicos ......................................................................................... 78
4.4.2 Conjunto de Propósitos ................................................................................. 79
4.5 Anotação de uma Comunicação ........................................................................... 81
4.6 Arquitectura Geral ............................................................................................... 82
5. Experimentação .......................................................................................................... 85
5.1 Caso de Estudo ..................................................................................................... 85
5.1.1 Entidades Específicas de Domínio ............................................................... 85
5.1.2 Expressões Específicas de Domínio ............................................................. 87
5.1.3 Elaboração dos Mapas de Tópicos ............................................................... 87
5.1.4 Obtenção de um Conjunto de Propósitos ...................................................... 88
5.2 Análise de Resultados .......................................................................................... 89
5.2.1 Reconhecimento de Entidades e Expressões Específicas de Domínio ......... 89
5.2.2 Classificação dos Propósitos de uma Comunicação ..................................... 90
5.2.3 Atribuição de pesos a Tópicos ...................................................................... 91
6. Conclusões e Trabalho Futuro .................................................................................. 95
6.1 Conclusões ........................................................................................................... 95
6.2 Trabalho Futuro ................................................................................................... 96
Bibliografia ......................................................................................................................... 99
Anexos ............................................................................................................................... 103
A. Subconjunto de Propósitos ................................................................................. 103
B. Subconjunto de Mapas de Tópicos ..................................................................... 105
C. Regras de Detecção de Entidades Específicas de Domínio ................................ 106
xii
Índice de Figuras
Figura 1.1 - Funcionamento Geral do XEO.ECC ............................................................................................... 3
Figura 1.2 - Exemplo do conteúdo textual de uma Comunicação via e-mail ..................................................... 5
Figura 1.3 - Entidades e Expressões relevantes no conteúdo da comunicação da figura 1.2 ............................. 5
Figura 2.1 - Exemplo de uma Análise Morfossintática .................................................................................... 11
Figura 2.2 – Algumas categorias e tipos das entidades PESSOA, LOCAL e VALOR .................................... 16
Figura 2.3 - Principais Etapas do Rembrandt ................................................................................................... 17
Figura 2.4 - Primeira fase do uso da Wikipédia no Rembrandt ....................................................................... 19
Figura 2.5 - Fase de obtenção de categorias na Wikipédia e no Rembrandt .................................................... 19
Figura 2.6 - Exemplo das categorias Acrónimo e Desambiguação na Wikipédia ............................................ 20
Figura 2.7 - Exemplo da categoria Desambiguação na Wikipédia ................................................................... 20
Figura 2.8 - Processo de conversão de categorias da Wikipédia para as do Segundo HAREM ........................ 20
Figura 2.9 - Exemplo de uma regra gramática do Rembrandt.......................................................................... 21
Figura 2.10 - Relação entre Tópicos e termos no Topic-based Vector Space Model ....................................... 32
Figura 2.11 - Representação abstracta da relação entre os tópicos .................................................................. 35
Figura 2.12 - Termos, Interpretações e Tópicos em [30] ................................................................................. 37
Figura 2.13 - Exemplo de hierarquia de conceitos na Ontologia [9] ................................................................ 39
Figura 2.14 - Arquitectura geral em [9] ........................................................................................................... 40
Figura 2.15 - Mapeamento de termos e conceitos em [19] .............................................................................. 43
Figura 2.16 - Matriz de Confusão para N classes ............................................................................................. 46
Figura 3.1 – Esquema de Entidades e Expressões Relevantes ......................................................................... 47
Figura 3.2 - Categorias de classificação do sistema Rembrandt ...................................................................... 48
Figura 3.3 - Consulta SPARQL para obter todos os distritos de Portugal ....................................................... 50
Figura 3.4 - Exemplo de evidências para a categoria "Contacto" .................................................................... 51
Figura 3.5 - Interacção entre Consultor do Classificador e o Especialista do Domínio ................................... 52
Figura 3.6 - Níveis "Meta" e "Dados" na Ontologia de Domínio .................................................................... 55
Figura 3.7 - Interacção entre os módulos "Classificador" e "Ontologias" ........................................................ 55
Figura 3.8 - Exemplo de termos e entidades associadas ao conceito "Automóvel" ......................................... 56
Figura 3.9 - Exemplo de uma comunicação com dois propósitos .................................................................... 57
Figura 3.10 - Exemplo de Modelação de Tópico com diversas Interpretações ................................................ 59
Figura 3.11 - Exemplo de Modelação de Tópico com uma Interpretação ........................................................ 59
Figura 3.12 - Exemplo de uma hierarquia de Tópicos ..................................................................................... 63
xiii
Figura 3.13 – Modelação do Propósito “Pedido de Marcação de Peritagem de Sinistro” ............................... 64
Figura 3.14 - Modelação de um Propósito na ontologia .................................................................................. 66
Figura 4.1 - Esquema da aplicação das Técnicas de Processamento de Texto ................................................ 70
Figura 4.2 - Exemplo do conteúdo de uma comunicação para segmentar ....................................................... 71
Figura 4.3 - Segmentação do texto da Comunicação da figura 4.2 ................................................................. 71
Figura 4.4 - Exemplo da aplicação da Técnica de Radicalização .................................................................... 72
Figura 4.5 - Comunicação entre Módulo de Classificação e Módulo de Ontologias....................................... 75
Figura 4.6 – Exemplo de consulta SPARQL acerca de uma entidade “Contacto” .......................................... 75
Figura 4.7 - Procedimento de reconhecimento de Expressões Específicas de Domínio .................................. 76
Figura 4.8 - Interacção do Módulo de Classificação com a Ontologia ............................................................ 78
Figura 4.9 - Estrutura de dados para armazenar Mapas de Tópicos ................................................................ 79
Figura 4.10 - Estrutura de dados para armazenar Propósitos ........................................................................... 80
Figura 4.11 - Procedimento de obtenção dos argumentos dos Propósitos ....................................................... 80
Figura 4.12 - Esquema de Anotação de uma Comunicação ............................................................................ 81
Figura 4.13 - Exemplo de uma comunicação anotada ..................................................................................... 82
Figura 4.14 - Arquitectura Geral do Classificador .......................................................................................... 83
Figura 5.1 - Variação dos valores de Precisão, Abrangência e F-Measure em função dos pesos dos Tópicos 92
Figura 5.2 - Variação da medida de F-Measure para os diferentes pesos dos Tópicos ................................... 92
Figura A.1.1 - Subconjunto representativo dos Propósitos do Caso de Estudo ............................................. 103
Figura B.1.1 - Subconjunto representativo do Mapa de Tópicos "Natureza" ................................................ 105
Figura B.2.1 - Subconjunto representativo do Mapa de Tópicos "Organizacional" ...................................... 105
Figura B.3.1 - Subconjunto representativo do Mapa de Tópicos "Objecto" .................................................. 106
1
1. Introdução
Este capítulo apresenta o contexto global da tese, que se enquadra num projecto
designado XEO.ECC (Enterprise Communications Center), bem como as motivações que
levaram à sua elaboração. São também apresentados os objectivos propostos e principais
contribuições neste trabalho e, por último, a descrição da estrutura do relatório.
1.1 Contexto
A iTds1 é uma empresa portuguesa que tem vindo a desenvolver uma plataforma de
programação ágil, denominada XEO2 (eXtensible Enterprise Objects). O desenvolvimento
de soluções para cada cliente assenta em ambiente web e consiste na modelação de
objectos de negócio, aplicados à realidade de cada organização.
Um dos componentes desta plataforma é o XEO Outcom, um módulo que gere e
estrutura todos os processos de comunicação das organizações com o exterior, permitindo
a gestão dos canais de comunicação, definição de templates de comunicação e integração
das comunicações com um repositório documental.
A iTds decidiu apostar no desenvolvimento de um novo produto para a plataforma
XEO, denominado XEO.ECC (Enterprise Communications Center), que estenderá os
conceitos introduzidos no XEO Outcom, dando especial atenção às comunicações de
entrada numa organização.
Para o desenvolvimento deste novo produto, a iTds definiu um projecto, que mais tarde
veio a ser apoiado e financiado pelo QREN3, que envolve uma colaboração entre a iTds e o
Departamento de Informática da FCT/UNL tendo dado origem a três teses de mestrado.
1 http://www.itds.pt 2 http://www.xeo.pt 3 Quadro de Referência Estratégico Nacional
2
O XEO.ECC resultará num novo produto que gere essencialmente as comunicações de
uma organização, sendo os seus objectivos gerais (tal como estava enumerado na descrição
do Projecto):
Gestão dos conteúdos das comunicações;
Garantia de consistência nas comunicações;
Aumento da produtividade na criação dos conteúdos das comunicações;
Classificação inteligente das comunicações;
Rastreamento das comunicações;
Acesso de forma eficiente ao histórico das comunicações com os seus
interlocutores;
Exploração do histórico das comunicações.
Para atingir os objectivos do projecto XEO.ECC, em particular para os atingir de uma
forma flexível, que permita facilmente adaptá-lo a diferentes organizações em diversas
áreas de negócio, é necessário ter uma representação explícita dos conceitos envolvidos na
área de negócio, bem com da própria estrutura da organização.
Para a representação desses conceitos, a iTds optou pela utilização de ontologias, tanto
para representar organizações, bem como o conteúdo das suas comunicações, pois tal como
já foi mencionado, esta escolha permitirá adaptar este novo produto às necessidades
específicas de cada nova organização através da representação de todos os seus conceitos.
O recurso a ontologias permite uma representação formal e exacta de conhecimento,
apresentando uma estrutura sólida, sendo considerada uma alternativa para representar
informação. Com o crescimento da Web Semântica é expectável que esta alternativa venha
a ser cada vez mais utilizada.
Uma ontologia é uma representação explícita e formal de uma conceptualização [37].
Podemos considerar que uma ontologia descreve um domínio através da representação dos
seus conceitos e relações entre eles.
De acordo com o que foi definido no decorrer do projecto, foi decidido que no
XEO.ECC existirá um núcleo base de ontologias genéricas, para descrever os elementos
comuns a todas as organizações, e um conjunto de ontologias específicas, que confere a
capacidade de extensão necessária para qualquer área de actividade ou organização. As
ontol
organ
seus
T
desta
comu
objec
comu
prete
prese
class
A
inteli
repos
fazer
É
funci
organ
comp
produ
aplic
repos
logias poss
nização, atr
papéis na o
Tendo como
a dissertaçã
unicação, c
ctivos princ
unicação de
ende ilustrar
entes no co
sificação.
As anotaçõe
igentes de
sitório centr
r uso das on
É possível o
ionamento g
nização, cu
ponentes de
uto, centra
car-lhes um
sitório de co
sibilitam a
ravés da de
organização
o base os ob
ão de mest
com espec
cipais o se
eve ser ano
r. A anotaç
onteúdo da
es e o próp
pesquisa e
ral. Tanto a
ntologias.
observar na
genérico, qu
umprindo a
e inovação
am-se funda
ma classific
omunicaçõe
especifica
escrição de
.
bjectivos ge
trado preten
ial enfoque
eu reencam
otada e cla
ão refere-se
comunicaç
prio process
e navegação
a classificaç
figura 1.1,
ue consiste
a função d
que o proj
amentalmen
ação semi-
es.
Figura 1.1 - F
ação da ár
produtos e
erais do XEO
nde-se faze
e nas com
minhamento
assificada se
e à identific
ção, servin
so de class
o nas com
ção como o
, extraída d
na integraç
de enviar
ecto XEO.E
nte nas co
-automática
Funcionament
rea de act
serviços, c
O.ECC e o
er uma clas
municações
dentro da
egundo o p
cação dos e
ndo de base
ificação ser
municações,
os processos
a descrição
ção com out
e receber
ECC preten
municações
a, e posteri
o Geral do XE
ividade e
comunicaçõ
uso de onto
ssificação i
de entrad
a organizaç
propósito q
elementos re
e informativ
rvirão de s
que serão
s de pesquis
o do project
tros serviço
todas as
nde estabele
s de entrad
ior pesquis
EO.ECC
linguajar
ões, interloc
ologias, no
inteligente
da, sendo
ção. Para t
que o seu c
relevantes q
va no proc
suporte a p
armazenad
sa e navega
to XEO.EC
os que já ex
comunicaç
ecer com es
da, sendo
sa e naveg
3
de cada
cutores e
trabalho
de cada
um dos
tal, cada
conteúdo
que estão
cesso de
rocessos
das num
ação irão
C, o seu
istam na
ções. As
ste novo
possível
ação no
4
Este trabalho não se centra na construção da ontologia do domínio de uma organização,
nem no desenvolvimento do módulo de navegação e pesquisa, sendo o seu principal foco o
desenvolvimento do módulo de classificação. Tanto a construção da ontologia como a do
módulo de pesquisa e navegação deram origem a mais duas teses de mestrado, resultando
num trabalho de equipa que integra os diversos módulos de produto XEO.ECC.
1.2 Motivação
Um dos factores que me motivou a realizar esta tese foi o facto de aliar a actividade de
investigação com um projecto com impacto directo numa empresa portuguesa. As áreas de
processamento de língua natural e classificação de texto sempre foram do meu interesse,
sendo que este projecto apresenta uma característica que o torna particularmente aliciante;
a utilização de ontologias como fonte fundamental para o classificador é um aspecto
diferenciador, principalmente quando comparado com técnicas de classificação
tradicionais. Um desafio igualmente atractivo é a integração dos diversos módulos do
produto XEO.ECC, nomeadamente os módulos de ontologias e de pesquisa e navegação,
culminando na realização de um trabalho de equipa.
1.3 Âmbito e Objectivos
Como mencionado acima, este trabalho está directamente relacionado com o projecto
XEO.ECC, tendo como objectivo específico de desenvolver o motor de classificação dessa
mesma plataforma. A técnica de classificação desenvolvida dá especial atenção a
comunicações de entrada e de âmbito profissional, ou seja, assumimos que todas as
comunicações que não sejam de âmbito profissional não serão tratadas pelo classificador.
A classificação consistirá na determinação de um conjunto de propósitos para uma dada
comunicação e, para tal, as ontologias são utilizadas para dar suporte ao conjunto de
possíveis propósitos de uma comunicação.
Basicamente, a classificação pretende retornar os propósitos expressos no conteúdo das
comunicações e, para tal, faz uso de um conjunto de evidências no texto de cada
comunicação, detectando as entidades e expressões consideradas relevantes. A figura 1.2
representa uma comunicação via correio electrónico, de uma companhia de seguros, na
qual é possível depreender quais as entidades ou expressões mais relevantes no seu
conteúdo.
O
possí
N
detec
como
O objectivo
ível obter o
Na figura 1.
cção do pro
o datas, núm
Figura
Figura 1.2 - E
do classific
propósito d
.3 estão evi
opósito “Ma
meros de pro
1.3 - Entidade
Exemplo do con
cador é dete
da comunica
idenciados t
arcação de P
ocesso, con
es e Expressões
nteúdo textual
ectar toda a
ação, que n
todos os ele
Peritagem”
ntactos ou no
s relevantes no
de uma Comu
informação
este caso se
ementos (d
e ainda alg
omes de pes
o conteúdo da c
unicação via e-m
o relevante,
eria “Marcaç
a figura 1.2
gumas entid
ssoas.
comunicação d
de modo a
ação de Perit
2) relevante
dades releva
da figura 1.2
5
que seja
tagem”.
es para a
antes tais
6
É de referir que, embora no exemplo das figuras 1.2 e 1.3 exista apenas um propósito,
em geral é possível atribuir mais que um propósito a uma comunicação.
Nesta tese existem dois objectivos fundamentais: o primeiro consiste em desenvolver
um processo de anotação de entidades e expressões relevantes numa comunicação, sendo o
segundo a aplicação de uma técnica de classificação de propósitos nela contidos.
Em suma, este trabalho consistiu no estudo e apresentação de uma proposta para uma
abordagem de anotação e classificação no contexto acima definido, bem como na
contribuição para a definição dos propósitos das comunicações, articulando-os com as
ontologias. Foi também concebido um protótipo, sendo este avaliado com base numa
amostra de dados reais fornecidos pela iTds. É de referir que está fora do âmbito desta tese
a sua integração com o produto XEO.ECC.
1.4 Principais Contribuições
Uma das principais contribuições deste trabalho foi a definição de um modelo de
classificação de comunicações numa organização, baseando-se num conjunto de propósitos
possíveis. Foi também estabelecida uma metodologia para a construção de um conjunto de
mapas de tópicos pertencentes a um domínio, dando especial enfoque à modelação dos
propósitos de uma comunicação. Como tal, este trabalho também fornece um modelo de
representação de propósitos de comunicações numa ontologia.
Para além de ser feita uma proposta para uma metodologia de classificação de
comunicações, é também de referir que essa mesma metodologia foi aplicada e avaliada
numa fase de experimentação.
1.5 Estrutura do Documento
Para além do presente capítulo, a estrutura deste documento consiste em mais cinco
capítulos:
Capítulo 2: Trabalho Relacionado;
Capítulo 3: Abordagem Seguida;
Capítulo 4: Implementação;
Capítulo 5: Experimentação;
Capítulo 6: Conclusões e Trabalho Futuro.
7
Na secção 2.1 são explicadas as técnicas básicas de processamento de texto no contexto
da classificação de documentos, enquanto na secção 2.2 são detalhados os conceitos de
entidades mencionadas, entidades e expressões específicas de domínio. Ainda nesta secção
(2.2) é apresentado um sistema (Rembrandt) de reconhecimento e classificação de
entidades mencionadas, que foi adaptado para ser utilizado no contexto deste trabalho. Por
último, na secção 2.3, são apresentados os conceitos base de técnicas de recuperação de
informação (information retrieval), introduzindo diversas abordagens que fazem uso de
ontologias para classificar documentos.
No capítulo 3 é apresentada a abordagem seguida neste trabalho, mais especificamente
o tipo de entidades e expressões detectadas, bem como a técnica de classificação utilizada,
estabelecendo a relação entre uma comunicação anotada e a classificação do propósito da
mesma.
O capítulo 4 trata das questões relacionadas com a implementação neste trabalho,
enquanto o capítulo 5 apresenta os resultados obtidos com a aplicação da técnica de
classificação a um conjunto de comunicações reais.
Finalmente, o capítulo 6 serve para tecer algumas conclusões e algum trabalho futuro
relacionado com o tema.
8
9
2. Trabalho Relacionado
Este capítulo apresenta metodologias de recuperação de informação em documentos,
bem como da sua classificação automática baseada em ontologias. Para uma primeira fase
de extracção de informação, serão apresentadas as técnicas básicas de processamento de
texto. Serão também abordados alguns métodos de identificação e anotação de entidades e
expressões presentes num texto, no sentido de obter a informação adequada e relevante
para um domínio específico. Por último, são descritas algumas das técnicas de
classificação de textos baseadas em ontologias.
2.1 Técnicas Básicas de Processamento de Texto
Numa técnica de classificação de texto é necessário que exista um pré-processamento
do mesmo, para que seja possível ao classificador, interpretá-lo da melhor forma possível.
2.1.1 Segmentação de Texto (Tokenization)
O processo de segmentação de texto consiste em segmentar um texto em unidades
menores (tokens), sendo estas tratadas como termos ou palavras [28, 36]. Existem dois
tipos de segmentação: (i) segmentação de palavras e (ii) segmentação de frases.
Normalmente a técnica mais utilizada é a segmentação de palavras, embora em
algumas situações seja necessário identificar também cada frase presente num texto. Na
segmentação de palavras, os delimitadores mais usados são a vírgula e o espaço, embora
possam ser criadas mais regras para lidar com mais pontuação. Por exemplo, a frase “O
Filipe é um grande amigo”, após a aplicação de uma técnica de segmentação de palavras,
resultaria no seguinte conjunto de segmentos:
[O][Filipe][é][um][grande][amigo]
10
Nas abordagens de classificação descritas em [4, 5, 9, 10, 17] existe sempre uma fase
de pré-processamento de texto, onde é aplicada a este uma técnica de segmentação.
Relativamente à segmentação de frases, esta consiste novamente na definição de
delimitadores ou fronteiras, que permitam reconhecer a terminação de uma frase, bem
como o início de outra [36]. Mais uma vez, a desambiguação dos delimitadores deve ser
tida em conta. Normalmente o ponto final indica a terminação de uma frase, embora,
quando usado como abreviatura, não deva ser tratado como tal, pois retornará um resultado
incorrecto. Por exemplo, para a frase “O meu número de tlm. 97 2113212”, é desejável
que apenas uma frase seja retornada, e que o termo “tlm.” seja interpretado como uma
abreviatura, pois o facto deste possuir um ponto, não corresponde à terminação de uma
frase.
Em situações que seja necessário identificar um conjunto de palavras e as respectivas
frases onde estão incluídas, o uso de ambas as técnicas de segmentação de texto poderá ser
necessário; por exemplo, para sistemas que detectem termos dependentes do contexto onde
estão inseridos, será necessária a aplicação das duas técnicas em simultâneo [1].
2.1.2 Análise Morfossintáctica (Part-of-speech)
Uma análise morfossintáctica consiste em classificar todas as palavras com a respectiva
classe gramatical (análise morfológica), bem como fazer um enquadramento de cada
palavra na frase onde está inserida (análise sintáctica) [33].
O processo de análise morfológica consiste em identificar termos simples ou compostos
numa frase, classificando-os segundo a sua categoria gramatical, podendo em certas
situações detalhar a origem da palavra ao nível da sua morfologia.
O processo de análise sintáctica procura construir a árvore de derivação para cada frase,
utilizando a classificação gramatical obtida na análise morfológica para enquadrar cada
palavra na respectiva frase.
Na figura 2.1 é possível observar uma análise morfossintáctica efectuada à frase “O
Filipe é um bom amigo”.
A
morf
para
frase
análi
E
algor
dicio
duas
A
atrav
reduz
morf
não f
do m
aque
pontu
mais
2.1.3
P
basta
relev
A segmenta
fossintáctica
se poder fa
es do texto,
ise sintáctic
Existem dife
ritmos base
onários é ou
técnicas em
A análise m
vés de uma l
zir o text
fossintáctica
façam senti
mesmo tipo,
les que gra
uações). Es
fácil o proc
3 Eliminaç
Palavras não
ante freque
vância inform
Fig
ação de te
a, visto que
azer uma an
de modo a
a seja efectu
erentes abor
eados em
utra das sol
m simultâne
morfossintác
listagem de
to à sua
a a uma seq
ido gramatic
de forma a
amaticalmen
sa análise m
cesso de sel
ção de Pala
o interessant
ntes nos te
mativa. A u
ura 2.1 - Exem
xto é tamb
é necessári
nálise morfo
que seja po
uada.
rdagens para
métodos es
uções. Tam
eo [33].
ctica pode
artigos, con
informação
quência de t
calmente, n
a anotar todo
nte não pos
morfissintáti
lecção de um
avras não in
tes ou stopw
extos [6], s
utilização de
mplo de uma A
bém uma
io possuir um
fológica de
ossível detec
a lidar com
statísticos
mbém poder
ser consid
njunções, p
o mais rel
termos num
não sejam ti
os os termo
ssuem relev
ica reduz o
m conjunto
nteressante
words são c
sendo aque
esta técnica
nálise Morfoss
técnica ba
m conjunto
cada termo
ctar todos o
a análise m
é uma del
rão existir a
derada uma
pronomes, e
levante. Em
m texto, para
idas em con
os relevante
vância (arti
conjunto de
de informa
es (Stopwor
consideradas
elas palavra
a requer algu
sintática
astante imp
de termos c
, bem como
os seus cons
morfossintác
as, enquan
abordagens
técnica de
até verbos
m [3] é
a que sequên
nta. Em [4]
s de um tex
igos, prepos
e termos de
ação relevan
rds)
s como send
as que pos
uns cuidado
portante na
contidos nu
o delimitar
stituintes pa
ctica; a utiliz
nto a utiliz
que fazem
e compress
ou adjectiv
feita uma
ncias de ter
é feita uma
xto, excluind
sições, pron
e um texto, t
nte.
do não desc
suem muit
os, pois pod
11
análise
um texto,
todas as
ara que a
zação de
zação de
uso das
são, que
vos, pode
análise
rmos que
a análise
do todos
nomes e
tornando
critivas e
o pouca
derão ser
12
eliminadas palavras que forneçam algum sentido ao texto, pois apesar de uma palavra ser
considerada como pouco relevante, pode ser fundamental para a compreensão do texto a
que pertence. Por exemplo, uma expressão composta por “João de Albuquerque” possui o
termo “de”, sendo esta considerada como não relevante para a língua portuguesa, embora
neste caso faça todo o sentido que não seja eliminada, pois é um constituinte de um nome
próprio. Outro exemplo é a expressão “Presidente dos Estados Unidos” [28], que possui a
palavra não interessante “dos”, embora a expressão completa seja muito mais relevante do
que a utilização dos termos “Presidente” e “Estados Unidos” separadamente. Para lidar
com este tipo de problemas, uma das alternativas será a detecção de termos compostos
antes do processo de remoção de palavras não interessantes.
A aplicação de um processo de remoção de palavras não interessantes tem como
objectivo a redução do texto, podendo resultar na diminuição da complexidade do processo
de classificação.
Nas abordagens [1, 3] são incluídas colecções de palavras não interessantes, sendo feita
uma filtragem ao texto numa fase de pré-processamento, para que sejam eliminadas todas
as palavras com pouca relevância informativa. Uma outra abordagem alternativa ao uso de
uma lista de palavras não interessantes, é a análise da frequência de cada termo numa
colecção de documentos, considerando pouco relevantes os termos que sejam muito
frequentes [28].
Para a língua portuguesa existem diversas colecções de palavras não interessantes,
sendo uma delas a colecção CHAVE4, que é o resultado da participação da Linguateca5 na
organização do CLEF6 (Cross-Language Evaluation Forum).
2.1.4 Radicalização (Stemming)
O processo de radicalização consiste na remoção dos sufixos e prefixos de um termo,
para que este seja reduzido ao seu radical (stem). O radical de uma palavra é a parte da
palavra comum a todas as palavras da mesma família (ex: prendeste, desprender,
prendido). Para a língua portuguesa existem dois algoritmos de radicalização, o de Porter
4 http://www.linguateca.pt/CHAVE/chave.html 5 http://www.linguateca.pt/ 6 http://www.linguateca.pt/CLEF/
13
[8] e outro concebido por Viviane Moreira Orengo & Christian Huyck [7], embora estes
tenham somente o objectivo de remoção de sufixos.
Em [10] é aplicada uma técnica de radicalização, precisamente para reduzir a
complexidade do processo de classificação em relação aos termos de um texto.
A utilização de um algoritmo de radicalização pode induzir a algumas situações de erro
[7]; por exemplo, a remoção de sufixos de uma palavra pode resultar num radical igual a
um outro termo ou pode mesmo remover parte do sufixo da palavra (overstemming). A não
remoção completa do radical de uma palavra também pode ocorrer (understemming),
induzindo novamente a uma situação de erro. A justificação para tais problemas reside no
facto da implementação deste tipo de algoritmos ainda apresentar algumas limitações,
portanto, estas devem ser tidas em conta quando estes tipos de técnica são utilizados.
2.1.5 Lematização (Lemmatization)
A aplicação de uma técnica de lematização num texto consiste em representar cada
palavra na sua forma primitiva (lemma) [28]. Esta técnica auxilia o processamento do texto
reduzindo a sua complexidade, podendo reduzir um conjunto de palavras da mesma família
apenas ao seu lema. Por exemplo, após ser aplicado um processo de lematização às
palavras “gostaríamos”, “gostei”, “gosto” e “gostaste”, estas resultariam na forma
primitiva “gostar”. Normalmente este tipo de processo é incluído na análise
morfossintáctica, mais especificamente na análise morfológica de cada termo, tal como foi
explicitado anteriormente.
2.1.6 Uso de Sinónimos
Uma relação de sinónimo entre duas palavras consiste no facto destas possuírem
similaridade ou significados semelhantes, podendo ser substituíveis em determinados
contextos. Por exemplo, as palavras “carro” e “automóvel” são consideradas sinónimos. A
utilização de sinónimos numa técnica de processamento de texto resulta num aumento do
nível de reconhecimento de termos.
2.1.7 Conclusões
Dada a necessidade de detectar entidades e expressões específicas de domínio, o
processo de segmentação de texto assume grande importância no contexto deste trabalho,
14
sendo utilizado tanto para segmentar palavras como frases. A segmentação de palavras
aliada à segmentação de frases resultará no enquadramento de cada termo na sua frase, o
que permitirá detectar algumas entidades que dependam do contexto onde estão inseridas.
Relativamente às técnicas de radicalização e lematização, estas são muito importantes,
no sentido de reduzir a dimensionalidade de um conjunto de termos de um texto. A
aplicação de uma técnica de radicalização pode ser efectuada com base em regras de
remoção de afixos, enquanto a lematização carece de uma estrutura informativa muito
maior. Portanto, do ponto de vista da exigência de informação acerca da língua portuguesa,
uma técnica de radicalização será mais simples de aplicar.
O uso de sinónimos é considerado fundamental no contexto deste trabalho, podendo ser
utilizado de diversas maneiras e, tal como descrito em [9, 10, 19] poderá ser utilizado
numa estrutura de apoio à ontologia, de modo a que esta contenha apenas os termos
principais, havendo uma correspondência entre um léxico de sinónimos e os termos base
na ontologia. Outra alternativa é a inclusão de todos os sinónimos na ontologia, não
existindo quaisquer estruturas de dados auxiliares.
2.2 Detecção de Entidades e Expressões Relevantes
No contexto deste trabalho, entidades relevantes são todos os termos simples ou
compostos que possam ser nomeados mediante uma determinada etiqueta ou categoria.
Estes podem ser datas, nomes próprios, organizações, locais ou qualquer outro tipo de
entidade específica de um domínio. As expressões relevantes também são específicas de
um domínio, embora não sejam nomeadas, isto é, são apenas palavras e não mencionam
nenhuma categoria em concreto. Por exemplo, no caso da área de negócio de seguros
automóveis, expressões específicas de domínio poderiam ser “Processo de sinistro”,
“Peritagem” ou “Apólice”. Enquanto as entidades específicas de domínio poderia ser
“10293/1221”, que corresponderia a um número de processo; “01-23-XC", correspondendo
a uma matrícula; ou “A12772”, sendo um número de apólice.
Termos considerados relevantes não servirão apenas para auxiliar o processo de
classificação, como também serão úteis para técnicas de pesquisa e navegação num texto,
através da sua anotação.
15
Nesta secção será apresentado um sistema (Rembrandt) de reconhecimento e
classificação de entidades mencionadas, bem como outras abordagens, cujo propósito é a
extracção de termos relevantes de textos pertencentes a um domínio específico.
2.2.1 Entidades Mencionadas
Entidades Mencionadas (EM) são entidades que são mencionadas num determinado
contexto, que lhes atribui um significado semântico, eventualmente diferente do que lhe é
intrínseco [25]. O reconhecimento deste tipo de entidades permite detectar num texto
nomes de pessoas, organizações, localidades, expressões numéricas, incluindo datas,
valores monetários e outros tipos de valores.
Um sistema de reconhecimento de entidades mencionadas [1, 25] deve possuir um
conjunto de regras que as permita detectar num texto, no sentido de encontrar evidências
da sua presença. Por exemplo, no caso da detecção de organizações existem certas palavras
que são usadas juntamente com nomes de organizações, como “Lda.” e “S.A.”. O uso de
nomes geográficos juntamente com nomes de organizações, poderá ser um indicador de
nomes de organizações, como por exemplo “Portugal Telecom”.
Para além do próprio significado do que uma palavra representa, existem evidências
que fazem com que essa mesma palavra possa ter outro significado semântico [2]. Por
exemplo, a expressão “João Portugal” é classificada como sendo um nome próprio de uma
pessoa apesar do termo “Portugal” ser um país. Mais ainda, no caso do termo “Cuba”, este
pode significar um país ou uma cidade portuguesa, daí a necessidade de observar as
evidências internas e externas ao próprio termo.
Evidências internas são todas as evidências que o termo em si apresenta, por exemplo,
no caso de um termo ser composto por “Lda.”, esta é uma evidência interna para uma
organização, pois “Lda.” faz parte do próprio nome da organização. Evidências externas
provêm do contexto no qual o termo está inserido, por exemplo, a expressão “rua de
Portugal” tendo como precedente “rua de”, o termo “Portugal” é considerado uma rua e
não um país.
Portanto, um sistema de reconhecimento e classificação de entidades mencionadas deve
ter em conta as evidências internas e externas [2] de cada entidade ou termo encontrado,
bem como possuir almanaques internos, que ajudem a detectar nomes próprios, ou
16
identificar palavras específicas que permitam auxiliar a classificação de entidades
mencionadas.
O Rembrandt [1] (Reconhecimento de Entidades Mencionadas Baseado em Relações e
Análise Detalhada do Texto) é um sistema que analisa detalhadamente o texto,
reconhecendo e classificando entidades mencionadas. Actualmente, o Rembrandt permite a
classificação de textos para língua portuguesa ou inglesa, usando a Wikipédia como fonte
de conhecimento, juntamente com regras gramaticais, que observam as várias evidências
internas e externas que cada entidade apresenta. O uso da Wikipédia permite obter um
conhecimento adicional para cada entidade, de modo a que seja possível perceber o seu
contexto, detectar relações com outras entidades, usar essa mesma informação para
contextualizar e ainda para poder classificar outras entidades circundantes.
A SASKIA e o RENOIR são as interfaces que interagem com a Wikipédia. A SASKIA
navega na estrutura das páginas da Wikipédia, enquanto o RENOIR constrói as consultas
semânticas para as interrogações à DBpedia7, uma versão ontológica da Wikipédia.
O Rembrandt classifica as entidades mencionadas usando 9 categorias principais e 47
tipos e subtipos8, ambas definidas pelo Segundo HAREM [26] (um sistema de avaliação de
entidades mencionadas para língua portuguesa).
Categoria Tipos
PESSOA
CARGO
GRUPOCARGO
GRUPOIND
GRUPOMEMBRO
INDIVIDUAL
LOCAL
FISICO
HUMANO
VIRTUAL
VALOR MOEDA
QUANTIDADE
Figura 2.2 – Algumas categorias e tipos das entidades PESSOA, LOCAL e VALOR
7 http://dbpedia.org/ 8 http://www.linguateca.pt/aval_conjunta/HAREM/tabela.html
Na fi
Remb
não e
A
pode
Remb
A
entre
mesm
utiliz
evidê
proce
I
Com
conc
maiú
comp
figura 2.2 sã
brandt, sen
estarem pre
A classifica
endo uma E
brandt aceit
A parte cent
e cada EM
ma página,
zadas regra
ências exter
essamento:
I. Reco
cand
II. Class
III. Repe
mo é possíve
eitos tempo
úscula. Ma
postas some
ão apresent
ndo que algu
sentes na fi
ção das EM
EM ser an
ta como inp
tral do proc
e uma pág
através d
as gramatic
rnas ou inte
onhecimento
didatas;
sificação se
escagem de
el observar n
orais, valore
ais especifi
ente por alg
tadas algum
umas categ
gura.
M é feita a
notada com
put ou outpu
cedimento d
gina da Wik
das hiperlig
cais criada
ernas das E
o de expres
emântica de
EM sem cl
Figura 2.3 - P
na figura 2.
es e palavra
icamente, a
garismos, n
mas das cate
gorias ainda
através da
m mais do
ut, ficheiros
do Rembran
kipédia, e p
gações e c
as manualm
EM. O Remb
ssões numér
EM;
assificação.
Principais Etap
3 [1], a prim
as cuja única
as express
números por
egorias e re
a possuem s
anotação d
que uma
s do tipo XM
ndt procura
posteriorme
ategorias n
mente, para
brandt cons
ricas e gera
.
pas do Rembra
meira etapa
a caracterís
sões numér
r extenso, o
spectivos ti
subtipos ass
os textos q
categoria o
ML, HTML
estabelecer
ente analisa
nela existen
a que se
sidera três e
ação de enti
andt
consiste em
tica é serem
ricas detec
ordinais e c
ipos utilizad
sociados, ap
que são ana
ou subcateg
ou texto sim
er uma map
ar a estrutu
ntes. Tamb
consigam
etapas princ
idades menc
m detectar n
m iniciadas
ctáveis pod
cardinais, co
17
dos pelo
pesar de
alisados,
goria. O
mples.
eamento
ura dessa
bém são
capturar
cipais de
cionadas
números,
por letra
dem ser
omo é o
18
caso dos seguintes exemplos: “2001”, “20º”, “vinte”, “3 mil milhões” ou “cento e vinte e
três”. Relativamente a conceitos temporais, podem ser detectadas expressões que se
refiram a meses do ano, séculos, diversos formatos de data e hora, numéricos ou textuais,
estações do ano, intervalos de tempo e ainda outras expressões com características de
temporalidade como “meados”, “princípios” ou “AC”. Por exemplo, expressões do tipo
“25 de Abril de 1974”, “em meados de Janeiro”, “século XXI”, “em 1005 AC”, “Verão”
ou “entre 2000 e 2010” seriam detectadas segundo as regras de detecção de conceitos
temporais. Por último, ainda nesta primeira fase, são detectadas expressões que contenham
valores numéricos, tais como “$34.1”, “1.000.000$00”, “10 watts” “10%”, “10 por cento”
ou “34ºC”. O próprio processo de geração de candidatos a EM, tem como base um
conjunto de regras auxiliadas por almanaques internos, que permitem assumir, até prova
em contrário, que um determinado termo é uma EM, prova essa que ao longo de todo o
processamento do Rembrandt, se confirma ou não.
Os dados da Wikipédia são importados, permitindo armazenar localmente todas as
informações acerca das páginas. Desse modo, na segunda etapa de todo o processo, é
utilizada a SASKIA juntamente com a Wikipédia e um conjunto de regras gramaticais, no
sentido de classificar as EM candidatas. Cada EM candidata é classificada em primeiro
lugar pela SASKIA, através de informação extraída da Wikipédia, e de seguida é
classificada através de evidências internas e externas, permitindo assim uma dupla
classificação, no sentido de resolver desambiguações, caso existam. Por exemplo, a
seguinte frase “eu moro na rua de Angola”, onde a SASKIA classificou previamente a EM
“Angola” como sendo LOCAL/HUMANO/PAÍS, irá sofrer uma alteração, pois após a
aplicação de uma regra gramatical relativa à captura de ruas, o Rembrandt irá redefinir a
classificação da EM “Angola”, como sendo LOCAL/HUMANO/RUA, devido à presença
do termo “rua” antes da EM. As categorias presentes na Wikipédia, nada têm a ver com as
categorias e tipos acima descritos na figura 2.2, e devido a esse facto, o Rembrandt possui
um conjunto de regras internas, no sentido de converter cada categoria extraída da
Wikipédia nas categorias do Segundo HAREM.
Como é possível observar na figura 2.4 [1], este processo começa por procurar páginas
na Wikipédia com o título precisamente igual à EM. No caso de não existirem páginas com
o mesmo título que a EM, é obtida a página de desambiguação associada ao texto da EM,
através da tabela de redireccionamentos da Wikipédia.
Após
recol
recon
As a
respe
possu
assoc
com
corre
acrón
os tít
título
s ter sido fe
lha das cate
nhece são:
Auto-cat
Categori
Categori
auto-categor
ectiva. As c
ui diversos
ciadas ao te
as EM, em
esponde a u
nimo), para
tulos das “p
o correspond
Figura
feita a assoc
egorias em c
tegoria;
ia de desam
ia de acrónim
rias são cat
categorias d
s significad
exto da EM
mbora seja ú
um acrónim
a extrair liga
páginas-alv
de à expans
Figura 2.5 - F
2.4 - Primeira
ciação entre
cada página
mbiguação;
mo.
tegorias qu
de desambig
dos na Wik
. A categor
útil nas pági
mo, e para q
ações para o
o” por part
são do acrón
Fase de obtençã
fase do uso da
e cada EM
a. Os tipos d
ue possuem
guação são
kipédia, ou
ria de acrón
inas da Wik
que a SASK
outras págin
te do acróni
nimo, como
ão de categoria
a Wikipédia no
e uma pág
de categoria
o mesmo
utilizadas
seja, quan
nimo não é u
kipédia para
KIA não util
nas. Nestes
imo, e obté
o pode ser o
as na Wikipéd
o Rembrandt
ina da Wik
as da Wikip
nome que
quando um
ndo existem
utilizada pa
a indicar qu
lize o texto
casos, a SAS
ém as categ
bservado na
ia e no Rembra
kipédia, é fe
pédia que a
o título da
ma determin
m diversas
ara ser emp
ue o título d
o da EM (qu
SKIA verifi
gorias daque
a figura 2.5
andt
19
eita uma
SASKIA
a página
nada EM
páginas
arelhada
a página
ue é um
ica todos
elas cujo
[1].
20
Nas fig
desamb
Por últim
no senti
(figura 2
guras 2.6
iguação, res
Figur
mo, e após
ido de conv
2.8 [1]) e de
Figura 2.8 -
e 2.7, são
spectivamen
ra 2.6 - Exempl
Figura 2.7 - E
recolhidas
verter as cat
etectar refer
Processo de co
o apresent
nte.
lo das categori
Exemplo da ca
todas as ca
egorias da W
rências geog
onversão de ca
tados exem
ias Acrónimo e
ategoria Desam
ategorias pe
Wikipédia p
gráficas, ca
ategorias da W
mplos de c
e Desambiguaç
mbiguação na W
ertencentes
para as cate
aso existam.
Wikipédia para
categorias
ção na Wikipéd
Wikipédia
à EM, são a
egorias do S
as do Segundo
de acrónim
dia
aplicadas re
Segundo HA
o HAREM
mo e
egras,
AREM
A
detec
para
conti
gram
As re
conse
outra
frase
<EM
categ
pode
Gera
Com
propr
As regras g
ctar a presen
uma determ
idas, sendo
maticais que
egras são a
eguir obter
as EM, con
e “A tia da
M> [é|foi|são
goria e su
emos observ
ando a segui
<EM C
mo é possív
riedades, no
cardinali
número q
critério:
sua dete
texto sim
gramaticais
nça de EM.
minada cate
aplicada um
e são identif
aplicadas a t
EM que cu
nceitos, exp
Ana Rita é
o] um(a) {p
ubcategoria
var na figura
Figura
inte anotaçã
CATEG=”
el observar
omeadamen
idade: perm
que de veze
serve para
ecção pode
mples ou um
servem par
Cada regra
goria cump
ma acção c
ficadas as e
todas as fra
mpram as r
pressões reg
é arquitecta
profissão},
associadas
a 2.9 [1], a a
2.9 - Exemplo
ão:
PESSOA”
r na figura
nte:
mite definir
es que esta p
definir a c
ser através
ma categoria
ra represen
a gramatical
prir uma reg
caso a regra
evidências i
ases do text
regras criada
gulares ou s
a”, aplicand
resulta na
s: PESSOA
aplicação co
o de uma regra
TIPO=”IN
2.9, para c
se uma clá
pode ocorre
orrespondên
s de uma e
a de EM;
ntar padrões
l é compost
gra, tem de
a seja bem
internas e e
to e a cada
as. Para cad
simples term
do-lhe uma
detecção d
A/INDIVID
ompleta de
a gramática do
NDIVIDUA
cada cláusu
áusula é opc
er;
ncia entre a
xpressão re
s nas frases
a por uma o
superar tod
sucedida. É
externas de
termo da f
da cláusula é
mos. Por e
regra com
e uma EM
DUAL. Mai
uma regra à
Rembrandt
AL”>Ana R
ula é possív
cional ou nã
a cláusula e
egular (simp
s, cujo obj
ou mais cláu
das as cláusu
É através da
cada EM n
frase, no se
é possível a
exemplo, a
a seguinte
“Ana Rita”
is detalhad
à mesma fra
Rita</EM>
vel definir
ão, determi
e o texto, e
mples ou com
21
ectivo é
usulas, e
ulas nela
as regras
no texto.
entido de
adicionar
seguinte
cláusula
”, com a
damente,
ase.
algumas
inando o
m que a
mposta),
22
padrão: corresponde à expressão regular ou texto simples a ser incluído na cláusula,
para a sua detecção;
inclusão: define se os termos incluídos nas cláusulas serão também incluídos na
própria EM retornada e anotada.
A última etapa consiste na detecção de relações entre as EM, o que permite que
algumas EM não classificadas obtenham uma classificação nesse processo, pelo facto de
possuírem alguma relação com outras EM já classificadas. As EM que se sobrepõem a
outras EM podem dar origem a relações do tipo “ocorre_em” ou “sede_em”, por exemplo,
no caso da seguinte frase: “Jogos Olímpicos de Pequim”, é originada a relação “sede_em”
entre duas EM: “Jogos Olímpicos” com a categoria ACONTECIMENTO, enquanto a EM
“Pequim” é classificada como LOCAL. Finalmente, as EM que não possuem classificação
serão descartadas.
Relativamente a outros sistemas de reconhecimento e classificação de EM,
participaram no Segundo HAREM cerca de quinze sistemas, e o Rembrandt apresentou os
melhores resultados. Além disso, foi o único sistema deste tipo encontrado em código
aberto.
2.2.2 Entidades e Expressões Específicas de Domínio
Os sistemas de reconhecimento e classificação de entidades mencionadas genéricas,
tais como [1, 25], não permitem detectar termos específicos, pois a construção das regras
de detecção de entidades mencionadas é feita com base num conjunto de categorias pré-
definidas e de índole geral, não oferecendo a especificidade desejada para um qualquer
domínio.
Como já foi referido, entidades e expressões específicas de domínio são todos os
termos contidos num texto, cujo significado semântico está associado a um qualquer
domínio específico. A detecção de entidades específicas de domínio exige um conjunto de
regras próprias, que varia consoante o domínio utilizado, enquanto a detecção de
expressões específicas de domínio necessitaria de um dicionário suficientemente
elaborado, contendo um vasto conjunto de expressões específicas pertencentes a um
domínio, para que estas fossem detectadas. Tais regras e expressões específicas de domínio
serão obtidas através de uma ontologia que descreva o domínio onde o classificador será
aplicado.
23
De seguida, serão apresentadas algumas abordagens de extracção de entidades e
expressões relevantes, algumas baseadas em ontologias que descrevam domínios
específicos.
Em [17] é descrita uma abordagem para facilitar e melhorar a pesquisa de documentos
na área da biologia. Previamente à pesquisa, serão efectuadas anotações a documentos,
tendo por base as ontologias Unified Medical Language System Semantic Network9 (UMLS
SN) e Gene Ontology10 (GO), que descrevem conceitos na área da biologia. Como
resultado dessas anotações será exportado um grafo RDF11, possuindo informação
relevante contida nos documentos. O grafo RDF construído pelo processo de anotação
permite efectuar pesquisas relevantes e, além disso, ainda é feito um enriquecimento do
conhecimento presente nas ontologias utilizadas, adicionando sinónimos e mais relações
específicas entre conceitos, por intermédio de especialistas do domínio.
O procedimento de anotação de textos é feito através de ferramentas de processamento
de língua natural da plataforma GATE [18]. Para cada frase será detectada uma instância de
uma relação na ontologia UMLS SN, bem como conceitos também presentes na ontologia,
sendo todo o processo composto por três passos:
I. Detecção de Relações: para cada relação presente na ontologia é criada uma regra
através de uma gramática baseada em expressões regulares, para que todas as
instâncias de relações sejam extraídas.
II. Extracção de Termos: nesta fase é usado um processo de segmentação de palavras e
análise morfológica do texto. De seguida é utilizada uma janela de comprimento
máximo quatro, de modo a serem extraídos termos relevantes, com base num
processo de correspondência entre cada termo e os conceitos na ontologia.
III. Geração de Anotações: através de uma análise sintáctica a cada frase, são
detectados os seus constituintes, permitindo assim encontrar todos os conceitos
instanciados, ligados pela relação também instanciada.
9 http://www.nlm.nih.gov/research/umls/ 10 http://www.geneontology.org/ 11 Resource Description Framework
24
Finalmente, uma anotação é exportada na forma de um grafo RDF, e associada ao
documento em questão, contendo toda a informação que foi extraída.
Em [4] é apresentada uma metodologia de extracção de conhecimento em relatórios de
radiologia torácica. Para esse efeito são utilizadas técnicas de processamento estatístico de
língua natural. Foram analisados 1015 relatórios, e após um processo de segmentação de
texto e análise de n-gramas12, muitos dos segmentos obtidos foram eliminados por serem
considerados palavras não interessantes. Foram criados dicionários, adicionando cada
palavra que não foi excluída no processo anterior, através do seguinte padrão:
Palavra = {‘classe’, ‘semântica’, ‘figurado’}
Enquanto o primeiro argumento da palavra corresponde à sua classe gramatical, a
anotação do seu significado semântico e sentido figurado foi feita posteriormente por
especialistas do domínio. A obtenção dos termos mais relevantes foi feita a partir da
observação de n-gramas, variando n entre 2 a 10. O principal objectivo desta metodologia é
utilizar a anotação de termos relevantes em relatórios técnicos, para fornecer à área de
radiologia torácica uma base de informação que permita confrontar resultados em
processos de tomada de decisão.
2.2.3 Conclusões
A detecção de entidades mencionadas por parte do sistema Rembrandt é bastante útil
no contexto deste trabalho, e através de alguns ajustes e adaptações para um domínio
específico, esta ferramenta tem bastante relevância no processo de anotação do conteúdo
de uma comunicação. O sistema Rembrandt será útil para a detecção das entidades
mencionadas, embora também seja fundamental para a introdução de novas regras de
detecção de entidades e expressões específicas de domínio, pois possui diversos métodos
de detecção de informação através da introdução de um conjunto de regras e expressões
para um qualquer domínio.
Os métodos para detectar entidades e expressões específicas de domínio reflectem a
importância do uso das ontologias, pois quando existe uma área de negócio ou um domínio
bastante extenso, em que os conceitos apresentem relações entre eles, o papel das
ontologias torna-se fundamental [3]. O uso de ontologias permite resolver problemas
12 Sequência de n palavras.
25
semânticos [10] utilizando abordagens diferentes das técnicas de classificação tradicionais
[14], levando a bons resultados de classificação através do uso de ontologias que
descrevam detalhadamente um domínio [33].
2.3 Técnicas de Classificação Automática de Texto baseadas em Ontologias
O reconhecimento automático de padrões ou classificação automática reside na
aplicação de técnicas automáticas que incluem a extracção, identificação, classificação e
descrição de padrões nos dados [23]. Centrando-nos apenas no processo de classificação,
este consiste na actividade de dividir um conjunto de objectos num conjunto de classes, de
tal modo que os objectos contidos na mesma classe sejam todos similares, e dissimilares a
objectos contidos noutras classes [20]. As técnicas de classificação automática podem ser
aplicadas de duas maneiras distintas: (i) classificação automática supervisionada e (ii)
classificação automática não-supervisionada (clustering).
Uma técnica de classificação automática supervisionada consiste em agrupar os dados
mediante um conjunto de classes definidas a priori, existindo uma amostra de dados
previamente classificados para treino. Na classificação automática não supervisionada não
existem pré-classificações definidas, e o objectivo é agrupar conjuntos de dados que
apresentem semelhanças entre si.
As técnicas de classificação nos sistemas de informação podem ser aplicadas no sentido
de facilitar o acesso, a organização, o uso e a recuperação da informação [22].
No âmbito deste trabalho, o principal objectivo da classificação automática é classificar
o conteúdo textual de comunicações. Os dados que o classificador irá interpretar são
textuais, o que significa que os textos serão representados por termos simples ou
compostos, e como objectivo final é pretendido que uma comunicação seja associada a
uma ou mais classes. A classificação das comunicações será acerca de um domínio
específico, logo, é desejável que para cada termo identificado no texto, se obtenha o seu
significado semântico; e o uso de ontologias, além de ter sido uma exigência do projecto
XEO.ECC, permite representar a semântica dos termos encontrados no texto, tendo
apresentado resultados promissores ao nível da classificação [33].
Em primeiro lugar, a próxima sub-secção faz uma introdução dos conceitos e notação
base utilizados em processos de classificação e recuperação de informação. De seguida, o
26
Vector Space Model (VSM) é apresentado, devido ao facto de ser um dos modelos mais
utilizados em processos de classificação e recuperação de informação. Por último, são
apresentadas abordagens de classificação automática baseadas em ontologias.
2.3.1 Recuperação de Informação (Information Retrieval)
O processo de recuperação de informação lida com o seguinte desafio: dado um
conjunto de documentos e uma interrogação (query), é pretendido que seja encontrado o
conjunto de documentos mais relevante mediante essa mesma necessidade de informação.
O documento pode ser considerado um conjunto de termos, tendo sido sujeito a um
conjunto de técnicas de processamento de texto (segmentação, remoção de palavras não
interessantes, radicalização, lematização), resultando num conjunto de termos relevantes.
Uma interrogação pode ser considerada um conjunto de termos, reflectindo a intenção
do utilizador, de modo a obter informação presente num conjunto de documentos; ou ser
entendida como o conteúdo de um documento, resultando nesse caso, no cálculo de
similaridade entre documentos.
De seguida introduzem-se alguns conceitos e notação.
D denota um conjunto de n documentos;
d denota um documento de D;
T denota um conjunto de termos extraídos de ;
t denota um termo pertencente a um conjunto de termos T;
Q denota um conjunto de interrogações (queries);
q denota uma interrogação (query) de Q;
sim(q,d) denota uma função de similaridade entre uma interrogação ∈ e um
documento ∈ , que retorna um número real (entre 0 e 1);
sim(d1,d2) denota uma função de similaridade entre dois documentos , ∈ ,
que retorna um número real (entre 0 e 1).
Cada documento ou interrogação é representado por um conjunto de termos que reflecte o
seu conteúdo. A relevância de cada termo num documento ou interrogação é especificada
através da atribuição de um peso ao termo:
27
, , denota o peso do termo ∈ , num documento ( ∈ );
, , denota o peso do termo ∈ , numa interrogação ∈ .
2.3.2 Vector Space Model
O Vector Space Model é um modelo algébrico utilizado em sistemas de recuperação e
filtragem de informação, indexação ou rankings de relevância. O seu primeiro uso foi
através do sistema de recuperação de informação SMART [29], desenvolvido na
universidade de Cornell na década de 60. O procedimento formal do Vector Space Model
consiste em três fases distintas:
Pré-processamento de texto;
Atribuição de pesos aos termos extraídos, em função do seu grau de relevância no
documento;
Calcular a similaridade entre o documento e uma interrogação.
Relativamente ao pré-processamento do texto em cada documento, este reside na extracção
do conjunto dos seus termos mais relevantes, sendo construído um vector que representa o
grau de relevância de cada termo relevante no documento:
, , … , # ,
Assim, a cada termo representativo do documento é-lhe associado um peso , . Para cada
termo, o peso que lhe é atribuído (term weighting), depende:
Da frequência do termo no próprio documento, sendo representada por , (term
frequency);
Da frequência do termo na colecção de documentos D, sendo representada por
(collection frequency).
Consideram-se na literatura [13, 27, 29] diversas medidas para o cálculo de pesos de
termos, baseadas na sua frequência num documento, nomeadamente:
1 , , que é o logaritmo da frequência do termo, apresentando a
particularidade de não privilegiar os termos que ocorrem com mais frequência.
Dado que esta a função desta medida apresenta um domínio infinito, quanto maior
28
for o valor de , menor é a variação da função, ou seja, esta cresce cada vez
menos.
1 ,
, denominada inverse term frequency, esta função também valoriza todos
os termos de baixa frequência, pois a partir de um certo número de ocorrências para
cada termo o valor da função varia pouco. De referir que o valor de r (normalmente
r=1) pode variar, de modo a serem feitos ajustes à função.
Algumas medidas utilizam a frequência do termo numa colecção de documentos [24]:
#, denominada inverse document frequency. Quando um termo ocorre em
muitos documentos, o valor da função anda mais próximo de zero, o que significa que
esta função desvaloriza a ocorrência de termos frequentes. Contrariamente, se a
ocorrência de um termo for pouco frequente, o valor da função será mais elevado. Mais
ainda, quando um termo ocorre em todos os documentos da colecção, o valor da função
é zero.
# , denominada term relevance weight. Esta medida não só valoriza os
termos com pouco frequência numa colecção, como a partir do momento que a
ocorrência do termo t em D atinge metade dos documentos existentes, o valor da
função é zero.
O cálculo do peso de um termo pode apresentar uma conjugação entre os dois factores
[13] acima referidos, como por exemplo:
, , log#
2.1
O peso , poderá representar uma combinação entre a frequência de um termo num
documento e numa colecção de documentos, reflectindo o seu grau de importância.
Além destes componentes que podem ser utilizados para o cálculo do peso, existe ainda
um factor de normalização, para que o comprimento de todos os vectores seja equilibrado
[12]. A fórmula de normalização pode ser definida por:
,
∑ ,∈
2.2
29
Como já foi referido, o objectivo do processo de recuperação de informação é encontrar
um grau de similaridade entre um documento e uma interrogação, sendo essa similaridade
calculada na maioria das situações através do co-seno do ângulo entre os dois vectores
[30]. Definindo o cálculo do co-seno entre dois vectores, temos:
, , , , … , # ,
, , , , … ,# ,
,
| |
∑ ,∈ ,
∑ ,∈ ∑ ,∈
2.3
É de referir que no contexto da classificação automática não-supervisionada, a função
acima descrita também pode ser utilizada para o cálculo de similaridade entre dois
documentos, no sentido de criar agrupamentos (clusters) de documentos que mais se
aproximem.
Uso de Classes no Vector Space Model
No contexto deste trabalho pretende-se uma classificação de documentos, em que os
documentos são classificados mediante um conjunto de classes:
, … , , em que C é o conjunto das k classes existentes.
Poderá existir uma fase de treino, em que são escolhidos diversos documentos para
amostra de cada classe. Dessa forma, poderá existir um super-documento para cada classe,
constituído pela concatenação de documentos da amostra, pertencentes a essa mesma
classe:
, , … , # , , corresponde ao vector dos pesos de cada termo presente no
super-documento associado à classe c;
Dado um novo documento ∗ é pretendido que este seja classificado com base num
conjunto de classes existentes, através da medida de similaridade do co-seno (equação 2.3):
30
∗ , ∗, … , # , ∗ , corresponde ao vector de pesos de cada termo presente no
documento ∗;
, ∗ = [0..1], corresponde à medida de similaridade entre o documento ∗ e
cada classe ∈ .
O documento ∗ será classificado com a classe c que apresentar um maior valor de
similaridade.
Existindo outros tipos de medidas para calcular o peso dos termos em função de uma
classe, introduz-se a seguinte notação:
, , corresponde ao número de documentos da amostra, pertencentes a uma
determinada classe c onde o termo t está contido;
, , corresponde ao número de documentos da amostra, onde a classe c ocorre
sem o termo t;
, , corresponde ao número de documentos da amostra, onde ocorre o termo t,
sem ser na classe c;
, corresponde ao número de documentos da amostra, onde nem a classe c,
nem o termo t ocorrem.
Com base na notação acima descrita, algumas medidas para calcular o peso dos termos em
função de uma classe são:
, # , , , ,
, , , , , , , ,, esta medida
representa um grau de dependência entre cada termo e uma respectiva classe.
1 ,
, , esta é uma medida proposta em [13], que visa fornecer um peso a
um termo t pertencente a uma classe c, tendo em conta a ocorrência desse termo em
outras classes. O valor desta medida obtém os melhores resultados quando o
31
número de ocorrências do termo na classe respectiva é maior que o número de
ocorrências do termo nas restantes classes.
As medidas acima descritas também podem ser conjugadas com a frequência de um termo
num documento, dando origem a medidas do tipo:
, , ;
, 1 ,
,.
Portanto, o uso de classes no Vector Space Model permite o cálculo de um valor de
similaridade entre um documento e cada classe existente no modelo. O resultado de
, ∗ retorna um valor que representa a similaridade entre o documento ∗ e uma
classe c, podendo ser utilizado para devolver um ranking de relevância de um documento
para um conjunto de classes.
Algumas das limitações ou desvantagens do Vector Space Model são a extensa
dimensionalidade de cada documento, que é representado por um vasto conjunto de
termos, o que pode dar origem a vectores muito longos e pouco representativos. As classes
são representadas da mesma forma que um documento, sendo que a existência de um
número elevado de classes poderá fazer com que o conjunto de termos que as representam
se disperse na representação vectorial.
Relativamente à relação entre termos, o Vector Space Model assume que esta não
existe, não havendo qualquer significado semântico associado a estes, portanto, os termos
são considerados independentes e apresentam uma representação vectorial ortogonal. Por
exemplo, a similaridade entre “Carro” e “Automóvel” seria ignorada, sendo estes
considerados dois termos completamente independentes, quando na realidade possuem o
mesmo significado. Para além dos sinónimos, todos os fenómenos linguísticos são
ignorados neste modelo, resultando numa completa independência entre termos.
O próximo modelo de classificação utilizará a relação entre termos para obter melhores
resultados classificativos e alterar a dimensionalidade do vector de um documento ou
interrogação.
32
2.3.3 T
Em
a indepe
[30] é
represen
todos os
Ao con
Topic-b
termo (
relação
A direc
relação
Atra
tópicos:
Topic-based
contraste co
endência en
o facto do
nta um tópi
s outros tóp
ntrário do V
based Vecto
∈ ) é re
ao tópico k
, ,
| |
cção do vec
a um espaç
avés da figu
:
Figura
d Vector Sp
om o Vecto
ntre os term
o espaço op
ico, em que
picos.
Vector Spac
or Space M
epresentado
k.
, … , ,
, ⋯
ctor rep
ço dimensio
ura 2.10 [32
a 2.10 - Relação
ace Model
or Space Mo
mos. A prin
peracional R
e cada tópi
∈
ce Model, e
Model (TVS
por um ve
, ∈ 0,1
presenta o
nal de tópic
2] é possív
o entre Tópico
odel, este m
ncipal difere
R possuir
co assume-
∈
em que cad
SM) cada d
ector , que
1
grau de re
cos.
vel observar
os e termos no
modelo base
ença deste m
k dimensõe
-se como or
∈
da dimensã
dimensão re
é compost
elevância qu
r a relação
Topic-based Ve
ado em tóp
modelo bas
es, e cada
rtogonal e
o represent
epresenta u
to pelos pes
ue o termo
entre algun
Vector Space Mo
picos não as
eado em tó
dimensão
independen
ta um term
um tópico.
sos do term
o i apresent
ns termos e
odel
ssume
ópicos
de R
nte de
mo, no
Cada
mo em
ta em
e dois
33
O Topic-based Vector Space Model expressa as relações entre termos e tópicos da seguinte
maneira:
Para os termos mais relevantes de cada tópico, o seu peso deve ser próximo de 1;
Termos que não possuam relação com um tópico (por exemplo, as palavras não
interessantes), devem possuir um peso próximo ou igual a 0;
O ângulo entre dois termos que possuam o mesmo radical deve ser de 0 graus;
O ângulo entre dois sinónimos ou palavras de um tópico similar deve ser muito
próximo de 0 graus. Por exemplo, com base na figura 2.10, podemos observar a
relação de proximidade entre os termos “software” e “program”;
O ângulo entre dois termos que pertençam a tópicos diferentes, deve ser de 90
graus. Observando a figura 2.10, podemos observar que o ângulo entre os vectores
dos termos “Goethe”e “program” é muito próximo dos 90 graus;
O ângulo entre termos relevantes de um tópico e termos sem relação alguma com
um tópico, deve ser de 45 graus. Por exemplo, e com base na figura 2.10, os termos
“is” e “the” não apresentam qualquer relação com os tópicos expressos também na
figura, logo, os seus vectores apresentam um ângulo de aproximadamente 45 graus
com os restantes vectores dos termos relevantes.
O ângulo entre dois termos sem qualquer tipo de relação com um tópico, deve ser
muito próximo de 0 graus. Por exemplo, os vectores dos termos “is” e “the”
apresentam um ângulo aproximado dos 0 graus, pois não apresentam relação com
nenhum dos tópicos expressos na figura 2.10.
Cada documento ∈ é representado pela soma de todos os vectores de termos que o
compõem:
∀ ∈ ∶ 1
⟹ 1com ,
∈
2.4
34
Em que o peso , pode ser calculado com base nas medidas descritas na sub-secção
anterior.
Nesta abordagem [30] não é definida uma metodologia para obtenção de um conjunto
de tópicos, portanto, a escolha reside no facto de encontrar um conjunto de
conceitos/tópicos e respectivos termos pertencentes ao domínio onde esta técnica de
classificação será aplicada.
2.3.4 Abordagens baseadas em Ontologias
Esta sub-secção tem como principal objectivo apresentar algumas abordagens que
façam uso das ontologias em processos de classificação, sendo que o seu uso pode auxiliar
o processo de geração de um espaço multidimensional de conceitos ou tópicos.
O uso de ontologias no processo de classificação automática de texto permite
representar a informação de um qualquer domínio, podendo esta ser vista como uma árvore
ou um grafo acíclico, no sentido de representar relações, e estabelecer uma hierarquia entre
conceitos. As classes a que uma comunicação poderá pertencer estão descritas na ontologia
de um modo hierárquico, em que cada classe poderá possuir diversos conceitos associados,
com as respectivas palavras-chave. O processo de classificação de texto baseada em
ontologias passa por diversas fases até retornar um resultado e, no caso deste trabalho, o
retorno consiste numa classificação em categorias pré-definidas.
Numa técnica de classificação automática aliada ao uso de ontologias, normalmente
existem três fases [11]:
I. Pré-processamento de texto;
II. Correspondência entre a informação relevante e a ontologia;
III. Aplicação da Técnica de Classificação.
Todas estas fases podem variar e ser utilizadas de maneiras distintas, portanto, são
apresentadas diversas abordagens que conjugam estas três fases.
Em [30] é também proposto um modelo baseado no Topic-based Vector Space Model
(sub-secção 2.3.3), introduzindo as ontologias como suporte à construção do espaço
operacional R, que passa a ser derivado através de uma ontologia específica de domínio. A
ontologia específicas de domínio possui informação acerca dos conceitos nela contidos e
respectivas relações.
N
const
os tó
pode
ter d
estes
À
mant
pois
espaç
termo
Na f
entre
estip
relaç
2.11
os tó
A
um d
será
Neste mode
trução de u
ópicos man
endo ter div
diversas inte
s tenham sig
À semelhanç
tém-se, emb
considera-
ço dimensi
os associad
figura 2.11
e eles, send
uladas as re
ções do tipo
atribui-se o
ópicos que p
A abordagem
domínio esp
ortogonal.
elo denomin
uma ontolog
ntêm uma
ersas interp
erpretações,
gnificados s
ça do Topic
bora cada t
se que exi
ional. Porta
dos a cada um
[30] é poss
do esta rep
elações que
o is_a, part
o nome de
possui, bem
Figura 2.
m do model
pecífico, se
nado Enhan
gia é feita co
relação hie
pretações, at
isto é, um
emânticos d
c-based Vec
tópico não n
ste uma re
anto, os ân
m, bem com
sível observ
presentação
os tópicos
t_of ou mem
mapa de tó
como as re
11 - Represent
lo eTVSM p
endo que a
nced Topic
om base em
erárquica e
través de ter
tópico pod
diferentes.
ctor Space M
necessite d
elação entre
ngulos entre
mo o nível d
var um con
o incluída
devem man
mber_of. A
ópicos, sen
elações hierá
tação abstracta
permite a in
relação ent
c-based Vec
m tópicos, te
entre eles
rmos a elas
de ter divers
Model, a dim
e ser ortogo
e todos os
e os vector
de relação e
njunto de di
numa onto
nter entre e
o conjunto
do nele rep
árquicas exi
a da relação en
nclusão de d
tre tópicos
ctor Space
ermos e inte
formando u
associados
sos termos
mensionalid
onal em rel
tópicos ex
res de tópi
ntre os mes
iferentes tó
ologia. Ape
les na ontol
de tópicos
presentado o
istentes.
ntre os tópicos
diversos ma
de mapas d
Model (eT
erpretações,
um grafo
s. Um tópico
associados,
dade de cad
lação aos r
xistentes no
icos depend
smos.
ópicos e as
esar de não
logia, são s
ilustrado n
o conjunto
apas de tópi
de tópicos
35
TVSM) a
, em que
acíclico,
o poderá
, embora
da vector
estantes,
mesmo
dem dos
relações
o serem
ugeridas
na figura
de todos
icos para
distintos
36
A relação entre todos os tópicos servirá para calcular o vector de pesos de cada tópico.
Para cada tópico , é calculado um conjunto ∗ correspondente aos seus super-tópicos,
com base na estrutura hierárquica onde o tópico está inserido. Observando novamente a
figura 2.11, para cada tópico , o seu conjunto de super-tópicos seria:
∗
∗
∗
∗ ,
∗ ,
∗ , ,
∗ , Para o cálculo de cada vector de tópico é necessário estabelecer a diferença entre os
tópicos folha os tópicos não folha. Deste modo obteríamos:
tópicosfolha τ , τ , τ , τ ;
tópicosnãofolha τ , τ , τ .
Com base nos dois tipos de tópico, os passos para calcular o respectivo vector são:
I. Todos os vectores de tópicos folha são calculados pela atribuição do valor 1 a todos
os seus super-tópicos e ao próprio tópico, enquanto os restantes tomam valor 0.
Com base na figura 2.11 teríamos 1,1,1,0,0,1,0 e 1,0,1,0,0,0,1 . É
de referir que cada vector é normalizado posteriormente.
II. Após calculados todos os vectores de tópicos folha, os vectores dos seus super-
tópicos directos são calculados com base na soma dos vectores dos seus sub-tópicos
directos; e assim sucessivamente até atingir a raiz. Com base na figura 2.11, o
vector do tópico seria a soma dos vectores e .
Sendo assim, passará a existir um espaço multidimensional que permite obter os graus de
similaridade entre os diversos tópicos existentes.
Para além de permitir expressar a relação entre os diversos tópicos, a utilização de
ontologias nesta abordagem também lhes permite associar diversos significados
semânticos. Cada tópico pode ter diversas interpretações, e essa distinção é feita através
dos t
“rail
gené
conc
termo
figur
dois
car”
Exist
calcu
simil
notaç
O ve
A
assoc
conju
termos que
lcar” podem
ricos, atra
retamente a
os e interpr
ra 2.12, a oc
tópicos “a
” ou “autom
tindo diver
ular a simi
laridade en
ção:
Φ, é o co
∈
, é
ector de cada
A represent
ciadas a est
unto de inte
lhes são as
m ter diver
vés do te
aos termos
retações é n
corrência d
utomobile”
mobile” seria
Figu
rsas interpr
ilaridade en
ntre interpr
onjunto de t
0,1 , é o p
o conjunto
a interpreta
tação de ca
te. Cada do
erpretações
ssociados. O
rsas interpr
ermo “car
“auto” ou
o sentido de
o termo “c
” e “railcar
am totalmen
ura 2.12 - Term
retações pa
ntre as div
etações exi
todas as inte
peso da inter
de tópicos
ção pode se
∑
ada docum
ocumento se
presentes n
Observando
retações, in
”, ou hav
u “railcar”
e desambigu
car” não iri
r”, enquant
nte específi
mos, Interpreta
ara cada tó
versas inter
istentes nu
erpretações
rpretação
cuja interpr
er definido c
∈
mento será
erá represen
no mesmo, p
a figura 2.
nclusive ser
ver mais e
”. Portanto,
uar o signif
a fornecer u
o a ocorrên
cos quanto
ações e Tópicos
ópico, esta
rpretações.
um mapa d
;
∈ Φ ;
retação e
como:
∈
baseada no
ntado por u
por intermé
12, os tópic
rem tratado
especificida
o objectiv
ficado de ca
uma grande
ncia de term
ao seu signi
s em [30]
abordagem
Portanto,
de tópicos,
está associa
os vectores
um vector q
dio de um c
cos “autom
os por term
ade e refe
vo da utiliz
ada termo. A
e especificid
mos como “
nificado sem
m também
para o cál
temos a
ada.
s de interp
que corresp
conjunto de
37
mobile” e
mos mais
erirem-se
zação de
Ainda na
dade aos
“railway
mântico.
permite
lculo de
seguinte
2.5
pretações
ponde ao
e termos.
38
O cálculo desse vector consiste na soma de todos os vectores de interpretações que tenham
associados termos existentes no conteúdo do documento.
1
⟹ 1com , .
∈
2.6
Em que , representa o peso da interpretação i no documento d. O grau de similaridade
entre documentos será calculado com base no co-seno do ângulo entre os dois vectores:
,
1
, .
∈
, . ∈
1
∈
, , . ∈
2.7
Este modelo (eTVSM) possui algumas vantagens relativamente ao TVSM, mais
especificamente em relação à detecção de fenómenos linguísticos, pois o uso de
interpretações permite que estes sejam detectados. Fenómenos linguísticos entre termos de
um texto, tais como homografia13, metonímia14 e grupos de palavras são agora possíveis de
detectar com o eTVSM. O uso de ontologias serve precisamente para representar as
diversas interpretações que um tópico pode ter, permitindo também a representação da
relação entre os termos.
Em alternativa à abordagem acima descrita, em [9] é apresentada uma outra abordagem
de classificação de textos baseada numa ontologia que comporta uma hierarquia de
conceitos, sendo que cada conceito representa uma classe a que um documento pode
pertencer. Na ontologia, cada conceito tem apenas associado o seu próprio nome, sendo
utilizado um léxico de sinónimos para obter melhores resultados. Para o cálculo dos
vectores correspondentes a cada classe, é calculado um peso correspondente a cada
conceito na ontologia (tendo em conta que conceitos que são nós folha possuem um peso
igual a 1):
13 Diz-se de ou palavra que, com sentido e pronúncia diferentes, se escreve do mesmo modo que outra. 14 Figura de retórica que consiste no emprego de uma palavra por outra que a recorda.
Com
1 e a
Para
do p
dime
Utiliz
docu
(term
/
conceito
/
um dos s
m base no ex
altura 4, tom
1/4
0.2
cada conce
próprio con
ensionalidad
zando a m
umento, em
m frequency)
, em que
;
/ , em qu
seus descen
xemplo da fi
maria os segu
4
25/2 = 1/3
Figura 2.1
eito na onto
nceito e d
de dos vecto
mesma dim
m que o pes
y) no próprio
h denota a
ue n corresp
dentes; O v
figura 2.13,
uintes valor
32
13 - Exemplo d
logia será c
de todos o
ores corresp
ensionalida
so de cada
o document
a profundida
ponde ao nú
valor de K é
o conceito
res:
de hierarquia d
construído u
os respectiv
ponde ao nú
ade, é cons
conceito é
to.
ade e H a
úmero de n
uma consta
“Antisepsis
de conceitos na
um vector co
vos sub-co
úmero de co
struído um
representa
altura do n
nós no maio
ante (K=2).
”, cujo nó p
a Ontologia [9]
om base na
nceitos. É
onceitos exi
vector pa
ado pela oc
nó que repr
or caminho
possui profu
]
a soma do p
de referir
istentes no d
ara represen
corrência de
39
esenta o
de n até
undidade
eso
r que a
domínio.
ntar um
e termos
40
Todo o
começa
conjunto
aumenta
desta ab
similari
Em
represen
pertence
fórmula
nível de
categori
instânci
Em
supervis
procedime
a com uma
o de termo
ar o reconh
bordagem u
dade entre u
[10] é apr
ntar conceit
er. A parti
a do cálculo
e importânc
ia represent
ia (0.8).
[3] é pr
sionada e n
nto aplicad
fase de pr
s relevante
hecimento d
utiliza o c
um docume
resentada um
tos corresp
icularidade
o de similar
cia que cada
ta na ontolo
roposta um
não-supervi
Figura 2.14 - A
do na abord
ré-processam
s. A presen
de termos pr
álculo do c
ento e um co
ma abordag
ondentes às
desta técn
ridade entre
a categoria p
gia, e varia
ma abordag
isionada, at
Arquitectura g
dagem [9] p
mento do t
nça de um
resentes na
co-seno do
onjunto de c
gem que ut
s diversas
nica é que
e cada cate
possui. O p
caso esta s
gem para
través da c
geral em [9]
pode ser obs
texto do do
léxico de s
ontologia.
os ângulos
classes.
tiliza uma
categorias a
permite ad
goria e o d
parâmetro re
eja uma cla
auxiliar p
criação de
servado na
ocumento, q
sinónimos s
O processo
dos vector
ontologia d
a que um d
dicionar um
documento,
epresenta o
asse (0.2), su
processos d
ontologias
figura 2.14
que resulta
serve para t
o de classific
res para ob
de domínio
documento
m parâmetr
representan
tipo de nó
ubclasse (0.
de classific
que descr
4, que
num
tentar
cação
bter a
o para
pode
ro na
ndo o
que a
.5) ou
cação
revam
41
domínios específicos. Embora não seja o âmbito deste trabalho, é de referir que as próprias
ontologias de domínio são também construídas num processo suportado pela mesma
abordagem. Portanto, as ontologias de domínio serão utilizadas como fonte de informação,
no sentido de melhorar o processo de categorização de textos. Esta é uma abordagem
híbrida, pois baseia-se em termos extraídos de documentos, sendo complementada com a
correspondência de conceitos contidos na ontologia.
Numa primeira fase, cada documento será representado por um vector cuja dimensão
será o conjunto dos termos nele contidos. Para tal, serão aplicadas técnicas de radicalização
através do algoritmo de Porter [8], remoção de palavras não interessantes, sendo que
palavras que possuam uma ocorrência muito baixa serão também removidas, justificando a
sua remoção por não possuírem poder de descriminação para o respectivo documento. O
peso de um termo no documento é representado através da métrica tf.idf (ver fórmula 2.1).
O processo de interacção com a ontologia consiste na construção de um novo vector
com os conceitos presentes no documento, por intermédio de um conjunto de termos. Ao
vector inicial do documento, será concatenado este novo vector de conceitos, resultando
numa melhor representação do documento.
De modo a serem extraídos todos os conceitos da ontologia contidos num documento,
os procedimentos a efectuar são:
I. Detecção de Termos Candidatos;
II. Validação de Padrões Sintácticos;
III. Transformações Morfológicas;
IV. Desambiguação;
V. Generalização.
No módulo de detecção de termos candidatos, todo o conteúdo textual do documento será
analisado e todos os termos associados a conceitos na ontologia serão extraídos através de
uma janela deslizante que percorre todo o conteúdo do documento. Sendo feita uma análise
morfossintáctica ao conteúdo da janela deslizante, só será feita uma interrogação à
ontologia acerca das expressões gramaticalmente válidas, evitando um conjunto de
interrogações desnecessárias. O processo de transformação morfológica permite a
interrogação à ontologia do termo original encontrado no documento, e caso este não seja
encontrado, a sua forma primitiva será utilizada para efectuar nova interrogação. Caso seja
42
retornado mais que um resultado, será efectuado um processo de desambiguação;
recorrendo ao WordNet [21], este poderá retornar um conjunto de sinónimos para um
termo. Por último, existe um processo de generalização dos conceitos da ontologia
encontrados no documento, em que ao peso de cada conceito, será adicionado o peso de
todos os seus sub-conceitos cujos termos também ocorram no documento. Como resultado
final, é obtido um vector composto por termos extraídos do documento, resultantes de um
conjunto de técnicas de processamento de texto, concatenado com um vector construído
com base numa ontologia.
Em [19] é proposto um sistema de classificação de tópicos para documentos web,
utilizando as categorias do motor de busca Yahoo! como uma ontologia que contém
diversas categorias sob a forma hierárquica. Nesta abordagem a WordNet é utilizada como
base de dados linguística, servindo de base de informação para uma estrutura de dados
auxiliar, sendo encarada como uma extensão do conjunto de categorias existentes no
Yahoo!. Os fenómenos linguísticos utilizados nesta abordagem são os sinónimos,
hiperónimos/hipónimos15 e merónimos/holónimos16. Todo o processo de identificação de
tópicos abrange três fases distintas:
Módulo de Extracção;
Módulo de Mapeamento;
Módulo de Optimização.
No processo de extracção, o conteúdo textual dos documentos web é obtido, para
posteriormente ser-lhe aplicada uma técnica de radicalização e de anotação de texto. O
processo de anotação resulta das informações que estão contidas na estrutura auxiliar, de
modo a que se possa associar a cada termo obtido mais informação linguística. O processo
de mapeamento é efectuado com base no conjunto de termos obtidos no módulo de
extracção, e consiste na procura de correspondência entre cada termo e as categorias
existentes. Como podemos observar na figura 2.15, todas as informações linguísticas de
cada termo serão utilizadas apenas no caso de não existir um mapeamento para o mesmo.
15 Um hipónimo é uma palavra com um significado mais específico que um hiperónimo (ex: cenoura é hipónimo de legume) 16 Um merónimo é uma palavra que designa parte de outra, enquanto o holónimo é considerado um todo (ex: os camisa é holónimo de punho)
A dis
peso
docu
2.3.5
O
auxil
19],
domí
própr
tratam
aplic
numa
N
abord
infor
infor
extra
proce
termo
descr
scriminação
s e, para ta
umento. Nos
5 Conclusõ
O conceito
liar no proc
as ontolog
ínio específ
rio docume
mento de te
cação dessa
a ontologia
Não obstant
dagens em
rmação, com
rmação em
aídos dos te
essamento d
os a serem
ritas até ago
Figur
o da import
al, é utilizad
s casos em q
ões
ontology-b
cesso de cla
ias são utili
fico, bem c
ento. Uma
exto, envolv
s mesmas t
de domínio
te a utiliza
m que a pr
mo é o cas
que a pró
xtos. Portan
de texto, é
m extraídos
ora, isto é, a
ra 2.15 - Mape
tância de ca
do o tipo de
que o mape
based reside
assificação e
izadas no se
como permi
abordagem
vendo algum
técnicas ser
o.
ação de ab
rópria onto
o da abord
ópria ontolo
nto, ao invé
a própria in
. O ontoX
a consulta à
eamento de ter
ada termo e
e mapeamen
amento reco
e na capac
e, tal como
entido em q
item o cálc
m ontology
mas técnica
rá um conju
bordagens o
ologia cond
dagem ontoX
ogia possui
és de existir
nformação
X possui um
à ontologia
rmos e conceito
ncontrado é
nto que foi
orre ao Wor
cidade da o
foram desc
que fornece
culo dos ve
y-based est
as referidas
unto de ter
ontology-ba
duz todo
X [5], uma
i informaçã
r primeiram
contida na
ma arquitec
é o primeir
os em [19]
é feita atrav
efectuado p
rdNet, o seu
ontologia c
critas nas ab
m todo o co
ectores de c
tá aliada a
na secção
rmos, poster
ased, existe
o processo
metodolog
ão acerca d
ente a aplic
ontologia q
tura diferen
ro processo
vés da atribu
para cada t
u peso é red
constituir u
bordagens [
onheciment
cada catego
a um proc
2.1. O resu
riormente m
em outros t
o de extra
gia de extra
dos dados
cação de téc
que define
nte das qu
a ser efectu
43
uição de
termo no
duzido.
um meio
[3, 9, 10,
to de um
oria e do
cesso de
ultado da
mapeado
tipos de
cção de
acção de
a serem
cnicas de
quais os
ue foram
uado, de
44
modo a serem criadas regras de extracção de termos num texto. Na ontologia estarão
associadas a cada termo um conjunto de atributos que permitam descrevê-lo e detectá-lo
num texto.
No contexto deste trabalho, a utilização de ontologias para a descrição de um domínio
específico é relevante, pois a construção da mesma deve ser efectuada de maneira a que um
conjunto de classes seja suficientemente representativo, para que a classificação não seja
induzida em erro.
À semelhança de algumas abordagens descritas [9, 30] nesta secção, deve-se ter em
conta que a ontologia é utilizada no sentido de reduzir o espaço dimensional de cada
vector, mas também para permitir uma multi-dimensionalidade num espaço vectorial,
concedendo um relacionamento tanto ao nível de tópicos como de termos. Tal
relacionamento poderá ainda fornecer informações linguísticas acerca dos termos
existentes na ontologia.
A utilização de léxicos para reduzir o número de termos numa ontologia também deve
ser tida em conta, pois pode ser uma solução para situações cujo domínio envolva um
conjunto elevado de termos. Nesse caso perde-se parte da detecção de fenómenos
linguísticos através da ontologia, embora se elimine a sobrecarga de termos na mesma,
simplificando a representação de um domínio na ontologia.
2.4 Medidas para avaliar Classificadores
No sentido de avaliar este trabalho, esta secção apresenta algumas medidas utilizadas
para avaliar o desempenho de um classificador.
2.4.1 Precisão (Precision) e Abrangência (Recall)
Normalmente estas duas medidas são utilizadas em conjunto, no sentido em que
fornecem informações complementares. Precisão (Precision) é uma medida usada para
avaliar a taxa de exactidão da classificação, enquanto a Abrangência (Recall) avalia a
completude do classificador. Para tal, é necessário ter a noção de alguns conceitos, tais
como:
Verdadeiro Positivo (VP);
Falso Positivo (FP);
45
Verdadeiro Negativo (VN);
Falso Negativo (FN).
No contexto deste trabalho, os verdadeiros positivos são todas as comunicações que
pertencem a um conjunto de classes e são preditas como tal; ao contrário dos falsos
positivos, que são preditos com uma classe à qual não pertencem. Os verdadeiros negativos
são comunicações classificadas como não pertencendo a uma classe, sendo que
efectivamente não pertencem. Por último, os falsos negativos correspondem a todas as
comunicações que pertencem a uma classe, embora o classificador não as classifique como
tal. O cálculo das medidas de Precisão e Abrangência utiliza os conceitos acima descritos
para uma dada classificação. As medidas de Precisão e Abrangência são representadas por:
ã 2.8
ê 2.9
Normalmente estas duas medidas são apresentadas em conjunto, no sentido de
apresentarem informações complementares, sendo que a medida de Precisão não fornece
informação acerca dos falsos negativos, enquanto o Abrangência não possui informação
acerca dos falsos positivos. É desejável que tanto a medida de Abrangência como a de
Precisão devolvam valores próximos de 1, o que significa que a técnica de classificação
apresenta bons resultados em termos de exactidão e completude.
2.4.2 F-Measure
Tal como descrito na sub-secção anterior, as medidas de Precisão e Abrangência são
usadas em conjunto, de forma a apresentarem o complemento uma da outra; em alternativa
pode ser utilizada a medida F-Measure que resulta da conjugação das duas medidas acima
descritas.
2 ã êã ê
2.10
46
Esta medida é considerada uma média harmónica em função das medidas de Precisão e
Abrangência. A medida F-Measure tem simultaneamente em consideração para cada
classe, os falsos positivos, bem como os falsos negativos.
2.4.3 Matriz de Confusão
A matriz de confusão, conforme ilustrada na figura 2.16, é bastante utilizada em
processos de classificação, e consiste numa matriz , em que corresponde ao
número de classes existentes:
Classificação
Classe 1 Classe 2 … Classe N
Classe 1 d1,1 d1,2 … d1,N
Classe 2 d2,1 d2,2 … d2,N
… … … … …
Classe N dN,1 dN,2 … dN,2
Figura 2.16 - Matriz de Confusão para N classes
Para cada posição numa linha, à excepção da diagonal, esta representa o número de
classificações incorrectas; por exemplo, a posição d2,1 corresponde ao número de
documentos classificados como pertencentes à classe 2, quando na realidade pertencem à
classe 1. A diagonal da matriz representa o número de documentos bem classificados para
cada classe.
A medida de exactidão é considerada uma medida global relativamente a um
classificador, que consiste na fracção de documentos bem classificados. Esta medida pode
ser obtida, através do somatório dos valores da diagonal da matriz de confusão dividido
pelo somatório de todos os documentos classificados.
3. A
E
porm
entid
segue
exist
3.1
O
menc
menc
recon
exist
de or
própr
class
negó
Abordage
Este capítulo
menorizada
dades e exp
e um carác
tindo nenhu
Reconheci
O reconhecim
cionadas, e
cionadas po
nhecimento
tam sempre
rganizações
rio nome i
sificador ser
ócio se mant
em Seguid
o apresenta
de todos o
pressões rel
cter genéric
um módulo e
imento de E
mento de en
entidades e
ode ser vista
o abrange en
algumas ca
s. A detecçã
indica, é to
rá integrado
tenha de org
Figura
da
a a abordag
os módulos
evantes e a
co, ou seja
especialmen
Entidades e
ntidades e e
expressões
a como o su
ntidades ma
ategorias qu
ão de entidad
otalmente o
o, possibilit
ganização p
a 3.1 – Esquem
gem seguid
s que a com
a técnica de
a, é aplicáv
nte desenvo
e Expressõe
expressões
s específica
ub-módulo m
ais comuns
ue serão ma
des ou expr
orientada à
ando algum
para organiz
ma de Entidades
a neste trab
mpõem, in
e classificaç
vel a qualq
olvido para u
es relevant
relevantes c
as de domín
mais genéric
para a mai
ais relevante
ressões espe
à especifici
ma generalid
zação.
s e Expressões
balho, fazen
cluindo o
ção utilizad
quer tipo de
um domínio
es
cinge-se a t
nio. A dete
co desta abo
oria das org
es para cert
ecíficas de d
idade da or
dade em situ
Relevantes
endo uma d
reconhecim
da. Esta abo
e organizaç
o em concre
três tipos: e
ecção de e
ordagem, po
ganizações,
tas áreas de
domínio, tal
organização
uações cuja
47
descrição
mento de
ordagem
ção, não
eto.
entidades
entidades
ois o seu
, embora
negócio
l como o
onde o
a área de
48
Com
está div
existind
Nas
detecção
3.1.1 E
Tal
mencion
depende
possibil
conside
mencion
permite
é impor
sua imp
respecti
Categor
O g
clarame
uma es
organiza
mo podemos
vidida em d
do ainda par
três sub-s
o de cada u
Entidades M
como desc
nadas perm
endo do co
lidade e a
rado o me
nadas pelo
m a detecçã
rtante, pois
plementação
ivas regras d
rias mais r
grau de rele
ente do con
scolha das
ações:
s observar n
dois segmen
ra este últim
secções seg
m dos tipos
Mencionad
rito na sub
mite detectar
ontexto ond
doptou-se
elhor siste
Segundo
ão e anotaçã
além de per
o (figura 3
de detecção
Figura 3.2 -
relevantes
evância qu
ntexto onde
categorias
na figura 3.
ntos, um de
mo uma divi
guintes serã
s de entidad
das
-secção 2.2
r um conjun
de estas estã
a sua util
ma de rec
HAREM, f
ão de textos
rmitir detec
3.2), permit
o.
- Categorias de
e cada cat
o classific
s considera
1, a detecçã
carácter ge
isão entre en
ão apresent
des e expres
2.1, uma téc
unto de enti
ão inserida
lização nes
conhecimen
fornece tam
s para um d
ctar um vast
te também
e classificação
tegoria de
cador será i
adas mais
ão de entida
enérico e ou
ntidades e e
tadas as ab
sões relevan
cnica de re
dades relev
as. O sistem
ste trabalho
nto e de c
mbém um
domínio esp
to conjunto
a introduç
do sistema Re
entidade m
integrado. A
importante
ades e expre
utro de dom
xpressões.
bordagens s
ntes.
econhecimen
vantes prese
ma Rembran
o, pois alé
classificaçã
conjunto d
ecífico. O u
de entidade
ção de nov
mbrandt
mencionada
Assim send
es no cont
essões relev
mínio espec
seguidas p
nto de entid
entes num t
ndt fornece
ém de ter
ão de entid
de métodos
uso deste sis
es já incluíd
vas categor
possui dep
do, foi efec
texto geral
vantes
cífico,
ara a
dades
texto,
e essa
sido
dades
s que
stema
das na
rias e
pende
ctuada
l das
49
LOCAL;
ORGANIZAÇÃO;
PESSOA;
TEMPO;
VALOR.
Uma vez que este sistema não foi concebido originalmente para o âmbito empresarial, as
restantes categorias não referidas acima foram consideradas de índole geral, e não tão
adequadas para as organizações, daí ter-se optado por dar especial atenção às cinco
categorias acima referidas, bem como os respectivos tipos e subtipos. É ainda de referir
que a detecção de entidades das categorias “Pessoa” e “Local” ainda está muito debilitada,
tanto pelo facto das regras que constituem a sua detecção não estarem muito desenvolvidas
no Rembrandt, quanto pela dificuldade que existe na detecção de nomes de pessoas ou
locais num texto, pois estes podem ser escritos de diversas formas, tornando mais difícil o
seu reconhecimento.
Não utilização da Wikipédia/DPpedia
No sentido de obter melhores resultados classificativos, o Rembrandt faz uso da
Wikipédia e DBpedia, em que para cada entidade mencionada candidata serão feitas
interrogações a estas bases de conhecimento. Embora esse componente
“Wikipédia/DBpedia” seja uma mais-valia em termos de classificação, optou-se pela sua
exclusão, pois para tal seria necessário que o classificador contivesse uma base de dados
relacional com todos os dados da Wikipédia, bem como uma conexão à DBpedia.
A opção de excluir este módulo residiu essencialmente no facto deste causar alguma
degradação de desempenho no reconhecimento de entidades mencionadas num texto, o que
prejudicaria a técnica de classificação em geral. Das cinco categorias de entidades
mencionadas que neste trabalho foram consideradas mais importantes, a categoria “Local”
será a mais afectada, no sentido de devolver resultados menos positivos devido ao facto do
módulo “Wikipédia/DBpedia” não estar a ser utilizado. De modo a contornar esse
problema, poderão existir melhores soluções, como por exemplo a inclusão de informação
acerca de localidades na própria implementação do Rembrandt, evitando o recurso a uma
base de dados com toda a informação da Wikipédia portuguesa, bem como interrogações à
DBpedia em tempo real. Uma das soluções seria serializar a informação no próprio
50
Rembra
dados r
freguesi
obter to
Emb
referir q
casos d
devido à
Criação
Em
que o co
“Contac
reconhe
pode se
dos vári
T
F
T
E
U
De mod
“Contac
17 http
andt, sendo
relacionadas
ias. Por ex
odos os distr
Fig
bora se tenh
que caso se
de organiza
à utilização
o de novas
termos de c
ontexto do
ctos” no
ecimento de
er obtido atr
ios tipos de
TELEFONE
FAX;
TELEMÓV
ENDEREÇ
URL.
do a haver
cto” foram
p://www.w3.or
esta obtida
s com loca
xemplo, pod
ritos existen
gura 3.3 - Con
ha optado
justifique
ações cujas
o deste módu
Categorias
criação de n
classificado
conteúdo
e pessoas o
ravés dos se
contacto, n
E;
VEL;
ÇO ELECTR
distinção e
m criados
rg/TR/rdf-sparq
a com consu
alidades, ma
demos obse
ntes em Port
sulta SPARQL
pela não ut
a sua utiliz
categorias
ulo no Remb
s e Regras
novas regras
or são as org
de uma c
u organizaç
eus contacto
nomeadamen
RÓNICO;
entre os div
os tipos
ql-query/
ultas SPAR
ais concreta
ervar na fig
tugal.
L para obter to
utilização do
ação, esta p
s mais rele
brandt.
s para detec
ganizações,
comunicaçã
ções numa
os. Para tal
nte:
versos tipo
“Telefone
RQL17 à DB
amente cida
gura 3.3 um
odos os distrito
o módulo “
pode ser rea
evantes reto
cção de enti
, considerou
ão, pois é
comunicaç
l, foram cria
os de conta
e”, “Fax”,
pedia, para
ades, distrit
ma consulta
os de Portugal
“Wikipédia/
activada, po
ornem melh
idades menc
u-se relevan
é de gran
ão, o que e
adas regras
cto, associa
“Telemóv
a obter apen
tos, concelh
a SPARQL
/DBpedia”,
ois podem s
hores resul
cionadas, e
nte a detecç
nde utilidad
em muitos
de identific
ados à cate
vel”, “End
nas os
hos e
L para
é de
surgir
ltados
dado
ção de
de o
casos
cação
egoria
dereço
Elect
conta
Todo
categ
detec
U
módu
traze
locai
de re
acerc
categ
onde
com
evidê
exter
local
A
categ
trónico” e “
a diversas e
Indicativ
Nomes o
O númer
Formato
Formato
os estes fa
goria, sendo
cção de enti
Uma vez qu
ulo “Wikip
er vantagen
is poderá ca
egras de det
ca de local
goria “Loca
e o classifica
o mesmo f
ências inte
rnas, sendo
lidade imed
A introduçã
goria “Loc
“Url”. Para
evidências n
vos nacionai
ou abreviatu
ro de caract
de endereç
de endereç
actores fora
o possível
idades da ca
Figura 3.
ue o reconh
pédia/DBped
ns a este tra
ausar à detec
tecção de có
idades, sen
al”. Obviam
ador se inse
formato, pa
ernas. Caso
o que a prin
diatamente a
ão da cate
al” foram
a criação d
no texto, nom
is e internac
uras imediat
eres que co
ço de correio
ços web.
am conside
observar na
ategoria “Co
.4 - Exemplo d
hecimento d
dia”, consid
abalho, col
cção de enti
ódigos posta
ndo esta con
mente que a
ere, pois ba
ara que este
o tal acont
ncipal regr
a seguir ao c
goria “Con
considerad
das regras d
meadament
cionais;
tamente ant
ompõe um q
o electrónic
erados aqua
a figura 3.4
ontacto”.
de evidências p
de locais fi
derou-se qu
lmatando al
idades men
ais para que
nsiderada u
a detecção
sta existir u
e não possa
teça, dever
ra a utilizar
código posta
ntacto” e d
das de car
de detecção
e:
tes do conta
qualquer con
co;
ando da cr
4 um exem
para a categori
ficou mais d
ue a detecçã
lgumas falh
cionadas. P
e se possa c
um tipo (“C
de códigos
um tipo de e
a ser detect
riam ser t
r seria a pr
al.
do tipo “C
rácter gené
o de contact
cto;
ntacto;
riação das
mplo de evid
a "Contacto"
debilitado c
ão de códig
has que o
Portanto, opt
captar mais
Código Pos
s postais de
entidade esp
tado somen
ambém uti
resença de
Código-Post
érico, e út
tos, foram t
regras des
dências tex
com a excl
gos postais
reconhecim
tou-se pela
alguma inf
stal”) perten
epende do
pecífica de
nte através d
ilizadas ev
um nome
tal” pertenc
teis para q
51
tidas em
sta nova
xtuais na
lusão do
poderia
mento de
inclusão
formação
ncente à
domínio
domínio
das suas
vidências
de uma
cendo à
qualquer
52
organiza
Rembra
3.1.2 E
Tal
totalmen
portanto
categori
classific
integrad
todas as
O p
necessit
essencia
sendo q
permitin
organiza
entidade
Alguma
classific
M
N
N
N
ação, sendo
andt.
Entidades E
como foi d
nte depende
o, é de refe
ias para re
cador. O m
do no própr
s entidades e
procediment
tará sempre
al efectuar u
que a melh
ndo assim a
ação. Tal c
es específic
Figura 3
as das pos
cador são:
Matrícula;
Número de
Número de
Número de
o vistas com
Específicas
descrito no i
entes da áre
erir que esta
epresentar e
módulo de
rio sistema
específicas
to de inte
e de uma m
um estudo a
hor solução
a obtenção
como ilustra
cas de domín
3.5 - Interacção
ssíveis ent
Conta Banc
Identificaç
Identificaç
mo uma mai
de Domíni
início desta
ea de negóci
a abordagem
entidades e
reconhecim
Rembrand
de domínio
gração do
metodologia
acerca da ár
passará pe
de todas a
a a figura
nio, respect
o entre Consult
tidades esp
cária;
ão de Clien
ão de Proce
is-valia para
io
a secção, as
io ou organ
m permitirá
specíficas
mento de e
dt, de modo
o inerentes a
módulo d
de interacç
rea de negóc
ela interacç
as entidades
3.5, todo e
tivas catego
tor do Classifi
pecíficas d
nte ou Utent
esso;
a este trabal
s entidades
nização onde
á sempre a g
de domínio
ntidades es
o a que sej
ao contexto
de entidade
ção com a o
cio onde o c
ção com um
s específica
este process
rias e evidê
cador e o Espe
de domínio
te;
lho e para o
específicas
e o classific
geração de
o, mediante
specíficas d
a permitida
do classific
es específic
organização
classificado
m especiali
as de domín
so resulta n
ências intern
ecialista do Do
o que poss
o próprio sis
s de domíni
cador se ins
novas regr
e o context
de domínio
a a definiçã
cador.
cas de dom
o e, para tal
or será integ
ista de dom
nio existent
num conjun
nas e extern
omínio
sam integr
stema
o são
ere e,
ras ou
to do
o está
ão de
mínio
l, será
grado,
mínio,
tes na
nto de
nas.
rar o
53
Número de Série de Produto;
Número de Modelo de Produto.
Tal como é possível constatar através dos exemplos enumerados acima, a participação de
um especialista de domínio é bastante importante, não só ao nível da detecção dos tipos e
formatos das entidades (evidências internas), como na detecção de todas as evidências
externas para cada tipo de entidade. Normalmente, a detecção deste tipo de entidades é
feita através da conjugação de uma expressão regular com texto imediatamente antes ou
depois da mesma.
As entidades específicas de domínio costumam ser identificadas e consideradas
importantes para os sistemas de informação das organizações; no contexto deste trabalho
este tipo de entidades serve de base informativa para um processo de pesquisa e navegação
nas comunicações, que resulta numa de duas teses também envolvidas neste projecto. É
também de referir que estas mesmas entidades são igualmente relevantes para a técnica de
classificação dos propósitos de uma comunicação, sendo esta explicitada em detalhe na
secção 3.2.
3.1.3 Expressões Específicas de Domínio
As expressões específicas de domínio consistem em todos os termos simples ou
compostos associados ao contexto onde o classificador será integrado, isto é, um conjunto
de palavras relacionadas com uma área de negócio ou organização. À semelhança das
entidades específicas de domínio, o reconhecimento deste tipo de expressões terá
igualmente dois objectivos: o primeiro está relacionado com pesquisa de comunicações,
em que todas as palavras relevantes detectadas numa comunicação serão tidas em conta
para pesquisa, sendo que o segundo objectivo está relacionado com o processo de
classificação, existindo um efeito de discriminação do propósito de uma comunicação,
inerente a algumas expressões específicas de domínio detectadas. Tal como na técnica de
reconhecimento de entidades específicas de domínio, também este módulo foi incluído no
sistema Rembrandt.
Utilização de uma técnica de Radicalização
Tal como foi descrito na sub-secção 2.1.4, o objectivo de uma técnica de radicalização
é a redução de um termo ao seu radical, eliminando o seu prefixo e sufixo. Neste trabalho,
54
a utilização desta técnica permite a detecção das diversas formas verbais ou morfológicas
para cada expressão existente na ontologia e, para tal, foi utilizada uma versão portuguesa
do algoritmo de Porter18. Apesar da utilização desta técnica poder prejudicar a obtenção de
algumas expressões, no geral observou-se uma melhoria significativa na detecção de
expressões da mesma natureza ou forma verbal. O seu uso permitiu apenas a associação de
substantivos ou verbos no infinitivo na ontologia, possibilitando a detecção de qualquer
palavra da mesma família numa comunicação. Por exemplo, quando nos referimos a um
conceito “Pedido”, basta associar o termo “Pedir” na ontologia para conseguir um vasto
conjunto de palavras da mesma família. A utilização desta técnica de radicalização foi vista
como uma mais-valia neste trabalho, uma vez que permite a detecção de qualquer forma
verbal de um termo, tornando a associação de termos a conceitos na ontologia muito mais
simples, possibilitando a detecção de um vasto conjunto de termos que não se encontrem
na ontologia.
De modo a tentar abranger o maior número de expressões numa comunicação, é feito
ainda um processamento de cada expressão contida na ontologia, permitindo que qualquer
letra que a componha seja detectada em maiúsculas ou minúsculas; por exemplo, para o
termo “Pedido”, algumas das expressões que poderiam ser detectadas são: ”pedido”,
“peDido” ou “pedidO”. Este processamento teve de ser incluído nesta abordagem, pois
existem bastantes erros de escrita nas comunicações, e em alguns casos o uso de letras
minúsculas e maiúsculas é desapropriado. O facto do correio electrónico ser em muitos
casos um canal preferencial, ou pelo menos muito significativo, leva à ocorrência de
alguns erros, pois as pessoas são menos cumpridoras em termos de escrita. Para efeitos
deste trabalho, assumimos que a questão dos erros ortográficos já foi tratada, não existindo
nenhuma solução integrada para a resolução desse problema.
3.1.4 Interacção com a Ontologia
A grande fonte de dados do classificador é o módulo das ontologias de domínio,
contendo toda a informação associada à organização, incluindo os conceitos específicos do
domínio, com respectivas entidades e expressões associadas. Como é possível observar na
figura 3.6, nas ontologias de domínio existirão dois níveis: (i) nível “meta”, onde estão
descritas as expressões específicas dos conceitos e as relações entre os mesmos, para o
18 http://snowball.tartarus.org/
respe
conc
As e
conc
cada
rdfs:L
T
pelo
domí
corre
Para
interr
19
ectivo domí
eitos.
entidades co
eitos na on
um dos co
Label.
Tal como po
módulo das
ínio, bem co
espondam a
qualquer ti
rogação à o
9 Uniform Reso
ínio e (ii) n
Figura 3
orresponden
ntologia, enq
onceitos sob
odemos obse
s ontologias
omo uma re
ao valor de u
Figura 3.7 - I
ipo de entid
ontologia de
ource Identifier
nível “dado
.6 - Níveis "M
ntes ao dom
quanto as e
b a forma d
ervar na fig
s, para que
eferenciação
uma proprie
Interacção entr
dade relevan
e domínio,
os”, onde e
Meta" e "Dados
mínio espec
expressões e
de etiqueta
gura 3.7, o m
seja feita a
o de todo o
edade de um
re os módulos
nte detectad
visando ob
estarão as i
s" na Ontologia
cífico estão
específicas
s, por exem
módulo de c
detecção de
tipo de ent
ma instância
"Classificador
da numa com
bter um URI
nstâncias c
a de Domínio
o sob a form
de domínio
mplo, utiliza
classificação
e expressõe
idades que
a na ontolog
r" e "Ontologi
municação,
I19 que corr
corresponde
ma de instâ
o estão asso
ando a prop
o será “alim
es específica
sejam instâ
gia.
ias"
será efectu
responda à
55
ntes aos
ância de
ociadas a
priedade
mentado”
as de um
âncias ou
uada uma
entidade
56
detectad
comunic
exista n
Cad
possível
saber qu
na mod
aumenta
além da
conceito
seguinte
Como e
bem com
3.2 Cla
A cl
intermé
da. Esta opç
cações, gua
na ontologia
a conceito
l obter os te
ual o concei
delação da o
ar a probab
as expressõe
os contidos
es expressõe
Figura
está ilustrad
mo os respe
assificação
lassificação
dio de entid
ção tem com
ardando o
a de domínio
presente na
ermos dos c
ito associad
ontologia h
bilidade de
es, as entid
na ontologi
es e entidad
a 3.8 - Exemplo
do na figura
ectivos sinó
de Comun
o de uma co
dades e expr
mo principa
identificado
o.
a ontologia
conceitos d
do a um term
há também
reconhecim
dades especí
ia de domín
des associad
o de termos e e
3.8, cada c
nimos.
nicações
omunicação
ressões espe
al objectivo
or de cada
tem associa
directamente
mo detectad
a preocupa
mento de ex
íficas de do
nio. Por exe
das:
entidades assoc
conceito pos
o consiste n
ecíficas de d
auxiliar um
entidade d
adas divers
e relacionad
do numa com
ação de inc
xpressões es
omínio tamb
emplo, o con
ciadas ao conc
ssui entidad
na análise d
domínio.
ma técnica d
detectada, s
as etiquetas
dos com est
municação.
cluir sinónim
specíficas d
bém se pod
nceito “Aut
eito "Automóv
des e expres
o seu conte
de navegaçã
sempre que
s, sendo tam
te, o que pe
. É de referi
mos, de mo
de domínio.
dem associa
tomóvel” te
vel"
ssões associ
eúdo textua
ão nas
e esta
mbém
ermite
ir que
odo a
Para
ar aos
eria as
iadas,
al, por
N
princ
propó
o âm
pesso
D
perte
comu
no c
propó
pode
U
comu
class
textu
comu
C
propó
ao c
exist
Aber
dois
Numa organ
cipal foco
ósitos que c
mbito da cla
oais ou de o
De um mod
ence. Um pr
unicação se
conteúdo de
ósitos possí
em pertence
Uma comun
unicação po
sificada com
ual necessár
unicação co
Como resul
ósitos, corre
conjunto de
tem os pro
rtura de pro
propósitos
nização exi
deste traba
corresponda
assificação
outras matér
do geral, o
ropósito é r
erá avaliada
e uma com
íveis para a
r.
nicação pod
oderá ter ma
m mais que
ria para ob
orresponde e
ltado final
espondendo
e propósitos
pósitos “Pe
cesso de Si
em simultân
Figura 3
istem comu
alho as com
am efectiva
seja restrito
rias que nad
propósito d
representado
a, o que sign
municação.
as comunica
de ser clas
ais que um
e um propó
bter apenas
efectivamen
do proces
o à relevânc
s possíveis
edido de M
nistro”, é po
neo, conform
3.9 - Exemplo d
unicações d
municações
amente ao co
o a conteúd
da tenham a
de uma com
do através d
nifica que e
No proces
ações, consi
ssificada c
propósito.
ósito, devem
s um propó
nte a dois pr
sso de cla
cia que o con
s. Por exem
Marcação d
ossível que
rme ilustrad
de uma comun
de entrada,
de entrada
onteúdo das
dos profissi
a ver com o
municação
de um espaç
existirão div
sso de clas
istindo no c
om mais q
Em casos e
mos assum
ósito ou, em
ropósitos di
assificação
nteúdo da c
mplo, assum
de Peritagem
existam co
o na figura
nicação com do
de saída e
a. Para que
s comunica
onais, desc
domínio da
consiste na
ço multidim
versas dime
sificação e
conjunto de
que uma c
em que uma
ir que não
m alternativ
istintos.
é retornad
comunicação
mindo que
m de Sinis
omunicações
3.9:
ois propósitos
e internas,
e sejam ret
ações, é sup
cartando me
a organizaçã
a classe a
mensional, n
ensões para
existe uma
e classes a q
classe, isto
a comunica
houve inf
iva, o cont
do um ran
o possui em
numa orga
stro” e “Pe
s que conte
57
sendo o
tornados
osto que
ensagens
ão.
que esta
no qual a
analisar
lista de
que estas
é, uma
ação seja
formação
eúdo da
nking de
m relação
anização
edido de
nham os
58
O processo de classificação de uma comunicação deve ter em conta as entidades e
expressões específicas de domínio, pois são elementos que evidenciam a presença de
informação específica de domínio no seu conteúdo; portanto, o processo de classificação
depende efectivamente da detecção de entidades e expressões específicas de domínio.
Poderão existir comunicações em que a presença de apenas uma entidade ou expressão
específica de domínio leve directamente à classificação de um propósito, enquanto
existirão domínios mais complexos, havendo a necessidade conjugar entidades e
expressões específicas de domínio. Por exemplo, num domínio da área automóvel, uma
entidade “matrícula” será pouco diferenciadora numa comunicação, uma vez que a maioria
das comunicações desse domínio poderá conter matrículas, não levando a nenhum
propósito em concreto.
Neste trabalho, o processo de classificação utilizado tem como base o eTVSM
(Enhanced Topic-based Vector Space Model) [30], um modelo baseado em tópicos e
ontologias, permitindo assim estabelecer relações entre conceitos de um domínio
específico. Tal como foi descrito na sub-secção 2.3.4, a utilização de ontologias neste
modelo (eTVSM) permite representar um conjunto de conceitos pertencentes a um
domínio, e relações hierárquicas entre eles, admitindo que um tópico possua diversas
interpretações com termos associados. Uma vez que a detecção de fenómenos linguísticos
não é o principal objectivo deste trabalho, optou-se pela associação de um tópico apenas a
uma interpretação. A vantagem desta opção é a redução da complexidade nos cálculos dos
vectores de cada comunicação ou propósito, uma vez que deixará de ser necessário o
somatório dos vectores das diversas interpretações de cada tópico. Tal como foi acima
mencionado, embora o objectivo fundamental deste trabalho não resida na detecção de
fenómenos linguísticos entre termos, a não existência de diversos significados semânticos
para cada tópico pode ser considerada uma desvantagem na abordagem seguida neste
trabalho.
Cada tópico do modelo eTVSM será um conceito pertencente ao domínio do
classificador, resultando numa relação hierárquica entre os diversos conceitos do domínio
específico. Observando o exemplo da figura 3.10 [30], o conceito “Rato” pode ter duas
interpretações, uma associada à área da informática, e a outra ao mundo animal. Para tal,
podemos incluir diversos termos associados ao conceito “Rato”, representando diversos
significados semânticos para o mesmo conceito.
Com
que u
interp
figur
Com
de um
mant
consi
assoc
entid
espec
seme
F
mo já foi refe
um tópico n
pretação se
ra 3.10 pass
mo é possíve
m tópico c
têm-se, emb
iderado a su
ciados a tó
dades a tópi
cífica de do
elhança do q
Figura 3.10 - E
ferido, a opç
não possua d
emântica. P
aria a ser m
Figura 3.11 -
el observar
com duas in
bora a mod
ua única in
ópicos, emb
icos, isto é,
omínio, e es
que sucede
Exemplo de Mo
ção de não a
diversos sig
Portanto, uti
modelado da
- Exemplo de M
na figura 3
nterpretaçõe
delação dos
nterpretação
bora neste
, sempre qu
ta esteja ass
com os term
odelação de Tó
associar div
gnificados s
ilizando a n
a seguinte fo
Modelação de
.11, passari
es. As relaç
s conceitos
o. Na aborda
trabalho s
ue numa co
sociada a um
mos.
ópico com dive
versas interp
semânticos,
notação de
orma:
Tópico com um
iam a existi
ções hierárq
seja diferen
agem origin
seja também
omunicação
m tópico, se
rsas Interpreta
pretações a
isto é, que
scrita em [
ma Interpretaç
ir três tópic
quicas e os
nte, já que
nal do eTVS
m permitid
seja encon
erá feita a su
tações
um tópico
possua ape
[30], o exem
ção
cos distintos
s termos as
o próprio
SM os term
da a associ
ntrada uma
ua contabili
59
faz com
enas uma
mplo da
s em vez
sociados
tópico é
mos estão
iação de
entidade
ização, à
60
O modelo eTVSM permite a utilização de diversos mapas de tópicos, sendo que tópicos
pertencentes a mapas de tópicos distintos são ortogonais entre eles, o que nesta abordagem
será bastante útil, uma vez que a representação de um propósito ou comunicação será
baseada em diversas dimensões, sendo cada dimensão modelada num mapa de tópicos
diferente. Portanto, cada comunicação ou propósito será composto por tópicos presentes
nos diversos mapas de tópicos existentes. O modelo formal para a abordagem seguida
neste trabalho lida com comunicações, propósitos e similaridades entre eles, portanto, à
semelhança da sub-secção 2.3.1, temos a seguinte notação:
C é a representação de um conjunto de comunicações;
c é a representação de uma comunicação de C;
T é um conjunto de tópicos;
é um tópico pertencente a um conjunto de tópicos T;
P é um conjunto de propósitos;
p é a representação de um propósito de P;
sim(c,p) representa a função de similaridade entre uma comunicação ∈ e um
propósito ∈ , que retorna um número real (entre 0 e 1);
, , que é o peso do tópico ∈ , numa comunicação ∈ ;
, , que é o peso do tópico ∈ , num propósito ∈ .
Nas próximas sub-secções serão explicadas as diversas fases da técnica de
classificação; primeiramente será descrita a representação do conteúdo de uma
comunicação, sucedendo-se a representação de um propósito, finalizando com a aplicação
da técnica de similaridade entre uma comunicação e um conjunto de propósitos.
3.2.1 Representação do conteúdo de uma comunicação
O procedimento de análise do conteúdo de uma comunicação consiste num conjunto de
técnicas de processamento de texto, para que no final seja obtido um conjunto de
expressões e entidades, e que seja possível associá-los a tópicos. As diversas fases de pré-
processamento de texto são:
I. Segmentação de Texto;
II. Eliminação de palavras não interessantes;
III. Radicalização.
61
A técnica de segmentação de texto aplicada neste trabalho resulta na segmentação de
palavras e frases utilizada no Rembrandt. A implementação da técnica de segmentação de
texto no Rembrandt permite efectuar ajustes sempre que necessário, nomeadamente a
adição de abreviaturas para auxiliar o processo de segmentação de frases, bem como o
estabelecimento de novas regras ao nível da segmentação de palavras.
A lista de palavras não interessantes já incluída no Rembrandt terá sempre que ser
revista mediante o domínio do classificador, pois é possível que inclua termos relevantes
dependendo do contexto da classificação, prejudicando dessa forma a detecção de
expressões relevantes. Uma solução para evitar resultados indesejados no processo de
anotação passaria pela não remoção de palavras não interessantes, ou simplesmente aplicar
este processo após o processo de anotação do conteúdo textual das comunicações.
A aplicação das diversas fases de pré-processamento de texto resulta num conjunto de
termos que poderão pertencer ao domínio específico do classificador, e para tal serão
aplicadas técnicas de detecção de entidades e expressões relevantes utilizando o
Rembrandt, pois como já foi referido, este possui métodos que permitem a detecção de
entidades e expressões para um domínio específico. A obtenção de entidades e expressões
relevantes tem como objectivo a sua associação a tópicos contidos nos diferentes mapas de
tópicos das diversas dimensões.
O modelo eTVSM representa documentos na forma vectorial, em que a
dimensionalidade do vector é representada por todos os tópicos existentes nos mapas de
tópicos e, como tal, uma comunicação será representada do mesmo modo, através da
contabilização da presença das diversas expressões e entidades associadas a tópicos.
Portanto, para cada comunicação c contida num conjunto de comunicações C, temos:
∀ ∈ ∶ 1
⟹ | | 1com , .
∈
3.1
O cálculo do vector de uma comunicação resulta da soma de todos os tópicos cujas
respectivas expressões ou entidades estejam presentes no seu conteúdo. A cada vector de
tópico ainda será multiplicado um peso , , que consiste no número de ocorrências do
respectivo tópico numa comunicação (term frequency), multiplicado por um peso
representativo do poder de discriminação do tópico. A escolha desse peso carece de uma
fase de experimentação, sendo esse assunto abordado em detalhe na sub-secção 5.2.3,
62
acompanhado de resultados experimentais. O processo de construção do vector de uma
comunicação segue os seguintes passos:
I. Reconhecimento de entidades e expressões específicas de domínio;
II. Associação de entidades e expressões específicas de domínio aos Tópicos;
III. Contabilização do número de ocorrências das expressões e entidades na
Comunicação;
IV. Cálculo do vector da Comunicação.
3.2.2 Representação de um Propósito
Dado que o modelo eTVSM foi originalmente concebido para o cálculo de
similaridades entre documentos, cada propósito é considerado um “documento modelo”,
sendo composto pela soma de um tópico de cada um dos mapas de tópicos existentes. Para
tal, é necessário estabelecer um processo de modelação dos propósitos, através de
associações aos diversos mapas de tópicos existentes.
À semelhança da representação dos mapas de tópicos, o conjunto de propósitos é
também representado na ontologia. Portanto, quando o classificador interage com a
ontologia para obter todos os mapas de tópicos, irá também obter o conjunto de propósitos
para o respectivo domínio.
Modelação dos Propósitos
Um dos requisitos na modelação dos propósitos é o estabelecimento de hierarquias
entre tópicos, de modo a permitir classificar uma comunicação com propósitos mais
genéricos ou mais específicos. Na figura 3.12 encontra-se um exemplo da relação
hierárquica entre tópicos de uma dimensão, onde será possível que uma comunicação
contenha expressões ou entidades associadas a tópicos mais genéricos, ou possua uma
especificidade que permita classificá-la com mais precisão, associando entidades ou
expressões a tópicos mais específicos. Para um conjunto de propósitos em que uma das
suas dimensões fosse representada pela hierarquia de tópicos ilustrada na figura 3.12,
teríamos um propósito mais genérico representado pelo “Tópico 1”, enquanto existiriam
três propósitos mais específicos, cada um com os tópicos “Tópico 2”, “Tópico 3” e
“Tópico 4” respectivamente associados.
Q
tópic
tópic
ou en
será
É
dos t
senti
Q
a com
de c
desce
valor
nega
que p
desca
A
próxi
tópic
dime
mapa
Quando num
cos da mesm
cos; por exe
ntidades qu
o correspon
É de referir
tópicos de
ido.
Quando uma
municação
classificação
endentemen
r do ranking
ativos ao pr
possuam um
artados da c
Após a elab
imo passo
cos existent
ensões difer
as de tópico
Fig
ma comuni
ma descendê
emplo, obse
ue pertençam
ndente ao “T
que o conju
cada dimen
a comunicaç
apresenta e
o de uma
nte, sendo q
g de propó
rocesso de c
m valor de
classificação
boração de
é a associa
es, resultan
rentes. Por
os distintos,
Propósito p
gura 3.12 - Exe
icação exis
ência, o pro
ervando nov
m aos tópic
Tópico 1”.
unto de prop
nsão, mas
ção é classi
fectivament
comunicaçã
que a classi
sitos. É de
classificaçã
similaridad
o obtida.
um conju
ação de cad
ndo num co
r exemplo,
cada propó
p: <dimens
emplo de uma h
stem divers
opósito reto
vamente a f
cos “Tópico
pósitos não
apenas por
ificada com
nte os divers
ão retorna
ificação atr
realçar que
ão de comu
de muito pr
unto de pro
da propósito
njunto de p
para um d
ósito seria re
são 1> <dim
hierarquia de
sos termos
rnado será
figura 3.12,
o 2” e “Tóp
é represent
r um certo
mais que u
sos propósit
uma listag
ribuída à co
e esta opção
unicações, p
róximo do
opósitos pa
o a um tópi
propósitos c
determinado
epresentado
mensão 2>
Tópicos
ou entidad
o correspon
se forem id
pico 3”, o p
tado por tod
conjunto d
um propósito
tos em simu
gem de pro
omunicação
o tomada p
pois poderão
maior resul
ara um dom
ico de cada
com referên
o domínio
o da seguinte
<dimensão
des pertenc
ndente ao p
dentificado
propósito re
das as comb
de tópicos q
to, isto signi
ultâneo. O p
opósitos or
o consiste n
pode fornece
o existir pr
ltado obtido
mínio espec
a um dos m
ncia para tó
onde exist
e maneira:
o 3>
63
centes a
ai destes
s termos
etornado
binações
que faça
ifica que
processo
rdenados
no maior
er falsos
ropósitos
o, sendo
cífico, o
mapas de
picos de
tam três
64
Cada um
Supond
Automó
Fazendo
dividido
Como p
dimensã
“Peritag
organiza
propósit
havendo
A co
comunic
ma das dim
do que um
óvel” seria:
o a segmen
o em três pa
<
podemos ob
ão que re
gem” é um
acionais. C
tos é feita
o quaisquer
Figura 3.1
onstrução d
cações, isto
mensões dist
m possível
“Pedido d
ntação de di
artes:
<Pedido de
bservar na
epresenta a
dos proces
Com este
mediante o
r tipo de rest
13 – Modelaçã
do vector de
o é, cada pro
intas é um
propósito
de Marcaçã
imensões ou
Marcação>
figura 3.13
a natureza
sos da orga
exemplo, p
os interesse
trições ao n
o do Propósito
e um propós
opósito resu
tópico asso
para uma
ão de Perit
u mapa de
> de <Perit
3, “Pedido
ou intenç
anização, en
pretende-se
es e necess
nível do núm
o “Pedido de M
sito tem reg
ultará na co
ociado a um
a organizaç
agem de Si
tópicos, o p
tagem> de <
de Marcaç
ção do re
nquanto “Si
e demonstr
sidades de
mero de dim
Marcação de Pe
gras mais re
onjugação d
m mapa de tó
ção da áre
inistro”
propósito ac
<Sinistro>
ção” está a
metente da
inistro” é um
rar que a
qualquer o
mensões que
eritagem de Sin
stritas comp
e apenas um
ópicos difer
ea de “Se
cima poder
associado a
a comunic
ma das unid
modelação
organização
e possam ex
nistro”
parativamen
m tópico co
rente.
guros
ia ser
a uma
cação;
dades
o dos
o, não
istir.
nte às
ontido
65
em cada um dos mapas de tópicos existentes. Cada propósito será composto pela soma dos
vectores dos tópicos pertencentes às diversas dimensões. Portanto, para cada propósito p
contido num conjunto de propósitos P, temos:
∀ ∈ ∶ 1
⟹ | | 1com , .
∈
3.2
A utilização do peso , será semelhante à do vector de uma comunicação (ver fórmula
3.1) e, como tal, será também explicitada em mais detalhe na sub-secção 5.2.3.
Argumentos de um Propósito
Neste trabalho optou-se pela atribuição de um conjunto de argumentos a cada
propósito, ou seja, cada propósito pode conter um conjunto de entidades que podem ser
úteis no processo posterior ao encaminhamento da comunicação. Quando uma
comunicação é classificada com um ou diversos propósitos, mediante os argumentos que
cada propósito possui, e dependendo das entidades que foram detectadas no conteúdo da
comunicação, é feita uma associação das entidades reconhecidas na comunicação
relativamente aos propósitos que resultaram do processo de classificação. Voltando ao
exemplo acima, “Pedido de Marcação de Peritagem de Sinistro” poderia conter os
seguintes argumentos:
Nome do Sinistrado;
Matrícula;
Número de Sinistro.
Se uma comunicação fosse classificada com o propósito “Pedido de Marcação de
Peritagem de Sinistro”, e nessa mesma comunicação fossem encontradas entidades
específicas de domínio “Matrícula” e “Número de Sinistro”, bem como uma entidade
mencionada da categoria “Pessoa”, estas seriam agregadas ao propósito resultante da
classificação, sendo sugeridas como potenciais argumentos.
A utilização de argumentos nos propósitos é bastante útil, pois permite agregar
informação relevante a cada comunicação classificada, o que pode ser muito importante no
processo posterior ao encaminhamento da comunicação.
66
Com
argumen
3.2.3 C
A té
propósit
comunic
A té
comunic
seno do
e possu
cálculo
mo se pode o
ntos dos pro
Cálculo de
écnica de cl
tos que apr
cação será c
écnica classi
cação, e ou
o ângulo ent
uindo os ve
será efectua
observar na
opósitos tam
Figura 3
Similarida
lassificação
resentem o
comparada
ificativa pre
utro a um p
tre dois vec
ectores refe
ado da segu
a figura 3.14
mbém se enc
3.14 - Modelaç
de entre um
o consiste em
maior gra
com cada u
etende anali
ropósito, se
tores. Após
erentes a ca
uinte maneir
,
4, para além
contra na on
ção de um Pro
ma Comun
m obter pa
au de simila
um dos prop
isar o ângul
endo esta o
s ter sido ca
ada um dos
ra:
1
m dos tópico
ntologia.
pósito na onto
nicação e um
ara cada com
aridade com
pósitos exist
lo entre dois
operação equ
alculado o v
s propósito
1
os, a informa
logia
m conjunto
municação,
m a mesma
tentes.
s vectores, u
uivalente ao
vector de um
s existentes
mação relativ
o de Propós
um conjun
a; para tal,
um pertence
o cálculo d
ma comunic
s no domín
va aos
sitos
nto de
cada
ente à
do co-
cação,
nio, o
67
1
.
1
, .
∈
, . ∈
1
∈
, , .
∈
3.3
Tal como já foi explicado, o resultado do cálculo de similaridade entre uma comunicação e
um conjunto de propósitos será um ranking ordenado por ordem descendente.
Apesar de não ter sido efectuado neste trabalho, seria interessante a criação de regras
cujo objectivo não fosse retornar apenas os propósitos cujo valor de similaridade fosse o
maior, mas um conjunto de propósitos cujo grau de similaridade se apresentasse próximo
do maior valor de similaridade obtido. A regra inversa também poderia ser aplicada, ou
seja, ser definido um threshold20, para que valores de similaridade pouco significativos não
resultassem em propósitos, sendo retornado um resultado classificativo “indefinido”.
20 Threshold ou limiar é um valor mínimo de alguma quantidade.
68
69
4. Implementação
Neste capítulo são apresentadas todas as questões relacionadas com a implementação
deste trabalho, começando pelas tecnologias utilizadas, sendo de seguida apresentados os
detalhes de implementação de cada um dos módulos utilizados, bem como a interacção
entre eles, resultando na arquitectura geral desta abordagem.
4.1 Tecnologias utilizadas
A implementação do sistema Rembrandt foi feita com recurso à linguagem Groovy21
(versão 1.7), portanto, todos os módulos desenvolvidos e incluídos no Rembrandt, bem
como toda a técnica de classificação foram implementados na mesma linguagem. Para
lidar com as comunicações, tanto na técnica de classificação como nas fases de
experimentação, foram utilizadas tecnologias XML, nomeadamente XML e XSLT. Foram
ainda desenvolvidas duas aplicações com interface gráfica em Java SE 622, para que
fossem efectuados testes de modo a obter resultados da classificação.
4.2 Técnicas de Processamento de Texto
Nesta secção será descrito o módulo de processamento de texto, especificando as
questões mais complexas de todos os passos do processamento. Apesar de terem sido
utilizadas algumas técnicas já incluídas na implementação do Rembrandt, estas devem ser
igualmente compreendidas, pois são necessárias algumas alterações, mediante as
necessidades do classificador e respectivo domínio.
Na figura 4.1 pode ser observada a sequência de técnicas de processamento de texto
aplicadas a cada comunicação.
21 http://groovy.codehaus.org/ 22 http://java.sun.com/javase/
70
Quando
próprio,
secção 4
4.2.1 S
A té
incluída
totalmen
tratamen
de segm
definir a
Apó
estrutur
saber a
indexaç
conteúd
detecção
permitin
outra.
Figu
o o classifi
, de modo a
4.5, o result
Segmentaçã
écnica de s
a na imple
nte orientad
nto de caso
mentação de
abreviaturas
ós o process
ras de index
sua localiz
ção é muito
do de uma c
o em duas
ndo que um
ura 4.1 - Esque
icador rece
a obter dire
tado final da
ão de Texto
segmentaçã
ementação
do às categ
s específico
e frases, a té
s para cada
so de segme
xação para
zação exacta
o important
comunicaçã
frases dist
m termo com
ema da aplicaç
epciona um
ectamente o
a classificaç
o
ão de texto
original d
gorias das e
os para cada
écnica de se
entidade, d
entação ser e
cada frase e
a no conteú
te, pois pe
ão e, caso o
tintas, isto
mposto seja
ção das Técnica
ma comunic
o seu título
ção também
o utilizada
do Rembran
entidades qu
a tipo de ent
egmentação
de modo a ev
efectuado, o
e respectivo
údo textual
ermite detec
o termo sej
é, a detec
a detectado
as de Processa
cação, esta
e conteúdo
m é retornad
neste traba
ndt. O pro
ue o Rembr
tidade. De m
o de texto u
vitar falsas
o próximo p
os termos q
de uma com
ctar a posi
ja composto
cção de term
no final de
mento de Text
vem num
. Tal como
o em forma
alho corresp
ocesso de
randt detec
modo a mel
usada neste
terminações
passo consis
que a comp
municação.
ção de qua
o, não será
mos é feita
e uma frase
to
m formato
será descri
ato XML.
ponde à té
segmentaç
cta, permitin
lhorar o pro
trabalho pe
s de frases.
ste na criaç
põem, de mo
Este sistem
alquer term
permitida
a por frase
até ao iníc
XML
ito na
écnica
ção é
ndo o
ocesso
ermite
ção de
odo a
ma de
mo no
a sua
e, não
cio de
É
comu
serão
temo
segm
Com
obtiv
Porta
frase
É de referir
unicação, p
o independe
os um exem
mentação de
mo resultado
vemos a seg
anto, a cad
es que a com
r que o cl
portanto, qu
entes daque
mplo de u
texto utiliz
Figura 4.2 - E
o da aplica
guinte segm
Figura 4.
a comunica
mpõe e respe
lassificador
uando esta é
elas que se
uma comun
zado neste tr
Exemplo do co
ção da seg
entação (fig
.3 - Segmentaç
ação é asso
ectivo conju
r faz distin
é segmenta
encontram
nicação, à
rabalho.
onteúdo de um
gmentação
gura 4.3):
ção do texto da
ociada infor
unto de term
nção entre
ada, as frase
no corpo d
qual será
ma comunicação
do texto da
a Comunicação
rmação det
mos.
o título e
es que se e
da comunica
aplicado o
o para segmen
a comunica
o da figura 4.2
alhada acer
e o corpo
encontram n
ação. Na fi
o procedim
ntar
ação da fig
rca do conj
71
de uma
no título
gura 4.2
mento de
gura 4.2,
junto de
72
4.2.2 A
A ap
termo n
radical.
é:
I.
II.
III.
IV.
V.
Por exe
procedim
Para o e
do algor
sufixo
radicaliz
para que
4.3 De
Esta
e respe
específi
domínio
Algoritmo d
plicação do
no texto de
O conjunto
remoção
remoção
alteraçã
remoção
remoção
remoção
mplo, para
mento (figu
exemplo ac
ritmo de ra
para remov
zação são u
e possam se
etecção de E
a secção pre
ctivas regra
icas de dom
o.
de Radicali
o algoritmo
uma comu
o de regras
o dos sufixo
o dos sufixo
ão;
o do sufixo
o dos sufixo
o dos sufixo
os termos “
ura 4.4) resu
Figura 4.4 -
cima ilustrad
adicalização
ver. É de
utilizadas es
er detectado
Entidades e
etende descr
as, detalhan
mínio. É tam
ização
de radicaliz
nicação, res
que o algor
os;
os verbais, s
i, se preced
os residuais
os e, é, ê e t
“Informaçõ
ultando apen
Exemplo da a
do (figura 4
o, pois em n
referir qu
struturas au
os e removid
e Expressõe
rever os det
ndo também
mbém descri
zação consi
sultando nu
ritmo de Po
se o primeir
dido de c;
s os, a, i, o,
tratamento d
es”, “Inform
nas num ún
aplicação da Té
4.4), bastou
nenhuma da
ue nos dois
uxiliares com
dos de cada
es Relevan
talhes da cr
m o proced
ito o proces
iste num co
um termo a
orter para lín
ro passo não
á, í, ó;
da cedilha.
mação” e “I
nico radical:
écnica de Radi
u a aplicaçã
as outras foi
s primeiros
m os respec
a termo.
tes
riação de no
dimento pa
sso de inter
onjunto de p
o qual pode
ngua portug
o realizou n
Informar”, t
calização
o das duas
i reconhecid
s passos d
ctivos conju
ovas categor
ara detecção
acção com
passos para
demos cham
guesa [35] a
nenhuma
temos o seg
primeiras r
do mais nen
do algoritm
untos de su
rias de entid
o de expre
as ontologi
a cada
mar de
aplica
guinte
regras
nhum
mo de
fixos,
dades
essões
ias de
73
4.3.1 Criação de Novas Regras
A implementação do Rembrandt suporta a criação de novas classes para a detecção de
novas categorias de entidades mencionadas, existindo uma super classe
NamedEntityDetector que é herdada por todas as classes que representam as diferentes
categorias de entidades. A criação de novas classes, que representem categorias de
entidades específicas de domínio, será efectuada da mesma forma. Portanto, para a criação
de novas entidades de carácter genérico ou específicas de domínio, é utilizada a classe
NamedEntityDetector, onde é definido o procedimento para detectar quaisquer tipos de
entidades.
Quando é criada uma nova classe para representar uma categoria de entidade, têm que
ser especificadas as regras para a sua detecção; a classe deve possuir uma lista de objectos
Rule, onde cada um especifica uma regra para a detecção da entidade respectiva. Para
definir uma regra de detecção de entidades, é necessário especificar os seguintes atributos
do objecto Rule:
Identificador e descrição da Regra;
Categoria: especifica qual a categoria a atribuir à entidade detectada;
Tipo (opcional): especifica qual o tipo da entidade detectada;
Sub-tipo (opcional): especifica qual o sub-tipo da entidade detectada;
Cláusulas: é o atributo onde é especificado o conjunto de evidências internas ou
externas, sob a forma de expressões regulares ou texto simples;
Política da Regra: quando a regra é uma evidência interna este atributo toma o valor
de “regra”, quando se trata de uma evidência externa toma o valor de “cláusula”;
Política de Conflito da Regra: permite definir se esta regra prevalece, em caso de
conflito de detecção com outra regra.
Por exemplo, para a criação de uma regra para detectar entidades da categoria “Número de
Processo”, teríamos:
ID: N_Processo
Descrição: “Formato xxx/xxxxx”
Categoria: NProcesso
Política: Regra
74
Cláusula:([0-9]{3}\/[0-9]{5})
O conjunto de cláusulas que cada regra tem de cumprir, para que a entidade seja
reconhecida, é descrita no atributo “Cláusula”. Por exemplo, caso a detecção de uma
entidade “Número de Processo” necessitasse do uso de evidências externas, a formulação
da regra seria:
ID: N_Processo
Descrição: “Formato xxx/xxxxx”
Categoria: NProcesso
Política: Cláusula
Cláusulas:
Ordem Expressão/Padrão Cardinalidade Inclusão
1 [Nn]úmero 1 false
2 [\.\:\-] 0 ou 1 false
3 (de|do) 0 ou 1 false
4 [Pp]rocesso 1 false
5 [\.\:\-] 0 ou 1 false
6 ([0-9]{3}\/[0-9]{5}) 1 true
A criação de regras que incluam evidências externas exige que seja especificada a ordem
de ocorrência dessas mesmas evidências no texto. É possível definir um conjunto de
propriedades para cada cláusula: cardinalidade, inclusão, critério e padrão. Para a definição
de cada uma das expressões definidas na cláusula podem ser utilizadas expressões
regulares (simples ou compostas) ou texto simples. Para todas as regras de detecção de
entidades específicas de domínio neste trabalho, as propriedades “critério” e “padrão” não
variaram, isto é, foram sempre utilizadas expressões regulares para a detecção de entidades
específicas de domínio. Tal como é referido na sub-secção 2.2.1, é de relembrar que a
propriedade “inclusão” permite definir para cada cláusula, se esta faz parte da anotação
final, ou se serve somente para o processo de detecção, sendo descartada.
4.3.2 Interacção com a Ontologia de domínio
O módulo das ontologias de domínio será a base informativa da organização, e por isso
será interrogada aquando da detecção de uma entidade ou expressão numa comunicação.
C
comu
para
Para
entid
ontol
devo
Na f
quan
O mó
hasC
conc
categ
entid
É
imple
entid
pelo
Como já fo
unicação, é
verificar se
tal, serão d
dade. Como
logias será
olvendo a re
Fig
figura 4.6 t
ndo existe a
Fig
ódulo é inte
Contact o v
luir que ca
goria da ent
dades especí
É de referir
ementado n
dades existe
simples fa
oi descrito
efectuada
e existe uma
definidas co
o podemos
utilizado
espectiva res
gura 4.5 - Com
temos o ex
detecção de
gura 4.6 – Exe
errogado no
valor da en
ada consulta
tidade detec
íficas de do
r que o pro
neste trabal
entes na org
acto deste p
na sub-se
uma consu
a propriedad
onsultas SP
observar
um módulo
sposta, que
unicação entre
xemplo de u
e uma entid
mplo de consu
sentido de
tidade “Co
a SPARQL
ctada, tanto
mínio.
ocesso de in
lho, sendo
anização es
processo nã
ecção 3.1.4
ulta SPARQ
de ou instân
PARQL às
na figura
o interméd
neste caso é
e Módulo de C
uma consu
dade da cate
ulta SPARQL a
obter o UR
ontacto” det
L à ontolog
para as ent
nteracção d
que teríam
stariam pres
ão ser estri
4, para ca
QL ao módu
ncia corresp
ontologias,
4.5, para
dio, process
é um URI.
Classificação e M
lta SPARQ
egoria “Cont
acerca de uma
RI de uma pe
tectada na
gia, terá de
tidades de c
descrito na
mos de part
sentes no m
itamente ne
ada entidad
ulo das onto
pondente à e
mediante a
a conexão
sando a co
Módulo de On
QL ao módu
tacto”.
entidade “Con
essoa que te
comunicaçã
ser person
carácter gen
figura 4.5
tir do princ
ódulo de on
ecessário p
de detectad
ologias de
entidade res
a categoria
ao reposi
onsulta SPA
ntologias
ulo das on
ntacto”
enha na prop
ão. Podemo
nalizada me
nérico, quan
não foi tot
ncípio que t
ntologias, e
para a aplic
75
da numa
domínio
spectiva.
de cada
tório de
ARQL e
tologias,
priedade
os então
ediante a
ndo para
talmente
todas as
também
cação da
76
técnica
navegaç
No m
ontolog
técnica
de term
Portanto
expressõ
domínio
que cad
é efectu
com os
Para ca
expressõ
de classific
ção num rep
módulo de r
ia não exist
de reconhe
mos para qu
o, existe ta
ões associa
o extraídos
da termo seja
uado um pro
termos pres
Figura 4
ada termo
ões contida
cação, funci
positório de
reconhecim
te apenas n
cimento de
ue estes po
ambém um
adas aos con
da ontolog
a transform
ocedimento
sentes na co
4.7 - Procedime
relevante n
as na ontolo
ionando ma
comunicaç
mento de enti
no sentido d
expressões
ossam ser r
ma interacçã
nceitos nela
gia será tam
mado no seu
com o obje
omunicação
ento de reconh
na comunic
ogia e, para
ais como um
ções.
idades e exp
de solicitar
s específicas
reconhecido
ão com a
a contidos.
mbém aplica
radical. Sem
ectivo de m
o (figura 4.7
hecimento de E
cação, será
a tal será ut
m auxílio pa
pressões rel
o URI para
s de domíni
os no conte
ontologia d
Ao conjunt
ada uma téc
mpre que um
mapear expre
).
Expressões Esp
á efectuado
tilizada a té
ara o módu
levantes, a i
a uma dada
io necessita
eúdo de um
de modo a
to de termo
cnica de rad
ma comunic
essões conti
pecíficas de Dom
um mape
écnica de ra
ulo de pesqu
interacção c
entidade, p
a de um con
ma comunic
a obter tod
os específic
dicalização,
cação é ava
idas na onto
mínio
eamento co
adicalização
uisa e
com a
pois a
njunto
cação.
das as
os de
, para
aliada,
ologia
om as
o para
77
permitir que todas as palavras da mesma família sejam detectadas. O mesmo se aplica a
termos compostos, cujo procedimento é aplicado a cada uma das palavras que constitui a
expressão. Por exemplo, para a expressão “Pedido de Marcação” será permitida a detecção
de expressões cujos radicais de cada um dos seus termos sejam os mesmos; assim sendo, as
expressões “Pedidos de Marcação”, “Pedido de Marcações” ou “Pedidos de Marcações”
também seriam detectadas.
Para a obtenção do conjunto de expressões específicas de domínio, não é efectuada
uma interacção com a ontologia sempre que seja avaliada uma comunicação e, para tal
optou-se por serializar essa informação, e apenas interagir com a ontologia caso existam
actualizações do domínio a nível de introdução de novos conceitos e respectivos termos.
Políticas de Conflito
Caso nas ontologias exista um termo que faça parte de uma expressão composta, e que
também exista sob a forma de termo simples, a ordem de prioridade é a detecção da
expressão com o maior número de termos; por exemplo, se “Acidente Automóvel” e
“Acidente” fossem duas expressões específicas de domínio presentes na ontologia, em
primeiro lugar seria feita a detecção de “Acidente Automóvel” e, caso esta não seja
reconhecida, seria então efectuada a detecção da palavra “Acidente”.
4.4 Classificação de Comunicações
Para a implementação da técnica de classificação, foi utilizada a biblioteca Commons-
Math23 (versão 2.1) da Apache Software Foundation (ASF), para efectuar os cálculos que a
abordagem eTVSM exige, nomeadamente as operações com números reais e vectores.
A técnica de classificação também exige a interacção com as ontologias de domínio,
pois necessita dos mapas de tópicos e conjunto de propósitos para que a classificação seja
efectuada. É possível observar na figura 4.8 que essa interacção permite obter toda a
informação num formato XML, permitindo assim a criação de estruturas de dados
auxiliares para o processo de classificação, contendo os mapas de tópicos com respectivos
termos e entidades associados e o conjunto de propósitos.
23 http://commons.apache.org/math/
78
Visto qu
este pro
expressõ
De
classific
tópicos
4.4.1 M
A in
sempre
todo o
com mu
extracçã
módulo
facilita
Para
informa
S
S
D
N
T
E
V
F
ue será nece
ocedimento
ões específi
seguida ser
cação, mais
e propósito
Mapas de T
nteracção co
que o proc
processo m
muita frequê
ão dessa in
de interro
o processam
a a represen
ações necess
Sub-Tópico
Super-Tópi
Dimensão;
Nome;
Termos;
Entidades;
Vector de P
Figura 4.8 - In
essário obte
de extracçã
icas de dom
rão apresen
s especifica
os.
Tópicos
om a ontolo
cesso de cl
mais demoro
ência, decid
nformação d
ogação à on
mento dessa
ntação de c
sárias para a
os;
cos;
Pesos;
nteracção do M
er a correspo
ão de inform
mínio (ver su
ntadas algu
amente a es
ogia para a o
assificação
oso, e visto
diu-se que
da ontologia
ntologia pe
a informação
cada tópico
a tópico, no
Módulo de Clas
ondência en
mação da o
ub-secção 4
umas questõ
struturação
obtenção do
seja aplica
o que os ma
os seus d
a pode ser
ermite gerar
o para objec
o foi criada
omeadament
ssificação com
ntre os termo
ontologia ta
.3.2).
ões de imp
da informa
os mapas de
ado a uma
apas de tóp
dados també
serializada
r resultados
ctos.
a a classe T
te:
a Ontologia
os associad
ambém inclu
plementação
ação relativ
e tópicos nã
comunicaçã
picos não so
ém seriam
em ficheir
s no forma
Topic, que
dos a cada tó
ui o conjun
o da técnic
va aos map
ão será efec
ão, pois tor
ofrem alter
serializado
ros XML, p
ato XML, o
possui tod
ópico,
nto de
ca de
as de
ctuada
rnaria
rações
os. A
pois o
o que
das as
Porta
tópic
tópic
desse
cada
corre
O atr
dos m
toda
corre
Topic
4.4.2
A
mesm
como
na on
Cada
o con
de p
comp
anto, atravé
cos e calcul
cos, sendo t
es mesmos
tópico tam
espondência
ributo “Dim
mapas de tó
esta infor
esponde ao
c.
2 Conjunto
A obtenção
mo procedim
o da estrutu
ntologia, en
Nome;
Tópicos;
Argumen
Vector d
a propósito
njunto de ar
esos consis
põem o prop
és da inform
lar o vector
também pos
tópicos qu
mbém se e
a entre os te
mensão” per
ópicos exis
rmação foi
identificado
Figura 4.9
o de Propó
dos dados
mento refer
ura de dado
nquanto o va
;
ntos;
de Pesos.
é composto
rgumentos c
ste num ve
pósito.
mação descr
r de cada t
ssível obter
ue o cálculo
encontram
ermos e enti
rmite assoc
tentes. Com
criada um
or do tópico
9 - Estrutura de
ósitos
relacionado
rido para o
s, existindo
alor é um ob
o por um co
consiste num
ctor resulta
rita acima é
tópico, pois
r o conjunto
o de cada v
os termos
idades dete
ciar o tópico
mo podemo
ma estrutura
o na ontolog
e dados para a
os com os p
os mapas d
o um Mapa
bjecto Purp
onjunto de t
ma lista de c
ante da som
é possível c
s cada tópic
o de todos o
vector de tó
e entidade
ctados no c
o à dimensã
os observar
a de dados
gia, enquant
armazenar Ma
propósitos p
de tópicos,
cuja chave
pose que pos
ópicos, repr
categorias d
ma de todos
construir os
co tem aces
os tópicos fo
ópico é inic
es, o que p
conteúdo de
ão que perte
na figura 4
s do tipo
to o valor é
apas de Tópicos
presentes na
tanto ao ní
é o identifi
ssui os segu
resentados a
de entidades
s os vector
diversos m
sso aos seu
folha, pois é
ciado. Asso
permite est
e uma comu
ence, ou sej
4.9, para ar
Mapa, cuj
é um objecto
s
a ontologia
ível da seri
ficador do p
uintes atribu
através do s
s, enquanto
res dos tópi
79
mapas de
us super-
é através
ciados a
tabelecer
unicação.
eja, a um
rmazenar
a chave
o do tipo
segue o
ialização
propósito
utos:
seu URI;
o vector
icos que
80
Como p
associad
Para
conjunto
alguma
propósit
podemos ob
do um URI
a cada propó
o de argum
entidade d
to (figura 4
Fi
Figura 4.10
bservar na f
fazendo ref
ósito obtido
mentos que
da mesma c
.11).
igura 4.11 - Pro
0 - Estrutura d
figura 4.10,
ferência par
o como resu
o compõem
categoria, e
ocedimento de
de dados para
à semelhan
ra o repositó
ultado da téc
m e, caso
sta será sug
e obtenção dos
armazenar Pr
nça de cada
ório das ont
cnica de cla
tenha sido
gerida com
argumentos d
opósitos
a tópico, cad
ologias de d
ssificação,
detectada
mo argument
os Propósitos
da propósito
domínio.
será verific
na comunic
nto do respe
o tem
ado o
cação
ectivo
4.5
P
class
relev
uma
em X
infor
resul
Cada
propó
palav
pois
pode
propó
exist
Anotação d
Para além d
sificação, u
vantes e, par
comunicaç
XML e, pe
rmação rela
ltado da apl
a comunicaç
ósitos. Asso
vra no texto
nem sempr
erá ter mais
ósitos asso
tam.
de uma Co
o conjunto
uma comun
ra tal, deve
ção. O resul
elo seu mod
ativa às ent
icação da té
Figur
ção contém
ociada a cad
o da comun
re é possíve
s que um p
ciados à co
omunicação
de propósit
nicação é a
existir um
ltado da ap
delo expres
tidades e e
écnica de cl
a 4.12 - Esquem
um identifi
da anotação
nicação, a s
l obter tal in
propósito, d
omunicação
o
tos, como r
anotada co
formato qu
plicação da
sso na figur
expressões
lassificação
ma de Anotaçã
icador assoc
o existe um
sua categori
nformação.
daí o form
o, incluindo
resultado fin
m entidade
ue devolva t
técnica de
ra 4.12, é p
detectadas
dos propós
ão de uma Com
ciado, com
identificad
ia, e dois at
Tal como f
mato XML
o os respec
nal da aplic
es e expre
todos a info
classificaçã
possível ob
e classifica
itos da com
municação
um conjunt
dor que repr
tributos opc
foi descrito,
permitir a
tivos argum
cação da té
essões cons
ormação obt
ão será apre
bservar que
adas, bem
municação.
to de anotaç
resenta a po
cionais, tipo
, cada comu
inclusão d
mentos sem
81
cnica de
sideradas
tida para
esentado
contém
como o
ções e de
osição da
o e URI,
unicação
de vários
mpre que
82
Por exe
anotaçã
Como r
de dom
com doi
propósit
no texto
4.6 Ar
A im
global p
reconhe
Qualque
seguida
classific
fornecen
classific
com o
consulta
os termo
Com
comunic
emplo, a com
ão (figura 4.
resultado da
mínio, neste
is propósito
tos relevant
o da comuni
rquitectura
mplementaç
para qualqu
ecimento de
er comunic
a analisada,
cação inicia
ndo um con
cação do pr
repositório
as à ontolog
os associad
mo resultad
cação anota
municação
13):
Figura
a anotação a
caso da ár
os distintos,
tes para um
icação, sem
a Geral
ção da abo
uer tipo de
e informaçã
cação receb
para que o
a com o mód
njunto de ex
ropósito sej
que contém
gia, no senti
os aos conc
do final d
ada, com re
ilustrada na
a 4.13 - Exempl
acima descr
rea dos Seg
embora co
ma dada com
m o elemento
ordagem de
comunicaç
ão relevante
bida pelo c
seu conteú
dulo de reco
xpressões e
a efectuada
m as ontol
ido de obter
ceitos, os ma
a interacçã
espectivas e
a figura 3.9
lo de uma com
rita, existe u
guros, que l
om o mesmo
municação, o
o purposes.
escrita nest
ção, seguind
e e classific
classificador
údo textual
onheciment
e entidades a
a. Ambos o
logias de d
r um URI d
apas de tópi
ão dos mó
entidades e
(ver secção
municação anot
um conjunt
levam à cla
o grau de re
o resultado
e trabalho
do sempre
cação dos p
r virá num
seja extraíd
to de entida
ao módulo
os módulos
domínio, po
de uma entid
icos e propó
ódulos acim
e expressõe
o 3.2) resul
tada
to de expres
assificação
elevância. C
retorna apen
assenta nu
o mesmo p
propósitos d
m formato X
do e separad
des e expre
de classific
mantêm um
ois será nec
dade, bem c
ósitos existe
ma descrit
s relevantes
ltaria na seg
ssões espec
da comunic
Caso não ex
enas as anot
uma arquite
procedimen
da comunic
XML, send
do. A técni
essões releva
cação, para
ma comunic
cessário efe
como obter
entes.
tos, temos
s, bem com
guinte
cíficas
cação
xistam
ações
ectura
nto de
cação.
do de
ica de
antes,
que a
cação
ectuar
todos
uma
mo os
propó
4.14,
ósitos nela
, que ilustra
presentes.
a a arquitect
F
Todo o pr
tura global d
igura 4.14 - Ar
rocedimento
de toda a im
rquitectura Ge
o descrito p
mplementaçã
eral do Classifi
pode ser ob
ão descrita n
icador
observado n
neste capítu
83
na figura
ulo.
84
85
5. Experimentação
Este capítulo consiste na apresentação de todas as técnicas experimentais aplicadas
neste trabalho relativamente ao caso de estudo estudado. Será feita uma breve introdução à
organização estudada, mais especificamente as informações que foram obtidas a fim de
aplicar este trabalho a um caso real. Com base no caso de estudo serão apresentados
resultados dos módulos de reconhecimento de entidades e expressões específicas de
domínio, e da técnica de classificação de propósitos. Será ainda debatida a questão da
atribuição de pesos aos tópicos (modelo eTVSM), com a apresentação de alguns resultados
experimentais efectuados sob esse aspecto.
5.1 Caso de Estudo
A organização abordada no caso de estudo é cliente da iTds, e pertence à área de
Seguros, sendo que neste trabalho foi feita uma maior incidência na especialidade de
Seguros Automóveis, dada ser a área que proporciona o maior volume de comunicações na
organização.
5.1.1 Entidades Específicas de Domínio
Tal como descrito na secção 3.1.2, foram estabelecidas diversas interacções com um
especialista do domínio, de modo a gerar uma base de informação suficientemente capaz
de descrever todas as entidades específicas de domínio da organização. Para além dessas
interacções, também foi feita uma análise exaustiva de um vasto conjunto de comunicações
de entrada na organização, de modo a detectar alguns casos particulares, confirmados
novamente com o especialista do domínio. Portanto, esta fase de interacções consistiu num
processo iterativo, em que o conjunto de entidades específicas de domínio ia sendo
aumentado e melhorado com o apoio de um perito da organização. De seguida, será
apresentado um conjunto de regras para a detecção da entidade específica de domínio
“Matrícula”, utilizando evidências internas (expressões regulares) e externas, dando
86
origem a um conjunto de regras para a sua detecção. É de referir que o conjunto completo
de regras para detecção de todas as entidades específicas de domínio utilizadas no caso de
estudo, se encontra no anexo C.
Regras para Detecção de Entidades de categoria “Matrícula”
Regra 1
Ordem Expressão/Padrão Cardinalidade Inclusão
1 [A-Za-z]{2,2}[\-][0-9]{2,2}[\-][0-9]{2,2} 1 true
Regra 2
Ordem Expressão/Padrão Cardinalidade Inclusão
1 [0-9]{2,2}[\-][A-Za-z]{2,2}[\-][0-9]{2,2} 1 true
Regra 3
Ordem Expressão/Padrão Cardinalidade Inclusão
1 [0-9]{2,2}[\-][0-9]{2,2}[\-][A-Za-z]{2,2} 1 true
Regra 4
Ordem Expressão/Padrão Cardinalidade Inclusão
1 ([mM][aA][tT][rR]([iI]|[íÍ])?[cC]?[uU]?[lL]?[aA]?|[vV][eE]([iI]|[íÍ])[cC][uU]?[lL]?[oO]?) [\.\:]?
1 false
2 [A-Za-z]{2,2}[\-][0-9]{2,2}[\-][0-9]{2,2} 1 true
Regra 5
Ordem Expressão/Padrão Cardinalidade Inclusão
1 ([mM][aA][tT][rR]([iI]|[íÍ])?[cC]?[uU]?[lL]?[aA]?|[vV][eE]([iI]|[íÍ])[cC][uU]?[lL]?[oO]?) [\.\:]?
1 false
2 [0-9]{2,2}[\-][A-Za-z]{2,2}[\-][0-9]{2,2} 1 true
87
Regra 6
Ordem Expressão/Padrão Cardinalidade Inclusão
1 ([mM][aA][tT][rR]([iI]|[íÍ])?[cC]?[uU]?[lL]?[aA]?|[vV][eE]([iI]|[íÍ])[cC][uU]?[lL]?[oO]?) [\.\:]?
1 false
2 [0-9]{2,2}[\-][0-9]{2,2}[\-][A-Za-z]{2,2} 1 true
Observando as seis regras acima descritas, é de realçar que a detecção de entidades de
categoria “Matrícula” utiliza os dois tipos de evidências: internas e externas.
5.1.2 Expressões Específicas de Domínio
Quanto às expressões específicas de domínio, estas foram obtidas durante a construção
da ontologia do domínio da organização. Para a construção dessa mesma ontologia, que
resultou numa tese de mestrado englobada neste mesmo projecto, foram analisadas
diversas fontes de conhecimento fornecidas pela organização, documentos específicos de
negócio, organigramas e um pacote de 1000 comunicações; esta análise permitiu extrair e
obter uma base de conhecimento sólida e suficientemente elucidativa quanto às expressões
mais relevantes do domínio.
5.1.3 Elaboração dos Mapas de Tópicos
O processo de elaboração dos mapas de tópicos careceu de um trabalho de muita
especificidade relacionado com a organização, pois para cada tópico foram-lhe atribuídas
as expressões e entidades específicas de domínio correspondentes. Em primeiro lugar, foi
feito um levantamento de todos os conceitos que poderiam pertencer ao domínio específico
e, para cada um dos conceitos foi feita uma análise das entidades e expressões que
poderiam ser-lhe associadas; após uma fase de interacções com um especialista da
organização, foi decidido que seriam utilizados três mapas de tópicos, reflectindo três
dimensões (ver anexo B):
Natureza;
Organizacional;
Objecto.
A natureza de uma comunicação contém o objectivo primário manifestado no conteúdo da
mesma, podendo corresponder a um pedido ou um fornecimento de informação, que será
88
adicional ou complementar, existindo ainda a possibilidade da solicitação de abertura de
um processo. A dimensão organizacional refere o departamento ou unidade organizacional
a que o remetente da comunicação se tenciona dirigir, que neste caso poderá ser o
departamento de Sinistros, Produção ou Gestão de Clientes. Por último, a dimensão
objecto especifica o que a comunicação trata, podendo ser um tipo de documento, uma
acção, um interveniente ou um elemento de um processo na organização. Neste caso de
estudo, a dimensão objecto é aquela cujo grau de discriminação é mais elevado, sendo o
mais diferenciador na detecção dos propósitos da comunicação, concedendo o nível de
especificidade desejado pela organização.
5.1.4 Obtenção de um Conjunto de Propósitos
A elaboração de um conjunto de propósitos, para este caso de estudo, teve por base um
conjunto dos documentos mais utilizados para troca de informações na organização. Foi
feito um levantamento dos tipos de documentos mais utilizados ao nível das comunicações
recebidas, e em conformidade com um especialista da organização foi formulada uma
listagem de propósitos, procurando estabelecer uma associação aos três mapas de tópicos
criados (ver secção 3.2.2). Foram obtidos 92 propósitos (ver anexo A) para o caso de
estudo, o que corresponde ao número de classes a que uma comunicação pode pertencer.
Relativamente aos argumentos que cada um dos propósitos pode possuir, foi feita uma
distinção pela dimensão organizacional, ou seja, dependendo do departamento a que o
propósito está associado, os seus argumentos irão diversificar. Portanto, para os propósitos
que pertencem à unidade organizacional de Sinistros temos:
Número de Sinistro;
Data do Acidente;
Lesado;
Sinistrado.
Para as unidades organizacionais Produção e Gestão de Clientes, os argumentos dos
respectivos propósitos são:
Tomador do Seguro;
Número de Apólice.
89
Estabelecendo uma relação entre as categorias de entidades relevantes existentes neste
trabalho, os argumentos “Lesado”, “Sinistrado” e “Tomador de Seguro” referem-se à
categoria de entidade “Pessoa”, o argumento “Data do Acidente” à categoria de entidade
“Tempo”, enquanto o “Número de Sinistro” e “Número de Apólice” correspondem ambos
às respectivas categorias de entidades específicas de domínio criadas para este caso de
estudo.
5.2 Análise de Resultados
Esta secção apresenta os resultados da experimentação de todos os módulos elaborados
neste trabalho. São apresentados resultados relativos à anotação de entidades e expressões
relevantes numa comunicação, de modo a avaliar o nível de reconhecimento desse mesmo
módulo. A técnica de classificação de propósitos é também avaliada através de um
conjunto de comunicações de entrada. É também apresentada uma sub-secção acerca dos
pesos que cada tópico deve tomar, de modo a que possua um grau de discriminação
representativo do seu real valor na organização. Para cada uma das sub-secções são tecidas
conclusões acerca de cada um dos módulos avaliados.
5.2.1 Reconhecimento de Entidades e Expressões Específicas de Domínio
Para avaliar o módulo de reconhecimento de entidades e expressões específicas de
domínio, foi extraído um conjunto de 200 comunicações de entrada, tendo o seu conteúdo
sido anotado manualmente por um especialista do domínio e da organização, a fim de
comparar as anotações efectuadas automaticamente pelo módulo de reconhecimento de
entidades e expressões implementado neste trabalho. Para além de todas as expressões
específicas de domínio da área de seguros, as categorias de entidades anotadas pelo
especialista foram:
Tempo;
Matrícula;
Número de Apólice;
Número de Sinistro;
Contacto;
Local/Código-Postal.
90
Com base na comparação entre a anotação manual e automática, foram anotadas
correctamente 3530 entidades, enquanto 122 foram anotadas de forma errada. Os falsos
positivos foram 196, enquanto os falsos negativos foram 440. Os resultados globais deste
módulo foram de 89% de Abrangência e 95% de Precisão.
Os resultados de Abrangência foram inferiores aos de Precisão, pois alguns falsos
negativos que o especialista do domínio anotou manualmente, não foram anotados pelo
classificador. Entre os possíveis motivos para a detecção não ter sido efectuada, estão os
erros ortográficos, a ausência de evidências externas de algumas entidades para que a
detecção automática tivesse sido efectuada, e o remetente da comunicação ter-se referido
erradamente a algumas entidades. Os erros relativos à medida de Precisão são mais
restritos e, basicamente o conjunto de falsos positivos obtidos deve-se ao facto de existirem
algumas entidades que na anotação manual não foram consideradas relevantes ou,
simplesmente pelas próprias evidências internas ou externas levarem a erros de contexto
em certas situações.
5.2.2 Classificação dos Propósitos de uma Comunicação
Para a avaliação do módulo de classificação dos propósitos foram extraídas 1000
comunicações de entrada, sendo essa amostra um conjunto representativo das diversas
comunicações que a organização recebe diariamente. Cada uma das comunicações foi
classificada manualmente por um especialista da organização, mediante o conjunto de
propósitos elaborado neste caso de estudo, tendo sido posteriormente classificada
automaticamente pelo classificador desenvolvido neste trabalho. Nesta experimentação
foram obtidos resultados de 68% de Precisão e 77% de Abrangência; dado que uma
comunicação pode ser classificada com mais que um propósito, é de realçar que as 1000
comunicações classificadas automaticamente retornaram 1363 classificações diferentes.
A justificação para o valor obtido na medida de Precisão deve-se ao facto do
classificador por vezes detectar termos ou entidades como sendo relevantes, embora o seu
contexto não corresponda ao do domínio específico. Um dos motivos que pode levar à
detecção de falsos positivos é a recepção de uma comunicação que contenha uma thread de
comunicações, em que são detectadas diversas expressões e entidades referentes a diversos
propósitos, quando na realidade o verdadeiro propósito da comunicação está apenas
relacionado com a comunicação mais recente em toda a thread de comunicações.
91
Relativamente aos resultados obtidos para a medida de Abrangência, estes reflectem a
dificuldade do classificador em detectar os propósitos de algumas comunicações,
principalmente pela ausência de expressões ou entidades que discriminem o seu propósito.
5.2.3 Atribuição de pesos a Tópicos
Tal como foi descrito nas sub-secções 3.2.1, existe um peso , que representa o poder
de discriminação de cada tópico em função de uma comunicação . O peso , consiste
na conjugação de dois factores:
Número de Ocorrências do Tópico, por intermédio dos seus termos ou entidades
presentes na Comunicação (term frequency);
Peso (entre 0 e 1) do Tópico, representando um factor de discriminação do Tópico
no domínio específico.
Relativamente ao segundo factor, a atribuição dos pesos depende claramente da construção
do mapa de tópicos e respectivo domínio onde o classificador será integrado.
É de referir que no peso , que representa o poder de descriminação de cada tópico
em função de um propósito , é calculado da mesma maneira acima descrita, embora o
número de ocorrências do tópico tome sempre o valor de 1.
Para o caso de estudo em questão optou-se por variar apenas o peso em função do mapa
de tópicos, ou seja, a variação do peso depende da dimensão a que o tópico pertence,
embora seja possível atribuir pesos diferentes para tópicos pertencentes à mesma
dimensão. Tal como já foi referido, a dimensão objecto é a que possui mais poder de
discriminação neste caso de estudo, não existindo diferença entre as restantes dimensões,
natureza e organizacional. Esta conclusão foi obtida ao longo das diversas interacções com
o especialista de domínio, tendo sido efectuado um conjunto de testes que comprovaram
essa mesma decisão. Foi classificado manualmente um conjunto de 100 comunicações
recebidas, para posteriormente serem classificadas automaticamente pelo classificador, em
que se fizeram variar os pesos (entre 0 e 1) correspondentes a cada mapa de tópicos. Foram
efectuadas 11 experimentações, fazendo variar os 3 pesos relativos às 3 dimensões
existentes. Na figura 5.1 é possível observar os pesos atribuídos a cada dimensão e
respectivos valores de Abrangência, Precisão e F-Measure obtidos.
92
NExpe
Figur
Os pior
valores
experim
natureza
valores
a variaç
Esta fas
função
Nº eriência N
1 2 3 4 5 6 7 8 9
10 11
ra 5.1 - Variaç
res valores
inferiores
mentações 3
a e organiza
dos pesos u
ção do valor
Figura 5
se de experi
dos melhor
Pesoatureza O
1 0.5
0.25 0.10
1 1 1 1
0.5 1
0.25
ção dos valores
da medida
a 1. Os
e 11, mas
acional com
utilizados na
r de F-Meas
5.2 - Variação d
mentação s
res valores d
s dos TópicosOrganizacion
1 0.5
0.25 0.10
1 1 1
0.5 1
0.25 1
de Precisão, A
a F-Measur
s melhores
dado que o
m poder de
a experimen
sure em fun
da medida de F
erviu para v
de Abrangê
s nal Objecto
1 1 1 1
0.5 0.25 0.10
1 1 1 1
Abrangência e
re acontece
s valores
especialist
discriminaç
ntação 3. A
nção das div
F-Measure par
verificar qu
ência e Prec
Precisãoo
0.74 0.79 0.81 0.80 0.68 0.68 0.68 0.75 0.78 0.75 0.80
F-Measure em
em quando
de F-Mea
ta de domín
ção idêntico
Através da fi
versas exper
ra os diferente
ais os pesos
cisão, uma v
Abrangênci
0.80 0.80 0.81 0.81 0.74 0.74 0.74 0.79 0.81 0.79 0.82
m função dos pe
a dimensã
asure foram
nio consider
o, optou-se p
gura 5.2, po
rimentações
es pesos dos Tó
s a atribuir a
vez que se
ia F-Measur
0.77 0.79 0.81 0.80 0.71 0.71 0.71 0.77 0.79 0.77 0.81
esos dos Tópic
ão objecto
am obtidos
rou as dime
pela escolh
odemos obs
s efectuadas
ópicos
a cada tópic
pretende ob
re
cos
toma
s nas
nsões
ha dos
servar
s.
co em
bter o
93
melhor peso em termos de discriminação para cada tópico. É de referir que os testes de
classificação dos propósitos das comunicações, apresentados na sub-secção anterior
utilizaram os pesos obtidos nesta sub-secção, ou seja, os resultados obtidos na
experimentação 3.
Apesar de na sub-secção 2.3.2 serem apresentadas algumas medidas de cálculo de
pesos para termos contidos num documento ou colecção, optou-se pela utilização de uma
métrica simples (term frequency) multiplicada por um peso entre 0 e 1, que representa o
poder de discriminação do cada tópico no domínio do classificador.
94
95
6. Conclusões e Trabalho Futuro
Este capítulo apresenta as conclusões em relação à abordagem e implementação deste
trabalho, sugerindo algum trabalho futuro a ser desenvolvido.
6.1 Conclusões
O uso de ontologias no processo de classificação não foi uma decisão argumentada e
fundamentada neste trabalho, tendo sido um requisito imposto pela iTds desde o início do
projecto, acabando por se ter revelado como uma boa escolha em termos da descrição de
uma organização e das comunicações.
A abordagem seguida neste trabalho foi escolhida por forma a tornar a técnica de
classificação o mais genérica possível, sendo facilmente adaptável a qualquer domínio. O
módulo de reconhecimento de entidades e expressões específicas de domínio também
possui extensibilidade suficiente para ser adaptado a qualquer organização ou área de
negócio. Considerou-se que as ontologias forneceram mecanismos que permitiram uma
suficiente especificação do domínio, tanto ao nível do conhecimento existente na
organização como da própria representação das comunicações.
A utilização do eTVSM, com diversos mapas de tópicos, permite uma modelação dos
propósitos consoante as necessidades de qualquer organização, sendo possível adicionar o
número de dimensões desejado, não havendo restrições a esse nível. Esta modelação
permite que uma comunicação não seja avaliada em todas as dimensões existentes, pois é
possível a criação de propósitos que sejam compostos apenas por um conjunto reduzido
dessas dimensões. Esse facto faz com que a técnica de classificação seja diferente das
técnicas de classificação tradicionais, tornando o produto XEO.ECC diferenciador.
O processo de interacção com a organização do caso de estudo, mais especificamente
com um especialista de domínio revelou-se fundamental para a modelação desta
abordagem, para que tenha sido conferida a especificidade necessária ao nível das
96
comunicações, tanto ao nível das entidades e expressões relevantes, como dos propósitos.
O processo de interacção com a organização tornou-se num processo iterativo, até que
fosse atingido um nível de especificação suficiente, capaz de descrever o conteúdo de uma
comunicação mediante o funcionamento da respectiva organização. Tal processo pode ser
observado na secção 5.1, pois o caso de estudo descrito neste trabalho materializa todas as
fases necessárias para que esta abordagem seja aplicada a uma qualquer organização.
O caso de estudo serviu essencialmente para lidar com dados e comunicações reais,
lidando com peritos de domínio através de diversas interacções; o que também forneceu
uma perspectiva do comportamento desta abordagem adaptado a uma organização real.
Os resultados obtidos neste trabalho forneceram bons indicadores da abordagem
desenvolvida, embora não tenham sido totalmente conclusivos, pois uma avaliação
completa desta abordagem exigiria a integração do classificador numa organização durante
um período mais alargado de tempo. Dado que um dos objectivos da técnica de
classificação era o encaminhamento de comunicações dentro de uma organização, seria
interessante avaliar a quantidade de comunicações encaminhadas com sucesso durante esse
mesmo período experimental.
6.2 Trabalho Futuro
Esta secção apresenta as actividades futuras para o trabalho descrito nesta tese. Serão
sugeridos alguns pontos no sentido de melhorar a abordagem e implementação.
Integração na plataforma XEO.ECC
A integração do módulo de classificação no produto XEO.ECC está prevista após a
entrega desta tese, prolongando-se até Dezembro de 2010; no essencial, a integração irá
consistir na interacção da plataforma XEO com o classificador, mais especificamente na
recepção e classificação das comunicações recebidas.
Esta fase de interacção no produto XEO.ECC irá também envolver formação específica
para os programadores XEO na iTds, fazendo uma descrição do funcionamento e
arquitectura dos módulos incluídos no classificador, bem como as tecnologias utilizadas.
97
Detecção de erros ortográficos
Tal como descrito na secção 3.1.3, assumimos neste trabalho que a questão de erros
ortográficos já estaria resolvida, sendo tratada num processo fora do âmbito deste trabalho.
Portanto, num trabalho futuro será necessária a integração de um mecanismo optimizado
para a correcção de erros ortográficos. Uma solução poderia passar pela integração de uma
técnica de processamento de texto, em que cada termo seria filtrado por um dicionário, e
caso o termo possuísse um potencial erro, este seria detectado e efectuado o respectivo
mapeamento para o termo correcto na ontologia.
Aprendizagem do Classificador
Para introduzir uma componente de aprendizagem na técnica de classificação são
propostas duas soluções: (i) interface gráfica para melhorar processo de detecção e
classificação; (ii) mecanismo de background para calcular os melhores pesos para os
tópicos das dimensões utilizadas no processo de classificação.
A utilização de uma interface gráfica consiste na visualização de cada comunicação e
respectivas anotações, no sentido de permitir a correcção de expressões ou entidades nela
detectadas e classificadas, conferindo ao utilizador o poder de correcção de alguns erros do
classificador. Quanto aos propósitos, estes também poderiam ser corrigidos, melhorando
dessa forma a amostra de comunicações classificadas.
O mecanismo de background baseia-se na introdução de um procedimento paralelo ao
do classificador, utilizando como amostra as comunicações já classificadas, fazendo variar
os pesos atribuídos aos tópicos de cada dimensão, para que estes sejam optimizados em
função dos valores de Abrangência e Precisão (tal como foi apresentado na sub-secção
5.2.3).
Componente de Experimentação por Propósito
Dado que os resultados globais do classificador poderiam ter sido melhores, seria
importante efectuar uma fase de experimentação mais detalhada, em que para cada
propósito obtido nas 1000 comunicações utilizadas no caso de estudo, seriam recolhidas as
medidas de Abrangência e Precisão; podendo dessa forma obter as classes/propósitos cujos
resultados sejam piores, fornecendo dessa forma um conjunto de propósitos que poderão
estar a induzir em erro a classificação.
98
Esta fase de experimentação pode ser vista como um mecanismo que fornece
informações relevantes para a modelação dos diversos mapas de tópicos do domínio, pois
devido à existência de 92 propósitos distintos, existirão alguns que apenas variam numa
das dimensões, tornando os seus vectores muito próximos. Portanto, seria importante
efectuar esta fase de experimentação mais detalhada, que apresentaria resultados com um
nível de granularidade suficiente, que permita chegar a algumas conclusões acerca dos
propósitos que podem ou não induzir o classificador em erro.
99
Bibliografia
[1] Cardoso, N. (2008). REMBRANDT - Reconhecimento de Entidades Mencionadas Baseado em Relações e ANálise Detalhada do Texto. In Encontro do Segundo HAREM, PROPOR 2008.
[2] Mcdonald, D. D. (1996). Internal and External Evidence in the Identification and Semantic Categorization of Proper Names. In Corpus Processing for Lexical Acquisition, MIT Press. pp. 21-39.
[3] Bloehdorn, S.; Cimiano, P.; Hotho, A. & Staab, S. (2005). An Ontology-based Framework for Text Mining. In LDV Forum - GLDV Journal for Computational Linguistics and Language Technology, 2005, Vol.20, No.1. pp. 87-112.
[4] Zerbinatti, L. (2010). Extração de conhecimento de laudos de radiologia torácica utilizando técnicas de processamento estatístico de linguagem natural. Dc.S thesis. São Paulo: Escola Politécnica da Universidade de São Paulo do Departamento de Engenharia de Telecomunicações e Controle.
[5] Yildiz, B. & Miksch, S. (2007). ontoX - a method for ontology-driven information extraction. In Proceedings of the 2007 international conference on Computational science and its applications. Springer-Verlag. pp. 660-673.
[6] R. Baeza-Yates & B. Ribeiro-Neto (1999). Modern Information Retrieval. Addison Wesley.
[7] Orengo, V. M. & Huyck, C. (2001). A Stemming Algorithm for Portuguese Language. In Proceedings of Eigth Symposium on String Processing and Information Retrieval (SPIRE 2001). Chile. pp. 186-193.
[8] M. F. Porter (1997). An algorithm for suffix stripping. In Readings in information retrieval. Morgan Kaufmann Publishers Inc.. pp 313-316.
[9] Gu, H. & Zhou, K. (2006). Text Classification Based on Domain Ontology. Journal of Communication and Computer. May. Volume 3. No.5 (Serial No.18).
[10] Yang, X.-q.; Sun, N.; Zhang, Y. & Kong, D.-r. (2008). General Framework
for Text Classification Based on Domain Ontology. In SMAP 08: Proceedings of the 2008 Third International Workshop on Semantic Media
100
Adaptation and Personalization. IEEE Computer Society. Washington, DC, USA. pp. 147-152.
[11] V. V. Raghavan & S. K. M. Wong (1999). A critical analysis of vector
space model for information retrieval. Journal of the American Society for Information Science, 37(5) pp. 279-287.
[12] Salton, G. & Buckley, C. (1988). Term-weighting approaches in automatic
text retrieval. In Information Processing and Management. pp. 513-523.
[13] Lan, M.; Tan, C.-L.; Low, H.-B. & Sung, S.-Y. (2005). A comprehensive comparative study on term weighting schemes for text categorization with support vector machines. In WWW 05: Special interest tracks and posters of the 14th international conference on World Wide Web. ACM. New York, NY, USA. pp. 1032-1033.
[14] Fang, J.; Guo, L.; Wang, X. & Yang, N. (2007). Ontology-Based
Automatic Classification and Ranking for Web Documents. In FSKD '07: Proceedings of the Fourth International Conference on Fuzzy Systems and Knowledge Discovery. IEEE Computer Society. Washington, DC, USA. pp. 627-631.
[15] Witten, I. H.; Paynter, G. W.; Frank, E.; Gutwin, C.; manning, C. G. N. &
Inc, G. (1998). Kea: Practical automatic keyphrase extraction. In Proceedings of the 4th ACM conference on Digital Libraries. pp. 254-255.
[16] D. Lin (1998). An Information-Theoretic Definition of Similarity. In
Proceedings of the Fifteenth International Conference on Machine Learning. pp. 296-304.
[17] Khelif, K.; kuntz, R. D. & Barbry, P. (2007). An Ontology-based Approach
to Support Text Mining and Information Retrieval in the Biological Domain. Journal of Universal Computer Science. Vol. 13. pp. 1881-1907.
[18] H. Cunningham, et al. (2002). GATE: A framework and graphical
development environment for robust NLP tools and applications. In Proceedings of the 40th Annual Meeting of the ACL.
[19] Tiun, S.; Abdullah, R. & Kong, T. E. (2001). Automatic Topic
Identification Using Ontology Hierarchy. In Proceedings of the Second International Conference on Computational Linguistics and Intelligent Text Processing. Springer-Verlag. London, UK. pp. 444-453.
[20] A. D. Gordon (1987). A Review of Hierarchical Classification. Journal of
the Royal Statistical Society. Series A (General). 150(2) pp. 119-137.
[21] C. Fellbaum (ed.) (1998). WordNet: An Electronic Lexical Database (Language, Speech, and Communication). The MIT Press. Illustrated edition.
101
[22] Hunter, E. J. (2002). Classification Made Simple. Ashgate Publishing Limited. Third Edition.
[23] Shapiro, S. C. (1992). Encyclopedia of Artificial Intelligence. John Wiley & Sons, Inc.. Second Edition. New York, NY, USA.
[24] Y. Yang & J. O. Pedersen (1997). A Comparative Study on Feature
Selection in Text Categorization. In Proceedings of the Fourteenth International Conference on Machine Learning. Morgan Kaufmann Publishers Inc.. San Francisco, CA, USA. pp. 412-420.
[25] Sarmento, L. (2005). Descrição técnica do REPENTINO.
[26] Mota, C. & Santos, D. (2008). Desafios na avaliação conjunta do reconhecimento de entidades mencionadas: O Segundo HAREM. Linguateca. Disponível em http://www.linguateca.pt/LivroSegundoHAREM/ [Último acesso: 18/07/2010]
[27] Debole, F. & Sebastiani, F. (2003). Supervised term weighting for automated text categorization. In Proceedings of the 2003 ACM symposium on Applied computing. ACM. New York, NY, USA. pp. 784-788.
[28] C. D. Manning, et al. (2008). Introduction to Information Retrieval.
Cambridge University Press.
[29] Buckley, C.; Salton, G. & Allan, J. (1992). Automatic Retrieval With Locality Information Using SMART. In Proceedings of First Text REtrieval Conference. pp. 59-72.
[30] A. Polyvyanyy & D. Kuropka (2007). A quantitative evaluation of the
enhanced topic-based vector space model. Universitätsverlag Potsdam.
[31] Salton, G. (1989). Automatic text processing: the transformation, analysis, and retrieval of information by computer. Addison-Wesley Longman Publishing Co., Inc.. Boston, MA, USA.
[32] Becker, J. & Kuropka, D. (2003). Topic-based Vector Space Model, In
Proceedings of the 6th International Conference on Business Information Systems. pp. 7-12.
[33] Chowdhury, A. & Mccabe, M. C. (1993). Improving Information Retrieval
Systems using Part of Speech Tagging.
[34] Palmeira, E. & Freitas, F. (2007). Ontologias detalhadas e classificação de texto: uma união promissora. In ENIA 2007: VI Encontro Nacional de Inteligência Artificial. Rio de Janeiro, 03-06 de Julho de 2007. Rio de Janeiro: Instituto Militar de Engenharia.
[35] Viera, A.F.G. and Virgil, J. (2007). Uma revisão dos algoritmos de radicalização em língua portuguesa. Information Research [Online] 12(3)
102
paper 315. Disponível em: http://informationr.net/ir/12-3/paper315.html [Último acesso: 18/07/2010]
[36] Aranha, C. N. (2007). Uma Abordagem de Pré-Processamento Automático para Mineração de Textos em Português: Sob o Enfoque da Inteligência Computacional. D.Sc thesis. Rio de Janeiro: Departamento de Engenharia Elétrica, Pontifícia Universidade Católica.
[37] Studer, R., Benjamins, V.R. & Fensel, D. (1998). Knowledge Engineering: Principles and Methods.
103
Anexos
A secção de anexos inclui algum do trabalho resultante da interacção com o especialista
de domínio da organização, de modo a construir os mapas de tópicos, o conjunto de
propósitos para o caso de estudo, bem como o conjunto das entidades específicas de
domínio. Serão apresentados subconjuntos representativos dos propósitos obtidos, bem
como de cada um dos mapas de tópicos; por último serão apresentadas as regras de
detecção de entidades específicas de domínio.
A. Subconjunto de Propósitos
Nesta secção é apresentado um subconjunto representativo de propósitos obtidos com
base no caso de estudo. Tal como foi descrito na sub-secção 5.1.3, cada propósito será
composto por 3 dimensões:
Natureza;
Organizacional;
Objecto.
Propósitos
Fornecimento de Informação Adicional de Sinistro – Auto de Ocorrência
Fornecimento de Autorização de Pagamento relativo a Sinistro – Indemnização
Fornecimento de Informação Adicional de Sinistro – Certidão de Óbito
Fornecimento de Informação Adicional de Sinistro do Mediador
104
Fornecimento de Informação Adicional de Sinistro – Tribunal
Fornecimento de Informação Adicional de Sinistro – Declaração Rendimentos
Fornecimento de Informação Adicional de Sinistro – Depoimento Testemunhal
Pedido de Pagamento de Despesas de Assistência Médica relativo a Sinistro
Pedido de Pagamento de Despesas Judiciais relativo a Sinistro
Fornecimento de Informação Adicional de Sinistro – Documento Identificação
Pedido de Pagamento de Honorários Médicos relativo a Sinistros
Fornecimento de Informação Adicional de Sinistro – Fotografia
Fornecimento de Informação Adicional de Sinistro – Despesas
Fornecimento de Informação Adicional de Sinistro – Reembolso
Fornecimento de Informação Adicional de Sinistro – Peritagem
Pedido de Cotação de Seguro Acidentes e Doença (Produção)
Pedido de Cotação de Seguro Transportes (Produção)
Fornecimento de Informação Adicional – Veículo (Produção)
Pedido de Anulação de Contrato (Produção)
Fornecimento de Informação Adicional Reclamação – (Gestão de Clientes)
Figura A.1.1 - Subconjunto representativo dos Propósitos do Caso de Estudo
B. S
N
tópic
utiliz
B.1
B.2
Subconjunt
Nesta secção
cos construí
zados para c
Dimensão
F
Dimensão
Figu
to de Mapa
o são aprese
ídos, de mo
cada mapa d
o Natureza
Figura B.1.1 -
o Organizac
ura B.2.1 - Sub
as de Tópic
entados sub
odo a ilustra
de tópicos.
Subconjunto r
cional
bconjunto repr
cos
bconjuntos r
ar como foi
representativo
resentativo do
representati
i feita a hie
do Mapa de T
Mapa de Tópi
ivos de cada
rarquização
Tópicos "Natur
icos "Organiza
da um dos m
o entre os c
reza"
acional"
105
mapas de
conceitos
106
B.3 Di
C. Reg
Nest
específi
especifi
de domí
C.1 M
Regra 1
Ordem
1
Regra 2
Ordem
1
imensão Ob
Figu
gras de Det
ta secção
icas de dom
icado o conj
ínio da orga
Matrícula
[A-Za-z]
[0-9]{2,
bjecto
ura B.3.1 - Sub
tecção de E
é apresenta
mínio para
njunto de reg
anização.
Expre
{2,2}[\-][
Expre
2}[\-][A-Z
bconjunto repr
Entidades E
ado o conj
o caso de
gras, resulta
essão/Padrã
0-9]{2,2}[
essão/Padrã
a-z]{2,2}[
resentativo do
Específicas
njunto de r
e estudo d
ante do pro
ão
[\-][0-9]{2
ão
[\-][0-9]{2
Mapa de Tópi
de Domíni
regras para
deste trabal
ocesso de in
Ca
2,2}
Ca
2,2}
icos "Objecto"
o
a a detecçã
ho. Para c
nteracção co
ardinalidad
1
ardinalidad
1
"
ão de entid
cada catego
om o especi
de Inclu
tru
de Inclu
tru
dades
oria é
ialista
usão
ue
usão
ue
107
Regra 3
Ordem Expressão/Padrão Cardinalidade Inclusão
1 [0-9]{2,2}[\-][0-9]{2,2}[\-][A-Za-z]{2,2} 1 true
Regra 4
Ordem Expressão/Padrão Cardinalidade Inclusão
1 ([mM][aA][tT][rR]([iI]|[íÍ])?[cC]?[uU]?[lL]?[aA]?|[vV][eE]([iI]|[íÍ])[cC][uU]?[lL]?[oO]?) [\.\:]?
1 false
2 [A-Za-z]{2,2}[\-][0-9]{2,2}[\-][0-9]{2,2} 1 true
Regra 5
Ordem Expressão/Padrão Cardinalidade Inclusão
1 ([mM][aA][tT][rR]([iI]|[íÍ])?[cC]?[uU]?[lL]?[aA]?|[vV][eE]([iI]|[íÍ])[cC][uU]?[lL]?[oO]?)[ \.\:]?
1 false
2 [0-9]{2,2}[\-][A-Za-z]{2,2}[\-][0-9]{2,2} 1 true
Regra 6
Ordem Expressão/Padrão Cardinalidade Inclusão
1 ([mM][aA][tT][rR]([iI]|[íÍ])?[cC]?[uU]?[lL]?[aA]?|[vV][eE]([iI]|[íÍ])[cC][uU]?[lL]?[oO]?)[\.\:]?
1 false
2 [0-9]{2,2}[\-][0-9]{2,2}[\-][A-Za-z]{2,2} 1 true
C.2 Número de Sinistro
Regra 1
Ordem Expressão/Padrão Cardinalidade Inclusão
1 [0-9]{2,2}[\-\/\.][0-9]{2,2}[\-\/\.][0-
9]{2,2}[\-\/\.][0-9]{1,5}[\-\/\.]{4,4} 1 true
108
Regra 2
Ordem Expressão/Padrão Cardinalidade Inclusão
1 [pP][rR][oO][cC][eE]?[sS]?[sS]?[oO]?[\.\:]? 1 false
2 [dD][eE] 0 ou 1 false
3 [sS][iI][nN][iI]?[sS]?[tT]?[rR]?[oO]?[\.\-\:]?
0 ou 1 false
4 [nN][uUúÚ]?[mM]?[eE]?[rR]?[oO]?[\º\.\-\:]? 0 ou 1 false
5 [\.\-\:] 0 ou 1 false
6 [0-9]{1,2}[\-\/\.][0-9]{4,4} 1 true
Regra 3
Ordem Expressão/Padrão Cardinalidade Inclusão
1 [sS][iI][nN][iI]?[sS]?[tT]?[rR]?[oO]?[\.\-\:]?
1 false
2 [pP][rR][oO][cC][eE]?[sS]?[sS]?[oO]?[\.\:]?
0 ou 1 false
3 [\.\-\:] 0 ou 1 false
4 [0-9]{1,2}[\-\/\.][0-9]{4,4} 1 true
Regra 4
Ordem Expressão/Padrão Cardinalidade Inclusão
1 [0-9]{3,5}[\-\/\.][0-9]{4,4} 1 true
Regra 5
Ordem Expressão/Padrão Cardinalidade Inclusão
1 [pP][rR][oO][cC][eE]?[sS]?[sS]?[oO]?[\.\\:]?
1 false
2 [dD][eE] 0 ou 1 false
3 [sS][iI][nN][iI]?[sS]?[tT]?[rR]?[oO]?[\.\-\:]?
0 ou 1 false
4 [nN][uUúÚ]?[mM]?[eE]?[rR]?[oO]?[\º\.\-\:]? 0 ou 1 false
5 [\.\-\:] 0 ou 1 false
6 [0-9]{2,2}[\-\/\.][0-9]{1,2}[\-\/\.][0-9]{4,4}
1 true
109
Regra 6
Ordem Expressão/Padrão Cardinalidade Inclusão
1 [sS][iI][nN][iI]?[sS]?[tT]?[rR]?[oO]?[\.\-\:]?
1 false
2 [pP][rR][oO][cC][eE]?[sS]?[sS]?[oO]?[\.\:]?
0 ou 1 false
3 [\.\-\:]? 0 ou 1 false
4 [0-9]{2,2}[\-\/\.][0-9]{1,2}[\-\/\.][0-9]{4,4}
1 true
Regra 7
Ordem Expressão/Padrão Cardinalidade Inclusão
1 [0-9]{2,2}[\-\/\.][0-9]{3,5}[\-\/\.][0-9]{4,4}
1 true
C.3 Número de Apólice
Regra 1
Ordem Expressão/Padrão Cardinalidade Inclusão
1 [0-9]{2,2}[\-\/\.]([0-9]{1}|[0-9]{3}|[0-9]{5,7})
1 true
Regra 2
Ordem Expressão/Padrão Cardinalidade Inclusão
1 [aA][pP][oOóÓ]?[lL]?[iI]?[cC]?[eE]?[\.\-\:]?
1 false
2 [nN][uUúÚ]?[mM]?[eE]?[rR]?[oO]?[\º\.\-\:]?
0 ou 1 false
3 [\.\-\:] 0 ou 1 false
4 [0-9]{2,2}[\-\/\.]([0-9]{2}|[0-9]{4}) 1 true
Regra 3
Ordem Expressão/Padrão Cardinalidade Inclusão
1 [aA][pP][oOóÓ]?[lL]?[iI]?[cC]?[eE]?[\.\-\:]?
1 false
2 [nN][uUúÚ]?[mM]?[eE]?[rR]?[oO]?[\º\.\-\:]?
0 ou 1 false
110
3 [\.\-\:] 0 ou 1 false
4 [0-9]{1,7} 1 true
Regra 4
Ordem Expressão/Padrão Cardinalidade Inclusão
1 [0-9]{2,2}[\-\/\.][0-9]{2,2}[\-\/\.][0-
9]{2,2}[\-\/\.][0-9]{1,7} 1 true