dissertação 29555 - finala new product, based on a xeo product previously developed by itds, for...

124
Clas Fa Disserta ssificação 29555, Ric Universi aculdade d Departam ação de Mes Automátic cardo Ferna Prof. Do Prof. Do 28 idade Nov de Ciência mento de I strado em E 2009/201 ca de Tex ando Muach Orientador outor João M outor José J de Julho de va de Lisbo as e Tecno Informátic Engenharia I 10 tos basead ho Fernande res Moura Pires úlio Alferes e 2010 oa ologia ca Informática da em Ont es Lima Nev s s a tologias ves

Upload: others

Post on 15-Jul-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

Clas

Fa

Disserta

ssificação 29555, Ric

Universiaculdade d

Departam

ação de Mes

Automáticcardo Ferna

Prof. DoProf. Do

28

idade Novde Ciênciamento de I

strado em E2009/201

ca de Texando Muach

Orientadoroutor João Moutor José J

de Julho de

va de Lisboas e TecnoInformátic

Engenharia I10

tos baseadho Fernande

res Moura Piresúlio Alferes

e 2010

oa ologia ca

Informática

da em Ontes Lima Nev

s s

a

tologias ves

Page 2: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification
Page 3: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

Resumo

Esta dissertação apresenta um motor de classificação automática de comunicações

(textuais) entradas numa organização. A classificação é efectuada mediante um conjunto

predefinido de propósitos, com vista ao seu encaminhamento dentro da organização.

Previamente são efectuadas anotações ao conteúdo das comunicações, servindo de auxílio

ao processo de classificação, que se baseia na aplicação do modelo enhanced Topic-based

Vector Space Model (eTVSM).

O trabalho foi desenvolvido no âmbito de um projecto da empresa iTds em colaboração

como Departamento de Informática da FCT/UNL: o projecto XEO.ECC (Enterprise

Communications Center). Este projecto, de âmbito mais geral que o desta dissertação, visa

o desenvolvimento de um novo produto, baseado no produto XEO já desenvolvido pela

iTds, para gestão de conteúdos e rastreamento de comunicações numa organização.

A técnica de classificação é baseada no uso de um conjunto de ontologias, ontologias

essas que são definidas para cada organização em que o XEO.ECC venha a ser utilizado. O

uso de ontologias neste trabalho não se cingiu apenas à técnica de classificação das

comunicações. Com efeito, a própria modelação dos propósitos e de todo o contexto dos

diversos domínios onde as comunicações se inserem fazem uso das ontologias.

Page 4: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification
Page 5: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

Abstract

This thesis presents an automatic classification engine to incoming communications

(textual) in an organization, according to a predefined set of purposes, in order to properly

forward those communications within the organization. Previously there are made

annotations on the communications, with the aim to support the classification process,

based on enhanced Topic-based Vector Space Model (eTVSM).

This work was developed under a project entitled XEO.ECC (Enterprise

Communications Center); this project emerged from a collaboration of the company iTds

with the Computer Science Department of the FCT/UNL. This project aims to developing

a new product, based on a XEO product previously developed by iTds, for content

management and tracking of communications within an organization.

The classification technique is established according to an ontology set that is defined

for each organization in which the XEO.ECC will be applied. The use of ontologies in this

work does not confine itself to the classification technique. Indeed, the set of possible

purposes, and the entire context associated to each specific domain of communications use

ontologies.

Page 6: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification
Page 7: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

Agradecimentos

Dedico esta tese a todos os familiares e amigos que me apoiaram ao longo de todo o

curso. Quero agradecer especialmente aos meus pais, Teresa e Fernando, pela confiança e

amor que sempre me deram, e pela pessoa que hoje sou. Agradeço também à Patrícia, o

amor da minha vida, detentora de uma paciência infindável, apoiando-me sempre nos

momentos mais difíceis.

Pretendo agradecer à iTds e toda a sua equipa, pela oportunidade de integrar um

projecto com um trabalho académico, em especial ao elemento de ligação entre a faculdade

e a iTds, Rui Leal, que demonstrou um apoio indispensável para a elaboração deste

projecto.

Agradecimentos aos Professores e orientadores João Moura Pires e José Júlio Alferes

pela ajuda, ambição e disponibilidade demonstrada, e aos meus colegas Ygor Cardoso e

Bernardo Oliveira, por todo o companheirismo ao longo deste último ano.

Page 8: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification
Page 9: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

ix

Índice

1.  Introdução .................................................................................................................... 1 

1.1 Contexto ................................................................................................................. 1 

1.2 Motivação .............................................................................................................. 4 

1.3 Âmbito e Objectivos .............................................................................................. 4 

1.4 Principais Contribuições ........................................................................................ 6 

1.5 Estrutura do Documento ........................................................................................ 6 

2.  Trabalho Relacionado ................................................................................................. 9 

2.1 Técnicas Básicas de Processamento de Texto ....................................................... 9 

2.1.1 Segmentação de Texto (Tokenization) ............................................................ 9 

2.1.2 Análise Morfossintáctica (Part-of-speech) ................................................... 10 

2.1.3 Eliminação de Palavras não interessantes (Stopwords) ................................ 11 

2.1.4 Radicalização (Stemming) ............................................................................ 12 

2.1.5 Lematização (Lemmatization) ...................................................................... 13 

2.1.6 Uso de Sinónimos ......................................................................................... 13 

2.1.7 Conclusões .................................................................................................... 13 

2.2 Detecção de Entidades e Expressões Relevantes ................................................. 14 

2.2.1 Entidades Mencionadas ................................................................................ 15 

2.2.2 Entidades e Expressões Específicas de Domínio .......................................... 22 

2.2.3 Conclusões .................................................................................................... 24 

2.3 Técnicas de Classificação Automática de Texto baseadas em Ontologias .......... 25 

2.3.1 Recuperação de Informação (Information Retrieval) ................................... 26 

Page 10: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

x

2.3.2 Vector Space Model ....................................................................................... 27 

2.3.3 Topic-based Vector Space Model .................................................................. 32 

2.3.4 Abordagens baseadas em Ontologias ............................................................ 34 

2.3.5 Conclusões ..................................................................................................... 43 

2.4 Medidas para avaliar Classificadores ................................................................... 44 

2.4.1 Precisão (Precision) e Abrangência (Recall) ................................................ 44 

2.4.2 F-Measure ..................................................................................................... 45 

2.4.3 Matriz de Confusão ....................................................................................... 46 

3.  Abordagem Seguida ................................................................................................... 47 

3.1 Reconhecimento de Entidades e Expressões relevantes ....................................... 47 

3.1.1 Entidades Mencionadas ................................................................................. 48 

3.1.2 Entidades Específicas de Domínio ................................................................ 52 

3.1.3 Expressões Específicas de Domínio .............................................................. 53 

3.1.4 Interacção com a Ontologia ........................................................................... 54 

3.2 Classificação de Comunicações ............................................................................ 56 

3.2.1 Representação do conteúdo de uma comunicação ........................................ 60 

3.2.2 Representação de um Propósito ..................................................................... 62 

3.2.3 Cálculo de Similaridade entre uma Comunicação e um conjunto de

Propósitos ................................................................................................................. 66 

4.  Implementação ........................................................................................................... 69 

4.1 Tecnologias utilizadas .......................................................................................... 69 

4.2 Técnicas de Processamento de Texto ................................................................... 69 

4.2.1 Segmentação de Texto ................................................................................... 70 

4.2.2 Algoritmo de Radicalização .......................................................................... 72 

4.3 Detecção de Entidades e Expressões Relevantes .................................................. 72 

4.3.1 Criação de Novas Regras ............................................................................... 73 

4.3.2 Interacção com a Ontologia de domínio ........................................................ 74 

Page 11: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

xi

4.4 Classificação de Comunicações ........................................................................... 77 

4.4.1 Mapas de Tópicos ......................................................................................... 78 

4.4.2 Conjunto de Propósitos ................................................................................. 79 

4.5 Anotação de uma Comunicação ........................................................................... 81 

4.6 Arquitectura Geral ............................................................................................... 82 

5.  Experimentação .......................................................................................................... 85 

5.1 Caso de Estudo ..................................................................................................... 85 

5.1.1 Entidades Específicas de Domínio ............................................................... 85 

5.1.2 Expressões Específicas de Domínio ............................................................. 87 

5.1.3 Elaboração dos Mapas de Tópicos ............................................................... 87 

5.1.4 Obtenção de um Conjunto de Propósitos ...................................................... 88 

5.2 Análise de Resultados .......................................................................................... 89 

5.2.1 Reconhecimento de Entidades e Expressões Específicas de Domínio ......... 89 

5.2.2 Classificação dos Propósitos de uma Comunicação ..................................... 90 

5.2.3 Atribuição de pesos a Tópicos ...................................................................... 91 

6.  Conclusões e Trabalho Futuro .................................................................................. 95 

6.1 Conclusões ........................................................................................................... 95 

6.2 Trabalho Futuro ................................................................................................... 96 

Bibliografia ......................................................................................................................... 99

Anexos ............................................................................................................................... 103

A. Subconjunto de Propósitos ................................................................................. 103

B. Subconjunto de Mapas de Tópicos ..................................................................... 105

C. Regras de Detecção de Entidades Específicas de Domínio ................................ 106

Page 12: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

xii

Índice de Figuras

Figura 1.1 - Funcionamento Geral do XEO.ECC ............................................................................................... 3 

Figura 1.2 - Exemplo do conteúdo textual de uma Comunicação via e-mail ..................................................... 5 

Figura 1.3 - Entidades e Expressões relevantes no conteúdo da comunicação da figura 1.2 ............................. 5 

Figura 2.1 - Exemplo de uma Análise Morfossintática .................................................................................... 11 

Figura 2.2 – Algumas categorias e tipos das entidades PESSOA, LOCAL e VALOR .................................... 16 

Figura 2.3 - Principais Etapas do Rembrandt ................................................................................................... 17 

Figura 2.4 - Primeira fase do uso da Wikipédia no Rembrandt ....................................................................... 19 

Figura 2.5 - Fase de obtenção de categorias na Wikipédia e no Rembrandt .................................................... 19 

Figura 2.6 - Exemplo das categorias Acrónimo e Desambiguação na Wikipédia ............................................ 20 

Figura 2.7 - Exemplo da categoria Desambiguação na Wikipédia ................................................................... 20 

Figura 2.8 - Processo de conversão de categorias da Wikipédia para as do Segundo HAREM ........................ 20 

Figura 2.9 - Exemplo de uma regra gramática do Rembrandt.......................................................................... 21 

Figura 2.10 - Relação entre Tópicos e termos no Topic-based Vector Space Model ....................................... 32 

Figura 2.11 - Representação abstracta da relação entre os tópicos .................................................................. 35 

Figura 2.12 - Termos, Interpretações e Tópicos em [30] ................................................................................. 37 

Figura 2.13 - Exemplo de hierarquia de conceitos na Ontologia [9] ................................................................ 39 

Figura 2.14 - Arquitectura geral em [9] ........................................................................................................... 40 

Figura 2.15 - Mapeamento de termos e conceitos em [19] .............................................................................. 43 

Figura 2.16 - Matriz de Confusão para N classes ............................................................................................. 46 

Figura 3.1 – Esquema de Entidades e Expressões Relevantes ......................................................................... 47 

Figura 3.2 - Categorias de classificação do sistema Rembrandt ...................................................................... 48 

Figura 3.3 - Consulta SPARQL para obter todos os distritos de Portugal ....................................................... 50 

Figura 3.4 - Exemplo de evidências para a categoria "Contacto" .................................................................... 51 

Figura 3.5 - Interacção entre Consultor do Classificador e o Especialista do Domínio ................................... 52 

Figura 3.6 - Níveis "Meta" e "Dados" na Ontologia de Domínio .................................................................... 55 

Figura 3.7 - Interacção entre os módulos "Classificador" e "Ontologias" ........................................................ 55 

Figura 3.8 - Exemplo de termos e entidades associadas ao conceito "Automóvel" ......................................... 56 

Figura 3.9 - Exemplo de uma comunicação com dois propósitos .................................................................... 57 

Figura 3.10 - Exemplo de Modelação de Tópico com diversas Interpretações ................................................ 59 

Figura 3.11 - Exemplo de Modelação de Tópico com uma Interpretação ........................................................ 59 

Figura 3.12 - Exemplo de uma hierarquia de Tópicos ..................................................................................... 63 

Page 13: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

xiii

Figura 3.13 – Modelação do Propósito “Pedido de Marcação de Peritagem de Sinistro” ............................... 64 

Figura 3.14 - Modelação de um Propósito na ontologia .................................................................................. 66 

Figura 4.1 - Esquema da aplicação das Técnicas de Processamento de Texto ................................................ 70 

Figura 4.2 - Exemplo do conteúdo de uma comunicação para segmentar ....................................................... 71 

Figura 4.3 - Segmentação do texto da Comunicação da figura 4.2 ................................................................. 71 

Figura 4.4 - Exemplo da aplicação da Técnica de Radicalização .................................................................... 72 

Figura 4.5 - Comunicação entre Módulo de Classificação e Módulo de Ontologias....................................... 75 

Figura 4.6 – Exemplo de consulta SPARQL acerca de uma entidade “Contacto” .......................................... 75 

Figura 4.7 - Procedimento de reconhecimento de Expressões Específicas de Domínio .................................. 76 

Figura 4.8 - Interacção do Módulo de Classificação com a Ontologia ............................................................ 78 

Figura 4.9 - Estrutura de dados para armazenar Mapas de Tópicos ................................................................ 79 

Figura 4.10 - Estrutura de dados para armazenar Propósitos ........................................................................... 80 

Figura 4.11 - Procedimento de obtenção dos argumentos dos Propósitos ....................................................... 80 

Figura 4.12 - Esquema de Anotação de uma Comunicação ............................................................................ 81 

Figura 4.13 - Exemplo de uma comunicação anotada ..................................................................................... 82 

Figura 4.14 - Arquitectura Geral do Classificador .......................................................................................... 83 

Figura 5.1 - Variação dos valores de Precisão, Abrangência e F-Measure em função dos pesos dos Tópicos 92 

Figura 5.2 - Variação da medida de F-Measure para os diferentes pesos dos Tópicos ................................... 92

Figura A.1.1 - Subconjunto representativo dos Propósitos do Caso de Estudo ............................................. 103

Figura B.1.1 - Subconjunto representativo do Mapa de Tópicos "Natureza" ................................................ 105

Figura B.2.1 - Subconjunto representativo do Mapa de Tópicos "Organizacional" ...................................... 105

Figura B.3.1 - Subconjunto representativo do Mapa de Tópicos "Objecto" .................................................. 106

Page 14: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification
Page 15: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

1

1. Introdução

Este capítulo apresenta o contexto global da tese, que se enquadra num projecto

designado XEO.ECC (Enterprise Communications Center), bem como as motivações que

levaram à sua elaboração. São também apresentados os objectivos propostos e principais

contribuições neste trabalho e, por último, a descrição da estrutura do relatório.

1.1 Contexto

A iTds1 é uma empresa portuguesa que tem vindo a desenvolver uma plataforma de

programação ágil, denominada XEO2 (eXtensible Enterprise Objects). O desenvolvimento

de soluções para cada cliente assenta em ambiente web e consiste na modelação de

objectos de negócio, aplicados à realidade de cada organização.

Um dos componentes desta plataforma é o XEO Outcom, um módulo que gere e

estrutura todos os processos de comunicação das organizações com o exterior, permitindo

a gestão dos canais de comunicação, definição de templates de comunicação e integração

das comunicações com um repositório documental.

A iTds decidiu apostar no desenvolvimento de um novo produto para a plataforma

XEO, denominado XEO.ECC (Enterprise Communications Center), que estenderá os

conceitos introduzidos no XEO Outcom, dando especial atenção às comunicações de

entrada numa organização.

Para o desenvolvimento deste novo produto, a iTds definiu um projecto, que mais tarde

veio a ser apoiado e financiado pelo QREN3, que envolve uma colaboração entre a iTds e o

Departamento de Informática da FCT/UNL tendo dado origem a três teses de mestrado.

1 http://www.itds.pt 2 http://www.xeo.pt 3 Quadro de Referência Estratégico Nacional

Page 16: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

2

O XEO.ECC resultará num novo produto que gere essencialmente as comunicações de

uma organização, sendo os seus objectivos gerais (tal como estava enumerado na descrição

do Projecto):

Gestão dos conteúdos das comunicações;

Garantia de consistência nas comunicações;

Aumento da produtividade na criação dos conteúdos das comunicações;

Classificação inteligente das comunicações;

Rastreamento das comunicações;

Acesso de forma eficiente ao histórico das comunicações com os seus

interlocutores;

Exploração do histórico das comunicações.

Para atingir os objectivos do projecto XEO.ECC, em particular para os atingir de uma

forma flexível, que permita facilmente adaptá-lo a diferentes organizações em diversas

áreas de negócio, é necessário ter uma representação explícita dos conceitos envolvidos na

área de negócio, bem com da própria estrutura da organização.

Para a representação desses conceitos, a iTds optou pela utilização de ontologias, tanto

para representar organizações, bem como o conteúdo das suas comunicações, pois tal como

já foi mencionado, esta escolha permitirá adaptar este novo produto às necessidades

específicas de cada nova organização através da representação de todos os seus conceitos.

O recurso a ontologias permite uma representação formal e exacta de conhecimento,

apresentando uma estrutura sólida, sendo considerada uma alternativa para representar

informação. Com o crescimento da Web Semântica é expectável que esta alternativa venha

a ser cada vez mais utilizada.

Uma ontologia é uma representação explícita e formal de uma conceptualização [37].

Podemos considerar que uma ontologia descreve um domínio através da representação dos

seus conceitos e relações entre eles.

De acordo com o que foi definido no decorrer do projecto, foi decidido que no

XEO.ECC existirá um núcleo base de ontologias genéricas, para descrever os elementos

comuns a todas as organizações, e um conjunto de ontologias específicas, que confere a

capacidade de extensão necessária para qualquer área de actividade ou organização. As

Page 17: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

ontol

organ

seus

T

desta

comu

objec

comu

prete

prese

class

A

inteli

repos

fazer

É

funci

organ

comp

produ

aplic

repos

logias poss

nização, atr

papéis na o

Tendo como

a dissertaçã

unicação, c

ctivos princ

unicação de

ende ilustrar

entes no co

sificação.

As anotaçõe

igentes de

sitório centr

r uso das on

É possível o

ionamento g

nização, cu

ponentes de

uto, centra

car-lhes um

sitório de co

sibilitam a

ravés da de

organização

o base os ob

ão de mest

com espec

cipais o se

eve ser ano

r. A anotaç

onteúdo da

es e o próp

pesquisa e

ral. Tanto a

ntologias.

observar na

genérico, qu

umprindo a

e inovação

am-se funda

ma classific

omunicaçõe

especifica

escrição de

.

bjectivos ge

trado preten

ial enfoque

eu reencam

otada e cla

ão refere-se

comunicaç

prio process

e navegação

a classificaç

figura 1.1,

ue consiste

a função d

que o proj

amentalmen

ação semi-

es.

Figura 1.1 - F

ação da ár

produtos e

erais do XEO

nde-se faze

e nas com

minhamento

assificada se

e à identific

ção, servin

so de class

o nas com

ção como o

, extraída d

na integraç

de enviar

ecto XEO.E

nte nas co

-automática

Funcionament

rea de act

serviços, c

O.ECC e o

er uma clas

municações

dentro da

egundo o p

cação dos e

ndo de base

ificação ser

municações,

os processos

a descrição

ção com out

e receber

ECC preten

municações

a, e posteri

o Geral do XE

ividade e

comunicaçõ

uso de onto

ssificação i

de entrad

a organizaç

propósito q

elementos re

e informativ

rvirão de s

que serão

s de pesquis

o do project

tros serviço

todas as

nde estabele

s de entrad

ior pesquis

EO.ECC

linguajar

ões, interloc

ologias, no

inteligente

da, sendo

ção. Para t

que o seu c

relevantes q

va no proc

suporte a p

armazenad

sa e navega

to XEO.EC

os que já ex

comunicaç

ecer com es

da, sendo

sa e naveg

3

de cada

cutores e

trabalho

de cada

um dos

tal, cada

conteúdo

que estão

cesso de

rocessos

das num

ação irão

C, o seu

istam na

ções. As

ste novo

possível

ação no

Page 18: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

4

Este trabalho não se centra na construção da ontologia do domínio de uma organização,

nem no desenvolvimento do módulo de navegação e pesquisa, sendo o seu principal foco o

desenvolvimento do módulo de classificação. Tanto a construção da ontologia como a do

módulo de pesquisa e navegação deram origem a mais duas teses de mestrado, resultando

num trabalho de equipa que integra os diversos módulos de produto XEO.ECC.

1.2 Motivação

Um dos factores que me motivou a realizar esta tese foi o facto de aliar a actividade de

investigação com um projecto com impacto directo numa empresa portuguesa. As áreas de

processamento de língua natural e classificação de texto sempre foram do meu interesse,

sendo que este projecto apresenta uma característica que o torna particularmente aliciante;

a utilização de ontologias como fonte fundamental para o classificador é um aspecto

diferenciador, principalmente quando comparado com técnicas de classificação

tradicionais. Um desafio igualmente atractivo é a integração dos diversos módulos do

produto XEO.ECC, nomeadamente os módulos de ontologias e de pesquisa e navegação,

culminando na realização de um trabalho de equipa.

1.3 Âmbito e Objectivos

Como mencionado acima, este trabalho está directamente relacionado com o projecto

XEO.ECC, tendo como objectivo específico de desenvolver o motor de classificação dessa

mesma plataforma. A técnica de classificação desenvolvida dá especial atenção a

comunicações de entrada e de âmbito profissional, ou seja, assumimos que todas as

comunicações que não sejam de âmbito profissional não serão tratadas pelo classificador.

A classificação consistirá na determinação de um conjunto de propósitos para uma dada

comunicação e, para tal, as ontologias são utilizadas para dar suporte ao conjunto de

possíveis propósitos de uma comunicação.

Basicamente, a classificação pretende retornar os propósitos expressos no conteúdo das

comunicações e, para tal, faz uso de um conjunto de evidências no texto de cada

comunicação, detectando as entidades e expressões consideradas relevantes. A figura 1.2

representa uma comunicação via correio electrónico, de uma companhia de seguros, na

qual é possível depreender quais as entidades ou expressões mais relevantes no seu

conteúdo.

Page 19: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

O

possí

N

detec

como

O objectivo

ível obter o

Na figura 1.

cção do pro

o datas, núm

Figura

Figura 1.2 - E

do classific

propósito d

.3 estão evi

opósito “Ma

meros de pro

1.3 - Entidade

Exemplo do con

cador é dete

da comunica

idenciados t

arcação de P

ocesso, con

es e Expressões

nteúdo textual

ectar toda a

ação, que n

todos os ele

Peritagem”

ntactos ou no

s relevantes no

de uma Comu

informação

este caso se

ementos (d

e ainda alg

omes de pes

o conteúdo da c

unicação via e-m

o relevante,

eria “Marcaç

a figura 1.2

gumas entid

ssoas.

comunicação d

-mail

de modo a

ação de Perit

2) relevante

dades releva

da figura 1.2

5

que seja

tagem”.

es para a

antes tais

Page 20: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

6

É de referir que, embora no exemplo das figuras 1.2 e 1.3 exista apenas um propósito,

em geral é possível atribuir mais que um propósito a uma comunicação.

Nesta tese existem dois objectivos fundamentais: o primeiro consiste em desenvolver

um processo de anotação de entidades e expressões relevantes numa comunicação, sendo o

segundo a aplicação de uma técnica de classificação de propósitos nela contidos.

Em suma, este trabalho consistiu no estudo e apresentação de uma proposta para uma

abordagem de anotação e classificação no contexto acima definido, bem como na

contribuição para a definição dos propósitos das comunicações, articulando-os com as

ontologias. Foi também concebido um protótipo, sendo este avaliado com base numa

amostra de dados reais fornecidos pela iTds. É de referir que está fora do âmbito desta tese

a sua integração com o produto XEO.ECC.

1.4 Principais Contribuições

Uma das principais contribuições deste trabalho foi a definição de um modelo de

classificação de comunicações numa organização, baseando-se num conjunto de propósitos

possíveis. Foi também estabelecida uma metodologia para a construção de um conjunto de

mapas de tópicos pertencentes a um domínio, dando especial enfoque à modelação dos

propósitos de uma comunicação. Como tal, este trabalho também fornece um modelo de

representação de propósitos de comunicações numa ontologia.

Para além de ser feita uma proposta para uma metodologia de classificação de

comunicações, é também de referir que essa mesma metodologia foi aplicada e avaliada

numa fase de experimentação.

1.5 Estrutura do Documento

Para além do presente capítulo, a estrutura deste documento consiste em mais cinco

capítulos:

Capítulo 2: Trabalho Relacionado;

Capítulo 3: Abordagem Seguida;

Capítulo 4: Implementação;

Capítulo 5: Experimentação;

Capítulo 6: Conclusões e Trabalho Futuro.

Page 21: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

7

Na secção 2.1 são explicadas as técnicas básicas de processamento de texto no contexto

da classificação de documentos, enquanto na secção 2.2 são detalhados os conceitos de

entidades mencionadas, entidades e expressões específicas de domínio. Ainda nesta secção

(2.2) é apresentado um sistema (Rembrandt) de reconhecimento e classificação de

entidades mencionadas, que foi adaptado para ser utilizado no contexto deste trabalho. Por

último, na secção 2.3, são apresentados os conceitos base de técnicas de recuperação de

informação (information retrieval), introduzindo diversas abordagens que fazem uso de

ontologias para classificar documentos.

No capítulo 3 é apresentada a abordagem seguida neste trabalho, mais especificamente

o tipo de entidades e expressões detectadas, bem como a técnica de classificação utilizada,

estabelecendo a relação entre uma comunicação anotada e a classificação do propósito da

mesma.

O capítulo 4 trata das questões relacionadas com a implementação neste trabalho,

enquanto o capítulo 5 apresenta os resultados obtidos com a aplicação da técnica de

classificação a um conjunto de comunicações reais.

Finalmente, o capítulo 6 serve para tecer algumas conclusões e algum trabalho futuro

relacionado com o tema.

Page 22: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

8

Page 23: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

9

2. Trabalho Relacionado

Este capítulo apresenta metodologias de recuperação de informação em documentos,

bem como da sua classificação automática baseada em ontologias. Para uma primeira fase

de extracção de informação, serão apresentadas as técnicas básicas de processamento de

texto. Serão também abordados alguns métodos de identificação e anotação de entidades e

expressões presentes num texto, no sentido de obter a informação adequada e relevante

para um domínio específico. Por último, são descritas algumas das técnicas de

classificação de textos baseadas em ontologias.

2.1 Técnicas Básicas de Processamento de Texto

Numa técnica de classificação de texto é necessário que exista um pré-processamento

do mesmo, para que seja possível ao classificador, interpretá-lo da melhor forma possível.

2.1.1 Segmentação de Texto (Tokenization)

O processo de segmentação de texto consiste em segmentar um texto em unidades

menores (tokens), sendo estas tratadas como termos ou palavras [28, 36]. Existem dois

tipos de segmentação: (i) segmentação de palavras e (ii) segmentação de frases.

Normalmente a técnica mais utilizada é a segmentação de palavras, embora em

algumas situações seja necessário identificar também cada frase presente num texto. Na

segmentação de palavras, os delimitadores mais usados são a vírgula e o espaço, embora

possam ser criadas mais regras para lidar com mais pontuação. Por exemplo, a frase “O

Filipe é um grande amigo”, após a aplicação de uma técnica de segmentação de palavras,

resultaria no seguinte conjunto de segmentos:

[O][Filipe][é][um][grande][amigo]

Page 24: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

10

Nas abordagens de classificação descritas em [4, 5, 9, 10, 17] existe sempre uma fase

de pré-processamento de texto, onde é aplicada a este uma técnica de segmentação.

Relativamente à segmentação de frases, esta consiste novamente na definição de

delimitadores ou fronteiras, que permitam reconhecer a terminação de uma frase, bem

como o início de outra [36]. Mais uma vez, a desambiguação dos delimitadores deve ser

tida em conta. Normalmente o ponto final indica a terminação de uma frase, embora,

quando usado como abreviatura, não deva ser tratado como tal, pois retornará um resultado

incorrecto. Por exemplo, para a frase “O meu número de tlm. 97 2113212”, é desejável

que apenas uma frase seja retornada, e que o termo “tlm.” seja interpretado como uma

abreviatura, pois o facto deste possuir um ponto, não corresponde à terminação de uma

frase.

Em situações que seja necessário identificar um conjunto de palavras e as respectivas

frases onde estão incluídas, o uso de ambas as técnicas de segmentação de texto poderá ser

necessário; por exemplo, para sistemas que detectem termos dependentes do contexto onde

estão inseridos, será necessária a aplicação das duas técnicas em simultâneo [1].

2.1.2 Análise Morfossintáctica (Part-of-speech)

Uma análise morfossintáctica consiste em classificar todas as palavras com a respectiva

classe gramatical (análise morfológica), bem como fazer um enquadramento de cada

palavra na frase onde está inserida (análise sintáctica) [33].

O processo de análise morfológica consiste em identificar termos simples ou compostos

numa frase, classificando-os segundo a sua categoria gramatical, podendo em certas

situações detalhar a origem da palavra ao nível da sua morfologia.

O processo de análise sintáctica procura construir a árvore de derivação para cada frase,

utilizando a classificação gramatical obtida na análise morfológica para enquadrar cada

palavra na respectiva frase.

Na figura 2.1 é possível observar uma análise morfossintáctica efectuada à frase “O

Filipe é um bom amigo”.

Page 25: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

A

morf

para

frase

análi

E

algor

dicio

duas

A

atrav

reduz

morf

não f

do m

aque

pontu

mais

2.1.3

P

basta

relev

A segmenta

fossintáctica

se poder fa

es do texto,

ise sintáctic

Existem dife

ritmos base

onários é ou

técnicas em

A análise m

vés de uma l

zir o text

fossintáctica

façam senti

mesmo tipo,

les que gra

uações). Es

fácil o proc

3 Eliminaç

Palavras não

ante freque

vância inform

Fig

ação de te

a, visto que

azer uma an

de modo a

a seja efectu

erentes abor

eados em

utra das sol

m simultâne

morfossintác

listagem de

to à sua

a a uma seq

ido gramatic

de forma a

amaticalmen

sa análise m

cesso de sel

ção de Pala

o interessant

ntes nos te

mativa. A u

ura 2.1 - Exem

xto é tamb

é necessári

nálise morfo

que seja po

uada.

rdagens para

métodos es

uções. Tam

eo [33].

ctica pode

artigos, con

informação

quência de t

calmente, n

a anotar todo

nte não pos

morfissintáti

lecção de um

avras não in

tes ou stopw

extos [6], s

utilização de

mplo de uma A

bém uma

io possuir um

fológica de

ossível detec

a lidar com

statísticos

mbém poder

ser consid

njunções, p

o mais rel

termos num

não sejam ti

os os termo

ssuem relev

ica reduz o

m conjunto

nteressante

words são c

sendo aque

esta técnica

nálise Morfoss

técnica ba

m conjunto

cada termo

ctar todos o

a análise m

é uma del

rão existir a

derada uma

pronomes, e

levante. Em

m texto, para

idas em con

os relevante

vância (arti

conjunto de

de informa

es (Stopwor

consideradas

elas palavra

a requer algu

sintática

astante imp

de termos c

, bem como

os seus cons

morfossintác

as, enquan

abordagens

técnica de

até verbos

m [3] é

a que sequên

nta. Em [4]

s de um tex

igos, prepos

e termos de

ação relevan

rds)

s como send

as que pos

uns cuidado

portante na

contidos nu

o delimitar

stituintes pa

ctica; a utiliz

nto a utiliz

que fazem

e compress

ou adjectiv

feita uma

ncias de ter

é feita uma

xto, excluind

sições, pron

e um texto, t

nte.

do não desc

suem muit

os, pois pod

11

análise

um texto,

todas as

ara que a

zação de

zação de

uso das

são, que

vos, pode

análise

rmos que

a análise

do todos

nomes e

tornando

critivas e

o pouca

derão ser

Page 26: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

12

eliminadas palavras que forneçam algum sentido ao texto, pois apesar de uma palavra ser

considerada como pouco relevante, pode ser fundamental para a compreensão do texto a

que pertence. Por exemplo, uma expressão composta por “João de Albuquerque” possui o

termo “de”, sendo esta considerada como não relevante para a língua portuguesa, embora

neste caso faça todo o sentido que não seja eliminada, pois é um constituinte de um nome

próprio. Outro exemplo é a expressão “Presidente dos Estados Unidos” [28], que possui a

palavra não interessante “dos”, embora a expressão completa seja muito mais relevante do

que a utilização dos termos “Presidente” e “Estados Unidos” separadamente. Para lidar

com este tipo de problemas, uma das alternativas será a detecção de termos compostos

antes do processo de remoção de palavras não interessantes.

A aplicação de um processo de remoção de palavras não interessantes tem como

objectivo a redução do texto, podendo resultar na diminuição da complexidade do processo

de classificação.

Nas abordagens [1, 3] são incluídas colecções de palavras não interessantes, sendo feita

uma filtragem ao texto numa fase de pré-processamento, para que sejam eliminadas todas

as palavras com pouca relevância informativa. Uma outra abordagem alternativa ao uso de

uma lista de palavras não interessantes, é a análise da frequência de cada termo numa

colecção de documentos, considerando pouco relevantes os termos que sejam muito

frequentes [28].

Para a língua portuguesa existem diversas colecções de palavras não interessantes,

sendo uma delas a colecção CHAVE4, que é o resultado da participação da Linguateca5 na

organização do CLEF6 (Cross-Language Evaluation Forum).

2.1.4 Radicalização (Stemming)

O processo de radicalização consiste na remoção dos sufixos e prefixos de um termo,

para que este seja reduzido ao seu radical (stem). O radical de uma palavra é a parte da

palavra comum a todas as palavras da mesma família (ex: prendeste, desprender,

prendido). Para a língua portuguesa existem dois algoritmos de radicalização, o de Porter

4 http://www.linguateca.pt/CHAVE/chave.html 5 http://www.linguateca.pt/ 6 http://www.linguateca.pt/CLEF/

Page 27: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

13

[8] e outro concebido por Viviane Moreira Orengo & Christian Huyck [7], embora estes

tenham somente o objectivo de remoção de sufixos.

Em [10] é aplicada uma técnica de radicalização, precisamente para reduzir a

complexidade do processo de classificação em relação aos termos de um texto.

A utilização de um algoritmo de radicalização pode induzir a algumas situações de erro

[7]; por exemplo, a remoção de sufixos de uma palavra pode resultar num radical igual a

um outro termo ou pode mesmo remover parte do sufixo da palavra (overstemming). A não

remoção completa do radical de uma palavra também pode ocorrer (understemming),

induzindo novamente a uma situação de erro. A justificação para tais problemas reside no

facto da implementação deste tipo de algoritmos ainda apresentar algumas limitações,

portanto, estas devem ser tidas em conta quando estes tipos de técnica são utilizados.

2.1.5 Lematização (Lemmatization)

A aplicação de uma técnica de lematização num texto consiste em representar cada

palavra na sua forma primitiva (lemma) [28]. Esta técnica auxilia o processamento do texto

reduzindo a sua complexidade, podendo reduzir um conjunto de palavras da mesma família

apenas ao seu lema. Por exemplo, após ser aplicado um processo de lematização às

palavras “gostaríamos”, “gostei”, “gosto” e “gostaste”, estas resultariam na forma

primitiva “gostar”. Normalmente este tipo de processo é incluído na análise

morfossintáctica, mais especificamente na análise morfológica de cada termo, tal como foi

explicitado anteriormente.

2.1.6 Uso de Sinónimos

Uma relação de sinónimo entre duas palavras consiste no facto destas possuírem

similaridade ou significados semelhantes, podendo ser substituíveis em determinados

contextos. Por exemplo, as palavras “carro” e “automóvel” são consideradas sinónimos. A

utilização de sinónimos numa técnica de processamento de texto resulta num aumento do

nível de reconhecimento de termos.

2.1.7 Conclusões

Dada a necessidade de detectar entidades e expressões específicas de domínio, o

processo de segmentação de texto assume grande importância no contexto deste trabalho,

Page 28: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

14

sendo utilizado tanto para segmentar palavras como frases. A segmentação de palavras

aliada à segmentação de frases resultará no enquadramento de cada termo na sua frase, o

que permitirá detectar algumas entidades que dependam do contexto onde estão inseridas.

Relativamente às técnicas de radicalização e lematização, estas são muito importantes,

no sentido de reduzir a dimensionalidade de um conjunto de termos de um texto. A

aplicação de uma técnica de radicalização pode ser efectuada com base em regras de

remoção de afixos, enquanto a lematização carece de uma estrutura informativa muito

maior. Portanto, do ponto de vista da exigência de informação acerca da língua portuguesa,

uma técnica de radicalização será mais simples de aplicar.

O uso de sinónimos é considerado fundamental no contexto deste trabalho, podendo ser

utilizado de diversas maneiras e, tal como descrito em [9, 10, 19] poderá ser utilizado

numa estrutura de apoio à ontologia, de modo a que esta contenha apenas os termos

principais, havendo uma correspondência entre um léxico de sinónimos e os termos base

na ontologia. Outra alternativa é a inclusão de todos os sinónimos na ontologia, não

existindo quaisquer estruturas de dados auxiliares.

2.2 Detecção de Entidades e Expressões Relevantes

No contexto deste trabalho, entidades relevantes são todos os termos simples ou

compostos que possam ser nomeados mediante uma determinada etiqueta ou categoria.

Estes podem ser datas, nomes próprios, organizações, locais ou qualquer outro tipo de

entidade específica de um domínio. As expressões relevantes também são específicas de

um domínio, embora não sejam nomeadas, isto é, são apenas palavras e não mencionam

nenhuma categoria em concreto. Por exemplo, no caso da área de negócio de seguros

automóveis, expressões específicas de domínio poderiam ser “Processo de sinistro”,

“Peritagem” ou “Apólice”. Enquanto as entidades específicas de domínio poderia ser

“10293/1221”, que corresponderia a um número de processo; “01-23-XC", correspondendo

a uma matrícula; ou “A12772”, sendo um número de apólice.

Termos considerados relevantes não servirão apenas para auxiliar o processo de

classificação, como também serão úteis para técnicas de pesquisa e navegação num texto,

através da sua anotação.

Page 29: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

15

Nesta secção será apresentado um sistema (Rembrandt) de reconhecimento e

classificação de entidades mencionadas, bem como outras abordagens, cujo propósito é a

extracção de termos relevantes de textos pertencentes a um domínio específico.

2.2.1 Entidades Mencionadas

Entidades Mencionadas (EM) são entidades que são mencionadas num determinado

contexto, que lhes atribui um significado semântico, eventualmente diferente do que lhe é

intrínseco [25]. O reconhecimento deste tipo de entidades permite detectar num texto

nomes de pessoas, organizações, localidades, expressões numéricas, incluindo datas,

valores monetários e outros tipos de valores.

Um sistema de reconhecimento de entidades mencionadas [1, 25] deve possuir um

conjunto de regras que as permita detectar num texto, no sentido de encontrar evidências

da sua presença. Por exemplo, no caso da detecção de organizações existem certas palavras

que são usadas juntamente com nomes de organizações, como “Lda.” e “S.A.”. O uso de

nomes geográficos juntamente com nomes de organizações, poderá ser um indicador de

nomes de organizações, como por exemplo “Portugal Telecom”.

Para além do próprio significado do que uma palavra representa, existem evidências

que fazem com que essa mesma palavra possa ter outro significado semântico [2]. Por

exemplo, a expressão “João Portugal” é classificada como sendo um nome próprio de uma

pessoa apesar do termo “Portugal” ser um país. Mais ainda, no caso do termo “Cuba”, este

pode significar um país ou uma cidade portuguesa, daí a necessidade de observar as

evidências internas e externas ao próprio termo.

Evidências internas são todas as evidências que o termo em si apresenta, por exemplo,

no caso de um termo ser composto por “Lda.”, esta é uma evidência interna para uma

organização, pois “Lda.” faz parte do próprio nome da organização. Evidências externas

provêm do contexto no qual o termo está inserido, por exemplo, a expressão “rua de

Portugal” tendo como precedente “rua de”, o termo “Portugal” é considerado uma rua e

não um país.

Portanto, um sistema de reconhecimento e classificação de entidades mencionadas deve

ter em conta as evidências internas e externas [2] de cada entidade ou termo encontrado,

bem como possuir almanaques internos, que ajudem a detectar nomes próprios, ou

Page 30: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

16

identificar palavras específicas que permitam auxiliar a classificação de entidades

mencionadas.

O Rembrandt [1] (Reconhecimento de Entidades Mencionadas Baseado em Relações e

Análise Detalhada do Texto) é um sistema que analisa detalhadamente o texto,

reconhecendo e classificando entidades mencionadas. Actualmente, o Rembrandt permite a

classificação de textos para língua portuguesa ou inglesa, usando a Wikipédia como fonte

de conhecimento, juntamente com regras gramaticais, que observam as várias evidências

internas e externas que cada entidade apresenta. O uso da Wikipédia permite obter um

conhecimento adicional para cada entidade, de modo a que seja possível perceber o seu

contexto, detectar relações com outras entidades, usar essa mesma informação para

contextualizar e ainda para poder classificar outras entidades circundantes.

A SASKIA e o RENOIR são as interfaces que interagem com a Wikipédia. A SASKIA

navega na estrutura das páginas da Wikipédia, enquanto o RENOIR constrói as consultas

semânticas para as interrogações à DBpedia7, uma versão ontológica da Wikipédia.

O Rembrandt classifica as entidades mencionadas usando 9 categorias principais e 47

tipos e subtipos8, ambas definidas pelo Segundo HAREM [26] (um sistema de avaliação de

entidades mencionadas para língua portuguesa).

Categoria Tipos

PESSOA

CARGO

GRUPOCARGO

GRUPOIND

GRUPOMEMBRO

INDIVIDUAL

LOCAL

FISICO

HUMANO

VIRTUAL

VALOR MOEDA

QUANTIDADE

Figura 2.2 – Algumas categorias e tipos das entidades PESSOA, LOCAL e VALOR

7 http://dbpedia.org/ 8 http://www.linguateca.pt/aval_conjunta/HAREM/tabela.html

Page 31: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

Na fi

Remb

não e

A

pode

Remb

A

entre

mesm

utiliz

evidê

proce

I

Com

conc

maiú

comp

figura 2.2 sã

brandt, sen

estarem pre

A classifica

endo uma E

brandt aceit

A parte cent

e cada EM

ma página,

zadas regra

ências exter

essamento:

I. Reco

cand

II. Class

III. Repe

mo é possíve

eitos tempo

úscula. Ma

postas some

ão apresent

ndo que algu

sentes na fi

ção das EM

EM ser an

ta como inp

tral do proc

e uma pág

através d

as gramatic

rnas ou inte

onhecimento

didatas;

sificação se

escagem de

el observar n

orais, valore

ais especifi

ente por alg

tadas algum

umas categ

gura.

M é feita a

notada com

put ou outpu

cedimento d

gina da Wik

das hiperlig

cais criada

ernas das E

o de expres

emântica de

EM sem cl

Figura 2.3 - P

na figura 2.

es e palavra

icamente, a

garismos, n

mas das cate

gorias ainda

através da

m mais do

ut, ficheiros

do Rembran

kipédia, e p

gações e c

as manualm

EM. O Remb

ssões numér

EM;

assificação.

Principais Etap

3 [1], a prim

as cuja única

as express

números por

egorias e re

a possuem s

anotação d

que uma

s do tipo XM

ndt procura

posteriorme

ategorias n

mente, para

brandt cons

ricas e gera

.

pas do Rembra

meira etapa

a caracterís

sões numér

r extenso, o

spectivos ti

subtipos ass

os textos q

categoria o

ML, HTML

estabelecer

ente analisa

nela existen

a que se

sidera três e

ação de enti

andt

consiste em

tica é serem

ricas detec

ordinais e c

ipos utilizad

sociados, ap

que são ana

ou subcateg

ou texto sim

er uma map

ar a estrutu

ntes. Tamb

consigam

etapas princ

idades menc

m detectar n

m iniciadas

ctáveis pod

cardinais, co

17

dos pelo

pesar de

alisados,

goria. O

mples.

eamento

ura dessa

bém são

capturar

cipais de

cionadas

números,

por letra

dem ser

omo é o

Page 32: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

18

caso dos seguintes exemplos: “2001”, “20º”, “vinte”, “3 mil milhões” ou “cento e vinte e

três”. Relativamente a conceitos temporais, podem ser detectadas expressões que se

refiram a meses do ano, séculos, diversos formatos de data e hora, numéricos ou textuais,

estações do ano, intervalos de tempo e ainda outras expressões com características de

temporalidade como “meados”, “princípios” ou “AC”. Por exemplo, expressões do tipo

“25 de Abril de 1974”, “em meados de Janeiro”, “século XXI”, “em 1005 AC”, “Verão”

ou “entre 2000 e 2010” seriam detectadas segundo as regras de detecção de conceitos

temporais. Por último, ainda nesta primeira fase, são detectadas expressões que contenham

valores numéricos, tais como “$34.1”, “1.000.000$00”, “10 watts” “10%”, “10 por cento”

ou “34ºC”. O próprio processo de geração de candidatos a EM, tem como base um

conjunto de regras auxiliadas por almanaques internos, que permitem assumir, até prova

em contrário, que um determinado termo é uma EM, prova essa que ao longo de todo o

processamento do Rembrandt, se confirma ou não.

Os dados da Wikipédia são importados, permitindo armazenar localmente todas as

informações acerca das páginas. Desse modo, na segunda etapa de todo o processo, é

utilizada a SASKIA juntamente com a Wikipédia e um conjunto de regras gramaticais, no

sentido de classificar as EM candidatas. Cada EM candidata é classificada em primeiro

lugar pela SASKIA, através de informação extraída da Wikipédia, e de seguida é

classificada através de evidências internas e externas, permitindo assim uma dupla

classificação, no sentido de resolver desambiguações, caso existam. Por exemplo, a

seguinte frase “eu moro na rua de Angola”, onde a SASKIA classificou previamente a EM

“Angola” como sendo LOCAL/HUMANO/PAÍS, irá sofrer uma alteração, pois após a

aplicação de uma regra gramatical relativa à captura de ruas, o Rembrandt irá redefinir a

classificação da EM “Angola”, como sendo LOCAL/HUMANO/RUA, devido à presença

do termo “rua” antes da EM. As categorias presentes na Wikipédia, nada têm a ver com as

categorias e tipos acima descritos na figura 2.2, e devido a esse facto, o Rembrandt possui

um conjunto de regras internas, no sentido de converter cada categoria extraída da

Wikipédia nas categorias do Segundo HAREM.

Como é possível observar na figura 2.4 [1], este processo começa por procurar páginas

na Wikipédia com o título precisamente igual à EM. No caso de não existirem páginas com

o mesmo título que a EM, é obtida a página de desambiguação associada ao texto da EM,

através da tabela de redireccionamentos da Wikipédia.

Page 33: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

Após

recol

recon

As a

respe

possu

assoc

com

corre

acrón

os tít

título

s ter sido fe

lha das cate

nhece são:

Auto-cat

Categori

Categori

auto-categor

ectiva. As c

ui diversos

ciadas ao te

as EM, em

esponde a u

nimo), para

tulos das “p

o correspond

Figura

feita a assoc

egorias em c

tegoria;

ia de desam

ia de acrónim

rias são cat

categorias d

s significad

exto da EM

mbora seja ú

um acrónim

a extrair liga

páginas-alv

de à expans

Figura 2.5 - F

2.4 - Primeira

ciação entre

cada página

mbiguação;

mo.

tegorias qu

de desambig

dos na Wik

. A categor

útil nas pági

mo, e para q

ações para o

o” por part

são do acrón

Fase de obtençã

fase do uso da

e cada EM

a. Os tipos d

ue possuem

guação são

kipédia, ou

ria de acrón

inas da Wik

que a SASK

outras págin

te do acróni

nimo, como

ão de categoria

a Wikipédia no

e uma pág

de categoria

o mesmo

utilizadas

seja, quan

nimo não é u

kipédia para

KIA não util

nas. Nestes

imo, e obté

o pode ser o

as na Wikipéd

o Rembrandt

ina da Wik

as da Wikip

nome que

quando um

ndo existem

utilizada pa

a indicar qu

lize o texto

casos, a SAS

ém as categ

bservado na

ia e no Rembra

kipédia, é fe

pédia que a

o título da

ma determin

m diversas

ara ser emp

ue o título d

o da EM (qu

SKIA verifi

gorias daque

a figura 2.5

andt

19

eita uma

SASKIA

a página

nada EM

páginas

arelhada

a página

ue é um

ica todos

elas cujo

[1].

Page 34: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

20

Nas fig

desamb

Por últim

no senti

(figura 2

guras 2.6

iguação, res

Figur

mo, e após

ido de conv

2.8 [1]) e de

Figura 2.8 -

e 2.7, são

spectivamen

ra 2.6 - Exempl

Figura 2.7 - E

recolhidas

verter as cat

etectar refer

Processo de co

o apresent

nte.

lo das categori

Exemplo da ca

todas as ca

egorias da W

rências geog

onversão de ca

tados exem

ias Acrónimo e

ategoria Desam

ategorias pe

Wikipédia p

gráficas, ca

ategorias da W

mplos de c

e Desambiguaç

mbiguação na W

ertencentes

para as cate

aso existam.

Wikipédia para

categorias

ção na Wikipéd

Wikipédia

à EM, são a

egorias do S

as do Segundo

de acrónim

dia

aplicadas re

Segundo HA

o HAREM

mo e

egras,

AREM

Page 35: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

A

detec

para

conti

gram

As re

conse

outra

frase

<EM

categ

pode

Gera

Com

propr

As regras g

ctar a presen

uma determ

idas, sendo

maticais que

egras são a

eguir obter

as EM, con

e “A tia da

M> [é|foi|são

goria e su

emos observ

ando a segui

<EM C

mo é possív

riedades, no

cardinali

número q

critério:

sua dete

texto sim

gramaticais

nça de EM.

minada cate

aplicada um

e são identif

aplicadas a t

EM que cu

nceitos, exp

Ana Rita é

o] um(a) {p

ubcategoria

var na figura

Figura

inte anotaçã

CATEG=”

el observar

omeadamen

idade: perm

que de veze

serve para

ecção pode

mples ou um

servem par

Cada regra

goria cump

ma acção c

ficadas as e

todas as fra

mpram as r

pressões reg

é arquitecta

profissão},

associadas

a 2.9 [1], a a

2.9 - Exemplo

ão:

PESSOA”

r na figura

nte:

mite definir

es que esta p

definir a c

ser através

ma categoria

ra represen

a gramatical

prir uma reg

caso a regra

evidências i

ases do text

regras criada

gulares ou s

a”, aplicand

resulta na

s: PESSOA

aplicação co

o de uma regra

TIPO=”IN

2.9, para c

se uma clá

pode ocorre

orrespondên

s de uma e

a de EM;

ntar padrões

l é compost

gra, tem de

a seja bem

internas e e

to e a cada

as. Para cad

simples term

do-lhe uma

detecção d

A/INDIVID

ompleta de

a gramática do

NDIVIDUA

cada cláusu

áusula é opc

er;

ncia entre a

xpressão re

s nas frases

a por uma o

superar tod

sucedida. É

externas de

termo da f

da cláusula é

mos. Por e

regra com

e uma EM

DUAL. Mai

uma regra à

Rembrandt

AL”>Ana R

ula é possív

cional ou nã

a cláusula e

egular (simp

s, cujo obj

ou mais cláu

das as cláusu

É através da

cada EM n

frase, no se

é possível a

exemplo, a

a seguinte

“Ana Rita”

is detalhad

à mesma fra

Rita</EM>

vel definir

ão, determi

e o texto, e

mples ou com

21

ectivo é

usulas, e

ulas nela

as regras

no texto.

entido de

adicionar

seguinte

cláusula

”, com a

damente,

ase.

algumas

inando o

m que a

mposta),

Page 36: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

22

padrão: corresponde à expressão regular ou texto simples a ser incluído na cláusula,

para a sua detecção;

inclusão: define se os termos incluídos nas cláusulas serão também incluídos na

própria EM retornada e anotada.

A última etapa consiste na detecção de relações entre as EM, o que permite que

algumas EM não classificadas obtenham uma classificação nesse processo, pelo facto de

possuírem alguma relação com outras EM já classificadas. As EM que se sobrepõem a

outras EM podem dar origem a relações do tipo “ocorre_em” ou “sede_em”, por exemplo,

no caso da seguinte frase: “Jogos Olímpicos de Pequim”, é originada a relação “sede_em”

entre duas EM: “Jogos Olímpicos” com a categoria ACONTECIMENTO, enquanto a EM

“Pequim” é classificada como LOCAL. Finalmente, as EM que não possuem classificação

serão descartadas.

Relativamente a outros sistemas de reconhecimento e classificação de EM,

participaram no Segundo HAREM cerca de quinze sistemas, e o Rembrandt apresentou os

melhores resultados. Além disso, foi o único sistema deste tipo encontrado em código

aberto.

2.2.2 Entidades e Expressões Específicas de Domínio

Os sistemas de reconhecimento e classificação de entidades mencionadas genéricas,

tais como [1, 25], não permitem detectar termos específicos, pois a construção das regras

de detecção de entidades mencionadas é feita com base num conjunto de categorias pré-

definidas e de índole geral, não oferecendo a especificidade desejada para um qualquer

domínio.

Como já foi referido, entidades e expressões específicas de domínio são todos os

termos contidos num texto, cujo significado semântico está associado a um qualquer

domínio específico. A detecção de entidades específicas de domínio exige um conjunto de

regras próprias, que varia consoante o domínio utilizado, enquanto a detecção de

expressões específicas de domínio necessitaria de um dicionário suficientemente

elaborado, contendo um vasto conjunto de expressões específicas pertencentes a um

domínio, para que estas fossem detectadas. Tais regras e expressões específicas de domínio

serão obtidas através de uma ontologia que descreva o domínio onde o classificador será

aplicado.

Page 37: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

23

De seguida, serão apresentadas algumas abordagens de extracção de entidades e

expressões relevantes, algumas baseadas em ontologias que descrevam domínios

específicos.

Em [17] é descrita uma abordagem para facilitar e melhorar a pesquisa de documentos

na área da biologia. Previamente à pesquisa, serão efectuadas anotações a documentos,

tendo por base as ontologias Unified Medical Language System Semantic Network9 (UMLS

SN) e Gene Ontology10 (GO), que descrevem conceitos na área da biologia. Como

resultado dessas anotações será exportado um grafo RDF11, possuindo informação

relevante contida nos documentos. O grafo RDF construído pelo processo de anotação

permite efectuar pesquisas relevantes e, além disso, ainda é feito um enriquecimento do

conhecimento presente nas ontologias utilizadas, adicionando sinónimos e mais relações

específicas entre conceitos, por intermédio de especialistas do domínio.

O procedimento de anotação de textos é feito através de ferramentas de processamento

de língua natural da plataforma GATE [18]. Para cada frase será detectada uma instância de

uma relação na ontologia UMLS SN, bem como conceitos também presentes na ontologia,

sendo todo o processo composto por três passos:

I. Detecção de Relações: para cada relação presente na ontologia é criada uma regra

através de uma gramática baseada em expressões regulares, para que todas as

instâncias de relações sejam extraídas.

II. Extracção de Termos: nesta fase é usado um processo de segmentação de palavras e

análise morfológica do texto. De seguida é utilizada uma janela de comprimento

máximo quatro, de modo a serem extraídos termos relevantes, com base num

processo de correspondência entre cada termo e os conceitos na ontologia.

III. Geração de Anotações: através de uma análise sintáctica a cada frase, são

detectados os seus constituintes, permitindo assim encontrar todos os conceitos

instanciados, ligados pela relação também instanciada.

9 http://www.nlm.nih.gov/research/umls/ 10 http://www.geneontology.org/ 11 Resource Description Framework

Page 38: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

24

Finalmente, uma anotação é exportada na forma de um grafo RDF, e associada ao

documento em questão, contendo toda a informação que foi extraída.

Em [4] é apresentada uma metodologia de extracção de conhecimento em relatórios de

radiologia torácica. Para esse efeito são utilizadas técnicas de processamento estatístico de

língua natural. Foram analisados 1015 relatórios, e após um processo de segmentação de

texto e análise de n-gramas12, muitos dos segmentos obtidos foram eliminados por serem

considerados palavras não interessantes. Foram criados dicionários, adicionando cada

palavra que não foi excluída no processo anterior, através do seguinte padrão:

Palavra = {‘classe’, ‘semântica’, ‘figurado’}

Enquanto o primeiro argumento da palavra corresponde à sua classe gramatical, a

anotação do seu significado semântico e sentido figurado foi feita posteriormente por

especialistas do domínio. A obtenção dos termos mais relevantes foi feita a partir da

observação de n-gramas, variando n entre 2 a 10. O principal objectivo desta metodologia é

utilizar a anotação de termos relevantes em relatórios técnicos, para fornecer à área de

radiologia torácica uma base de informação que permita confrontar resultados em

processos de tomada de decisão.

2.2.3 Conclusões

A detecção de entidades mencionadas por parte do sistema Rembrandt é bastante útil

no contexto deste trabalho, e através de alguns ajustes e adaptações para um domínio

específico, esta ferramenta tem bastante relevância no processo de anotação do conteúdo

de uma comunicação. O sistema Rembrandt será útil para a detecção das entidades

mencionadas, embora também seja fundamental para a introdução de novas regras de

detecção de entidades e expressões específicas de domínio, pois possui diversos métodos

de detecção de informação através da introdução de um conjunto de regras e expressões

para um qualquer domínio.

Os métodos para detectar entidades e expressões específicas de domínio reflectem a

importância do uso das ontologias, pois quando existe uma área de negócio ou um domínio

bastante extenso, em que os conceitos apresentem relações entre eles, o papel das

ontologias torna-se fundamental [3]. O uso de ontologias permite resolver problemas

12 Sequência de n palavras.

Page 39: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

25

semânticos [10] utilizando abordagens diferentes das técnicas de classificação tradicionais

[14], levando a bons resultados de classificação através do uso de ontologias que

descrevam detalhadamente um domínio [33].

2.3 Técnicas de Classificação Automática de Texto baseadas em Ontologias

O reconhecimento automático de padrões ou classificação automática reside na

aplicação de técnicas automáticas que incluem a extracção, identificação, classificação e

descrição de padrões nos dados [23]. Centrando-nos apenas no processo de classificação,

este consiste na actividade de dividir um conjunto de objectos num conjunto de classes, de

tal modo que os objectos contidos na mesma classe sejam todos similares, e dissimilares a

objectos contidos noutras classes [20]. As técnicas de classificação automática podem ser

aplicadas de duas maneiras distintas: (i) classificação automática supervisionada e (ii)

classificação automática não-supervisionada (clustering).

Uma técnica de classificação automática supervisionada consiste em agrupar os dados

mediante um conjunto de classes definidas a priori, existindo uma amostra de dados

previamente classificados para treino. Na classificação automática não supervisionada não

existem pré-classificações definidas, e o objectivo é agrupar conjuntos de dados que

apresentem semelhanças entre si.

As técnicas de classificação nos sistemas de informação podem ser aplicadas no sentido

de facilitar o acesso, a organização, o uso e a recuperação da informação [22].

No âmbito deste trabalho, o principal objectivo da classificação automática é classificar

o conteúdo textual de comunicações. Os dados que o classificador irá interpretar são

textuais, o que significa que os textos serão representados por termos simples ou

compostos, e como objectivo final é pretendido que uma comunicação seja associada a

uma ou mais classes. A classificação das comunicações será acerca de um domínio

específico, logo, é desejável que para cada termo identificado no texto, se obtenha o seu

significado semântico; e o uso de ontologias, além de ter sido uma exigência do projecto

XEO.ECC, permite representar a semântica dos termos encontrados no texto, tendo

apresentado resultados promissores ao nível da classificação [33].

Em primeiro lugar, a próxima sub-secção faz uma introdução dos conceitos e notação

base utilizados em processos de classificação e recuperação de informação. De seguida, o

Page 40: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

26

Vector Space Model (VSM) é apresentado, devido ao facto de ser um dos modelos mais

utilizados em processos de classificação e recuperação de informação. Por último, são

apresentadas abordagens de classificação automática baseadas em ontologias.

2.3.1 Recuperação de Informação (Information Retrieval)

O processo de recuperação de informação lida com o seguinte desafio: dado um

conjunto de documentos e uma interrogação (query), é pretendido que seja encontrado o

conjunto de documentos mais relevante mediante essa mesma necessidade de informação.

O documento pode ser considerado um conjunto de termos, tendo sido sujeito a um

conjunto de técnicas de processamento de texto (segmentação, remoção de palavras não

interessantes, radicalização, lematização), resultando num conjunto de termos relevantes.

Uma interrogação pode ser considerada um conjunto de termos, reflectindo a intenção

do utilizador, de modo a obter informação presente num conjunto de documentos; ou ser

entendida como o conteúdo de um documento, resultando nesse caso, no cálculo de

similaridade entre documentos.

De seguida introduzem-se alguns conceitos e notação.

D denota um conjunto de n documentos;

d denota um documento de D;

T denota um conjunto de termos extraídos de ;

t denota um termo pertencente a um conjunto de termos T;

Q denota um conjunto de interrogações (queries);

q denota uma interrogação (query) de Q;

sim(q,d) denota uma função de similaridade entre uma interrogação ∈ e um

documento ∈ , que retorna um número real (entre 0 e 1);

sim(d1,d2) denota uma função de similaridade entre dois documentos , ∈ ,

que retorna um número real (entre 0 e 1).

Cada documento ou interrogação é representado por um conjunto de termos que reflecte o

seu conteúdo. A relevância de cada termo num documento ou interrogação é especificada

através da atribuição de um peso ao termo:

Page 41: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

27

, , denota o peso do termo ∈ , num documento ( ∈ );

, , denota o peso do termo ∈ , numa interrogação ∈ .

2.3.2 Vector Space Model

O Vector Space Model é um modelo algébrico utilizado em sistemas de recuperação e

filtragem de informação, indexação ou rankings de relevância. O seu primeiro uso foi

através do sistema de recuperação de informação SMART [29], desenvolvido na

universidade de Cornell na década de 60. O procedimento formal do Vector Space Model

consiste em três fases distintas:

Pré-processamento de texto;

Atribuição de pesos aos termos extraídos, em função do seu grau de relevância no

documento;

Calcular a similaridade entre o documento e uma interrogação.

Relativamente ao pré-processamento do texto em cada documento, este reside na extracção

do conjunto dos seus termos mais relevantes, sendo construído um vector que representa o

grau de relevância de cada termo relevante no documento:

, , … , # ,

Assim, a cada termo representativo do documento é-lhe associado um peso , . Para cada

termo, o peso que lhe é atribuído (term weighting), depende:

Da frequência do termo no próprio documento, sendo representada por , (term

frequency);

Da frequência do termo na colecção de documentos D, sendo representada por

(collection frequency).

Consideram-se na literatura [13, 27, 29] diversas medidas para o cálculo de pesos de

termos, baseadas na sua frequência num documento, nomeadamente:

1 , , que é o logaritmo da frequência do termo, apresentando a

particularidade de não privilegiar os termos que ocorrem com mais frequência.

Dado que esta a função desta medida apresenta um domínio infinito, quanto maior

Page 42: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

28

for o valor de , menor é a variação da função, ou seja, esta cresce cada vez

menos.

1 ,

, denominada inverse term frequency, esta função também valoriza todos

os termos de baixa frequência, pois a partir de um certo número de ocorrências para

cada termo o valor da função varia pouco. De referir que o valor de r (normalmente

r=1) pode variar, de modo a serem feitos ajustes à função.

Algumas medidas utilizam a frequência do termo numa colecção de documentos [24]:

#, denominada inverse document frequency. Quando um termo ocorre em

muitos documentos, o valor da função anda mais próximo de zero, o que significa que

esta função desvaloriza a ocorrência de termos frequentes. Contrariamente, se a

ocorrência de um termo for pouco frequente, o valor da função será mais elevado. Mais

ainda, quando um termo ocorre em todos os documentos da colecção, o valor da função

é zero.

# , denominada term relevance weight. Esta medida não só valoriza os

termos com pouco frequência numa colecção, como a partir do momento que a

ocorrência do termo t em D atinge metade dos documentos existentes, o valor da

função é zero.

O cálculo do peso de um termo pode apresentar uma conjugação entre os dois factores

[13] acima referidos, como por exemplo:

, , log#

2.1

O peso , poderá representar uma combinação entre a frequência de um termo num

documento e numa colecção de documentos, reflectindo o seu grau de importância.

Além destes componentes que podem ser utilizados para o cálculo do peso, existe ainda

um factor de normalização, para que o comprimento de todos os vectores seja equilibrado

[12]. A fórmula de normalização pode ser definida por:

,

∑ ,∈

2.2

Page 43: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

29

Como já foi referido, o objectivo do processo de recuperação de informação é encontrar

um grau de similaridade entre um documento e uma interrogação, sendo essa similaridade

calculada na maioria das situações através do co-seno do ângulo entre os dois vectores

[30]. Definindo o cálculo do co-seno entre dois vectores, temos:

, , , , … , # ,

, , , , … ,# ,

,

| |

∑ ,∈ ,

∑ ,∈ ∑ ,∈

2.3

É de referir que no contexto da classificação automática não-supervisionada, a função

acima descrita também pode ser utilizada para o cálculo de similaridade entre dois

documentos, no sentido de criar agrupamentos (clusters) de documentos que mais se

aproximem.

Uso de Classes no Vector Space Model

No contexto deste trabalho pretende-se uma classificação de documentos, em que os

documentos são classificados mediante um conjunto de classes:

, … , , em que C é o conjunto das k classes existentes.

Poderá existir uma fase de treino, em que são escolhidos diversos documentos para

amostra de cada classe. Dessa forma, poderá existir um super-documento para cada classe,

constituído pela concatenação de documentos da amostra, pertencentes a essa mesma

classe:

, , … , # , , corresponde ao vector dos pesos de cada termo presente no

super-documento associado à classe c;

Dado um novo documento ∗ é pretendido que este seja classificado com base num

conjunto de classes existentes, através da medida de similaridade do co-seno (equação 2.3):

Page 44: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

30

∗ , ∗, … , # , ∗ , corresponde ao vector de pesos de cada termo presente no

documento ∗;

, ∗ = [0..1], corresponde à medida de similaridade entre o documento ∗ e

cada classe ∈ .

O documento ∗ será classificado com a classe c que apresentar um maior valor de

similaridade.

Existindo outros tipos de medidas para calcular o peso dos termos em função de uma

classe, introduz-se a seguinte notação:

, , corresponde ao número de documentos da amostra, pertencentes a uma

determinada classe c onde o termo t está contido;

, , corresponde ao número de documentos da amostra, onde a classe c ocorre

sem o termo t;

, , corresponde ao número de documentos da amostra, onde ocorre o termo t,

sem ser na classe c;

, corresponde ao número de documentos da amostra, onde nem a classe c,

nem o termo t ocorrem.

Com base na notação acima descrita, algumas medidas para calcular o peso dos termos em

função de uma classe são:

, # , , , ,

, , , , , , , ,, esta medida

representa um grau de dependência entre cada termo e uma respectiva classe.

1 ,

, , esta é uma medida proposta em [13], que visa fornecer um peso a

um termo t pertencente a uma classe c, tendo em conta a ocorrência desse termo em

outras classes. O valor desta medida obtém os melhores resultados quando o

Page 45: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

31

número de ocorrências do termo na classe respectiva é maior que o número de

ocorrências do termo nas restantes classes.

As medidas acima descritas também podem ser conjugadas com a frequência de um termo

num documento, dando origem a medidas do tipo:

, , ;

, 1 ,

,.

Portanto, o uso de classes no Vector Space Model permite o cálculo de um valor de

similaridade entre um documento e cada classe existente no modelo. O resultado de

, ∗ retorna um valor que representa a similaridade entre o documento ∗ e uma

classe c, podendo ser utilizado para devolver um ranking de relevância de um documento

para um conjunto de classes.

Algumas das limitações ou desvantagens do Vector Space Model são a extensa

dimensionalidade de cada documento, que é representado por um vasto conjunto de

termos, o que pode dar origem a vectores muito longos e pouco representativos. As classes

são representadas da mesma forma que um documento, sendo que a existência de um

número elevado de classes poderá fazer com que o conjunto de termos que as representam

se disperse na representação vectorial.

Relativamente à relação entre termos, o Vector Space Model assume que esta não

existe, não havendo qualquer significado semântico associado a estes, portanto, os termos

são considerados independentes e apresentam uma representação vectorial ortogonal. Por

exemplo, a similaridade entre “Carro” e “Automóvel” seria ignorada, sendo estes

considerados dois termos completamente independentes, quando na realidade possuem o

mesmo significado. Para além dos sinónimos, todos os fenómenos linguísticos são

ignorados neste modelo, resultando numa completa independência entre termos.

O próximo modelo de classificação utilizará a relação entre termos para obter melhores

resultados classificativos e alterar a dimensionalidade do vector de um documento ou

interrogação.

Page 46: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

32

2.3.3 T

Em

a indepe

[30] é

represen

todos os

Ao con

Topic-b

termo (

relação

A direc

relação

Atra

tópicos:

Topic-based

contraste co

endência en

o facto do

nta um tópi

s outros tóp

ntrário do V

based Vecto

∈ ) é re

ao tópico k

, ,

| |

cção do vec

a um espaç

avés da figu

:

Figura

d Vector Sp

om o Vecto

ntre os term

o espaço op

ico, em que

picos.

Vector Spac

or Space M

epresentado

k.

, … , ,

, ⋯

ctor rep

ço dimensio

ura 2.10 [32

a 2.10 - Relação

ace Model

or Space Mo

mos. A prin

peracional R

e cada tópi

ce Model, e

Model (TVS

por um ve

, ∈ 0,1

presenta o

nal de tópic

2] é possív

o entre Tópico

odel, este m

ncipal difere

R possuir

co assume-

em que cad

SM) cada d

ector , que

1

grau de re

cos.

vel observar

os e termos no

modelo base

ença deste m

k dimensõe

-se como or

da dimensã

dimensão re

é compost

elevância qu

r a relação

Topic-based Ve

ado em tóp

modelo bas

es, e cada

rtogonal e

o represent

epresenta u

to pelos pes

ue o termo

entre algun

Vector Space Mo

picos não as

eado em tó

dimensão

independen

ta um term

um tópico.

sos do term

o i apresent

ns termos e

odel

ssume

ópicos

de R

nte de

mo, no

Cada

mo em

ta em

e dois

Page 47: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

33

O Topic-based Vector Space Model expressa as relações entre termos e tópicos da seguinte

maneira:

Para os termos mais relevantes de cada tópico, o seu peso deve ser próximo de 1;

Termos que não possuam relação com um tópico (por exemplo, as palavras não

interessantes), devem possuir um peso próximo ou igual a 0;

O ângulo entre dois termos que possuam o mesmo radical deve ser de 0 graus;

O ângulo entre dois sinónimos ou palavras de um tópico similar deve ser muito

próximo de 0 graus. Por exemplo, com base na figura 2.10, podemos observar a

relação de proximidade entre os termos “software” e “program”;

O ângulo entre dois termos que pertençam a tópicos diferentes, deve ser de 90

graus. Observando a figura 2.10, podemos observar que o ângulo entre os vectores

dos termos “Goethe”e “program” é muito próximo dos 90 graus;

O ângulo entre termos relevantes de um tópico e termos sem relação alguma com

um tópico, deve ser de 45 graus. Por exemplo, e com base na figura 2.10, os termos

“is” e “the” não apresentam qualquer relação com os tópicos expressos também na

figura, logo, os seus vectores apresentam um ângulo de aproximadamente 45 graus

com os restantes vectores dos termos relevantes.

O ângulo entre dois termos sem qualquer tipo de relação com um tópico, deve ser

muito próximo de 0 graus. Por exemplo, os vectores dos termos “is” e “the”

apresentam um ângulo aproximado dos 0 graus, pois não apresentam relação com

nenhum dos tópicos expressos na figura 2.10.

Cada documento ∈ é representado pela soma de todos os vectores de termos que o

compõem:

∀ ∈ ∶ 1

⟹ 1com ,

2.4

Page 48: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

34

Em que o peso , pode ser calculado com base nas medidas descritas na sub-secção

anterior.

Nesta abordagem [30] não é definida uma metodologia para obtenção de um conjunto

de tópicos, portanto, a escolha reside no facto de encontrar um conjunto de

conceitos/tópicos e respectivos termos pertencentes ao domínio onde esta técnica de

classificação será aplicada.

2.3.4 Abordagens baseadas em Ontologias

Esta sub-secção tem como principal objectivo apresentar algumas abordagens que

façam uso das ontologias em processos de classificação, sendo que o seu uso pode auxiliar

o processo de geração de um espaço multidimensional de conceitos ou tópicos.

O uso de ontologias no processo de classificação automática de texto permite

representar a informação de um qualquer domínio, podendo esta ser vista como uma árvore

ou um grafo acíclico, no sentido de representar relações, e estabelecer uma hierarquia entre

conceitos. As classes a que uma comunicação poderá pertencer estão descritas na ontologia

de um modo hierárquico, em que cada classe poderá possuir diversos conceitos associados,

com as respectivas palavras-chave. O processo de classificação de texto baseada em

ontologias passa por diversas fases até retornar um resultado e, no caso deste trabalho, o

retorno consiste numa classificação em categorias pré-definidas.

Numa técnica de classificação automática aliada ao uso de ontologias, normalmente

existem três fases [11]:

I. Pré-processamento de texto;

II. Correspondência entre a informação relevante e a ontologia;

III. Aplicação da Técnica de Classificação.

Todas estas fases podem variar e ser utilizadas de maneiras distintas, portanto, são

apresentadas diversas abordagens que conjugam estas três fases.

Em [30] é também proposto um modelo baseado no Topic-based Vector Space Model

(sub-secção 2.3.3), introduzindo as ontologias como suporte à construção do espaço

operacional R, que passa a ser derivado através de uma ontologia específica de domínio. A

ontologia específicas de domínio possui informação acerca dos conceitos nela contidos e

respectivas relações.

Page 49: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

N

const

os tó

pode

ter d

estes

À

mant

pois

espaç

termo

Na f

entre

estip

relaç

2.11

os tó

A

um d

será

Neste mode

trução de u

ópicos man

endo ter div

diversas inte

s tenham sig

À semelhanç

tém-se, emb

considera-

ço dimensi

os associad

figura 2.11

e eles, send

uladas as re

ções do tipo

atribui-se o

ópicos que p

A abordagem

domínio esp

ortogonal.

elo denomin

uma ontolog

ntêm uma

ersas interp

erpretações,

gnificados s

ça do Topic

bora cada t

se que exi

ional. Porta

dos a cada um

[30] é poss

do esta rep

elações que

o is_a, part

o nome de

possui, bem

Figura 2.

m do model

pecífico, se

nado Enhan

gia é feita co

relação hie

pretações, at

isto é, um

emânticos d

c-based Vec

tópico não n

ste uma re

anto, os ân

m, bem com

sível observ

presentação

os tópicos

t_of ou mem

mapa de tó

como as re

11 - Represent

lo eTVSM p

endo que a

nced Topic

om base em

erárquica e

través de ter

tópico pod

diferentes.

ctor Space M

necessite d

elação entre

ngulos entre

mo o nível d

var um con

o incluída

devem man

mber_of. A

ópicos, sen

elações hierá

tação abstracta

permite a in

relação ent

c-based Vec

m tópicos, te

entre eles

rmos a elas

de ter divers

Model, a dim

e ser ortogo

e todos os

e os vector

de relação e

njunto de di

numa onto

nter entre e

o conjunto

do nele rep

árquicas exi

a da relação en

nclusão de d

tre tópicos

ctor Space

ermos e inte

formando u

associados

sos termos

mensionalid

onal em rel

tópicos ex

res de tópi

ntre os mes

iferentes tó

ologia. Ape

les na ontol

de tópicos

presentado o

istentes.

ntre os tópicos

diversos ma

de mapas d

Model (eT

erpretações,

um grafo

s. Um tópico

associados,

dade de cad

lação aos r

xistentes no

icos depend

smos.

ópicos e as

esar de não

logia, são s

ilustrado n

o conjunto

apas de tópi

de tópicos

35

TVSM) a

, em que

acíclico,

o poderá

, embora

da vector

estantes,

mesmo

dem dos

relações

o serem

ugeridas

na figura

de todos

icos para

distintos

Page 50: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

36

A relação entre todos os tópicos servirá para calcular o vector de pesos de cada tópico.

Para cada tópico , é calculado um conjunto ∗ correspondente aos seus super-tópicos,

com base na estrutura hierárquica onde o tópico está inserido. Observando novamente a

figura 2.11, para cada tópico , o seu conjunto de super-tópicos seria:

∗ ,

∗ ,

∗ , ,

∗ , Para o cálculo de cada vector de tópico é necessário estabelecer a diferença entre os

tópicos folha os tópicos não folha. Deste modo obteríamos:

tópicosfolha τ , τ , τ , τ ;

tópicosnãofolha τ , τ , τ .

Com base nos dois tipos de tópico, os passos para calcular o respectivo vector são:

I. Todos os vectores de tópicos folha são calculados pela atribuição do valor 1 a todos

os seus super-tópicos e ao próprio tópico, enquanto os restantes tomam valor 0.

Com base na figura 2.11 teríamos 1,1,1,0,0,1,0 e 1,0,1,0,0,0,1 . É

de referir que cada vector é normalizado posteriormente.

II. Após calculados todos os vectores de tópicos folha, os vectores dos seus super-

tópicos directos são calculados com base na soma dos vectores dos seus sub-tópicos

directos; e assim sucessivamente até atingir a raiz. Com base na figura 2.11, o

vector do tópico seria a soma dos vectores e .

Sendo assim, passará a existir um espaço multidimensional que permite obter os graus de

similaridade entre os diversos tópicos existentes.

Para além de permitir expressar a relação entre os diversos tópicos, a utilização de

ontologias nesta abordagem também lhes permite associar diversos significados

semânticos. Cada tópico pode ter diversas interpretações, e essa distinção é feita através

Page 51: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

dos t

“rail

gené

conc

termo

figur

dois

car”

Exist

calcu

simil

notaç

O ve

A

assoc

conju

termos que

lcar” podem

ricos, atra

retamente a

os e interpr

ra 2.12, a oc

tópicos “a

” ou “autom

tindo diver

ular a simi

laridade en

ção:

Φ, é o co

, é

ector de cada

A represent

ciadas a est

unto de inte

lhes são as

m ter diver

vés do te

aos termos

retações é n

corrência d

utomobile”

mobile” seria

Figu

rsas interpr

ilaridade en

ntre interpr

onjunto de t

0,1 , é o p

o conjunto

a interpreta

tação de ca

te. Cada do

erpretações

ssociados. O

rsas interpr

ermo “car

“auto” ou

o sentido de

o termo “c

” e “railcar

am totalmen

ura 2.12 - Term

retações pa

ntre as div

etações exi

todas as inte

peso da inter

de tópicos

ção pode se

ada docum

ocumento se

presentes n

Observando

retações, in

”, ou hav

u “railcar”

e desambigu

car” não iri

r”, enquant

nte específi

mos, Interpreta

ara cada tó

versas inter

istentes nu

erpretações

rpretação

cuja interpr

er definido c

mento será

erá represen

no mesmo, p

a figura 2.

nclusive ser

ver mais e

”. Portanto,

uar o signif

a fornecer u

o a ocorrên

cos quanto

ações e Tópicos

ópico, esta

rpretações.

um mapa d

;

∈ Φ ;

retação e

como:

baseada no

ntado por u

por intermé

12, os tópic

rem tratado

especificida

o objectiv

ficado de ca

uma grande

ncia de term

ao seu signi

s em [30]

abordagem

Portanto,

de tópicos,

está associa

os vectores

um vector q

dio de um c

cos “autom

os por term

ade e refe

vo da utiliz

ada termo. A

e especificid

mos como “

nificado sem

m também

para o cál

temos a

ada.

s de interp

que corresp

conjunto de

37

mobile” e

mos mais

erirem-se

zação de

Ainda na

dade aos

“railway

mântico.

permite

lculo de

seguinte

2.5

pretações

ponde ao

e termos.

Page 52: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

38

O cálculo desse vector consiste na soma de todos os vectores de interpretações que tenham

associados termos existentes no conteúdo do documento.

1

⟹ 1com , .

2.6

Em que , representa o peso da interpretação i no documento d. O grau de similaridade

entre documentos será calculado com base no co-seno do ângulo entre os dois vectores:

,

1

, .

, . ∈

1

, , . ∈

2.7

Este modelo (eTVSM) possui algumas vantagens relativamente ao TVSM, mais

especificamente em relação à detecção de fenómenos linguísticos, pois o uso de

interpretações permite que estes sejam detectados. Fenómenos linguísticos entre termos de

um texto, tais como homografia13, metonímia14 e grupos de palavras são agora possíveis de

detectar com o eTVSM. O uso de ontologias serve precisamente para representar as

diversas interpretações que um tópico pode ter, permitindo também a representação da

relação entre os termos.

Em alternativa à abordagem acima descrita, em [9] é apresentada uma outra abordagem

de classificação de textos baseada numa ontologia que comporta uma hierarquia de

conceitos, sendo que cada conceito representa uma classe a que um documento pode

pertencer. Na ontologia, cada conceito tem apenas associado o seu próprio nome, sendo

utilizado um léxico de sinónimos para obter melhores resultados. Para o cálculo dos

vectores correspondentes a cada classe, é calculado um peso correspondente a cada

conceito na ontologia (tendo em conta que conceitos que são nós folha possuem um peso

igual a 1):

13 Diz-se de ou palavra que, com sentido e pronúncia diferentes, se escreve do mesmo modo que outra. 14 Figura de retórica que consiste no emprego de uma palavra por outra que a recorda.

Page 53: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

Com

1 e a

Para

do p

dime

Utiliz

docu

(term

/

conceito

/

um dos s

m base no ex

altura 4, tom

1/4

0.2

cada conce

próprio con

ensionalidad

zando a m

umento, em

m frequency)

, em que

;

/ , em qu

seus descen

xemplo da fi

maria os segu

4

25/2 = 1/3

Figura 2.1

eito na onto

nceito e d

de dos vecto

mesma dim

m que o pes

y) no próprio

h denota a

ue n corresp

dentes; O v

figura 2.13,

uintes valor

32

13 - Exemplo d

logia será c

de todos o

ores corresp

ensionalida

so de cada

o document

a profundida

ponde ao nú

valor de K é

o conceito

res:

de hierarquia d

construído u

os respectiv

ponde ao nú

ade, é cons

conceito é

to.

ade e H a

úmero de n

uma consta

“Antisepsis

de conceitos na

um vector co

vos sub-co

úmero de co

struído um

representa

altura do n

nós no maio

ante (K=2).

”, cujo nó p

a Ontologia [9]

om base na

nceitos. É

onceitos exi

vector pa

ado pela oc

nó que repr

or caminho

possui profu

]

a soma do p

de referir

istentes no d

ara represen

corrência de

39

esenta o

de n até

undidade

eso

r que a

domínio.

ntar um

e termos

Page 54: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

40

Todo o

começa

conjunto

aumenta

desta ab

similari

Em

represen

pertence

fórmula

nível de

categori

instânci

Em

supervis

procedime

a com uma

o de termo

ar o reconh

bordagem u

dade entre u

[10] é apr

ntar conceit

er. A parti

a do cálculo

e importânc

ia represent

ia (0.8).

[3] é pr

sionada e n

nto aplicad

fase de pr

s relevante

hecimento d

utiliza o c

um docume

resentada um

tos corresp

icularidade

o de similar

cia que cada

ta na ontolo

roposta um

não-supervi

Figura 2.14 - A

do na abord

ré-processam

s. A presen

de termos pr

álculo do c

ento e um co

ma abordag

ondentes às

desta técn

ridade entre

a categoria p

gia, e varia

ma abordag

isionada, at

Arquitectura g

dagem [9] p

mento do t

nça de um

resentes na

co-seno do

onjunto de c

gem que ut

s diversas

nica é que

e cada cate

possui. O p

caso esta s

gem para

través da c

geral em [9]

pode ser obs

texto do do

léxico de s

ontologia.

os ângulos

classes.

tiliza uma

categorias a

permite ad

goria e o d

parâmetro re

eja uma cla

auxiliar p

criação de

servado na

ocumento, q

sinónimos s

O processo

dos vector

ontologia d

a que um d

dicionar um

documento,

epresenta o

asse (0.2), su

processos d

ontologias

figura 2.14

que resulta

serve para t

o de classific

res para ob

de domínio

documento

m parâmetr

representan

tipo de nó

ubclasse (0.

de classific

que descr

4, que

num

tentar

cação

bter a

o para

pode

ro na

ndo o

que a

.5) ou

cação

revam

Page 55: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

41

domínios específicos. Embora não seja o âmbito deste trabalho, é de referir que as próprias

ontologias de domínio são também construídas num processo suportado pela mesma

abordagem. Portanto, as ontologias de domínio serão utilizadas como fonte de informação,

no sentido de melhorar o processo de categorização de textos. Esta é uma abordagem

híbrida, pois baseia-se em termos extraídos de documentos, sendo complementada com a

correspondência de conceitos contidos na ontologia.

Numa primeira fase, cada documento será representado por um vector cuja dimensão

será o conjunto dos termos nele contidos. Para tal, serão aplicadas técnicas de radicalização

através do algoritmo de Porter [8], remoção de palavras não interessantes, sendo que

palavras que possuam uma ocorrência muito baixa serão também removidas, justificando a

sua remoção por não possuírem poder de descriminação para o respectivo documento. O

peso de um termo no documento é representado através da métrica tf.idf (ver fórmula 2.1).

O processo de interacção com a ontologia consiste na construção de um novo vector

com os conceitos presentes no documento, por intermédio de um conjunto de termos. Ao

vector inicial do documento, será concatenado este novo vector de conceitos, resultando

numa melhor representação do documento.

De modo a serem extraídos todos os conceitos da ontologia contidos num documento,

os procedimentos a efectuar são:

I. Detecção de Termos Candidatos;

II. Validação de Padrões Sintácticos;

III. Transformações Morfológicas;

IV. Desambiguação;

V. Generalização.

No módulo de detecção de termos candidatos, todo o conteúdo textual do documento será

analisado e todos os termos associados a conceitos na ontologia serão extraídos através de

uma janela deslizante que percorre todo o conteúdo do documento. Sendo feita uma análise

morfossintáctica ao conteúdo da janela deslizante, só será feita uma interrogação à

ontologia acerca das expressões gramaticalmente válidas, evitando um conjunto de

interrogações desnecessárias. O processo de transformação morfológica permite a

interrogação à ontologia do termo original encontrado no documento, e caso este não seja

encontrado, a sua forma primitiva será utilizada para efectuar nova interrogação. Caso seja

Page 56: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

42

retornado mais que um resultado, será efectuado um processo de desambiguação;

recorrendo ao WordNet [21], este poderá retornar um conjunto de sinónimos para um

termo. Por último, existe um processo de generalização dos conceitos da ontologia

encontrados no documento, em que ao peso de cada conceito, será adicionado o peso de

todos os seus sub-conceitos cujos termos também ocorram no documento. Como resultado

final, é obtido um vector composto por termos extraídos do documento, resultantes de um

conjunto de técnicas de processamento de texto, concatenado com um vector construído

com base numa ontologia.

Em [19] é proposto um sistema de classificação de tópicos para documentos web,

utilizando as categorias do motor de busca Yahoo! como uma ontologia que contém

diversas categorias sob a forma hierárquica. Nesta abordagem a WordNet é utilizada como

base de dados linguística, servindo de base de informação para uma estrutura de dados

auxiliar, sendo encarada como uma extensão do conjunto de categorias existentes no

Yahoo!. Os fenómenos linguísticos utilizados nesta abordagem são os sinónimos,

hiperónimos/hipónimos15 e merónimos/holónimos16. Todo o processo de identificação de

tópicos abrange três fases distintas:

Módulo de Extracção;

Módulo de Mapeamento;

Módulo de Optimização.

No processo de extracção, o conteúdo textual dos documentos web é obtido, para

posteriormente ser-lhe aplicada uma técnica de radicalização e de anotação de texto. O

processo de anotação resulta das informações que estão contidas na estrutura auxiliar, de

modo a que se possa associar a cada termo obtido mais informação linguística. O processo

de mapeamento é efectuado com base no conjunto de termos obtidos no módulo de

extracção, e consiste na procura de correspondência entre cada termo e as categorias

existentes. Como podemos observar na figura 2.15, todas as informações linguísticas de

cada termo serão utilizadas apenas no caso de não existir um mapeamento para o mesmo.

15 Um hipónimo é uma palavra com um significado mais específico que um hiperónimo (ex: cenoura é hipónimo de legume) 16 Um merónimo é uma palavra que designa parte de outra, enquanto o holónimo é considerado um todo (ex: os camisa é holónimo de punho)

Page 57: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

A dis

peso

docu

2.3.5

O

auxil

19],

domí

própr

tratam

aplic

numa

N

abord

infor

infor

extra

proce

termo

descr

scriminação

s e, para ta

umento. Nos

5 Conclusõ

O conceito

liar no proc

as ontolog

ínio específ

rio docume

mento de te

cação dessa

a ontologia

Não obstant

dagens em

rmação, com

rmação em

aídos dos te

essamento d

os a serem

ritas até ago

Figur

o da import

al, é utilizad

s casos em q

ões

ontology-b

cesso de cla

ias são utili

fico, bem c

ento. Uma

exto, envolv

s mesmas t

de domínio

te a utiliza

m que a pr

mo é o cas

que a pró

xtos. Portan

de texto, é

m extraídos

ora, isto é, a

ra 2.15 - Mape

tância de ca

do o tipo de

que o mape

based reside

assificação e

izadas no se

como permi

abordagem

vendo algum

técnicas ser

o.

ação de ab

rópria onto

o da abord

ópria ontolo

nto, ao invé

a própria in

. O ontoX

a consulta à

eamento de ter

ada termo e

e mapeamen

amento reco

e na capac

e, tal como

entido em q

item o cálc

m ontology

mas técnica

rá um conju

bordagens o

ologia cond

dagem ontoX

ogia possui

és de existir

nformação

X possui um

à ontologia

rmos e conceito

ncontrado é

nto que foi

orre ao Wor

cidade da o

foram desc

que fornece

culo dos ve

y-based est

as referidas

unto de ter

ontology-ba

duz todo

X [5], uma

i informaçã

r primeiram

contida na

ma arquitec

é o primeir

os em [19]

é feita atrav

efectuado p

rdNet, o seu

ontologia c

critas nas ab

m todo o co

ectores de c

tá aliada a

na secção

rmos, poster

ased, existe

o processo

metodolog

ão acerca d

ente a aplic

ontologia q

tura diferen

ro processo

vés da atribu

para cada t

u peso é red

constituir u

bordagens [

onheciment

cada catego

a um proc

2.1. O resu

riormente m

em outros t

o de extra

gia de extra

dos dados

cação de téc

que define

nte das qu

a ser efectu

43

uição de

termo no

duzido.

um meio

[3, 9, 10,

to de um

oria e do

cesso de

ultado da

mapeado

tipos de

cção de

acção de

a serem

cnicas de

quais os

ue foram

uado, de

Page 58: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

44

modo a serem criadas regras de extracção de termos num texto. Na ontologia estarão

associadas a cada termo um conjunto de atributos que permitam descrevê-lo e detectá-lo

num texto.

No contexto deste trabalho, a utilização de ontologias para a descrição de um domínio

específico é relevante, pois a construção da mesma deve ser efectuada de maneira a que um

conjunto de classes seja suficientemente representativo, para que a classificação não seja

induzida em erro.

À semelhança de algumas abordagens descritas [9, 30] nesta secção, deve-se ter em

conta que a ontologia é utilizada no sentido de reduzir o espaço dimensional de cada

vector, mas também para permitir uma multi-dimensionalidade num espaço vectorial,

concedendo um relacionamento tanto ao nível de tópicos como de termos. Tal

relacionamento poderá ainda fornecer informações linguísticas acerca dos termos

existentes na ontologia.

A utilização de léxicos para reduzir o número de termos numa ontologia também deve

ser tida em conta, pois pode ser uma solução para situações cujo domínio envolva um

conjunto elevado de termos. Nesse caso perde-se parte da detecção de fenómenos

linguísticos através da ontologia, embora se elimine a sobrecarga de termos na mesma,

simplificando a representação de um domínio na ontologia.

2.4 Medidas para avaliar Classificadores

No sentido de avaliar este trabalho, esta secção apresenta algumas medidas utilizadas

para avaliar o desempenho de um classificador.

2.4.1 Precisão (Precision) e Abrangência (Recall)

Normalmente estas duas medidas são utilizadas em conjunto, no sentido em que

fornecem informações complementares. Precisão (Precision) é uma medida usada para

avaliar a taxa de exactidão da classificação, enquanto a Abrangência (Recall) avalia a

completude do classificador. Para tal, é necessário ter a noção de alguns conceitos, tais

como:

Verdadeiro Positivo (VP);

Falso Positivo (FP);

Page 59: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

45

Verdadeiro Negativo (VN);

Falso Negativo (FN).

No contexto deste trabalho, os verdadeiros positivos são todas as comunicações que

pertencem a um conjunto de classes e são preditas como tal; ao contrário dos falsos

positivos, que são preditos com uma classe à qual não pertencem. Os verdadeiros negativos

são comunicações classificadas como não pertencendo a uma classe, sendo que

efectivamente não pertencem. Por último, os falsos negativos correspondem a todas as

comunicações que pertencem a uma classe, embora o classificador não as classifique como

tal. O cálculo das medidas de Precisão e Abrangência utiliza os conceitos acima descritos

para uma dada classificação. As medidas de Precisão e Abrangência são representadas por:

ã 2.8

ê 2.9

Normalmente estas duas medidas são apresentadas em conjunto, no sentido de

apresentarem informações complementares, sendo que a medida de Precisão não fornece

informação acerca dos falsos negativos, enquanto o Abrangência não possui informação

acerca dos falsos positivos. É desejável que tanto a medida de Abrangência como a de

Precisão devolvam valores próximos de 1, o que significa que a técnica de classificação

apresenta bons resultados em termos de exactidão e completude.

2.4.2 F-Measure

Tal como descrito na sub-secção anterior, as medidas de Precisão e Abrangência são

usadas em conjunto, de forma a apresentarem o complemento uma da outra; em alternativa

pode ser utilizada a medida F-Measure que resulta da conjugação das duas medidas acima

descritas.

2 ã êã ê

2.10

Page 60: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

46

Esta medida é considerada uma média harmónica em função das medidas de Precisão e

Abrangência. A medida F-Measure tem simultaneamente em consideração para cada

classe, os falsos positivos, bem como os falsos negativos.

2.4.3 Matriz de Confusão

A matriz de confusão, conforme ilustrada na figura 2.16, é bastante utilizada em

processos de classificação, e consiste numa matriz , em que corresponde ao

número de classes existentes:

Classificação

Classe 1 Classe 2 … Classe N

Classe 1 d1,1 d1,2 … d1,N

Classe 2 d2,1 d2,2 … d2,N

… … … … …

Classe N dN,1 dN,2 … dN,2

Figura 2.16 - Matriz de Confusão para N classes

Para cada posição numa linha, à excepção da diagonal, esta representa o número de

classificações incorrectas; por exemplo, a posição d2,1 corresponde ao número de

documentos classificados como pertencentes à classe 2, quando na realidade pertencem à

classe 1. A diagonal da matriz representa o número de documentos bem classificados para

cada classe.

A medida de exactidão é considerada uma medida global relativamente a um

classificador, que consiste na fracção de documentos bem classificados. Esta medida pode

ser obtida, através do somatório dos valores da diagonal da matriz de confusão dividido

pelo somatório de todos os documentos classificados.

Page 61: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

3. A

E

porm

entid

segue

exist

3.1

O

menc

menc

recon

exist

de or

própr

class

negó

Abordage

Este capítulo

menorizada

dades e exp

e um carác

tindo nenhu

Reconheci

O reconhecim

cionadas, e

cionadas po

nhecimento

tam sempre

rganizações

rio nome i

sificador ser

ócio se mant

em Seguid

o apresenta

de todos o

pressões rel

cter genéric

um módulo e

imento de E

mento de en

entidades e

ode ser vista

o abrange en

algumas ca

s. A detecçã

indica, é to

rá integrado

tenha de org

Figura

da

a a abordag

os módulos

evantes e a

co, ou seja

especialmen

Entidades e

ntidades e e

expressões

a como o su

ntidades ma

ategorias qu

ão de entidad

otalmente o

o, possibilit

ganização p

a 3.1 – Esquem

gem seguid

s que a com

a técnica de

a, é aplicáv

nte desenvo

e Expressõe

expressões

s específica

ub-módulo m

ais comuns

ue serão ma

des ou expr

orientada à

ando algum

para organiz

ma de Entidades

a neste trab

mpõem, in

e classificaç

vel a qualq

olvido para u

es relevant

relevantes c

as de domín

mais genéric

para a mai

ais relevante

ressões espe

à especifici

ma generalid

zação.

s e Expressões

balho, fazen

cluindo o

ção utilizad

quer tipo de

um domínio

es

cinge-se a t

nio. A dete

co desta abo

oria das org

es para cert

ecíficas de d

idade da or

dade em situ

Relevantes

endo uma d

reconhecim

da. Esta abo

e organizaç

o em concre

três tipos: e

ecção de e

ordagem, po

ganizações,

tas áreas de

domínio, tal

organização

uações cuja

47

descrição

mento de

ordagem

ção, não

eto.

entidades

entidades

ois o seu

, embora

negócio

l como o

onde o

a área de

Page 62: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

48

Com

está div

existind

Nas

detecção

3.1.1 E

Tal

mencion

depende

possibil

conside

mencion

permite

é impor

sua imp

respecti

Categor

O g

clarame

uma es

organiza

mo podemos

vidida em d

do ainda par

três sub-s

o de cada u

Entidades M

como desc

nadas perm

endo do co

lidade e a

rado o me

nadas pelo

m a detecçã

rtante, pois

plementação

ivas regras d

rias mais r

grau de rele

ente do con

scolha das

ações:

s observar n

dois segmen

ra este últim

secções seg

m dos tipos

Mencionad

rito na sub

mite detectar

ontexto ond

doptou-se

elhor siste

Segundo

ão e anotaçã

além de per

o (figura 3

de detecção

Figura 3.2 -

relevantes

evância qu

ntexto onde

categorias

na figura 3.

ntos, um de

mo uma divi

guintes serã

s de entidad

das

-secção 2.2

r um conjun

de estas estã

a sua util

ma de rec

HAREM, f

ão de textos

rmitir detec

3.2), permit

o.

- Categorias de

e cada cat

o classific

s considera

1, a detecçã

carácter ge

isão entre en

ão apresent

des e expres

2.1, uma téc

unto de enti

ão inserida

lização nes

conhecimen

fornece tam

s para um d

ctar um vast

te também

e classificação

tegoria de

cador será i

adas mais

ão de entida

enérico e ou

ntidades e e

tadas as ab

sões relevan

cnica de re

dades relev

as. O sistem

ste trabalho

nto e de c

mbém um

domínio esp

to conjunto

a introduç

do sistema Re

entidade m

integrado. A

importante

ades e expre

utro de dom

xpressões.

bordagens s

ntes.

econhecimen

vantes prese

ma Rembran

o, pois alé

classificaçã

conjunto d

ecífico. O u

de entidade

ção de nov

mbrandt

mencionada

Assim send

es no cont

essões relev

mínio espec

seguidas p

nto de entid

entes num t

ndt fornece

ém de ter

ão de entid

de métodos

uso deste sis

es já incluíd

vas categor

possui dep

do, foi efec

texto geral

vantes

cífico,

ara a

dades

texto,

e essa

sido

dades

s que

stema

das na

rias e

pende

ctuada

l das

Page 63: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

49

LOCAL;

ORGANIZAÇÃO;

PESSOA;

TEMPO;

VALOR.

Uma vez que este sistema não foi concebido originalmente para o âmbito empresarial, as

restantes categorias não referidas acima foram consideradas de índole geral, e não tão

adequadas para as organizações, daí ter-se optado por dar especial atenção às cinco

categorias acima referidas, bem como os respectivos tipos e subtipos. É ainda de referir

que a detecção de entidades das categorias “Pessoa” e “Local” ainda está muito debilitada,

tanto pelo facto das regras que constituem a sua detecção não estarem muito desenvolvidas

no Rembrandt, quanto pela dificuldade que existe na detecção de nomes de pessoas ou

locais num texto, pois estes podem ser escritos de diversas formas, tornando mais difícil o

seu reconhecimento.

Não utilização da Wikipédia/DPpedia

No sentido de obter melhores resultados classificativos, o Rembrandt faz uso da

Wikipédia e DBpedia, em que para cada entidade mencionada candidata serão feitas

interrogações a estas bases de conhecimento. Embora esse componente

“Wikipédia/DBpedia” seja uma mais-valia em termos de classificação, optou-se pela sua

exclusão, pois para tal seria necessário que o classificador contivesse uma base de dados

relacional com todos os dados da Wikipédia, bem como uma conexão à DBpedia.

A opção de excluir este módulo residiu essencialmente no facto deste causar alguma

degradação de desempenho no reconhecimento de entidades mencionadas num texto, o que

prejudicaria a técnica de classificação em geral. Das cinco categorias de entidades

mencionadas que neste trabalho foram consideradas mais importantes, a categoria “Local”

será a mais afectada, no sentido de devolver resultados menos positivos devido ao facto do

módulo “Wikipédia/DBpedia” não estar a ser utilizado. De modo a contornar esse

problema, poderão existir melhores soluções, como por exemplo a inclusão de informação

acerca de localidades na própria implementação do Rembrandt, evitando o recurso a uma

base de dados com toda a informação da Wikipédia portuguesa, bem como interrogações à

DBpedia em tempo real. Uma das soluções seria serializar a informação no próprio

Page 64: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

50

Rembra

dados r

freguesi

obter to

Emb

referir q

casos d

devido à

Criação

Em

que o co

“Contac

reconhe

pode se

dos vári

T

F

T

E

U

De mod

“Contac

17 http

andt, sendo

relacionadas

ias. Por ex

odos os distr

Fig

bora se tenh

que caso se

de organiza

à utilização

o de novas

termos de c

ontexto do

ctos” no

ecimento de

er obtido atr

ios tipos de

TELEFONE

FAX;

TELEMÓV

ENDEREÇ

URL.

do a haver

cto” foram

p://www.w3.or

esta obtida

s com loca

xemplo, pod

ritos existen

gura 3.3 - Con

ha optado

justifique

ações cujas

o deste módu

Categorias

criação de n

classificado

conteúdo

e pessoas o

ravés dos se

contacto, n

E;

VEL;

ÇO ELECTR

distinção e

m criados

rg/TR/rdf-sparq

a com consu

alidades, ma

demos obse

ntes em Port

sulta SPARQL

pela não ut

a sua utiliz

categorias

ulo no Remb

s e Regras

novas regras

or são as org

de uma c

u organizaç

eus contacto

nomeadamen

RÓNICO;

entre os div

os tipos

ql-query/

ultas SPAR

ais concreta

ervar na fig

tugal.

L para obter to

utilização do

ação, esta p

s mais rele

brandt.

s para detec

ganizações,

comunicaçã

ções numa

os. Para tal

nte:

versos tipo

“Telefone

RQL17 à DB

amente cida

gura 3.3 um

odos os distrito

o módulo “

pode ser rea

evantes reto

cção de enti

, considerou

ão, pois é

comunicaç

l, foram cria

os de conta

e”, “Fax”,

pedia, para

ades, distrit

ma consulta

os de Portugal

“Wikipédia/

activada, po

ornem melh

idades menc

u-se relevan

é de gran

ão, o que e

adas regras

cto, associa

“Telemóv

a obter apen

tos, concelh

a SPARQL

/DBpedia”,

ois podem s

hores resul

cionadas, e

nte a detecç

nde utilidad

em muitos

de identific

ados à cate

vel”, “End

nas os

hos e

L para

é de

surgir

ltados

dado

ção de

de o

casos

cação

egoria

dereço

Page 65: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

Elect

conta

Todo

categ

detec

U

módu

traze

locai

de re

acerc

categ

onde

com

evidê

exter

local

A

categ

trónico” e “

a diversas e

Indicativ

Nomes o

O númer

Formato

Formato

os estes fa

goria, sendo

cção de enti

Uma vez qu

ulo “Wikip

er vantagen

is poderá ca

egras de det

ca de local

goria “Loca

e o classifica

o mesmo f

ências inte

rnas, sendo

lidade imed

A introduçã

goria “Loc

“Url”. Para

evidências n

vos nacionai

ou abreviatu

ro de caract

de endereç

de endereç

actores fora

o possível

idades da ca

Figura 3.

ue o reconh

pédia/DBped

ns a este tra

ausar à detec

tecção de có

idades, sen

al”. Obviam

ador se inse

formato, pa

ernas. Caso

o que a prin

diatamente a

ão da cate

al” foram

a criação d

no texto, nom

is e internac

uras imediat

eres que co

ço de correio

ços web.

am conside

observar na

ategoria “Co

.4 - Exemplo d

hecimento d

dia”, consid

abalho, col

cção de enti

ódigos posta

ndo esta con

mente que a

ere, pois ba

ara que este

o tal acont

ncipal regr

a seguir ao c

goria “Con

considerad

das regras d

meadament

cionais;

tamente ant

ompõe um q

o electrónic

erados aqua

a figura 3.4

ontacto”.

de evidências p

de locais fi

derou-se qu

lmatando al

idades men

ais para que

nsiderada u

a detecção

sta existir u

e não possa

teça, dever

ra a utilizar

código posta

ntacto” e d

das de car

de detecção

e:

tes do conta

qualquer con

co;

ando da cr

4 um exem

para a categori

ficou mais d

ue a detecçã

lgumas falh

cionadas. P

e se possa c

um tipo (“C

de códigos

um tipo de e

a ser detect

riam ser t

r seria a pr

al.

do tipo “C

rácter gené

o de contact

cto;

ntacto;

riação das

mplo de evid

a "Contacto"

debilitado c

ão de códig

has que o

Portanto, opt

captar mais

Código Pos

s postais de

entidade esp

tado somen

ambém uti

resença de

Código-Post

érico, e út

tos, foram t

regras des

dências tex

com a excl

gos postais

reconhecim

tou-se pela

alguma inf

stal”) perten

epende do

pecífica de

nte através d

ilizadas ev

um nome

tal” pertenc

teis para q

51

tidas em

sta nova

xtuais na

lusão do

poderia

mento de

inclusão

formação

ncente à

domínio

domínio

das suas

vidências

de uma

cendo à

qualquer

Page 66: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

52

organiza

Rembra

3.1.2 E

Tal

totalmen

portanto

categori

classific

integrad

todas as

O p

necessit

essencia

sendo q

permitin

organiza

entidade

Alguma

classific

M

N

N

N

ação, sendo

andt.

Entidades E

como foi d

nte depende

o, é de refe

ias para re

cador. O m

do no própr

s entidades e

procediment

tará sempre

al efectuar u

que a melh

ndo assim a

ação. Tal c

es específic

Figura 3

as das pos

cador são:

Matrícula;

Número de

Número de

Número de

o vistas com

Específicas

descrito no i

entes da áre

erir que esta

epresentar e

módulo de

rio sistema

específicas

to de inte

e de uma m

um estudo a

hor solução

a obtenção

como ilustra

cas de domín

3.5 - Interacção

ssíveis ent

Conta Banc

Identificaç

Identificaç

mo uma mai

de Domíni

início desta

ea de negóci

a abordagem

entidades e

reconhecim

Rembrand

de domínio

gração do

metodologia

acerca da ár

passará pe

de todas a

a a figura

nio, respect

o entre Consult

tidades esp

cária;

ão de Clien

ão de Proce

is-valia para

io

a secção, as

io ou organ

m permitirá

specíficas

mento de e

dt, de modo

o inerentes a

módulo d

de interacç

rea de negóc

ela interacç

as entidades

3.5, todo e

tivas catego

tor do Classifi

pecíficas d

nte ou Utent

esso;

a este trabal

s entidades

nização onde

á sempre a g

de domínio

ntidades es

o a que sej

ao contexto

de entidade

ção com a o

cio onde o c

ção com um

s específica

este process

rias e evidê

cador e o Espe

de domínio

te;

lho e para o

específicas

e o classific

geração de

o, mediante

specíficas d

a permitida

do classific

es específic

organização

classificado

m especiali

as de domín

so resulta n

ências intern

ecialista do Do

o que poss

o próprio sis

s de domíni

cador se ins

novas regr

e o context

de domínio

a a definiçã

cador.

cas de dom

o e, para tal

or será integ

ista de dom

nio existent

num conjun

nas e extern

omínio

sam integr

stema

o são

ere e,

ras ou

to do

o está

ão de

mínio

l, será

grado,

mínio,

tes na

nto de

nas.

rar o

Page 67: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

53

Número de Série de Produto;

Número de Modelo de Produto.

Tal como é possível constatar através dos exemplos enumerados acima, a participação de

um especialista de domínio é bastante importante, não só ao nível da detecção dos tipos e

formatos das entidades (evidências internas), como na detecção de todas as evidências

externas para cada tipo de entidade. Normalmente, a detecção deste tipo de entidades é

feita através da conjugação de uma expressão regular com texto imediatamente antes ou

depois da mesma.

As entidades específicas de domínio costumam ser identificadas e consideradas

importantes para os sistemas de informação das organizações; no contexto deste trabalho

este tipo de entidades serve de base informativa para um processo de pesquisa e navegação

nas comunicações, que resulta numa de duas teses também envolvidas neste projecto. É

também de referir que estas mesmas entidades são igualmente relevantes para a técnica de

classificação dos propósitos de uma comunicação, sendo esta explicitada em detalhe na

secção 3.2.

3.1.3 Expressões Específicas de Domínio

As expressões específicas de domínio consistem em todos os termos simples ou

compostos associados ao contexto onde o classificador será integrado, isto é, um conjunto

de palavras relacionadas com uma área de negócio ou organização. À semelhança das

entidades específicas de domínio, o reconhecimento deste tipo de expressões terá

igualmente dois objectivos: o primeiro está relacionado com pesquisa de comunicações,

em que todas as palavras relevantes detectadas numa comunicação serão tidas em conta

para pesquisa, sendo que o segundo objectivo está relacionado com o processo de

classificação, existindo um efeito de discriminação do propósito de uma comunicação,

inerente a algumas expressões específicas de domínio detectadas. Tal como na técnica de

reconhecimento de entidades específicas de domínio, também este módulo foi incluído no

sistema Rembrandt.

Utilização de uma técnica de Radicalização

Tal como foi descrito na sub-secção 2.1.4, o objectivo de uma técnica de radicalização

é a redução de um termo ao seu radical, eliminando o seu prefixo e sufixo. Neste trabalho,

Page 68: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

54

a utilização desta técnica permite a detecção das diversas formas verbais ou morfológicas

para cada expressão existente na ontologia e, para tal, foi utilizada uma versão portuguesa

do algoritmo de Porter18. Apesar da utilização desta técnica poder prejudicar a obtenção de

algumas expressões, no geral observou-se uma melhoria significativa na detecção de

expressões da mesma natureza ou forma verbal. O seu uso permitiu apenas a associação de

substantivos ou verbos no infinitivo na ontologia, possibilitando a detecção de qualquer

palavra da mesma família numa comunicação. Por exemplo, quando nos referimos a um

conceito “Pedido”, basta associar o termo “Pedir” na ontologia para conseguir um vasto

conjunto de palavras da mesma família. A utilização desta técnica de radicalização foi vista

como uma mais-valia neste trabalho, uma vez que permite a detecção de qualquer forma

verbal de um termo, tornando a associação de termos a conceitos na ontologia muito mais

simples, possibilitando a detecção de um vasto conjunto de termos que não se encontrem

na ontologia.

De modo a tentar abranger o maior número de expressões numa comunicação, é feito

ainda um processamento de cada expressão contida na ontologia, permitindo que qualquer

letra que a componha seja detectada em maiúsculas ou minúsculas; por exemplo, para o

termo “Pedido”, algumas das expressões que poderiam ser detectadas são: ”pedido”,

“peDido” ou “pedidO”. Este processamento teve de ser incluído nesta abordagem, pois

existem bastantes erros de escrita nas comunicações, e em alguns casos o uso de letras

minúsculas e maiúsculas é desapropriado. O facto do correio electrónico ser em muitos

casos um canal preferencial, ou pelo menos muito significativo, leva à ocorrência de

alguns erros, pois as pessoas são menos cumpridoras em termos de escrita. Para efeitos

deste trabalho, assumimos que a questão dos erros ortográficos já foi tratada, não existindo

nenhuma solução integrada para a resolução desse problema.

3.1.4 Interacção com a Ontologia

A grande fonte de dados do classificador é o módulo das ontologias de domínio,

contendo toda a informação associada à organização, incluindo os conceitos específicos do

domínio, com respectivas entidades e expressões associadas. Como é possível observar na

figura 3.6, nas ontologias de domínio existirão dois níveis: (i) nível “meta”, onde estão

descritas as expressões específicas dos conceitos e as relações entre os mesmos, para o

18 http://snowball.tartarus.org/

Page 69: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

respe

conc

As e

conc

cada

rdfs:L

T

pelo

domí

corre

Para

interr

19

ectivo domí

eitos.

entidades co

eitos na on

um dos co

Label.

Tal como po

módulo das

ínio, bem co

espondam a

qualquer ti

rogação à o

9 Uniform Reso

ínio e (ii) n

Figura 3

orresponden

ntologia, enq

onceitos sob

odemos obse

s ontologias

omo uma re

ao valor de u

Figura 3.7 - I

ipo de entid

ontologia de

ource Identifier

nível “dado

.6 - Níveis "M

ntes ao dom

quanto as e

b a forma d

ervar na fig

s, para que

eferenciação

uma proprie

Interacção entr

dade relevan

e domínio,

os”, onde e

Meta" e "Dados

mínio espec

expressões e

de etiqueta

gura 3.7, o m

seja feita a

o de todo o

edade de um

re os módulos

nte detectad

visando ob

estarão as i

s" na Ontologia

cífico estão

específicas

s, por exem

módulo de c

detecção de

tipo de ent

ma instância

"Classificador

da numa com

bter um URI

nstâncias c

a de Domínio

o sob a form

de domínio

mplo, utiliza

classificação

e expressõe

idades que

a na ontolog

r" e "Ontologi

municação,

I19 que corr

corresponde

ma de instâ

o estão asso

ando a prop

o será “alim

es específica

sejam instâ

gia.

ias"

será efectu

responda à

55

ntes aos

ância de

ociadas a

priedade

mentado”

as de um

âncias ou

uada uma

entidade

Page 70: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

56

detectad

comunic

exista n

Cad

possível

saber qu

na mod

aumenta

além da

conceito

seguinte

Como e

bem com

3.2 Cla

A cl

intermé

da. Esta opç

cações, gua

na ontologia

a conceito

l obter os te

ual o concei

delação da o

ar a probab

as expressõe

os contidos

es expressõe

Figura

está ilustrad

mo os respe

assificação

lassificação

dio de entid

ção tem com

ardando o

a de domínio

presente na

ermos dos c

ito associad

ontologia h

bilidade de

es, as entid

na ontologi

es e entidad

a 3.8 - Exemplo

do na figura

ectivos sinó

de Comun

o de uma co

dades e expr

mo principa

identificado

o.

a ontologia

conceitos d

do a um term

há também

reconhecim

dades especí

ia de domín

des associad

o de termos e e

3.8, cada c

nimos.

nicações

omunicação

ressões espe

al objectivo

or de cada

tem associa

directamente

mo detectad

a preocupa

mento de ex

íficas de do

nio. Por exe

das:

entidades assoc

conceito pos

o consiste n

ecíficas de d

auxiliar um

entidade d

adas divers

e relacionad

do numa com

ação de inc

xpressões es

omínio tamb

emplo, o con

ciadas ao conc

ssui entidad

na análise d

domínio.

ma técnica d

detectada, s

as etiquetas

dos com est

municação.

cluir sinónim

specíficas d

bém se pod

nceito “Aut

eito "Automóv

des e expres

o seu conte

de navegaçã

sempre que

s, sendo tam

te, o que pe

. É de referi

mos, de mo

de domínio.

dem associa

tomóvel” te

vel"

ssões associ

eúdo textua

ão nas

e esta

mbém

ermite

ir que

odo a

Para

ar aos

eria as

iadas,

al, por

Page 71: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

N

princ

propó

o âm

pesso

D

perte

comu

no c

propó

pode

U

comu

class

textu

comu

C

propó

ao c

exist

Aber

dois

Numa organ

cipal foco

ósitos que c

mbito da cla

oais ou de o

De um mod

ence. Um pr

unicação se

conteúdo de

ósitos possí

em pertence

Uma comun

unicação po

sificada com

ual necessár

unicação co

Como resul

ósitos, corre

conjunto de

tem os pro

rtura de pro

propósitos

nização exi

deste traba

corresponda

assificação

outras matér

do geral, o

ropósito é r

erá avaliada

e uma com

íveis para a

r.

nicação pod

oderá ter ma

m mais que

ria para ob

orresponde e

ltado final

espondendo

e propósitos

pósitos “Pe

cesso de Si

em simultân

Figura 3

istem comu

alho as com

am efectiva

seja restrito

rias que nad

propósito d

representado

a, o que sign

municação.

as comunica

de ser clas

ais que um

e um propó

bter apenas

efectivamen

do proces

o à relevânc

s possíveis

edido de M

nistro”, é po

neo, conform

3.9 - Exemplo d

unicações d

municações

amente ao co

o a conteúd

da tenham a

de uma com

do através d

nifica que e

No proces

ações, consi

ssificada c

propósito.

ósito, devem

s um propó

nte a dois pr

sso de cla

cia que o con

s. Por exem

Marcação d

ossível que

rme ilustrad

de uma comun

de entrada,

de entrada

onteúdo das

dos profissi

a ver com o

municação

de um espaç

existirão div

sso de clas

istindo no c

om mais q

Em casos e

mos assum

ósito ou, em

ropósitos di

assificação

nteúdo da c

mplo, assum

de Peritagem

existam co

o na figura

nicação com do

de saída e

a. Para que

s comunica

onais, desc

domínio da

consiste na

ço multidim

versas dime

sificação e

conjunto de

que uma c

em que uma

ir que não

m alternativ

istintos.

é retornad

comunicação

mindo que

m de Sinis

omunicações

3.9:

ois propósitos

e internas,

e sejam ret

ações, é sup

cartando me

a organizaçã

a classe a

mensional, n

ensões para

existe uma

e classes a q

classe, isto

a comunica

houve inf

iva, o cont

do um ran

o possui em

numa orga

stro” e “Pe

s que conte

57

sendo o

tornados

osto que

ensagens

ão.

que esta

no qual a

analisar

lista de

que estas

é, uma

ação seja

formação

eúdo da

nking de

m relação

anização

edido de

nham os

Page 72: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

58

O processo de classificação de uma comunicação deve ter em conta as entidades e

expressões específicas de domínio, pois são elementos que evidenciam a presença de

informação específica de domínio no seu conteúdo; portanto, o processo de classificação

depende efectivamente da detecção de entidades e expressões específicas de domínio.

Poderão existir comunicações em que a presença de apenas uma entidade ou expressão

específica de domínio leve directamente à classificação de um propósito, enquanto

existirão domínios mais complexos, havendo a necessidade conjugar entidades e

expressões específicas de domínio. Por exemplo, num domínio da área automóvel, uma

entidade “matrícula” será pouco diferenciadora numa comunicação, uma vez que a maioria

das comunicações desse domínio poderá conter matrículas, não levando a nenhum

propósito em concreto.

Neste trabalho, o processo de classificação utilizado tem como base o eTVSM

(Enhanced Topic-based Vector Space Model) [30], um modelo baseado em tópicos e

ontologias, permitindo assim estabelecer relações entre conceitos de um domínio

específico. Tal como foi descrito na sub-secção 2.3.4, a utilização de ontologias neste

modelo (eTVSM) permite representar um conjunto de conceitos pertencentes a um

domínio, e relações hierárquicas entre eles, admitindo que um tópico possua diversas

interpretações com termos associados. Uma vez que a detecção de fenómenos linguísticos

não é o principal objectivo deste trabalho, optou-se pela associação de um tópico apenas a

uma interpretação. A vantagem desta opção é a redução da complexidade nos cálculos dos

vectores de cada comunicação ou propósito, uma vez que deixará de ser necessário o

somatório dos vectores das diversas interpretações de cada tópico. Tal como foi acima

mencionado, embora o objectivo fundamental deste trabalho não resida na detecção de

fenómenos linguísticos entre termos, a não existência de diversos significados semânticos

para cada tópico pode ser considerada uma desvantagem na abordagem seguida neste

trabalho.

Cada tópico do modelo eTVSM será um conceito pertencente ao domínio do

classificador, resultando numa relação hierárquica entre os diversos conceitos do domínio

específico. Observando o exemplo da figura 3.10 [30], o conceito “Rato” pode ter duas

interpretações, uma associada à área da informática, e a outra ao mundo animal. Para tal,

podemos incluir diversos termos associados ao conceito “Rato”, representando diversos

significados semânticos para o mesmo conceito.

Page 73: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

Com

que u

interp

figur

Com

de um

mant

consi

assoc

entid

espec

seme

F

mo já foi refe

um tópico n

pretação se

ra 3.10 pass

mo é possíve

m tópico c

têm-se, emb

iderado a su

ciados a tó

dades a tópi

cífica de do

elhança do q

Figura 3.10 - E

ferido, a opç

não possua d

emântica. P

aria a ser m

Figura 3.11 -

el observar

com duas in

bora a mod

ua única in

ópicos, emb

icos, isto é,

omínio, e es

que sucede

Exemplo de Mo

ção de não a

diversos sig

Portanto, uti

modelado da

- Exemplo de M

na figura 3

nterpretaçõe

delação dos

nterpretação

bora neste

, sempre qu

ta esteja ass

com os term

odelação de Tó

associar div

gnificados s

ilizando a n

a seguinte fo

Modelação de

.11, passari

es. As relaç

s conceitos

o. Na aborda

trabalho s

ue numa co

sociada a um

mos.

ópico com dive

versas interp

semânticos,

notação de

orma:

Tópico com um

iam a existi

ções hierárq

seja diferen

agem origin

seja também

omunicação

m tópico, se

rsas Interpreta

pretações a

isto é, que

scrita em [

ma Interpretaç

ir três tópic

quicas e os

nte, já que

nal do eTVS

m permitid

seja encon

erá feita a su

tações

um tópico

possua ape

[30], o exem

ção

cos distintos

s termos as

o próprio

SM os term

da a associ

ntrada uma

ua contabili

59

faz com

enas uma

mplo da

s em vez

sociados

tópico é

mos estão

iação de

entidade

ização, à

Page 74: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

60

O modelo eTVSM permite a utilização de diversos mapas de tópicos, sendo que tópicos

pertencentes a mapas de tópicos distintos são ortogonais entre eles, o que nesta abordagem

será bastante útil, uma vez que a representação de um propósito ou comunicação será

baseada em diversas dimensões, sendo cada dimensão modelada num mapa de tópicos

diferente. Portanto, cada comunicação ou propósito será composto por tópicos presentes

nos diversos mapas de tópicos existentes. O modelo formal para a abordagem seguida

neste trabalho lida com comunicações, propósitos e similaridades entre eles, portanto, à

semelhança da sub-secção 2.3.1, temos a seguinte notação:

C é a representação de um conjunto de comunicações;

c é a representação de uma comunicação de C;

T é um conjunto de tópicos;

é um tópico pertencente a um conjunto de tópicos T;

P é um conjunto de propósitos;

p é a representação de um propósito de P;

sim(c,p) representa a função de similaridade entre uma comunicação ∈ e um

propósito ∈ , que retorna um número real (entre 0 e 1);

, , que é o peso do tópico ∈ , numa comunicação ∈ ;

, , que é o peso do tópico ∈ , num propósito ∈ .

Nas próximas sub-secções serão explicadas as diversas fases da técnica de

classificação; primeiramente será descrita a representação do conteúdo de uma

comunicação, sucedendo-se a representação de um propósito, finalizando com a aplicação

da técnica de similaridade entre uma comunicação e um conjunto de propósitos.

3.2.1 Representação do conteúdo de uma comunicação

O procedimento de análise do conteúdo de uma comunicação consiste num conjunto de

técnicas de processamento de texto, para que no final seja obtido um conjunto de

expressões e entidades, e que seja possível associá-los a tópicos. As diversas fases de pré-

processamento de texto são:

I. Segmentação de Texto;

II. Eliminação de palavras não interessantes;

III. Radicalização.

Page 75: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

61

A técnica de segmentação de texto aplicada neste trabalho resulta na segmentação de

palavras e frases utilizada no Rembrandt. A implementação da técnica de segmentação de

texto no Rembrandt permite efectuar ajustes sempre que necessário, nomeadamente a

adição de abreviaturas para auxiliar o processo de segmentação de frases, bem como o

estabelecimento de novas regras ao nível da segmentação de palavras.

A lista de palavras não interessantes já incluída no Rembrandt terá sempre que ser

revista mediante o domínio do classificador, pois é possível que inclua termos relevantes

dependendo do contexto da classificação, prejudicando dessa forma a detecção de

expressões relevantes. Uma solução para evitar resultados indesejados no processo de

anotação passaria pela não remoção de palavras não interessantes, ou simplesmente aplicar

este processo após o processo de anotação do conteúdo textual das comunicações.

A aplicação das diversas fases de pré-processamento de texto resulta num conjunto de

termos que poderão pertencer ao domínio específico do classificador, e para tal serão

aplicadas técnicas de detecção de entidades e expressões relevantes utilizando o

Rembrandt, pois como já foi referido, este possui métodos que permitem a detecção de

entidades e expressões para um domínio específico. A obtenção de entidades e expressões

relevantes tem como objectivo a sua associação a tópicos contidos nos diferentes mapas de

tópicos das diversas dimensões.

O modelo eTVSM representa documentos na forma vectorial, em que a

dimensionalidade do vector é representada por todos os tópicos existentes nos mapas de

tópicos e, como tal, uma comunicação será representada do mesmo modo, através da

contabilização da presença das diversas expressões e entidades associadas a tópicos.

Portanto, para cada comunicação c contida num conjunto de comunicações C, temos:

∀ ∈ ∶ 1

⟹ | | 1com , .

3.1

O cálculo do vector de uma comunicação resulta da soma de todos os tópicos cujas

respectivas expressões ou entidades estejam presentes no seu conteúdo. A cada vector de

tópico ainda será multiplicado um peso , , que consiste no número de ocorrências do

respectivo tópico numa comunicação (term frequency), multiplicado por um peso

representativo do poder de discriminação do tópico. A escolha desse peso carece de uma

fase de experimentação, sendo esse assunto abordado em detalhe na sub-secção 5.2.3,

Page 76: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

62

acompanhado de resultados experimentais. O processo de construção do vector de uma

comunicação segue os seguintes passos:

I. Reconhecimento de entidades e expressões específicas de domínio;

II. Associação de entidades e expressões específicas de domínio aos Tópicos;

III. Contabilização do número de ocorrências das expressões e entidades na

Comunicação;

IV. Cálculo do vector da Comunicação.

3.2.2 Representação de um Propósito

Dado que o modelo eTVSM foi originalmente concebido para o cálculo de

similaridades entre documentos, cada propósito é considerado um “documento modelo”,

sendo composto pela soma de um tópico de cada um dos mapas de tópicos existentes. Para

tal, é necessário estabelecer um processo de modelação dos propósitos, através de

associações aos diversos mapas de tópicos existentes.

À semelhança da representação dos mapas de tópicos, o conjunto de propósitos é

também representado na ontologia. Portanto, quando o classificador interage com a

ontologia para obter todos os mapas de tópicos, irá também obter o conjunto de propósitos

para o respectivo domínio.

Modelação dos Propósitos

Um dos requisitos na modelação dos propósitos é o estabelecimento de hierarquias

entre tópicos, de modo a permitir classificar uma comunicação com propósitos mais

genéricos ou mais específicos. Na figura 3.12 encontra-se um exemplo da relação

hierárquica entre tópicos de uma dimensão, onde será possível que uma comunicação

contenha expressões ou entidades associadas a tópicos mais genéricos, ou possua uma

especificidade que permita classificá-la com mais precisão, associando entidades ou

expressões a tópicos mais específicos. Para um conjunto de propósitos em que uma das

suas dimensões fosse representada pela hierarquia de tópicos ilustrada na figura 3.12,

teríamos um propósito mais genérico representado pelo “Tópico 1”, enquanto existiriam

três propósitos mais específicos, cada um com os tópicos “Tópico 2”, “Tópico 3” e

“Tópico 4” respectivamente associados.

Page 77: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

Q

tópic

tópic

ou en

será

É

dos t

senti

Q

a com

de c

desce

valor

nega

que p

desca

A

próxi

tópic

dime

mapa

Quando num

cos da mesm

cos; por exe

ntidades qu

o correspon

É de referir

tópicos de

ido.

Quando uma

municação

classificação

endentemen

r do ranking

ativos ao pr

possuam um

artados da c

Após a elab

imo passo

cos existent

ensões difer

as de tópico

Fig

ma comuni

ma descendê

emplo, obse

ue pertençam

ndente ao “T

que o conju

cada dimen

a comunicaç

apresenta e

o de uma

nte, sendo q

g de propó

rocesso de c

m valor de

classificação

boração de

é a associa

es, resultan

rentes. Por

os distintos,

Propósito p

gura 3.12 - Exe

icação exis

ência, o pro

ervando nov

m aos tópic

Tópico 1”.

unto de prop

nsão, mas

ção é classi

fectivament

comunicaçã

que a classi

sitos. É de

classificaçã

similaridad

o obtida.

um conju

ação de cad

ndo num co

r exemplo,

cada propó

p: <dimens

emplo de uma h

stem divers

opósito reto

vamente a f

cos “Tópico

pósitos não

apenas por

ificada com

nte os divers

ão retorna

ificação atr

realçar que

ão de comu

de muito pr

unto de pro

da propósito

njunto de p

para um d

ósito seria re

são 1> <dim

hierarquia de

sos termos

rnado será

figura 3.12,

o 2” e “Tóp

é represent

r um certo

mais que u

sos propósit

uma listag

ribuída à co

e esta opção

unicações, p

róximo do

opósitos pa

o a um tópi

propósitos c

determinado

epresentado

mensão 2>

Tópicos

ou entidad

o correspon

se forem id

pico 3”, o p

tado por tod

conjunto d

um propósito

tos em simu

gem de pro

omunicação

o tomada p

pois poderão

maior resul

ara um dom

ico de cada

com referên

o domínio

o da seguinte

<dimensão

des pertenc

ndente ao p

dentificado

propósito re

das as comb

de tópicos q

to, isto signi

ultâneo. O p

opósitos or

o consiste n

pode fornece

o existir pr

ltado obtido

mínio espec

a um dos m

ncia para tó

onde exist

e maneira:

o 3>

63

centes a

ai destes

s termos

etornado

binações

que faça

ifica que

processo

rdenados

no maior

er falsos

ropósitos

o, sendo

cífico, o

mapas de

picos de

tam três

Page 78: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

64

Cada um

Supond

Automó

Fazendo

dividido

Como p

dimensã

“Peritag

organiza

propósit

havendo

A co

comunic

ma das dim

do que um

óvel” seria:

o a segmen

o em três pa

<

podemos ob

ão que re

gem” é um

acionais. C

tos é feita

o quaisquer

Figura 3.1

onstrução d

cações, isto

mensões dist

m possível

“Pedido d

ntação de di

artes:

<Pedido de

bservar na

epresenta a

dos proces

Com este

mediante o

r tipo de rest

13 – Modelaçã

do vector de

o é, cada pro

intas é um

propósito

de Marcaçã

imensões ou

Marcação>

figura 3.13

a natureza

sos da orga

exemplo, p

os interesse

trições ao n

o do Propósito

e um propós

opósito resu

tópico asso

para uma

ão de Perit

u mapa de

> de <Perit

3, “Pedido

ou intenç

anização, en

pretende-se

es e necess

nível do núm

o “Pedido de M

sito tem reg

ultará na co

ociado a um

a organizaç

agem de Si

tópicos, o p

tagem> de <

de Marcaç

ção do re

nquanto “Si

e demonstr

sidades de

mero de dim

Marcação de Pe

gras mais re

onjugação d

m mapa de tó

ção da áre

inistro”

propósito ac

<Sinistro>

ção” está a

metente da

inistro” é um

rar que a

qualquer o

mensões que

eritagem de Sin

stritas comp

e apenas um

ópicos difer

ea de “Se

cima poder

associado a

a comunic

ma das unid

modelação

organização

e possam ex

nistro”

parativamen

m tópico co

rente.

guros

ia ser

a uma

cação;

dades

o dos

o, não

istir.

nte às

ontido

Page 79: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

65

em cada um dos mapas de tópicos existentes. Cada propósito será composto pela soma dos

vectores dos tópicos pertencentes às diversas dimensões. Portanto, para cada propósito p

contido num conjunto de propósitos P, temos:

∀ ∈ ∶ 1

⟹ | | 1com , .

3.2

A utilização do peso , será semelhante à do vector de uma comunicação (ver fórmula

3.1) e, como tal, será também explicitada em mais detalhe na sub-secção 5.2.3.

Argumentos de um Propósito

Neste trabalho optou-se pela atribuição de um conjunto de argumentos a cada

propósito, ou seja, cada propósito pode conter um conjunto de entidades que podem ser

úteis no processo posterior ao encaminhamento da comunicação. Quando uma

comunicação é classificada com um ou diversos propósitos, mediante os argumentos que

cada propósito possui, e dependendo das entidades que foram detectadas no conteúdo da

comunicação, é feita uma associação das entidades reconhecidas na comunicação

relativamente aos propósitos que resultaram do processo de classificação. Voltando ao

exemplo acima, “Pedido de Marcação de Peritagem de Sinistro” poderia conter os

seguintes argumentos:

Nome do Sinistrado;

Matrícula;

Número de Sinistro.

Se uma comunicação fosse classificada com o propósito “Pedido de Marcação de

Peritagem de Sinistro”, e nessa mesma comunicação fossem encontradas entidades

específicas de domínio “Matrícula” e “Número de Sinistro”, bem como uma entidade

mencionada da categoria “Pessoa”, estas seriam agregadas ao propósito resultante da

classificação, sendo sugeridas como potenciais argumentos.

A utilização de argumentos nos propósitos é bastante útil, pois permite agregar

informação relevante a cada comunicação classificada, o que pode ser muito importante no

processo posterior ao encaminhamento da comunicação.

Page 80: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

66

Com

argumen

3.2.3 C

A té

propósit

comunic

A té

comunic

seno do

e possu

cálculo

mo se pode o

ntos dos pro

Cálculo de

écnica de cl

tos que apr

cação será c

écnica classi

cação, e ou

o ângulo ent

uindo os ve

será efectua

observar na

opósitos tam

Figura 3

Similarida

lassificação

resentem o

comparada

ificativa pre

utro a um p

tre dois vec

ectores refe

ado da segu

a figura 3.14

mbém se enc

3.14 - Modelaç

de entre um

o consiste em

maior gra

com cada u

etende anali

ropósito, se

tores. Após

erentes a ca

uinte maneir

,

4, para além

contra na on

ção de um Pro

ma Comun

m obter pa

au de simila

um dos prop

isar o ângul

endo esta o

s ter sido ca

ada um dos

ra:

1

m dos tópico

ntologia.

pósito na onto

nicação e um

ara cada com

aridade com

pósitos exist

lo entre dois

operação equ

alculado o v

s propósito

1

os, a informa

logia

m conjunto

municação,

m a mesma

tentes.

s vectores, u

uivalente ao

vector de um

s existentes

mação relativ

o de Propós

um conjun

a; para tal,

um pertence

o cálculo d

ma comunic

s no domín

va aos

sitos

nto de

cada

ente à

do co-

cação,

nio, o

Page 81: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

67

1

.

1

, .

, . ∈

1

, , .

3.3

Tal como já foi explicado, o resultado do cálculo de similaridade entre uma comunicação e

um conjunto de propósitos será um ranking ordenado por ordem descendente.

Apesar de não ter sido efectuado neste trabalho, seria interessante a criação de regras

cujo objectivo não fosse retornar apenas os propósitos cujo valor de similaridade fosse o

maior, mas um conjunto de propósitos cujo grau de similaridade se apresentasse próximo

do maior valor de similaridade obtido. A regra inversa também poderia ser aplicada, ou

seja, ser definido um threshold20, para que valores de similaridade pouco significativos não

resultassem em propósitos, sendo retornado um resultado classificativo “indefinido”.

20 Threshold ou limiar é um valor mínimo de alguma quantidade.

Page 82: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

68

Page 83: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

69

4. Implementação

Neste capítulo são apresentadas todas as questões relacionadas com a implementação

deste trabalho, começando pelas tecnologias utilizadas, sendo de seguida apresentados os

detalhes de implementação de cada um dos módulos utilizados, bem como a interacção

entre eles, resultando na arquitectura geral desta abordagem.

4.1 Tecnologias utilizadas

A implementação do sistema Rembrandt foi feita com recurso à linguagem Groovy21

(versão 1.7), portanto, todos os módulos desenvolvidos e incluídos no Rembrandt, bem

como toda a técnica de classificação foram implementados na mesma linguagem. Para

lidar com as comunicações, tanto na técnica de classificação como nas fases de

experimentação, foram utilizadas tecnologias XML, nomeadamente XML e XSLT. Foram

ainda desenvolvidas duas aplicações com interface gráfica em Java SE 622, para que

fossem efectuados testes de modo a obter resultados da classificação.

4.2 Técnicas de Processamento de Texto

Nesta secção será descrito o módulo de processamento de texto, especificando as

questões mais complexas de todos os passos do processamento. Apesar de terem sido

utilizadas algumas técnicas já incluídas na implementação do Rembrandt, estas devem ser

igualmente compreendidas, pois são necessárias algumas alterações, mediante as

necessidades do classificador e respectivo domínio.

Na figura 4.1 pode ser observada a sequência de técnicas de processamento de texto

aplicadas a cada comunicação.

21 http://groovy.codehaus.org/ 22 http://java.sun.com/javase/

Page 84: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

70

Quando

próprio,

secção 4

4.2.1 S

A té

incluída

totalmen

tratamen

de segm

definir a

Apó

estrutur

saber a

indexaç

conteúd

detecção

permitin

outra.

Figu

o o classifi

, de modo a

4.5, o result

Segmentaçã

écnica de s

a na imple

nte orientad

nto de caso

mentação de

abreviaturas

ós o process

ras de index

sua localiz

ção é muito

do de uma c

o em duas

ndo que um

ura 4.1 - Esque

icador rece

a obter dire

tado final da

ão de Texto

segmentaçã

ementação

do às categ

s específico

e frases, a té

s para cada

so de segme

xação para

zação exacta

o important

comunicaçã

frases dist

m termo com

ema da aplicaç

epciona um

ectamente o

a classificaç

o

ão de texto

original d

gorias das e

os para cada

écnica de se

entidade, d

entação ser e

cada frase e

a no conteú

te, pois pe

ão e, caso o

tintas, isto

mposto seja

ção das Técnica

ma comunic

o seu título

ção também

o utilizada

do Rembran

entidades qu

a tipo de ent

egmentação

de modo a ev

efectuado, o

e respectivo

údo textual

ermite detec

o termo sej

é, a detec

a detectado

as de Processa

cação, esta

e conteúdo

m é retornad

neste traba

ndt. O pro

ue o Rembr

tidade. De m

o de texto u

vitar falsas

o próximo p

os termos q

de uma com

ctar a posi

ja composto

cção de term

no final de

mento de Text

vem num

. Tal como

o em forma

alho corresp

ocesso de

randt detec

modo a mel

usada neste

terminações

passo consis

que a comp

municação.

ção de qua

o, não será

mos é feita

e uma frase

to

m formato

será descri

ato XML.

ponde à té

segmentaç

cta, permitin

lhorar o pro

trabalho pe

s de frases.

ste na criaç

põem, de mo

Este sistem

alquer term

permitida

a por frase

até ao iníc

XML

ito na

écnica

ção é

ndo o

ocesso

ermite

ção de

odo a

ma de

mo no

a sua

e, não

cio de

Page 85: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

É

comu

serão

temo

segm

Com

obtiv

Porta

frase

É de referir

unicação, p

o independe

os um exem

mentação de

mo resultado

vemos a seg

anto, a cad

es que a com

r que o cl

portanto, qu

entes daque

mplo de u

texto utiliz

Figura 4.2 - E

o da aplica

guinte segm

Figura 4.

a comunica

mpõe e respe

lassificador

uando esta é

elas que se

uma comun

zado neste tr

Exemplo do co

ção da seg

entação (fig

.3 - Segmentaç

ação é asso

ectivo conju

r faz distin

é segmenta

encontram

nicação, à

rabalho.

onteúdo de um

gmentação

gura 4.3):

ção do texto da

ociada infor

unto de term

nção entre

ada, as frase

no corpo d

qual será

ma comunicação

do texto da

a Comunicação

rmação det

mos.

o título e

es que se e

da comunica

aplicado o

o para segmen

a comunica

o da figura 4.2

alhada acer

e o corpo

encontram n

ação. Na fi

o procedim

ntar

ação da fig

rca do conj

71

de uma

no título

gura 4.2

mento de

gura 4.2,

junto de

Page 86: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

72

4.2.2 A

A ap

termo n

radical.

é:

I.

II.

III.

IV.

V.

Por exe

procedim

Para o e

do algor

sufixo

radicaliz

para que

4.3 De

Esta

e respe

específi

domínio

Algoritmo d

plicação do

no texto de

O conjunto

remoção

remoção

alteraçã

remoção

remoção

remoção

mplo, para

mento (figu

exemplo ac

ritmo de ra

para remov

zação são u

e possam se

etecção de E

a secção pre

ctivas regra

icas de dom

o.

de Radicali

o algoritmo

uma comu

o de regras

o dos sufixo

o dos sufixo

ão;

o do sufixo

o dos sufixo

o dos sufixo

os termos “

ura 4.4) resu

Figura 4.4 -

cima ilustrad

adicalização

ver. É de

utilizadas es

er detectado

Entidades e

etende descr

as, detalhan

mínio. É tam

ização

de radicaliz

nicação, res

que o algor

os;

os verbais, s

i, se preced

os residuais

os e, é, ê e t

“Informaçõ

ultando apen

Exemplo da a

do (figura 4

o, pois em n

referir qu

struturas au

os e removid

e Expressõe

rever os det

ndo também

mbém descri

zação consi

sultando nu

ritmo de Po

se o primeir

dido de c;

s os, a, i, o,

tratamento d

es”, “Inform

nas num ún

aplicação da Té

4.4), bastou

nenhuma da

ue nos dois

uxiliares com

dos de cada

es Relevan

talhes da cr

m o proced

ito o proces

iste num co

um termo a

orter para lín

ro passo não

á, í, ó;

da cedilha.

mação” e “I

nico radical:

écnica de Radi

u a aplicaçã

as outras foi

s primeiros

m os respec

a termo.

tes

riação de no

dimento pa

sso de inter

onjunto de p

o qual pode

ngua portug

o realizou n

Informar”, t

calização

o das duas

i reconhecid

s passos d

ctivos conju

ovas categor

ara detecção

acção com

passos para

demos cham

guesa [35] a

nenhuma

temos o seg

primeiras r

do mais nen

do algoritm

untos de su

rias de entid

o de expre

as ontologi

a cada

mar de

aplica

guinte

regras

nhum

mo de

fixos,

dades

essões

ias de

Page 87: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

73

4.3.1 Criação de Novas Regras

A implementação do Rembrandt suporta a criação de novas classes para a detecção de

novas categorias de entidades mencionadas, existindo uma super classe

NamedEntityDetector que é herdada por todas as classes que representam as diferentes

categorias de entidades. A criação de novas classes, que representem categorias de

entidades específicas de domínio, será efectuada da mesma forma. Portanto, para a criação

de novas entidades de carácter genérico ou específicas de domínio, é utilizada a classe

NamedEntityDetector, onde é definido o procedimento para detectar quaisquer tipos de

entidades.

Quando é criada uma nova classe para representar uma categoria de entidade, têm que

ser especificadas as regras para a sua detecção; a classe deve possuir uma lista de objectos

Rule, onde cada um especifica uma regra para a detecção da entidade respectiva. Para

definir uma regra de detecção de entidades, é necessário especificar os seguintes atributos

do objecto Rule:

Identificador e descrição da Regra;

Categoria: especifica qual a categoria a atribuir à entidade detectada;

Tipo (opcional): especifica qual o tipo da entidade detectada;

Sub-tipo (opcional): especifica qual o sub-tipo da entidade detectada;

Cláusulas: é o atributo onde é especificado o conjunto de evidências internas ou

externas, sob a forma de expressões regulares ou texto simples;

Política da Regra: quando a regra é uma evidência interna este atributo toma o valor

de “regra”, quando se trata de uma evidência externa toma o valor de “cláusula”;

Política de Conflito da Regra: permite definir se esta regra prevalece, em caso de

conflito de detecção com outra regra.

Por exemplo, para a criação de uma regra para detectar entidades da categoria “Número de

Processo”, teríamos:

ID: N_Processo

Descrição: “Formato xxx/xxxxx”

Categoria: NProcesso

Política: Regra

Page 88: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

74

Cláusula:([0-9]{3}\/[0-9]{5})

O conjunto de cláusulas que cada regra tem de cumprir, para que a entidade seja

reconhecida, é descrita no atributo “Cláusula”. Por exemplo, caso a detecção de uma

entidade “Número de Processo” necessitasse do uso de evidências externas, a formulação

da regra seria:

ID: N_Processo

Descrição: “Formato xxx/xxxxx”

Categoria: NProcesso

Política: Cláusula

Cláusulas:

Ordem Expressão/Padrão Cardinalidade Inclusão

1 [Nn]úmero 1 false

2 [\.\:\-] 0 ou 1 false

3 (de|do) 0 ou 1 false

4 [Pp]rocesso 1 false

5 [\.\:\-] 0 ou 1 false

6 ([0-9]{3}\/[0-9]{5}) 1 true

A criação de regras que incluam evidências externas exige que seja especificada a ordem

de ocorrência dessas mesmas evidências no texto. É possível definir um conjunto de

propriedades para cada cláusula: cardinalidade, inclusão, critério e padrão. Para a definição

de cada uma das expressões definidas na cláusula podem ser utilizadas expressões

regulares (simples ou compostas) ou texto simples. Para todas as regras de detecção de

entidades específicas de domínio neste trabalho, as propriedades “critério” e “padrão” não

variaram, isto é, foram sempre utilizadas expressões regulares para a detecção de entidades

específicas de domínio. Tal como é referido na sub-secção 2.2.1, é de relembrar que a

propriedade “inclusão” permite definir para cada cláusula, se esta faz parte da anotação

final, ou se serve somente para o processo de detecção, sendo descartada.

4.3.2 Interacção com a Ontologia de domínio

O módulo das ontologias de domínio será a base informativa da organização, e por isso

será interrogada aquando da detecção de uma entidade ou expressão numa comunicação.

Page 89: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

C

comu

para

Para

entid

ontol

devo

Na f

quan

O mó

hasC

conc

categ

entid

É

imple

entid

pelo

Como já fo

unicação, é

verificar se

tal, serão d

dade. Como

logias será

olvendo a re

Fig

figura 4.6 t

ndo existe a

Fig

ódulo é inte

Contact o v

luir que ca

goria da ent

dades especí

É de referir

ementado n

dades existe

simples fa

oi descrito

efectuada

e existe uma

definidas co

o podemos

utilizado

espectiva res

gura 4.5 - Com

temos o ex

detecção de

gura 4.6 – Exe

errogado no

valor da en

ada consulta

tidade detec

íficas de do

r que o pro

neste trabal

entes na org

acto deste p

na sub-se

uma consu

a propriedad

onsultas SP

observar

um módulo

sposta, que

unicação entre

xemplo de u

e uma entid

mplo de consu

sentido de

tidade “Co

a SPARQL

ctada, tanto

mínio.

ocesso de in

lho, sendo

anização es

processo nã

ecção 3.1.4

ulta SPARQ

de ou instân

PARQL às

na figura

o interméd

neste caso é

e Módulo de C

uma consu

dade da cate

ulta SPARQL a

obter o UR

ontacto” det

L à ontolog

para as ent

nteracção d

que teríam

stariam pres

ão ser estri

4, para ca

QL ao módu

ncia corresp

ontologias,

4.5, para

dio, process

é um URI.

Classificação e M

lta SPARQ

egoria “Cont

acerca de uma

RI de uma pe

tectada na

gia, terá de

tidades de c

descrito na

mos de part

sentes no m

itamente ne

ada entidad

ulo das onto

pondente à e

mediante a

a conexão

sando a co

Módulo de On

QL ao módu

tacto”.

entidade “Con

essoa que te

comunicaçã

ser person

carácter gen

figura 4.5

tir do princ

ódulo de on

ecessário p

de detectad

ologias de

entidade res

a categoria

ao reposi

onsulta SPA

ntologias

ulo das on

ntacto”

enha na prop

ão. Podemo

nalizada me

nérico, quan

não foi tot

ncípio que t

ntologias, e

para a aplic

75

da numa

domínio

spectiva.

de cada

tório de

ARQL e

tologias,

priedade

os então

ediante a

ndo para

talmente

todas as

também

cação da

Page 90: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

76

técnica

navegaç

No m

ontolog

técnica

de term

Portanto

expressõ

domínio

que cad

é efectu

com os

Para ca

expressõ

de classific

ção num rep

módulo de r

ia não exist

de reconhe

mos para qu

o, existe ta

ões associa

o extraídos

da termo seja

uado um pro

termos pres

Figura 4

ada termo

ões contida

cação, funci

positório de

reconhecim

te apenas n

cimento de

ue estes po

ambém um

adas aos con

da ontolog

a transform

ocedimento

sentes na co

4.7 - Procedime

relevante n

as na ontolo

ionando ma

comunicaç

mento de enti

no sentido d

expressões

ossam ser r

ma interacçã

nceitos nela

gia será tam

mado no seu

com o obje

omunicação

ento de reconh

na comunic

ogia e, para

ais como um

ções.

idades e exp

de solicitar

s específicas

reconhecido

ão com a

a contidos.

mbém aplica

radical. Sem

ectivo de m

o (figura 4.7

hecimento de E

cação, será

a tal será ut

m auxílio pa

pressões rel

o URI para

s de domíni

os no conte

ontologia d

Ao conjunt

ada uma téc

mpre que um

mapear expre

).

Expressões Esp

á efectuado

tilizada a té

ara o módu

levantes, a i

a uma dada

io necessita

eúdo de um

de modo a

to de termo

cnica de rad

ma comunic

essões conti

pecíficas de Dom

um mape

écnica de ra

ulo de pesqu

interacção c

entidade, p

a de um con

ma comunic

a obter tod

os específic

dicalização,

cação é ava

idas na onto

mínio

eamento co

adicalização

uisa e

com a

pois a

njunto

cação.

das as

os de

, para

aliada,

ologia

om as

o para

Page 91: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

77

permitir que todas as palavras da mesma família sejam detectadas. O mesmo se aplica a

termos compostos, cujo procedimento é aplicado a cada uma das palavras que constitui a

expressão. Por exemplo, para a expressão “Pedido de Marcação” será permitida a detecção

de expressões cujos radicais de cada um dos seus termos sejam os mesmos; assim sendo, as

expressões “Pedidos de Marcação”, “Pedido de Marcações” ou “Pedidos de Marcações”

também seriam detectadas.

Para a obtenção do conjunto de expressões específicas de domínio, não é efectuada

uma interacção com a ontologia sempre que seja avaliada uma comunicação e, para tal

optou-se por serializar essa informação, e apenas interagir com a ontologia caso existam

actualizações do domínio a nível de introdução de novos conceitos e respectivos termos.

Políticas de Conflito

Caso nas ontologias exista um termo que faça parte de uma expressão composta, e que

também exista sob a forma de termo simples, a ordem de prioridade é a detecção da

expressão com o maior número de termos; por exemplo, se “Acidente Automóvel” e

“Acidente” fossem duas expressões específicas de domínio presentes na ontologia, em

primeiro lugar seria feita a detecção de “Acidente Automóvel” e, caso esta não seja

reconhecida, seria então efectuada a detecção da palavra “Acidente”.

4.4 Classificação de Comunicações

Para a implementação da técnica de classificação, foi utilizada a biblioteca Commons-

Math23 (versão 2.1) da Apache Software Foundation (ASF), para efectuar os cálculos que a

abordagem eTVSM exige, nomeadamente as operações com números reais e vectores.

A técnica de classificação também exige a interacção com as ontologias de domínio,

pois necessita dos mapas de tópicos e conjunto de propósitos para que a classificação seja

efectuada. É possível observar na figura 4.8 que essa interacção permite obter toda a

informação num formato XML, permitindo assim a criação de estruturas de dados

auxiliares para o processo de classificação, contendo os mapas de tópicos com respectivos

termos e entidades associados e o conjunto de propósitos.

23 http://commons.apache.org/math/

Page 92: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

78

Visto qu

este pro

expressõ

De

classific

tópicos

4.4.1 M

A in

sempre

todo o

com mu

extracçã

módulo

facilita

Para

informa

S

S

D

N

T

E

V

F

ue será nece

ocedimento

ões específi

seguida ser

cação, mais

e propósito

Mapas de T

nteracção co

que o proc

processo m

muita frequê

ão dessa in

de interro

o processam

a a represen

ações necess

Sub-Tópico

Super-Tópi

Dimensão;

Nome;

Termos;

Entidades;

Vector de P

Figura 4.8 - In

essário obte

de extracçã

icas de dom

rão apresen

s especifica

os.

Tópicos

om a ontolo

cesso de cl

mais demoro

ência, decid

nformação d

ogação à on

mento dessa

ntação de c

sárias para a

os;

cos;

Pesos;

nteracção do M

er a correspo

ão de inform

mínio (ver su

ntadas algu

amente a es

ogia para a o

assificação

oso, e visto

diu-se que

da ontologia

ntologia pe

a informação

cada tópico

a tópico, no

Módulo de Clas

ondência en

mação da o

ub-secção 4

umas questõ

struturação

obtenção do

seja aplica

o que os ma

os seus d

a pode ser

ermite gerar

o para objec

o foi criada

omeadament

ssificação com

ntre os termo

ontologia ta

.3.2).

ões de imp

da informa

os mapas de

ado a uma

apas de tóp

dados també

serializada

r resultados

ctos.

a a classe T

te:

a Ontologia

os associad

ambém inclu

plementação

ação relativ

e tópicos nã

comunicaçã

picos não so

ém seriam

em ficheir

s no forma

Topic, que

dos a cada tó

ui o conjun

o da técnic

va aos map

ão será efec

ão, pois tor

ofrem alter

serializado

ros XML, p

ato XML, o

possui tod

ópico,

nto de

ca de

as de

ctuada

rnaria

rações

os. A

pois o

o que

das as

Page 93: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

Porta

tópic

tópic

desse

cada

corre

O atr

dos m

toda

corre

Topic

4.4.2

A

mesm

como

na on

Cada

o con

de p

comp

anto, atravé

cos e calcul

cos, sendo t

es mesmos

tópico tam

espondência

ributo “Dim

mapas de tó

esta infor

esponde ao

c.

2 Conjunto

A obtenção

mo procedim

o da estrutu

ntologia, en

Nome;

Tópicos;

Argumen

Vector d

a propósito

njunto de ar

esos consis

põem o prop

és da inform

lar o vector

também pos

tópicos qu

mbém se e

a entre os te

mensão” per

ópicos exis

rmação foi

identificado

Figura 4.9

o de Propó

dos dados

mento refer

ura de dado

nquanto o va

;

ntos;

de Pesos.

é composto

rgumentos c

ste num ve

pósito.

mação descr

r de cada t

ssível obter

ue o cálculo

encontram

ermos e enti

rmite assoc

tentes. Com

criada um

or do tópico

9 - Estrutura de

ósitos

relacionado

rido para o

s, existindo

alor é um ob

o por um co

consiste num

ctor resulta

rita acima é

tópico, pois

r o conjunto

o de cada v

os termos

idades dete

ciar o tópico

mo podemo

ma estrutura

o na ontolog

e dados para a

os com os p

os mapas d

o um Mapa

bjecto Purp

onjunto de t

ma lista de c

ante da som

é possível c

s cada tópic

o de todos o

vector de tó

e entidade

ctados no c

o à dimensã

os observar

a de dados

gia, enquant

armazenar Ma

propósitos p

de tópicos,

cuja chave

pose que pos

ópicos, repr

categorias d

ma de todos

construir os

co tem aces

os tópicos fo

ópico é inic

es, o que p

conteúdo de

ão que perte

na figura 4

s do tipo

to o valor é

apas de Tópicos

presentes na

tanto ao ní

é o identifi

ssui os segu

resentados a

de entidades

s os vector

diversos m

sso aos seu

folha, pois é

ciado. Asso

permite est

e uma comu

ence, ou sej

4.9, para ar

Mapa, cuj

é um objecto

s

a ontologia

ível da seri

ficador do p

uintes atribu

através do s

s, enquanto

res dos tópi

79

mapas de

us super-

é através

ciados a

tabelecer

unicação.

eja, a um

rmazenar

a chave

o do tipo

segue o

ialização

propósito

utos:

seu URI;

o vector

icos que

Page 94: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

80

Como p

associad

Para

conjunto

alguma

propósit

podemos ob

do um URI

a cada propó

o de argum

entidade d

to (figura 4

Fi

Figura 4.10

bservar na f

fazendo ref

ósito obtido

mentos que

da mesma c

.11).

igura 4.11 - Pro

0 - Estrutura d

figura 4.10,

ferência par

o como resu

o compõem

categoria, e

ocedimento de

de dados para

à semelhan

ra o repositó

ultado da téc

m e, caso

sta será sug

e obtenção dos

armazenar Pr

nça de cada

ório das ont

cnica de cla

tenha sido

gerida com

argumentos d

opósitos

a tópico, cad

ologias de d

ssificação,

detectada

mo argument

os Propósitos

da propósito

domínio.

será verific

na comunic

nto do respe

o tem

ado o

cação

ectivo

Page 95: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

4.5

P

class

relev

uma

em X

infor

resul

Cada

propó

palav

pois

pode

propó

exist

Anotação d

Para além d

sificação, u

vantes e, par

comunicaç

XML e, pe

rmação rela

ltado da apl

a comunicaç

ósitos. Asso

vra no texto

nem sempr

erá ter mais

ósitos asso

tam.

de uma Co

o conjunto

uma comun

ra tal, deve

ção. O resul

elo seu mod

ativa às ent

icação da té

Figur

ção contém

ociada a cad

o da comun

re é possíve

s que um p

ciados à co

omunicação

de propósit

nicação é a

existir um

ltado da ap

delo expres

tidades e e

écnica de cl

a 4.12 - Esquem

um identifi

da anotação

nicação, a s

l obter tal in

propósito, d

omunicação

o

tos, como r

anotada co

formato qu

plicação da

sso na figur

expressões

lassificação

ma de Anotaçã

icador assoc

o existe um

sua categori

nformação.

daí o form

o, incluindo

resultado fin

m entidade

ue devolva t

técnica de

ra 4.12, é p

detectadas

dos propós

ão de uma Com

ciado, com

identificad

ia, e dois at

Tal como f

mato XML

o os respec

nal da aplic

es e expre

todos a info

classificaçã

possível ob

e classifica

itos da com

municação

um conjunt

dor que repr

tributos opc

foi descrito,

permitir a

tivos argum

cação da té

essões cons

ormação obt

ão será apre

bservar que

adas, bem

municação.

to de anotaç

resenta a po

cionais, tipo

, cada comu

inclusão d

mentos sem

81

cnica de

sideradas

tida para

esentado

contém

como o

ções e de

osição da

o e URI,

unicação

de vários

mpre que

Page 96: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

82

Por exe

anotaçã

Como r

de dom

com doi

propósit

no texto

4.6 Ar

A im

global p

reconhe

Qualque

seguida

classific

fornecen

classific

com o

consulta

os termo

Com

comunic

emplo, a com

ão (figura 4.

resultado da

mínio, neste

is propósito

tos relevant

o da comuni

rquitectura

mplementaç

para qualqu

ecimento de

er comunic

a analisada,

cação inicia

ndo um con

cação do pr

repositório

as à ontolog

os associad

mo resultad

cação anota

municação

13):

Figura

a anotação a

caso da ár

os distintos,

tes para um

icação, sem

a Geral

ção da abo

uer tipo de

e informaçã

cação receb

para que o

a com o mód

njunto de ex

ropósito sej

que contém

gia, no senti

os aos conc

do final d

ada, com re

ilustrada na

a 4.13 - Exempl

acima descr

rea dos Seg

embora co

ma dada com

m o elemento

ordagem de

comunicaç

ão relevante

bida pelo c

seu conteú

dulo de reco

xpressões e

a efectuada

m as ontol

ido de obter

ceitos, os ma

a interacçã

espectivas e

a figura 3.9

lo de uma com

rita, existe u

guros, que l

om o mesmo

municação, o

o purposes.

escrita nest

ção, seguind

e e classific

classificador

údo textual

onheciment

e entidades a

a. Ambos o

logias de d

r um URI d

apas de tópi

ão dos mó

entidades e

(ver secção

municação anot

um conjunt

levam à cla

o grau de re

o resultado

e trabalho

do sempre

cação dos p

r virá num

seja extraíd

to de entida

ao módulo

os módulos

domínio, po

de uma entid

icos e propó

ódulos acim

e expressõe

o 3.2) resul

tada

to de expres

assificação

elevância. C

retorna apen

assenta nu

o mesmo p

propósitos d

m formato X

do e separad

des e expre

de classific

mantêm um

ois será nec

dade, bem c

ósitos existe

ma descrit

s relevantes

ltaria na seg

ssões espec

da comunic

Caso não ex

enas as anot

uma arquite

procedimen

da comunic

XML, send

do. A técni

essões releva

cação, para

ma comunic

cessário efe

como obter

entes.

tos, temos

s, bem com

guinte

cíficas

cação

xistam

ações

ectura

nto de

cação.

do de

ica de

antes,

que a

cação

ectuar

todos

uma

mo os

Page 97: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

propó

4.14,

ósitos nela

, que ilustra

presentes.

a a arquitect

F

Todo o pr

tura global d

igura 4.14 - Ar

rocedimento

de toda a im

rquitectura Ge

o descrito p

mplementaçã

eral do Classifi

pode ser ob

ão descrita n

icador

observado n

neste capítu

83

na figura

ulo.

Page 98: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

84

Page 99: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

85

5. Experimentação

Este capítulo consiste na apresentação de todas as técnicas experimentais aplicadas

neste trabalho relativamente ao caso de estudo estudado. Será feita uma breve introdução à

organização estudada, mais especificamente as informações que foram obtidas a fim de

aplicar este trabalho a um caso real. Com base no caso de estudo serão apresentados

resultados dos módulos de reconhecimento de entidades e expressões específicas de

domínio, e da técnica de classificação de propósitos. Será ainda debatida a questão da

atribuição de pesos aos tópicos (modelo eTVSM), com a apresentação de alguns resultados

experimentais efectuados sob esse aspecto.

5.1 Caso de Estudo

A organização abordada no caso de estudo é cliente da iTds, e pertence à área de

Seguros, sendo que neste trabalho foi feita uma maior incidência na especialidade de

Seguros Automóveis, dada ser a área que proporciona o maior volume de comunicações na

organização.

5.1.1 Entidades Específicas de Domínio

Tal como descrito na secção 3.1.2, foram estabelecidas diversas interacções com um

especialista do domínio, de modo a gerar uma base de informação suficientemente capaz

de descrever todas as entidades específicas de domínio da organização. Para além dessas

interacções, também foi feita uma análise exaustiva de um vasto conjunto de comunicações

de entrada na organização, de modo a detectar alguns casos particulares, confirmados

novamente com o especialista do domínio. Portanto, esta fase de interacções consistiu num

processo iterativo, em que o conjunto de entidades específicas de domínio ia sendo

aumentado e melhorado com o apoio de um perito da organização. De seguida, será

apresentado um conjunto de regras para a detecção da entidade específica de domínio

“Matrícula”, utilizando evidências internas (expressões regulares) e externas, dando

Page 100: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

86

origem a um conjunto de regras para a sua detecção. É de referir que o conjunto completo

de regras para detecção de todas as entidades específicas de domínio utilizadas no caso de

estudo, se encontra no anexo C.

Regras para Detecção de Entidades de categoria “Matrícula”

Regra 1

Ordem Expressão/Padrão Cardinalidade Inclusão

1 [A-Za-z]{2,2}[\-][0-9]{2,2}[\-][0-9]{2,2} 1 true

Regra 2

Ordem Expressão/Padrão Cardinalidade Inclusão

1 [0-9]{2,2}[\-][A-Za-z]{2,2}[\-][0-9]{2,2} 1 true

Regra 3

Ordem Expressão/Padrão Cardinalidade Inclusão

1 [0-9]{2,2}[\-][0-9]{2,2}[\-][A-Za-z]{2,2} 1 true

Regra 4

Ordem Expressão/Padrão Cardinalidade Inclusão

1 ([mM][aA][tT][rR]([iI]|[íÍ])?[cC]?[uU]?[lL]?[aA]?|[vV][eE]([iI]|[íÍ])[cC][uU]?[lL]?[oO]?) [\.\:]?

1 false

2 [A-Za-z]{2,2}[\-][0-9]{2,2}[\-][0-9]{2,2} 1 true

Regra 5

Ordem Expressão/Padrão Cardinalidade Inclusão

1 ([mM][aA][tT][rR]([iI]|[íÍ])?[cC]?[uU]?[lL]?[aA]?|[vV][eE]([iI]|[íÍ])[cC][uU]?[lL]?[oO]?) [\.\:]?

1 false

2 [0-9]{2,2}[\-][A-Za-z]{2,2}[\-][0-9]{2,2} 1 true

Page 101: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

87

Regra 6

Ordem Expressão/Padrão Cardinalidade Inclusão

1 ([mM][aA][tT][rR]([iI]|[íÍ])?[cC]?[uU]?[lL]?[aA]?|[vV][eE]([iI]|[íÍ])[cC][uU]?[lL]?[oO]?) [\.\:]?

1 false

2 [0-9]{2,2}[\-][0-9]{2,2}[\-][A-Za-z]{2,2} 1 true

Observando as seis regras acima descritas, é de realçar que a detecção de entidades de

categoria “Matrícula” utiliza os dois tipos de evidências: internas e externas.

5.1.2 Expressões Específicas de Domínio

Quanto às expressões específicas de domínio, estas foram obtidas durante a construção

da ontologia do domínio da organização. Para a construção dessa mesma ontologia, que

resultou numa tese de mestrado englobada neste mesmo projecto, foram analisadas

diversas fontes de conhecimento fornecidas pela organização, documentos específicos de

negócio, organigramas e um pacote de 1000 comunicações; esta análise permitiu extrair e

obter uma base de conhecimento sólida e suficientemente elucidativa quanto às expressões

mais relevantes do domínio.

5.1.3 Elaboração dos Mapas de Tópicos

O processo de elaboração dos mapas de tópicos careceu de um trabalho de muita

especificidade relacionado com a organização, pois para cada tópico foram-lhe atribuídas

as expressões e entidades específicas de domínio correspondentes. Em primeiro lugar, foi

feito um levantamento de todos os conceitos que poderiam pertencer ao domínio específico

e, para cada um dos conceitos foi feita uma análise das entidades e expressões que

poderiam ser-lhe associadas; após uma fase de interacções com um especialista da

organização, foi decidido que seriam utilizados três mapas de tópicos, reflectindo três

dimensões (ver anexo B):

Natureza;

Organizacional;

Objecto.

A natureza de uma comunicação contém o objectivo primário manifestado no conteúdo da

mesma, podendo corresponder a um pedido ou um fornecimento de informação, que será

Page 102: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

88

adicional ou complementar, existindo ainda a possibilidade da solicitação de abertura de

um processo. A dimensão organizacional refere o departamento ou unidade organizacional

a que o remetente da comunicação se tenciona dirigir, que neste caso poderá ser o

departamento de Sinistros, Produção ou Gestão de Clientes. Por último, a dimensão

objecto especifica o que a comunicação trata, podendo ser um tipo de documento, uma

acção, um interveniente ou um elemento de um processo na organização. Neste caso de

estudo, a dimensão objecto é aquela cujo grau de discriminação é mais elevado, sendo o

mais diferenciador na detecção dos propósitos da comunicação, concedendo o nível de

especificidade desejado pela organização.

5.1.4 Obtenção de um Conjunto de Propósitos

A elaboração de um conjunto de propósitos, para este caso de estudo, teve por base um

conjunto dos documentos mais utilizados para troca de informações na organização. Foi

feito um levantamento dos tipos de documentos mais utilizados ao nível das comunicações

recebidas, e em conformidade com um especialista da organização foi formulada uma

listagem de propósitos, procurando estabelecer uma associação aos três mapas de tópicos

criados (ver secção 3.2.2). Foram obtidos 92 propósitos (ver anexo A) para o caso de

estudo, o que corresponde ao número de classes a que uma comunicação pode pertencer.

Relativamente aos argumentos que cada um dos propósitos pode possuir, foi feita uma

distinção pela dimensão organizacional, ou seja, dependendo do departamento a que o

propósito está associado, os seus argumentos irão diversificar. Portanto, para os propósitos

que pertencem à unidade organizacional de Sinistros temos:

Número de Sinistro;

Data do Acidente;

Lesado;

Sinistrado.

Para as unidades organizacionais Produção e Gestão de Clientes, os argumentos dos

respectivos propósitos são:

Tomador do Seguro;

Número de Apólice.

Page 103: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

89

Estabelecendo uma relação entre as categorias de entidades relevantes existentes neste

trabalho, os argumentos “Lesado”, “Sinistrado” e “Tomador de Seguro” referem-se à

categoria de entidade “Pessoa”, o argumento “Data do Acidente” à categoria de entidade

“Tempo”, enquanto o “Número de Sinistro” e “Número de Apólice” correspondem ambos

às respectivas categorias de entidades específicas de domínio criadas para este caso de

estudo.

5.2 Análise de Resultados

Esta secção apresenta os resultados da experimentação de todos os módulos elaborados

neste trabalho. São apresentados resultados relativos à anotação de entidades e expressões

relevantes numa comunicação, de modo a avaliar o nível de reconhecimento desse mesmo

módulo. A técnica de classificação de propósitos é também avaliada através de um

conjunto de comunicações de entrada. É também apresentada uma sub-secção acerca dos

pesos que cada tópico deve tomar, de modo a que possua um grau de discriminação

representativo do seu real valor na organização. Para cada uma das sub-secções são tecidas

conclusões acerca de cada um dos módulos avaliados.

5.2.1 Reconhecimento de Entidades e Expressões Específicas de Domínio

Para avaliar o módulo de reconhecimento de entidades e expressões específicas de

domínio, foi extraído um conjunto de 200 comunicações de entrada, tendo o seu conteúdo

sido anotado manualmente por um especialista do domínio e da organização, a fim de

comparar as anotações efectuadas automaticamente pelo módulo de reconhecimento de

entidades e expressões implementado neste trabalho. Para além de todas as expressões

específicas de domínio da área de seguros, as categorias de entidades anotadas pelo

especialista foram:

Tempo;

Matrícula;

Número de Apólice;

Número de Sinistro;

Contacto;

Local/Código-Postal.

Page 104: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

90

Com base na comparação entre a anotação manual e automática, foram anotadas

correctamente 3530 entidades, enquanto 122 foram anotadas de forma errada. Os falsos

positivos foram 196, enquanto os falsos negativos foram 440. Os resultados globais deste

módulo foram de 89% de Abrangência e 95% de Precisão.

Os resultados de Abrangência foram inferiores aos de Precisão, pois alguns falsos

negativos que o especialista do domínio anotou manualmente, não foram anotados pelo

classificador. Entre os possíveis motivos para a detecção não ter sido efectuada, estão os

erros ortográficos, a ausência de evidências externas de algumas entidades para que a

detecção automática tivesse sido efectuada, e o remetente da comunicação ter-se referido

erradamente a algumas entidades. Os erros relativos à medida de Precisão são mais

restritos e, basicamente o conjunto de falsos positivos obtidos deve-se ao facto de existirem

algumas entidades que na anotação manual não foram consideradas relevantes ou,

simplesmente pelas próprias evidências internas ou externas levarem a erros de contexto

em certas situações.

5.2.2 Classificação dos Propósitos de uma Comunicação

Para a avaliação do módulo de classificação dos propósitos foram extraídas 1000

comunicações de entrada, sendo essa amostra um conjunto representativo das diversas

comunicações que a organização recebe diariamente. Cada uma das comunicações foi

classificada manualmente por um especialista da organização, mediante o conjunto de

propósitos elaborado neste caso de estudo, tendo sido posteriormente classificada

automaticamente pelo classificador desenvolvido neste trabalho. Nesta experimentação

foram obtidos resultados de 68% de Precisão e 77% de Abrangência; dado que uma

comunicação pode ser classificada com mais que um propósito, é de realçar que as 1000

comunicações classificadas automaticamente retornaram 1363 classificações diferentes.

A justificação para o valor obtido na medida de Precisão deve-se ao facto do

classificador por vezes detectar termos ou entidades como sendo relevantes, embora o seu

contexto não corresponda ao do domínio específico. Um dos motivos que pode levar à

detecção de falsos positivos é a recepção de uma comunicação que contenha uma thread de

comunicações, em que são detectadas diversas expressões e entidades referentes a diversos

propósitos, quando na realidade o verdadeiro propósito da comunicação está apenas

relacionado com a comunicação mais recente em toda a thread de comunicações.

Page 105: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

91

Relativamente aos resultados obtidos para a medida de Abrangência, estes reflectem a

dificuldade do classificador em detectar os propósitos de algumas comunicações,

principalmente pela ausência de expressões ou entidades que discriminem o seu propósito.

5.2.3 Atribuição de pesos a Tópicos

Tal como foi descrito nas sub-secções 3.2.1, existe um peso , que representa o poder

de discriminação de cada tópico em função de uma comunicação . O peso , consiste

na conjugação de dois factores:

Número de Ocorrências do Tópico, por intermédio dos seus termos ou entidades

presentes na Comunicação (term frequency);

Peso (entre 0 e 1) do Tópico, representando um factor de discriminação do Tópico

no domínio específico.

Relativamente ao segundo factor, a atribuição dos pesos depende claramente da construção

do mapa de tópicos e respectivo domínio onde o classificador será integrado.

É de referir que no peso , que representa o poder de descriminação de cada tópico

em função de um propósito , é calculado da mesma maneira acima descrita, embora o

número de ocorrências do tópico tome sempre o valor de 1.

Para o caso de estudo em questão optou-se por variar apenas o peso em função do mapa

de tópicos, ou seja, a variação do peso depende da dimensão a que o tópico pertence,

embora seja possível atribuir pesos diferentes para tópicos pertencentes à mesma

dimensão. Tal como já foi referido, a dimensão objecto é a que possui mais poder de

discriminação neste caso de estudo, não existindo diferença entre as restantes dimensões,

natureza e organizacional. Esta conclusão foi obtida ao longo das diversas interacções com

o especialista de domínio, tendo sido efectuado um conjunto de testes que comprovaram

essa mesma decisão. Foi classificado manualmente um conjunto de 100 comunicações

recebidas, para posteriormente serem classificadas automaticamente pelo classificador, em

que se fizeram variar os pesos (entre 0 e 1) correspondentes a cada mapa de tópicos. Foram

efectuadas 11 experimentações, fazendo variar os 3 pesos relativos às 3 dimensões

existentes. Na figura 5.1 é possível observar os pesos atribuídos a cada dimensão e

respectivos valores de Abrangência, Precisão e F-Measure obtidos.

Page 106: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

92

NExpe

Figur

Os pior

valores

experim

natureza

valores

a variaç

Esta fas

função

Nº eriência N

1 2 3 4 5 6 7 8 9

10 11

ra 5.1 - Variaç

res valores

inferiores

mentações 3

a e organiza

dos pesos u

ção do valor

Figura 5

se de experi

dos melhor

Pesoatureza O

1 0.5

0.25 0.10

1 1 1 1

0.5 1

0.25

ção dos valores

da medida

a 1. Os

e 11, mas

acional com

utilizados na

r de F-Meas

5.2 - Variação d

mentação s

res valores d

s dos TópicosOrganizacion

1 0.5

0.25 0.10

1 1 1

0.5 1

0.25 1

de Precisão, A

a F-Measur

s melhores

dado que o

m poder de

a experimen

sure em fun

da medida de F

erviu para v

de Abrangê

s nal Objecto

1 1 1 1

0.5 0.25 0.10

1 1 1 1

Abrangência e

re acontece

s valores

especialist

discriminaç

ntação 3. A

nção das div

F-Measure par

verificar qu

ência e Prec

Precisãoo

0.74 0.79 0.81 0.80 0.68 0.68 0.68 0.75 0.78 0.75 0.80

F-Measure em

em quando

de F-Mea

ta de domín

ção idêntico

Através da fi

versas exper

ra os diferente

ais os pesos

cisão, uma v

Abrangênci

0.80 0.80 0.81 0.81 0.74 0.74 0.74 0.79 0.81 0.79 0.82

m função dos pe

a dimensã

asure foram

nio consider

o, optou-se p

gura 5.2, po

rimentações

es pesos dos Tó

s a atribuir a

vez que se

ia F-Measur

0.77 0.79 0.81 0.80 0.71 0.71 0.71 0.77 0.79 0.77 0.81

esos dos Tópic

ão objecto

am obtidos

rou as dime

pela escolh

odemos obs

s efectuadas

ópicos

a cada tópic

pretende ob

re

cos

toma

s nas

nsões

ha dos

servar

s.

co em

bter o

Page 107: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

93

melhor peso em termos de discriminação para cada tópico. É de referir que os testes de

classificação dos propósitos das comunicações, apresentados na sub-secção anterior

utilizaram os pesos obtidos nesta sub-secção, ou seja, os resultados obtidos na

experimentação 3.

Apesar de na sub-secção 2.3.2 serem apresentadas algumas medidas de cálculo de

pesos para termos contidos num documento ou colecção, optou-se pela utilização de uma

métrica simples (term frequency) multiplicada por um peso entre 0 e 1, que representa o

poder de discriminação do cada tópico no domínio do classificador.

Page 108: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

94

Page 109: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

95

6. Conclusões e Trabalho Futuro

Este capítulo apresenta as conclusões em relação à abordagem e implementação deste

trabalho, sugerindo algum trabalho futuro a ser desenvolvido.

6.1 Conclusões

O uso de ontologias no processo de classificação não foi uma decisão argumentada e

fundamentada neste trabalho, tendo sido um requisito imposto pela iTds desde o início do

projecto, acabando por se ter revelado como uma boa escolha em termos da descrição de

uma organização e das comunicações.

A abordagem seguida neste trabalho foi escolhida por forma a tornar a técnica de

classificação o mais genérica possível, sendo facilmente adaptável a qualquer domínio. O

módulo de reconhecimento de entidades e expressões específicas de domínio também

possui extensibilidade suficiente para ser adaptado a qualquer organização ou área de

negócio. Considerou-se que as ontologias forneceram mecanismos que permitiram uma

suficiente especificação do domínio, tanto ao nível do conhecimento existente na

organização como da própria representação das comunicações.

A utilização do eTVSM, com diversos mapas de tópicos, permite uma modelação dos

propósitos consoante as necessidades de qualquer organização, sendo possível adicionar o

número de dimensões desejado, não havendo restrições a esse nível. Esta modelação

permite que uma comunicação não seja avaliada em todas as dimensões existentes, pois é

possível a criação de propósitos que sejam compostos apenas por um conjunto reduzido

dessas dimensões. Esse facto faz com que a técnica de classificação seja diferente das

técnicas de classificação tradicionais, tornando o produto XEO.ECC diferenciador.

O processo de interacção com a organização do caso de estudo, mais especificamente

com um especialista de domínio revelou-se fundamental para a modelação desta

abordagem, para que tenha sido conferida a especificidade necessária ao nível das

Page 110: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

96

comunicações, tanto ao nível das entidades e expressões relevantes, como dos propósitos.

O processo de interacção com a organização tornou-se num processo iterativo, até que

fosse atingido um nível de especificação suficiente, capaz de descrever o conteúdo de uma

comunicação mediante o funcionamento da respectiva organização. Tal processo pode ser

observado na secção 5.1, pois o caso de estudo descrito neste trabalho materializa todas as

fases necessárias para que esta abordagem seja aplicada a uma qualquer organização.

O caso de estudo serviu essencialmente para lidar com dados e comunicações reais,

lidando com peritos de domínio através de diversas interacções; o que também forneceu

uma perspectiva do comportamento desta abordagem adaptado a uma organização real.

Os resultados obtidos neste trabalho forneceram bons indicadores da abordagem

desenvolvida, embora não tenham sido totalmente conclusivos, pois uma avaliação

completa desta abordagem exigiria a integração do classificador numa organização durante

um período mais alargado de tempo. Dado que um dos objectivos da técnica de

classificação era o encaminhamento de comunicações dentro de uma organização, seria

interessante avaliar a quantidade de comunicações encaminhadas com sucesso durante esse

mesmo período experimental.

6.2 Trabalho Futuro

Esta secção apresenta as actividades futuras para o trabalho descrito nesta tese. Serão

sugeridos alguns pontos no sentido de melhorar a abordagem e implementação.

Integração na plataforma XEO.ECC

A integração do módulo de classificação no produto XEO.ECC está prevista após a

entrega desta tese, prolongando-se até Dezembro de 2010; no essencial, a integração irá

consistir na interacção da plataforma XEO com o classificador, mais especificamente na

recepção e classificação das comunicações recebidas.

Esta fase de interacção no produto XEO.ECC irá também envolver formação específica

para os programadores XEO na iTds, fazendo uma descrição do funcionamento e

arquitectura dos módulos incluídos no classificador, bem como as tecnologias utilizadas.

Page 111: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

97

Detecção de erros ortográficos

Tal como descrito na secção 3.1.3, assumimos neste trabalho que a questão de erros

ortográficos já estaria resolvida, sendo tratada num processo fora do âmbito deste trabalho.

Portanto, num trabalho futuro será necessária a integração de um mecanismo optimizado

para a correcção de erros ortográficos. Uma solução poderia passar pela integração de uma

técnica de processamento de texto, em que cada termo seria filtrado por um dicionário, e

caso o termo possuísse um potencial erro, este seria detectado e efectuado o respectivo

mapeamento para o termo correcto na ontologia.

Aprendizagem do Classificador

Para introduzir uma componente de aprendizagem na técnica de classificação são

propostas duas soluções: (i) interface gráfica para melhorar processo de detecção e

classificação; (ii) mecanismo de background para calcular os melhores pesos para os

tópicos das dimensões utilizadas no processo de classificação.

A utilização de uma interface gráfica consiste na visualização de cada comunicação e

respectivas anotações, no sentido de permitir a correcção de expressões ou entidades nela

detectadas e classificadas, conferindo ao utilizador o poder de correcção de alguns erros do

classificador. Quanto aos propósitos, estes também poderiam ser corrigidos, melhorando

dessa forma a amostra de comunicações classificadas.

O mecanismo de background baseia-se na introdução de um procedimento paralelo ao

do classificador, utilizando como amostra as comunicações já classificadas, fazendo variar

os pesos atribuídos aos tópicos de cada dimensão, para que estes sejam optimizados em

função dos valores de Abrangência e Precisão (tal como foi apresentado na sub-secção

5.2.3).

Componente de Experimentação por Propósito

Dado que os resultados globais do classificador poderiam ter sido melhores, seria

importante efectuar uma fase de experimentação mais detalhada, em que para cada

propósito obtido nas 1000 comunicações utilizadas no caso de estudo, seriam recolhidas as

medidas de Abrangência e Precisão; podendo dessa forma obter as classes/propósitos cujos

resultados sejam piores, fornecendo dessa forma um conjunto de propósitos que poderão

estar a induzir em erro a classificação.

Page 112: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

98

Esta fase de experimentação pode ser vista como um mecanismo que fornece

informações relevantes para a modelação dos diversos mapas de tópicos do domínio, pois

devido à existência de 92 propósitos distintos, existirão alguns que apenas variam numa

das dimensões, tornando os seus vectores muito próximos. Portanto, seria importante

efectuar esta fase de experimentação mais detalhada, que apresentaria resultados com um

nível de granularidade suficiente, que permita chegar a algumas conclusões acerca dos

propósitos que podem ou não induzir o classificador em erro.

Page 113: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

99

Bibliografia

[1] Cardoso, N. (2008). REMBRANDT - Reconhecimento de Entidades Mencionadas Baseado em Relações e ANálise Detalhada do Texto. In Encontro do Segundo HAREM, PROPOR 2008.

[2] Mcdonald, D. D. (1996). Internal and External Evidence in the Identification and Semantic Categorization of Proper Names. In Corpus Processing for Lexical Acquisition, MIT Press. pp. 21-39.

[3] Bloehdorn, S.; Cimiano, P.; Hotho, A. & Staab, S. (2005). An Ontology-based Framework for Text Mining. In LDV Forum - GLDV Journal for Computational Linguistics and Language Technology, 2005, Vol.20, No.1. pp. 87-112.

[4] Zerbinatti, L. (2010). Extração de conhecimento de laudos de radiologia torácica utilizando técnicas de processamento estatístico de linguagem natural. Dc.S thesis. São Paulo: Escola Politécnica da Universidade de São Paulo do Departamento de Engenharia de Telecomunicações e Controle.

[5] Yildiz, B. & Miksch, S. (2007). ontoX - a method for ontology-driven information extraction. In Proceedings of the 2007 international conference on Computational science and its applications. Springer-Verlag. pp. 660-673.

[6] R. Baeza-Yates & B. Ribeiro-Neto (1999). Modern Information Retrieval. Addison Wesley.

[7] Orengo, V. M. & Huyck, C. (2001). A Stemming Algorithm for Portuguese Language. In Proceedings of Eigth Symposium on String Processing and Information Retrieval (SPIRE 2001). Chile. pp. 186-193.

[8] M. F. Porter (1997). An algorithm for suffix stripping. In Readings in information retrieval. Morgan Kaufmann Publishers Inc.. pp 313-316.

[9] Gu, H. & Zhou, K. (2006). Text Classification Based on Domain Ontology. Journal of Communication and Computer. May. Volume 3. No.5 (Serial No.18).

[10] Yang, X.-q.; Sun, N.; Zhang, Y. & Kong, D.-r. (2008). General Framework

for Text Classification Based on Domain Ontology. In SMAP 08: Proceedings of the 2008 Third International Workshop on Semantic Media

Page 114: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

100

Adaptation and Personalization. IEEE Computer Society. Washington, DC, USA. pp. 147-152.

[11] V. V. Raghavan & S. K. M. Wong (1999). A critical analysis of vector

space model for information retrieval. Journal of the American Society for Information Science, 37(5) pp. 279-287.

[12] Salton, G. & Buckley, C. (1988). Term-weighting approaches in automatic

text retrieval. In Information Processing and Management. pp. 513-523.

[13] Lan, M.; Tan, C.-L.; Low, H.-B. & Sung, S.-Y. (2005). A comprehensive comparative study on term weighting schemes for text categorization with support vector machines. In WWW 05: Special interest tracks and posters of the 14th international conference on World Wide Web. ACM. New York, NY, USA. pp. 1032-1033.

[14] Fang, J.; Guo, L.; Wang, X. & Yang, N. (2007). Ontology-Based

Automatic Classification and Ranking for Web Documents. In FSKD '07: Proceedings of the Fourth International Conference on Fuzzy Systems and Knowledge Discovery. IEEE Computer Society. Washington, DC, USA. pp. 627-631.

[15] Witten, I. H.; Paynter, G. W.; Frank, E.; Gutwin, C.; manning, C. G. N. &

Inc, G. (1998). Kea: Practical automatic keyphrase extraction. In Proceedings of the 4th ACM conference on Digital Libraries. pp. 254-255.

[16] D. Lin (1998). An Information-Theoretic Definition of Similarity. In

Proceedings of the Fifteenth International Conference on Machine Learning. pp. 296-304.

[17] Khelif, K.; kuntz, R. D. & Barbry, P. (2007). An Ontology-based Approach

to Support Text Mining and Information Retrieval in the Biological Domain. Journal of Universal Computer Science. Vol. 13. pp. 1881-1907.

[18] H. Cunningham, et al. (2002). GATE: A framework and graphical

development environment for robust NLP tools and applications. In Proceedings of the 40th Annual Meeting of the ACL.

[19] Tiun, S.; Abdullah, R. & Kong, T. E. (2001). Automatic Topic

Identification Using Ontology Hierarchy. In Proceedings of the Second International Conference on Computational Linguistics and Intelligent Text Processing. Springer-Verlag. London, UK. pp. 444-453.

[20] A. D. Gordon (1987). A Review of Hierarchical Classification. Journal of

the Royal Statistical Society. Series A (General). 150(2) pp. 119-137.

[21] C. Fellbaum (ed.) (1998). WordNet: An Electronic Lexical Database (Language, Speech, and Communication). The MIT Press. Illustrated edition.

Page 115: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

101

[22] Hunter, E. J. (2002). Classification Made Simple. Ashgate Publishing Limited. Third Edition.

[23] Shapiro, S. C. (1992). Encyclopedia of Artificial Intelligence. John Wiley & Sons, Inc.. Second Edition. New York, NY, USA.

[24] Y. Yang & J. O. Pedersen (1997). A Comparative Study on Feature

Selection in Text Categorization. In Proceedings of the Fourteenth International Conference on Machine Learning. Morgan Kaufmann Publishers Inc.. San Francisco, CA, USA. pp. 412-420.

[25] Sarmento, L. (2005). Descrição técnica do REPENTINO.

[26] Mota, C. & Santos, D. (2008). Desafios na avaliação conjunta do reconhecimento de entidades mencionadas: O Segundo HAREM. Linguateca. Disponível em http://www.linguateca.pt/LivroSegundoHAREM/ [Último acesso: 18/07/2010]

[27] Debole, F. & Sebastiani, F. (2003). Supervised term weighting for automated text categorization. In Proceedings of the 2003 ACM symposium on Applied computing. ACM. New York, NY, USA. pp. 784-788.

[28] C. D. Manning, et al. (2008). Introduction to Information Retrieval.

Cambridge University Press.

[29] Buckley, C.; Salton, G. & Allan, J. (1992). Automatic Retrieval With Locality Information Using SMART. In Proceedings of First Text REtrieval Conference. pp. 59-72.

[30] A. Polyvyanyy & D. Kuropka (2007). A quantitative evaluation of the

enhanced topic-based vector space model. Universitätsverlag Potsdam.

[31] Salton, G. (1989). Automatic text processing: the transformation, analysis, and retrieval of information by computer. Addison-Wesley Longman Publishing Co., Inc.. Boston, MA, USA.

[32] Becker, J. & Kuropka, D. (2003). Topic-based Vector Space Model, In

Proceedings of the 6th International Conference on Business Information Systems. pp. 7-12.

[33] Chowdhury, A. & Mccabe, M. C. (1993). Improving Information Retrieval

Systems using Part of Speech Tagging.

[34] Palmeira, E. & Freitas, F. (2007). Ontologias detalhadas e classificação de texto: uma união promissora. In ENIA 2007: VI Encontro Nacional de Inteligência Artificial. Rio de Janeiro, 03-06 de Julho de 2007. Rio de Janeiro: Instituto Militar de Engenharia.

[35] Viera, A.F.G. and Virgil, J. (2007). Uma revisão dos algoritmos de radicalização em língua portuguesa. Information Research [Online] 12(3)

Page 116: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

102

paper 315. Disponível em: http://informationr.net/ir/12-3/paper315.html [Último acesso: 18/07/2010]

[36] Aranha, C. N. (2007). Uma Abordagem de Pré-Processamento Automático para Mineração de Textos em Português: Sob o Enfoque da Inteligência Computacional. D.Sc thesis. Rio de Janeiro: Departamento de Engenharia Elétrica, Pontifícia Universidade Católica.

[37] Studer, R., Benjamins, V.R. & Fensel, D. (1998). Knowledge Engineering: Principles and Methods.

Page 117: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

103

Anexos

A secção de anexos inclui algum do trabalho resultante da interacção com o especialista

de domínio da organização, de modo a construir os mapas de tópicos, o conjunto de

propósitos para o caso de estudo, bem como o conjunto das entidades específicas de

domínio. Serão apresentados subconjuntos representativos dos propósitos obtidos, bem

como de cada um dos mapas de tópicos; por último serão apresentadas as regras de

detecção de entidades específicas de domínio.

A. Subconjunto de Propósitos

Nesta secção é apresentado um subconjunto representativo de propósitos obtidos com

base no caso de estudo. Tal como foi descrito na sub-secção 5.1.3, cada propósito será

composto por 3 dimensões:

Natureza;

Organizacional;

Objecto.

Propósitos

Fornecimento de Informação Adicional de Sinistro – Auto de Ocorrência

Fornecimento de Autorização de Pagamento relativo a Sinistro – Indemnização

Fornecimento de Informação Adicional de Sinistro – Certidão de Óbito

Fornecimento de Informação Adicional de Sinistro do Mediador

Page 118: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

104

Fornecimento de Informação Adicional de Sinistro – Tribunal

Fornecimento de Informação Adicional de Sinistro – Declaração Rendimentos

Fornecimento de Informação Adicional de Sinistro – Depoimento Testemunhal

Pedido de Pagamento de Despesas de Assistência Médica relativo a Sinistro

Pedido de Pagamento de Despesas Judiciais relativo a Sinistro

Fornecimento de Informação Adicional de Sinistro – Documento Identificação

Pedido de Pagamento de Honorários Médicos relativo a Sinistros

Fornecimento de Informação Adicional de Sinistro – Fotografia

Fornecimento de Informação Adicional de Sinistro – Despesas

Fornecimento de Informação Adicional de Sinistro – Reembolso

Fornecimento de Informação Adicional de Sinistro – Peritagem

Pedido de Cotação de Seguro Acidentes e Doença (Produção)

Pedido de Cotação de Seguro Transportes (Produção)

Fornecimento de Informação Adicional – Veículo (Produção)

Pedido de Anulação de Contrato (Produção)

Fornecimento de Informação Adicional Reclamação – (Gestão de Clientes)

Figura A.1.1 - Subconjunto representativo dos Propósitos do Caso de Estudo

Page 119: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

B. S

N

tópic

utiliz

B.1

B.2

Subconjunt

Nesta secção

cos construí

zados para c

Dimensão

F

Dimensão

Figu

to de Mapa

o são aprese

ídos, de mo

cada mapa d

o Natureza

Figura B.1.1 -

o Organizac

ura B.2.1 - Sub

as de Tópic

entados sub

odo a ilustra

de tópicos.

Subconjunto r

cional

bconjunto repr

cos

bconjuntos r

ar como foi

representativo

resentativo do

representati

i feita a hie

do Mapa de T

Mapa de Tópi

ivos de cada

rarquização

Tópicos "Natur

icos "Organiza

da um dos m

o entre os c

reza"

acional"

105

mapas de

conceitos

Page 120: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

106

B.3 Di

C. Reg

Nest

específi

especifi

de domí

C.1 M

Regra 1

Ordem

1

Regra 2

Ordem

1

imensão Ob

Figu

gras de Det

ta secção

icas de dom

icado o conj

ínio da orga

Matrícula

[A-Za-z]

[0-9]{2,

bjecto

ura B.3.1 - Sub

tecção de E

é apresenta

mínio para

njunto de reg

anização.

Expre

{2,2}[\-][

Expre

2}[\-][A-Z

bconjunto repr

Entidades E

ado o conj

o caso de

gras, resulta

essão/Padrã

0-9]{2,2}[

essão/Padrã

a-z]{2,2}[

resentativo do

Específicas

njunto de r

e estudo d

ante do pro

ão

[\-][0-9]{2

ão

[\-][0-9]{2

Mapa de Tópi

de Domíni

regras para

deste trabal

ocesso de in

Ca

2,2}

Ca

2,2}

icos "Objecto"

o

a a detecçã

ho. Para c

nteracção co

ardinalidad

1

ardinalidad

1

"

ão de entid

cada catego

om o especi

de Inclu

tru

de Inclu

tru

dades

oria é

ialista

usão

ue

usão

ue

Page 121: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

107

Regra 3

Ordem Expressão/Padrão Cardinalidade Inclusão

1 [0-9]{2,2}[\-][0-9]{2,2}[\-][A-Za-z]{2,2} 1 true

Regra 4

Ordem Expressão/Padrão Cardinalidade Inclusão

1 ([mM][aA][tT][rR]([iI]|[íÍ])?[cC]?[uU]?[lL]?[aA]?|[vV][eE]([iI]|[íÍ])[cC][uU]?[lL]?[oO]?) [\.\:]?

1 false

2 [A-Za-z]{2,2}[\-][0-9]{2,2}[\-][0-9]{2,2} 1 true

Regra 5

Ordem Expressão/Padrão Cardinalidade Inclusão

1 ([mM][aA][tT][rR]([iI]|[íÍ])?[cC]?[uU]?[lL]?[aA]?|[vV][eE]([iI]|[íÍ])[cC][uU]?[lL]?[oO]?)[ \.\:]?

1 false

2 [0-9]{2,2}[\-][A-Za-z]{2,2}[\-][0-9]{2,2} 1 true

Regra 6

Ordem Expressão/Padrão Cardinalidade Inclusão

1 ([mM][aA][tT][rR]([iI]|[íÍ])?[cC]?[uU]?[lL]?[aA]?|[vV][eE]([iI]|[íÍ])[cC][uU]?[lL]?[oO]?)[\.\:]?

1 false

2 [0-9]{2,2}[\-][0-9]{2,2}[\-][A-Za-z]{2,2} 1 true

C.2 Número de Sinistro

Regra 1

Ordem Expressão/Padrão Cardinalidade Inclusão

1 [0-9]{2,2}[\-\/\.][0-9]{2,2}[\-\/\.][0-

9]{2,2}[\-\/\.][0-9]{1,5}[\-\/\.]{4,4} 1 true

Page 122: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

108

Regra 2

Ordem Expressão/Padrão Cardinalidade Inclusão

1 [pP][rR][oO][cC][eE]?[sS]?[sS]?[oO]?[\.\:]? 1 false

2 [dD][eE] 0 ou 1 false

3 [sS][iI][nN][iI]?[sS]?[tT]?[rR]?[oO]?[\.\-\:]?

0 ou 1 false

4 [nN][uUúÚ]?[mM]?[eE]?[rR]?[oO]?[\º\.\-\:]? 0 ou 1 false

5 [\.\-\:] 0 ou 1 false

6 [0-9]{1,2}[\-\/\.][0-9]{4,4} 1 true

Regra 3

Ordem Expressão/Padrão Cardinalidade Inclusão

1 [sS][iI][nN][iI]?[sS]?[tT]?[rR]?[oO]?[\.\-\:]?

1 false

2 [pP][rR][oO][cC][eE]?[sS]?[sS]?[oO]?[\.\:]?

0 ou 1 false

3 [\.\-\:] 0 ou 1 false

4 [0-9]{1,2}[\-\/\.][0-9]{4,4} 1 true

Regra 4

Ordem Expressão/Padrão Cardinalidade Inclusão

1 [0-9]{3,5}[\-\/\.][0-9]{4,4} 1 true

Regra 5

Ordem Expressão/Padrão Cardinalidade Inclusão

1 [pP][rR][oO][cC][eE]?[sS]?[sS]?[oO]?[\.\\:]?

1 false

2 [dD][eE] 0 ou 1 false

3 [sS][iI][nN][iI]?[sS]?[tT]?[rR]?[oO]?[\.\-\:]?

0 ou 1 false

4 [nN][uUúÚ]?[mM]?[eE]?[rR]?[oO]?[\º\.\-\:]? 0 ou 1 false

5 [\.\-\:] 0 ou 1 false

6 [0-9]{2,2}[\-\/\.][0-9]{1,2}[\-\/\.][0-9]{4,4}

1 true

Page 123: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

109

Regra 6

Ordem Expressão/Padrão Cardinalidade Inclusão

1 [sS][iI][nN][iI]?[sS]?[tT]?[rR]?[oO]?[\.\-\:]?

1 false

2 [pP][rR][oO][cC][eE]?[sS]?[sS]?[oO]?[\.\:]?

0 ou 1 false

3 [\.\-\:]? 0 ou 1 false

4 [0-9]{2,2}[\-\/\.][0-9]{1,2}[\-\/\.][0-9]{4,4}

1 true

Regra 7

Ordem Expressão/Padrão Cardinalidade Inclusão

1 [0-9]{2,2}[\-\/\.][0-9]{3,5}[\-\/\.][0-9]{4,4}

1 true

C.3 Número de Apólice

Regra 1

Ordem Expressão/Padrão Cardinalidade Inclusão

1 [0-9]{2,2}[\-\/\.]([0-9]{1}|[0-9]{3}|[0-9]{5,7})

1 true

Regra 2

Ordem Expressão/Padrão Cardinalidade Inclusão

1 [aA][pP][oOóÓ]?[lL]?[iI]?[cC]?[eE]?[\.\-\:]?

1 false

2 [nN][uUúÚ]?[mM]?[eE]?[rR]?[oO]?[\º\.\-\:]?

0 ou 1 false

3 [\.\-\:] 0 ou 1 false

4 [0-9]{2,2}[\-\/\.]([0-9]{2}|[0-9]{4}) 1 true

Regra 3

Ordem Expressão/Padrão Cardinalidade Inclusão

1 [aA][pP][oOóÓ]?[lL]?[iI]?[cC]?[eE]?[\.\-\:]?

1 false

2 [nN][uUúÚ]?[mM]?[eE]?[rR]?[oO]?[\º\.\-\:]?

0 ou 1 false

Page 124: Dissertação 29555 - FINALa new product, based on a XEO product previously developed by iTds, for content management and tracking of communications within an organization. The classification

110

3 [\.\-\:] 0 ou 1 false

4 [0-9]{1,7} 1 true

Regra 4

Ordem Expressão/Padrão Cardinalidade Inclusão

1 [0-9]{2,2}[\-\/\.][0-9]{2,2}[\-\/\.][0-

9]{2,2}[\-\/\.][0-9]{1,7} 1 true