![Page 1: Geração automática de tesaurus e recuperação de informação](https://reader035.vdocuments.net/reader035/viewer/2022062308/5681316a550346895d97e185/html5/thumbnails/1.jpg)
Geração automática de tesaurus e recuperação de informação
Pablo Gamallo [email protected]
http://terra/~gamalloGLINt (Gupo de Lingua Natural) FCT, UNL
![Page 2: Geração automática de tesaurus e recuperação de informação](https://reader035.vdocuments.net/reader035/viewer/2022062308/5681316a550346895d97e185/html5/thumbnails/2.jpg)
Plano
• Sistemas de recuperação de informação e processamento da linguagem natural
• Tesaurus e ontologias
• Construção automática de tesaurus a partir de texto analisado
• Uso de tesaurus em sistemas de pesquisa e recuperação de informação
![Page 3: Geração automática de tesaurus e recuperação de informação](https://reader035.vdocuments.net/reader035/viewer/2022062308/5681316a550346895d97e185/html5/thumbnails/3.jpg)
Tesaurus e Ontologias
• Definição dualista:
OntologiaOntologia: conjunto de conceitos + relações
TesaurusTesaurus: conjunto de termos de uma língua ligados a uma ontologia
• Definição basada na hipôtese relacional:
Tesaurus = OntologiaTesaurus = Ontologia: conjunto de termos + relações semânticas
![Page 4: Geração automática de tesaurus e recuperação de informação](https://reader035.vdocuments.net/reader035/viewer/2022062308/5681316a550346895d97e185/html5/thumbnails/4.jpg)
multa coima (sinonímia)
presidente secretário (co-hiponímia)
pequeno grande (antonímia)
ministério ministro (meronímia)
banco instituição (hiperonímia)
Tesaurus e Ontologias
![Page 5: Geração automática de tesaurus e recuperação de informação](https://reader035.vdocuments.net/reader035/viewer/2022062308/5681316a550346895d97e185/html5/thumbnails/5.jpg)
Tesaurus e Ontologias
Tesaurus = Ontologia = Terminologia
Propriedades duma Terminologia:Propriedades duma Terminologia:
termos relevantes para um domíniotermos relevantes para um domínio
pouca polisemiapouca polisemia
pouco interés nos termos pouco interés nos termos “upper-level”
problema de “problema de “portabilidadeportabilidade” a outros domínios” a outros domínios
![Page 6: Geração automática de tesaurus e recuperação de informação](https://reader035.vdocuments.net/reader035/viewer/2022062308/5681316a550346895d97e185/html5/thumbnails/6.jpg)
Tesaurus e Ontologias
WordNet
• Sinonímia: única relação entre termos (“word forms”).
• Duas palavras são sinónimas se elas têm o mesmo significado num dado contexto.
• As relações semânticas (hiperonímia, meronímia…) são relações entre synsets
• Synsets: conjuntos de sinónimos contextuais. Cada synset representa um significado.
• Polisemia: um termo é polisémico se ele aparecer em diferentes synsets.
![Page 7: Geração automática de tesaurus e recuperação de informação](https://reader035.vdocuments.net/reader035/viewer/2022062308/5681316a550346895d97e185/html5/thumbnails/7.jpg)
Tesaurus e Ontologias
Informação associada a “Organisation” em WordNet
• Synsets (3 senses):
(1) arrangement, organisation, system (an organised structure for arranging or classifying)
(2) administration, governance, body, establishment, organisation (the persons, departments etc. who make up a body for the purpose of administering something)
(3) constitution, establishment, formation, organisation (the act of forming something)
![Page 8: Geração automática de tesaurus e recuperação de informação](https://reader035.vdocuments.net/reader035/viewer/2022062308/5681316a550346895d97e185/html5/thumbnails/8.jpg)
Tesaurus e Ontologias
Results for Hyponyms of “organisation” in WordNet
Sense (1): distribution, statiscal distribution coordinate system, frame of reference, reference system
Sense (2): county, council government, officials, officialdom judiciary, bench
Sense (3): collectivisation colonisation, settlement federation
![Page 9: Geração automática de tesaurus e recuperação de informação](https://reader035.vdocuments.net/reader035/viewer/2022062308/5681316a550346895d97e185/html5/thumbnails/9.jpg)
Sistemas de RI e PLN
Indexação de documentos
Selecção de textos relevantes a uma determinada consulta
![Page 10: Geração automática de tesaurus e recuperação de informação](https://reader035.vdocuments.net/reader035/viewer/2022062308/5681316a550346895d97e185/html5/thumbnails/10.jpg)
Sistemas de RI e PLN
• Indexação de documentos:
Os documentos são representados por “termos de índices”
• Selecção de textos relevantes a uma determinada consulta:
- As consultas são representadas por “termos de consulta”
- As búsquedas utilizam o “matching” (mapeamento) entre termos de índices e termos de consulta
- Operadores de consulta: And, Or, And_Not
- Ordenamento dos documentos recuperados
![Page 11: Geração automática de tesaurus e recuperação de informação](https://reader035.vdocuments.net/reader035/viewer/2022062308/5681316a550346895d97e185/html5/thumbnails/11.jpg)
Sistemas de RI e PLN
• Uso do PLN para representar texto (documentos e consultas) : tokenização eliminação das “stopwords”
• Uso do PLN para melhorar a indexação e permitir recuperaçoes inteligentes: Reconhecemento de descritores: reconhecer aqueles índices que representam o tema ou tópico do documento.
Normalização dos índices (geração de índices controlados) : transformação das formas dos termos em representações mais abstractas, por forma a:
- pôr em relação índices com o mesmo significado- economia de índices
![Page 12: Geração automática de tesaurus e recuperação de informação](https://reader035.vdocuments.net/reader035/viewer/2022062308/5681316a550346895d97e185/html5/thumbnails/12.jpg)
Sistemas de RI e PLN
• Reconhecemento automático de descritores: marcas tipográficas: termos em títulos, resumos, em negrito, ... eliminação de termos que ocorrem em claúsulas subordinadas (- 30%) identificação de termos compostos
• Indices normalizados e controlados: Normalização morfológica: agrupar variações de índices em torno de uma forma canónica (por flexão e por derivação)
Normalização semântica: agrupar variações de índices em torno de um conceito común: identificação de termos relacionados semanticamente (importância do tesaurus)
![Page 13: Geração automática de tesaurus e recuperação de informação](https://reader035.vdocuments.net/reader035/viewer/2022062308/5681316a550346895d97e185/html5/thumbnails/13.jpg)
Geração de thesaurus: Propriedades
Hipótese distribucional:As palalavras que partilham os mesmos contextos estão associadas semanticamente
Textos com conteúdo específico: “domain-specific corpus”
Tipos de contexto: co-ocorrência simples (bigramas) co-ocorrência numa janela (n-gramas) estructuras sintácticas
![Page 14: Geração automática de tesaurus e recuperação de informação](https://reader035.vdocuments.net/reader035/viewer/2022062308/5681316a550346895d97e185/html5/thumbnails/14.jpg)
Geração de thesaurus: Etapas
Extracção dos contextos sintácticos do corpus
Métrica de similaridade entre palavras (baseada nos contextos partilhados)
Identificar para cada palavra, a lista de palavras mais semelhantes
![Page 15: Geração automática de tesaurus e recuperação de informação](https://reader035.vdocuments.net/reader035/viewer/2022062308/5681316a550346895d97e185/html5/thumbnails/15.jpg)
Extracção de contextos sintácticos: Etapas
• Tagging: marcação em categorias morfossintácticas
• Parsing Parcial: marcação em chunks básicos
• Heurísticas de “Attachment”
• Identificação de relações binárias
• Extracção de contextos sintácticos
![Page 16: Geração automática de tesaurus e recuperação de informação](https://reader035.vdocuments.net/reader035/viewer/2022062308/5681316a550346895d97e185/html5/thumbnails/16.jpg)
“Falta pois a participação directa do funcionário no acto documentário.” (corpus P.G.R.)
• Tagger:Tagger:
Falta_V pois_ADV a_ART participação_N directa_ADJ de_PREP o_ART funcionário_N em_PREP o_ART acto_N documentário_ADJ
Tagging e Parsing Parcial
• Parsing Parcial (Chunks Básicos):Parsing Parcial (Chunks Básicos):
VP( faltar, pois)
NP(a, participação, directa)
PP(de, NP(o, funcionário))
PP(em, NP(o, acto, documentário))
![Page 17: Geração automática de tesaurus e recuperação de informação](https://reader035.vdocuments.net/reader035/viewer/2022062308/5681316a550346895d97e185/html5/thumbnails/17.jpg)
Heurísticas de “Attachment” eRelações Sintácticas
• Attachment de Chunks Básicos:Attachment de Chunks Básicos:
<VP(faltar, pois) , NP(a, participação, directa)>
<NP(a, participação, directa), PP(de, NP(o, funcionário))>
<NP(o, funcionário), PP(em, NP(o, acto, documentário))>
• Relações Sintácticas entre palavras:Relações Sintácticas entre palavras:
<DOBJ, faltar , participação>
<DE, participação, funcionário>
<EM, funcionário, acto>
![Page 18: Geração automática de tesaurus e recuperação de informação](https://reader035.vdocuments.net/reader035/viewer/2022062308/5681316a550346895d97e185/html5/thumbnails/18.jpg)
Contextos sintácticos
<DOBJ, faltar , participação> :
<DOBJ, (*) , participação> <DOBJ, falta , (*)>
<DE, participação, funcionário> :
<DE, participação, (*)> <DE, (*), funcionário>
<EM, funcionário, acto > :
<EM, funcionário, (*)> <EM, (*), acto>
![Page 19: Geração automática de tesaurus e recuperação de informação](https://reader035.vdocuments.net/reader035/viewer/2022062308/5681316a550346895d97e185/html5/thumbnails/19.jpg)
Medida de Similaridade Coeficiênte de JaccardCoeficiênte de Jaccard
A similaridade entre duas palavras depende de:
A ratio entre o número de contextos que são comuns às duas palavras e o número total dos seus contextos.
![Page 20: Geração automática de tesaurus e recuperação de informação](https://reader035.vdocuments.net/reader035/viewer/2022062308/5681316a550346895d97e185/html5/thumbnails/20.jpg)
Similarity Measure Weighted Weighted Jaccard coefficientJaccard coefficient
![Page 21: Geração automática de tesaurus e recuperação de informação](https://reader035.vdocuments.net/reader035/viewer/2022062308/5681316a550346895d97e185/html5/thumbnails/21.jpg)
MicroCorpus em Lingua Natural
Pedro lê um livro e Maria lê um livro,
Pedro lê um romance e Maria lê um romance,
Pedro também lê muita coisa mas Pedro gosta de Maria,
Maria gosta de livros, Maria gosta de muita coisa.
Maria come uma maçã e Pedro come uma maçã,
Pedro também come uma salchicha, Pedro come muita coisa,
Maria come salchichas, Maria gosta mesmo de salchichas.
![Page 22: Geração automática de tesaurus e recuperação de informação](https://reader035.vdocuments.net/reader035/viewer/2022062308/5681316a550346895d97e185/html5/thumbnails/22.jpg)
Relaçoes Thesáuricas entre nomes
Pedro Maria livro romance maçã salchicha coisa livro, salchicha, maçã, romance (livro salchicha)? (Maria coisa)?? (Pedro salchicha)???
![Page 23: Geração automática de tesaurus e recuperação de informação](https://reader035.vdocuments.net/reader035/viewer/2022062308/5681316a550346895d97e185/html5/thumbnails/23.jpg)
Extração de Contextos sintácticos de nomes
Pedro: (<SUBJ, ler , (*)>, 3) (<SUBJ, gostar , (*)>, 1) ( <SUBJ, comer, (*)>, 3)
Maria: (<SUBJ, ler , (*)>,2) (<SUBJ, gostar , (*)>, 3) (<SUBJ, comer, (*)>,2) (<IOBJ-DE, gostar, (*)>,1)
romance: (<DOBJ, ler , (*)>,2) livro: (<DOBJ, ler , (*)>,3) (<IOBJ-DE, gostar , (*)>,1) coisa: (<DOBJ, ler , (*)>,1) (<DOBJ, comer, (*)>,1)
(<IOBJ-DE, gostar , (*)>,1) maça: (<DOBJ, comer , (*)>,2). salchicha: (<DOBJ, comer , (*)>,2) (<IOBJ-DE, gostar,(*)>,1)
![Page 24: Geração automática de tesaurus e recuperação de informação](https://reader035.vdocuments.net/reader035/viewer/2022062308/5681316a550346895d97e185/html5/thumbnails/24.jpg)
Cálculo do Peso dum contexto para cada palabra (3):
romance: (<DOBJ, ler , (*)>, 2) GW(<DOBJ, ler , (*)>) = log (2/1 + 3/2 + 1/3) / log(3) = 0.54 / 0.47 = 1.15LW(romance, <DOBJ, ler , (*)>) = log(2) = 0.3W(romance, <DOBJ, ler , (*)>) = 1.45
livro: (<DOBJ, ler , (*)>, 3) GW(<DOBJ, ler , (*)>) = log (2/1 + 3/2 + 1/3) / log(3) = 0.54 / 0.47 = 1.15LW(livro, <DOBJ, ler , (*)>) = log(3) = 0.47W(livro, <DOBJ, ler , (*)>) = 1.62
livro: (<IOBJ-DE, gostar , (*)>, 1) GW(< IOBJ-DE, gostar , (*)>) = log (1/2+ 1/4+1/3 + 1/2) / log(4) = 0.19 / 0.6 = 0.31LW(livro, < IOBJ-DE, gostar , (*)>) = log(1) = 0.W(livro, < IOBJ-DE, gostar , (*)>) = 0.31
![Page 25: Geração automática de tesaurus e recuperação de informação](https://reader035.vdocuments.net/reader035/viewer/2022062308/5681316a550346895d97e185/html5/thumbnails/25.jpg)
Similidade entre palavras (2)
WJ(maça, salchicha) = 1.4 / 1.71 = 0.81
min( (1.4), (1.4) ) = 1.4
max( (1.4), (1.4+0.31) ) = 1.71
WJ(maça, coisa) = 1.1 / 2.68 = 0.410.41
min( (1.4), (1.1) ) = 1.1
max((1.4), (1.27+0.31+1.1) ) = 2.68
WJ(salchicha, coisa) = 1.41 / 2.68 = 0.510.51
min( (1.4+0.25), (1.1+0.31) ) = 1.41
max( (1.4+0.25), (1.27+0.31+1.1) ) = 2.68
WJ(romance, coisa) = 1.1 / 2.68 = 0.410.41
min( (1.45), (1.1) ) = 1.1
max((1.45), (1.27+0.31+1.1) ) = 2.68
![Page 26: Geração automática de tesaurus e recuperação de informação](https://reader035.vdocuments.net/reader035/viewer/2022062308/5681316a550346895d97e185/html5/thumbnails/26.jpg)
Similidade entre palavras (Ordenamento)
(0.83) Pedro Maria (0.81) maçã salchicha (0.75) livro romance(0.58) coisa livro(0.51) coisa salchicha(0.41) coisa maçã, romance(0.16) livro salchicha(0.11) Maria salchicha(0.09) Maria coisa(0.0) Pedro salchicha(0.0) romance salchicha
![Page 27: Geração automática de tesaurus e recuperação de informação](https://reader035.vdocuments.net/reader035/viewer/2022062308/5681316a550346895d97e185/html5/thumbnails/27.jpg)
juíz| {dirigente, presidente, subinspector, governador, árbitros}
diploma| {decreto, lei, artigo, convenção, regulamento}
decreto| {diploma, lei, artigo, nº, código}
regulamento| {estatuto, código, sistema, decreto, norma}
regra| {norma, princípio, regime, legislação, plano}
renda| {caução, indemnização, reintegração, multa, quota}
conceito| {noção, estatuto, regime, temática, montante}
Corpus da Procuradoria Geral da República (P.G.R.)
Listas de palavras semelhantes
![Page 28: Geração automática de tesaurus e recuperação de informação](https://reader035.vdocuments.net/reader035/viewer/2022062308/5681316a550346895d97e185/html5/thumbnails/28.jpg)
Thesaurus e Pesquisa de Informação
Construção de thesaurus: conjunto de termos e conjunto de relações entre esses termos
Acesso ao thesaurus para expandir as pesquisas
Avaliação do thesaurus através da expansão das pesquisas, por forma a melhorar a recuperação de informação
![Page 29: Geração automática de tesaurus e recuperação de informação](https://reader035.vdocuments.net/reader035/viewer/2022062308/5681316a550346895d97e185/html5/thumbnails/29.jpg)
Expansão de pesquisas via thesaurus
Expansão restrictiva via coocurrências frequêntes:república: presidente da república, assembleia da república...câmara: presidente da câmara, vereador da câmara...
Expansão associativa:Se um termo é óptimo para discriminar documentos relevantes, então qualquer termo associado também é um bom discriminadorcategoria: cargo, carreira, lugar, funçðes...
![Page 30: Geração automática de tesaurus e recuperação de informação](https://reader035.vdocuments.net/reader035/viewer/2022062308/5681316a550346895d97e185/html5/thumbnails/30.jpg)
Problemas da expansão
Que palavras ou termos da pesquisa devem ser expandidos?queryquery: “TIPO DE REMUNERAÇÃO”
Termos associados podem diversificardiversificar os textos recuperados:juíz, ministro, investigador