extraction et recherche d'information en langage naturel dans les documents semi-structurés
Post on 03-Jan-2016
34 Views
Preview:
DESCRIPTION
TRANSCRIPT
Extraction et recherche d'information
en langage naturel
dans les documents semi-structurés
Soutenance de thèse
Xavier Tannier
Ecole Nationale Supérieure des Mines de Saint-Etienne
27 septembre 2006
27/09/2006
2/42
– Analyse syntaxique– Règles sémantiques– Construction de la requête
• Interface de requêtes en langage naturel
Plan
• Les documents XML et la recherche d'information
• Recherche contextuelle
• Expérimentations– Méthodologie– Résultats avec NEXI et XOR– Conclusion
– Problématique– Recherche contextuelle avec XOR
– Les documents semi-structurés (XML)– Les spécificités de la RI semi-structurée– Les interfaces de requêtes en langage naturel
27/09/2006
3/42
<article titre=“Un exemple d'article” auteur=“Dupont et Dupond” > <section>
<par> Le travail d'Untel <ref>Untel03</ref>, illustré par la figure <fig>fig1</fig>, ainsi que mes propres <gras>expérimentations</gras> conduites en 2002, semblent montrer…
</par> </section> <bibliographie> <bib id=“Untel03” auteur=“Untel” titre=“Voici mon travail”/> </bibliographie> …</article>
balise d'emphase
XML orienté document
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
Les documents semi-structurés (XML) Les spécificités de la RI structurée Les interfaces de requêtes
27/09/2006
4/42
XML orienté document
article
titre auteur section bibliographie
Un exemple d'article
Dupont et Dupond
par …
…
bib …
…
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
Les documents semi-structurés (XML) Les spécificités de la RI structurée Les interfaces de requêtes
27/09/2006
5/42
<agenda> <personne nom=“Nougaro” prénom=“Claude”> <numéro type=“mobile”>06 79 30 94 29</numéro> <numéro type=“fixe” >05 62 39 92 04</numéro> <adresse> <n>19</n> <rue>quai Saint-Pierre</rue> <code_postal>31000 </code_postal> <ville>Toulouse</ville> </adresse> </personne>…
(par opposition aux documents orientés documents)
XML orienté données
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
Les documents semi-structurés (XML) Les spécificités de la RI structurée Les interfaces de requêtes
27/09/2006
6/42
Recherche d'information
Analyse des documents
(1.)
Analyse du
besoin
(2.)
fonction desimilarité
résultats
<article titre=“Un exemple d'article” auteur=“Dupont et Dupond” > <section> <par>Le travail d'Untel <ref>Untel03</ref>, illustré par la figure <fig>fig1</fig>, ainsi que mes <b>expérimentations</b> conduites en 2002, semble montrer…</par> </section> <bibliographie> <bib id=“Untel03” auteur=“Untel” titre=“Voici mon travail”/> </bibliographie> …</article>
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
Les documents semi-structurés (XML) Les spécificités de la RI structurée Les interfaces de requêtes
27/09/2006
7/42
Les spécificités de la RI semi-structurée
• L'unité d'information pertinente– document entier vs. élément XML (doxel)– exhaustivité et spécificité
• Recherche sur contenu et structure
d46.d25.d94.d53.d32.d61.
d4d2d9d3d3d6
/sec[3]/sec[5]/table[2]
/resume[1]/bib/item[4]
/sec[2]/p[4]/fig[1]/sec[3]/p[2]
6.5.4.3.2.1.
RI "plate" RI semi-structurée
1. d62. d33. d54. d9
1. d6 /sec[3]/p[2]2. d3 /sec[2]/p[4]/fig[1]3. d3 /bib/item[4]4. d9 /resume[1]
RI "plate" RI semi-structurée
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
Les documents semi-structurés (XML) Les spécificités de la RI structurée Les interfaces de requêtes
27/09/2006
8/42
Une figure montrant un sondage dans un article sur l'élection de 2007.
<article titre = “Ségo et Sarko sont dans un bateau”> <paragraphe> En 2007, les Français éliront un nouveau président … … </paragraphe> <paragraphe> …
<figure n=“7” caption="Dernier sondage"> Sarkozy : 30 % Royal : 30 % de Villepin : 0.2 % Hollande : 0.12 % </figure>
</paragraphe> … </article>
<figure n=“7” caption="Dernier sondage"> Sarkozy : 30 % Royal : 30 % de Villepin : 0.2 % Hollande : 0.12 %
</figure>
Structure et Contenu
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
Les documents semi-structurés (XML) Les spécificités de la RI structurée Les interfaces de requêtes
27/09/2006
9/42
<article titre = “Saint-Etienne”> <paragraphe> … musée d'Art Moderne … </paragraphe> <paragraphe> … biennale du Design … </paragraphe> … </article>
Que faire à Saint-Etienne ?
<article titre = “Les villes de France”> <paragraphe> … </paragraphe> <paragraphe> … Saint-Etienne … mines … histoire … culture … </paragraphe> … </article>
<article titre = “Guide des vacances au calme”> <paragraphe> … </paragraphe> <figure légende="listes des activités possibles à Saint-Etienne"> Balades Musées Cinéma C'est tout </figure> </article>
Structure et Contenu
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
Les documents semi-structurés (XML) Les spécificités de la RI structurée Les interfaces de requêtes
27/09/2006
10/42
Les spécificités de la RI semi-structurée
• L'unité d'information pertinente– document entier vs. élément XML (doxel)– exhaustivité et spécificité
• Recherche sur contenu et structure– besoin de langages de requêtes structurés– NEXI
• Interprétation de la requête– stricte pour les bases de données (documents orientés données)– vague pour la recherche d'information //article[about(.//res, "spécialités Sud-Ouest")]//par[about(., magret)]
Support Cible
1. d62. d33. d54. d9
1. d6 /sec[3]/p[2]2. d3 /sec[2]/p[4]/fig[1]3. d3 /bib/item[4]4. d9 /resume[1]
RI "plate" RI semi-structurée
//article[about(.//abs, "spécialités Sud-Ouest")]//par[about(., magret)]
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
Les documents semi-structurés (XML) Les spécificités de la RI structurée Les interfaces de requêtes
27/09/2006
11/42
Documents plats XML Bases de données
contenu : texte seulement balises + texte structure + donnée
unité de RI : document entier élément -
besoin : texte seulement texte et structure
requête : mots-clés langage de requête structuré
interprétation : vague vague stricte
trop compliqué pour les utilisateurs occasionnels
besoin de connaître la structure (DTD) du document
pas de réponse "idéale"
interpréter la requête fait partie intégrante du processus
on peut espérer construire des requêtes meilleures
Motivation pour les interfaces en LN
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
Les documents semi-structurés (XML) Les spécificités de la RI structurée Les interfaces de requêtes
confort
performances
27/09/2006
12/42
Les enjeux
• Les besoins– Structure et contenu– Robustesse (toujours retourner un résultat)– Généricité (dépendance vis-à-vis de la collection)– Simplicité
• Les libertés– Compréhension la requête (≠ bases de données)– Indépendance des requêtes– Courtoisie de l'utilisateur
pas de calculs (fréquences, maximum, moyennes), de jointure, de restructuration des résultats
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
Les documents semi-structurés (XML) Les spécificités de la RI structurée Les interfaces de requêtes
• Les buts– Confort– Performance comparable
27/09/2006
13/42
L'approche de Woodley et Geva [2004]
• Patrons sémantiques (template matching)
Find figures …//fig
<ELEMENT> + <RELATION> + <TEXTE> "//<ELEMENT>[about(., <TEXTE>)]"
sections containing something
//sec[about(., something)]
<INSTRUCTION> + <ELEMENT> "//<ELEMENT>"• Avantages :– Efficacité (en temps de calcul)– Pas d'ambiguïté
• Limites :– Seulement les constructions prévues à l'avance– Peu robuste– Difficile à adapter– Pas de constructions "implicites"
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
Les documents semi-structurés (XML) Les spécificités de la RI structurée Les interfaces de requêtes
un article qui cite un autre article bibliographie
27/09/2006
14/42
Plan (rappel)
– Analyse syntaxique– Règles sémantiques– Construction de la requête
• Interface de requêtes en langage naturel
• Les documents XML et la recherche d'information
• Recherche contextuelle
• Expérimentations
27/09/2006
15/42
Architecture générale
analysesyntaxique
règlessémantiques
constructionde la
requête
requête en langage naturel
requête en NEXI
première représentation (syntaxique)
deuxième représentation (sémantique)
Indépendante de la collection
Dépendantes de la collection
27/09/2006
16/42
Analyse syntaxique
Analyse syntaxique Règles sémantiques Construction de la requête
We are searching paragraphs dealing with management
NNINV(ger)NNVPP
NP NP
VP
NP
VP
NP
S
NP → DET? NNNP → PP
NP → NP VP(ger)
VP → V IN? NP
S → NP VP… → …
We are searching paragraphs dealing with version managementin articles about object databases.
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
27/09/2006
17/42
We are searching paragraphs dealing with version managementin articles about object databases.
a b c d e1 e2
a : (paragraph, sym:paragraphs, cat:nn, tag:p)b : (version management, cat:np)c : (article, sym:articles, cat:nn, tag:article)d : (object databases, cat:np)e1 : (search, sym:are searching, cat:v)e2 : (deal, sym:dealing, cat:v)
objet(e1, a)sujet(e2, a)with(e2, b)in(a, c)about(c, d)
elements
valeurs
relations
cibles
Analyse syntaxique : représentation
Valeurs :
lemmetermes initiaux
catégorie
balisecat:np
cat:np
NP (JJ | NN)+ NN
NP PN (IN? PN)+
Relations :
sujet, objet…
in, with, of, on, …
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
Analyse syntaxique Règles sémantiques Construction de la requête
27/09/2006
18/42
We are searching paragraphs dealing with version managementin articles about object databases.
a b c d e1 e2
a : (paragraph, tag:p)b : (version management)c : (article, tag:article)d : (object databases)e1 : (search)e2 : (deal)
objet(e1, a)sujet(e2, a)with(e2, b)in(a, c)about(c, d)
elements
valeurs
relations
cibles
VP
NP
a, b, e2
a : (paragraph, cat:nn, tag:p)b : (management, cat:nn)e2 : (deal, cat:v)
with(e2, b)sujet(e2, a)
Analyse syntaxique
dealing with managementNNINV(ger)
b
b : (management, cat:nn)
with(?, ?)
e2
e2 : (deal, cat:v)
b, e2
b : (management, cat:nn)e2 : (deal, cat:v)
with(e2, b)
a
a : (paragraph, cat:nn, tag:p)
dealing with managementparagraphs
NN
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
Analyse syntaxique Règles sémantiques Construction de la requête
27/09/2006
19/42
We are searching paragraphs dealing with version managementin articles about object databases.to search + <objet>
to deal + <with>
valeurs
relations
cibles
ae1 : (search)
objet(e1, a)
a
a
a : (tag:_)be2 : (deal)
sujet(e2, a)with(e2, b)
ab
about(a, b)
valeurs
relations
cibles
a b c d
a : (paragraph, tag:p)b : (version management)c : (article, tag:article)d : (object databases)
about(a, b)in(a, c)about(c, d)
a
Règles sémantiques
a b c d e1 e2
a : (paragraph, tag:p)b : (version management)c : (article, tag:article)d : (object databases)e1 : (search)e2 : (deal)
objet(e1, a)sujet(e2, a)with(e2, b)in(a, c)about(c, d)
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
Analyse syntaxique Règles sémantiques Construction de la requête
27/09/2006
20/42
- Détection de la cible :find <objet>, look <for>, …
- Relations verbales :speak <about>, concern <objet>, precede <objet>, …
- Relations prépositionnelles :<with>, <in>, <about>
a : (tag:_)be : (cite)
sujet(e, a)objet(e, b)
abc (tag:bib)
about(c, b)
valeurs
relations
cibles
an article that cite … an article citing
- <sujet> cite <objet>
• Règles dépendant de la structure
- introduction
• Règles "fixes"
- <tag> <by>
a : (tag:_)b
by(a, b)
abc (tag:au)
about(c, b)
valeurs
relationscibles
an article by …
Règles sémantiques
a:(introduction) ab (tag:sec)c (tag:st)
includes(b, c)about(c, a)
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
Analyse syntaxique Règles sémantiques Construction de la requête
27/09/2006
21/42
Désambiguïsation syntaxique
• par le nombre de règles
Les règles permettent la désambiguïsation syntaxique
• par leurs modalités d'application
Trouvez un article sur Napoléon qui cite Max Gallo
<article> citer <objet>
Je cherche des sections sur les impressionnistesdans des articles sur la peinture
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
Analyse syntaxique Règles sémantiques Construction de la requête
27/09/2006
22/42
(sujet) citer (objet)(dans) citer (objet)
Modèle de la collection
article bib
un élément bibliographique
un article un élément bibliographique
un articleest cité par
est cité dans
cite
au article
(par)(de)
écrirepublier
un auteur
un article un auteur
un articlepublieécrit
depar
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
Analyse syntaxique Règles sémantiques Construction de la requête
27/09/2006
23/42
vita
être
yr
(obj
et) p
ublie
r (da
ns)
ti
(dans) publier (objet)
publier .
(de)
Modèle de la collection
bib(sujet) citer (objet)
(dans) citer (objet)écrirepublier
au article
(par)(de)
abs
résumer
atl
intit
uler
(de)
(objet) publier (dans)
ack remercier
st
sec
intituler
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
Analyse syntaxique Règles sémantiques Construction de la requête
27/09/2006
24/42
We are searching paragraphs dealing with version managementin articles about object databases.
//article[about(., "object databases")]
//p[about(., "version management")]
//article[about(., "object databases")]//p[about(., "version management")]
Obtention de la requête finale (NEXI)
a b c d e1 e2
a : (paragraph, tag:p)b : (version management)c : (article, tag:article)d : (object databases)e1 : (search)e2 : (deal)
objet(e1, a)sujet(e2, a)with(e2, b)in(a, c)about(c, d)
a b c d
a : (paragraph, tag:p)b : (version management)c : (article, tag:article)d : (object databases)
about(a, b)in(a, c)about(c, d)
a
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
Analyse syntaxique Règles sémantiques Construction de la requête
27/09/2006
25/42
Plan (rappel)
• Interface de requêtes en langage naturel
• Les documents XML et la recherche d'information
• Recherche contextuelle
• Expérimentations
– Problématique– Recherche contextuelle avec XOR
27/09/2006
26/42
Source majeure d'erreurs pour les moteurs de recherche :
ex. : Navigation systems for automobiles (Top. 128, INEX 2004)
Beaucoup d'éléments bien classés concernaient navigation systems for planes or ships…
Pourquoi ?
NP NP (PREP NP)+
automobile est le contexte, et le terme n'apparaît pas dans les
éléments les plus profonds.
article
abs intro sec
p
ss1
automobilesplanesships
navigation systems
Problématique
Problématique Recherche contextuelle avec XOR
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
27/09/2006
27/42
<article title="… automobiles …"> <paragraph> … … … … </paragraph> <paragraph> … navigation systems … </paragraph> … </article>
a paragraph about navigation systems for automobiles//p[about(. , navigation systems for automobiles)]
<article> <abstract> … navigation systems … </abstract> <paragraph> … automobiles … </paragraph> … </article>
<article> <paragraph> … </paragraph> <paragraph> … … … navigation systems … … automobiles … … … </paragraph> </article>
Problématique
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
Problématique Recherche contextuelle avec XOR
27/09/2006
28/42
Pondération d'un élément avec le score du document
La rétro-propagation [Sigurbjörnsson et al]
<article> <abstract> … navigation systems … </abstract> <paragraph> … automobiles … </paragraph> … </article>
se
Sd
Se = f (Sd , se )
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
Problématique Recherche contextuelle avec XOR
//p[about(. , navigation systems for automobiles)]
27/09/2006
29/42
a paragraph about navigation systems for automobiles GN1 PREP GN2
//article[about(. , automobile)]//p[about(. ,“navigation systems”)
OR
//article[about(. , “navigation systems”)]//p[about(. , automobile)
OR
//article//p[about(. , automobile) AND about(. ,“navigation systems”)]
Recherche contextuelle avec XOR
• hypothèse : gain de rappel et pas de perte de précision
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
• impossible avec NEXI
XOR (XML Oriented Language), proposé avec Shlomo Geva et Marcus Hassler
Problématique Recherche contextuelle avec XOR
27/09/2006
30/42
… PAS d'article sur le football à Saint-Etienne GN1 PREP GN2
//article[… AND NOT about(. , football Saint-Etienne)]
Recherche contextuelle et négation
Exception pour la négation
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
Problématique Recherche contextuelle avec XOR
27/09/2006
31/42
Plan (rappel)
• Interface de requêtes en langage naturel
• Les documents XML et la recherche d'information
• Recherche contextuelle
• Expérimentations– Méthodologie– Résultats avec NEXI et XOR– Conclusion
27/09/2006
32/42
• INEX (depuis 2002) : ensemble de requêtes avec une description en Anglais et une expression NEXI manuelle, avec des jugements de pertinence
• Les requêtes automatiques et manuelles sont exécutées avec le même moteur de recherche E (GPX).
• Comparaison entre l'interface et les requêtes manuelles.
EENEXI / XORNEXI / XOR
NEXI (manuel)NEXI (manuel)
DescriptionDescription(langage (langage naturel)naturel)
"baseline""baseline"
"run""run"
Méthodologie
Méthodologie Résultats Conclusion
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
27/09/2006
33/42
• Métriques d'INEX [Kazai et Lalmas 04]
– mesures spécifiques à la recherche XML– gain cumulé normalisé étendu (nxCG[n]) rappel– effort-précision / gain-rappel précision
• Jugements de pertinence des éléments fournis par INEX
Méthodologie : métriques
EENEXI / XORNEXI / XOR
NEXI (manuel)NEXI (manuel)
DescriptionDescription(langage (langage naturel)naturel)
"baseline""baseline"
"run""run"
Méthodologie Résultats Conclusion
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
27/09/2006
34/42
• Content and Structure : requêtes avec des indications de structure– VVCAS– VSCAS– SVCAS– SSCAS
• Content Only : requêtes sans indications de structure– Focussed : chevauchement interdit– Thorough : chevauchement autorisé– Fetch and Browse : article puis liste d'éléments dans cet article
Différentes tâches (2005)
Différence de traitement (vague ou strict) des contraintes structurelles du support ou de la cible
//article[about(.//abs, "spécialités Sud-Ouest")]//par[about(., magret)]
Méthodologie Résultats Conclusion
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
27/09/2006
35/42
Résultats (VVCAS)
"Baseline"NEXI simpleXOR avec recherche contextuelle
Méthodologie Résultats Conclusion
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
27/09/2006
36/42
Résultats (autres CAS)
"Baseline"NEXI simpleXOR avec recherche contextuelle
Méthodologie Résultats Conclusion
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
27/09/2006
37/42
Résultats (CO.Thorough)
"Baseline"NEXI simpleXOR avec recherche contextuelle
Méthodologie Résultats Conclusion
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
27/09/2006
38/42
Résultats (autres CO)
"Baseline"NEXI simpleXOR avec recherche contextuelle
Méthodologie Résultats Conclusion
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
27/09/2006
39/42
Influence du regroupement en NP
"Baseline"NEXI simpleNEXI sans les NP
Méthodologie Résultats Conclusion
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
27/09/2006
40/42
Résultats : conclusion
Méthodologie Résultats Conclusion
• Evaluation très positive : - le langage naturel est une alternative viable- la structure des requêtes est une aide à l'analyse
• Bons résultats pour les requêtes CAS, moins bons pour les CO.
- traduction mentale des humains pas toujours appropriée- utilisation organisée des groupes nominaux plus efficace- trop de bruit pour les questions longues
• Recherche contextuelle - améliore les bons résultats- utile avec une analyse bien maîtrisée
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
27/09/2006
41/42
Conclusion générale
• Confrontation des techniques de TAL et de la problématique des documents semi-structurés :
– Analyse textuelle des contenus XML– Analyse de requêtes en langage naturel– Utilisation de la structure pour la recherche contextuelle
• Résultats expérimentaux à chaque étape
• Validité des approches confirmée
27/09/2006
42/42
Améliorations
• Intégration des techniques "classiques" de TAL
• Amélioration du comportement du système face aux questions "difficiles"
• Simplification de la gestion des règles sémantiques
27/09/2006
43/42
Perspectives
• Application d'autres techniques de traitement de la langue
• Collections hétérogènes
• Dialogue
• Question-réponse
• Synthèse automatique
• Gestion des connaissances (Semantic Web…)
27/09/2006
Merci !
27/09/2006
45/42
- "hard" tags : interrompent la linéarité du texte. ex: titres, chapitres, paragraphes
- "soft" tags : identifient des parties significatives de texte, maisrestent "transparents" à la lecture.
ex: gras, italiques, souligné
- "jump" tags : elements particuliers, comme les notes de marges, les citations, les définitions…
<tag>texte A</tag><tag>texte B</tag>
texte A <gras>texte B</gras> texte C
texte A<note>texte B</note> texte C
proximité physique ≠ proximité logique
Classification des balises [Lizi et al., 2001]
Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger
Classification des balises et contextes de lectureAnalyse des requêtes en langage naturel
Recherche contextuelleExpérimentations
27/09/2006
46/42
<news> <item>Dernier sondage, à quatre jours des élections</item> <item>Aux Etats-Unis, une fausse alerte provoque la panique dans un avion</item></news>
Recherche du motif "Elections aux Etats-Unis"
Balises dures
Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger
Classification des balises et contextes de lectureAnalyse des requêtes en langage naturel
Recherche contextuelleExpérimentations
27/09/2006
47/42
<par> Les élections aux <gras>Etats-Unis</gras> sont prévues pour l'année 2008. </par>
<titre> Les commentaires de Noam Chomsky au sujet des <gras>élections</gras> aux <italiques>Etats-Unis</italiques>. </titre>
Balises transparentes
Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger
Classification des balises et contextes de lectureAnalyse des requêtes en langage naturel
Recherche contextuelleExpérimentations
27/09/2006
48/42
<transcription_orale> Les nouvelles ne parlent plus que des élections aux Etats- <commentaire>une porte claque</commentaire>Unis.</transcription_orale>
<paragraphe> En 2004, les élections<note>Voir p.163 un article général sur les modes électoraux dans le monde.</note> aux Etats-Unis furent moins controversées qu'en 2000. </paragraphe>
<résumé> Cet article traite du prochain voyage du président roumain <nbp>Traian Basescu, qui a remporté de justesse les dernières élections</nbp> aux Etats-Unis.</résumé>
Balises de saut
Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger
Classification des balises et contextes de lectureAnalyse des requêtes en langage naturel
Recherche contextuelleExpérimentations
27/09/2006
49/42
En 2004, les élections<note>Voir p.163 un article général sur les modes électoraux dans le monde.</note> aux Etats-Unis furent moins controversées
• Une portion de texte syntaxiquement et sémantiquement auto-suffisante dans le document XML.
• Connaître la nature des balises permet de retrouver les contextes de lecture.
• C'est la condition pour permettre l'utilisation des méthodes d'analyse textuelle sur le contenu XML(étiquetage POS, analyse syntaxique/sémantique, indexation, etc.)
Le contexte de lecture
Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger
Classification des balises et contextes de lectureAnalyse des requêtes en langage naturel
Recherche contextuelleExpérimentations
27/09/2006
50/42
• Détermination automatique des classes
• L'idée est de prendre le problème "à l'envers" :
- Supposons qu'une balise donnée est transparente(resp. de saut ou dure)
- Les contextes de lecture sont-ils préservés ?
La balise est transparente (resp. de saut ou dure)
La balise n'est pas transparente (resp. de saut ou dure)
oui non
Le contexte de lecture
Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger
Classification des balises et contextes de lectureAnalyse des requêtes en langage naturel
Recherche contextuelleExpérimentations
27/09/2006
51/42
- Balise transparente : un élément est transparent s'ilest possible de supprimer le balisage et d'obtenir untexte syntaxiquement correct.
Les élections aux <bold>Etats-Unis</bold> sont prévues pour 2008.
En 2004, les élections<note>Voir p. 163 un article général sur les modes électoraux.</note> aux Etats-Unis furent moins controversées
Définitions "linguistiques" (1/3)
Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger
Les élections aux Etats-Unis sont prévues pour 2008.
* En 2004, les élections Voir p. 163 un article général sur les
modes électoraux. aux Etats-Unis furent moins controversées.Classification des balises et contextes de lecture
Analyse des requêtes en langage naturelRecherche contextuelle
Expérimentations
27/09/2006
52/42
- Balise de saut : un élément est "de saut" s'il est possible dede le supprimer en entier (balises + contenu) et d'obtenir autour un texte syntaxiquement correct.
Définitions "linguistiques" (2/3)
Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger
Les élections aux <bold>Etats-Unis</bold> sont prévues pour 2008.
En 2004, les élections<note>Voir p. 163 un article général sur les modes électoraux.</note> aux Etats-Unis furent moins controversées
* Les élections aux sont prévues pour 2008.
En 2004, les élections aux Etats-Unis furent moins controversées.
Classification des balises et contextes de lectureAnalyse des requêtes en langage naturel
Recherche contextuelleExpérimentations
27/09/2006
53/42
- Balise dure : un élément "dur" n'est ni un élément transparent ni un élément "de saut".
<news> <item>Dernier sondage, à quatre jours des élections</item> <item>Aux Etats-Unis, une fausse alerte provoque la panique dans un avion</item></news>
Définitions "linguistiques" (3/3)
Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger
Classification des balises et contextes de lectureAnalyse des requêtes en langage naturel
Recherche contextuelleExpérimentations
27/09/2006
54/42
une classe correspond à un nom de balise, et non à une balise isolée. traitement statistique nécessité d'un large corpus
- Souvent les définitions s'appliquent au même élément.
- Une analyse syntaxique n'est pas efficace à 100 % pour le langage "courant".
- Dans certains cas, les définitions ne permettent pas de conclure.
<title><bold>Introduction</bold></title>
(need some text before OR after)
Les problèmes
<par>Napoléon<note>qui naquit en 1769</note> mourut à l'âge de 52 ans. </par>
Napoléon qui naquit en 1769 mourut à l'âge de 52 ans.
Napoléon mourut à l'âge de 52 ans.
Mais :
<par>For each <gras><tt>v</tt>(t)</gras> such as <it><tt>v</tt>(t)</it> = <it>n + t</i></par>
Classification automatique
Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger
Classification des balises et contextes de lectureAnalyse des requêtes en langage naturel
Recherche contextuelleExpérimentations
27/09/2006
55/42
- Corpus d'INEX 2004- 12000 articles de l'IEEE.- 600 Mo.- 192 balises différentes.
- Analyse syntaxique avec Cass (S. Abney)
- Pour les balises transparentes- entre 50 et 70 % de validation pour les véritables balises transparentes. - entre 0 et 5 % de validation pour les autres balises.
- Pour les balises de saut et transparentes- un seuil de 20 % conduit à une précision proche de 100 %.
Expérimentations
Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger
Classification des balises et contextes de lectureAnalyse des requêtes en langage naturel
Recherche contextuelleExpérimentations
27/09/2006
56/42
- XGTagger est un logiciel libre et gratuit.
- XGTagger utilise la classification et exécute sur des contenus XML tous types d'outils existant pour l'analyse textuelle.
- Il conserve la structure initiale des documents et ajoute de l'information grâce aux attributs XML.
XGTagger
Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger
Classification des balises et contextes de lectureAnalyse des requêtes en langage naturel
Recherche contextuelleExpérimentations
27/09/2006
57/42
<article> <titre><w pos="V" id="1">Visitez</w> <w pos="PN" id="2">I</w> <pc><w pos="PN" id="2">stanbul</w></pc> </titre> <par> <w pos="DT" id="3">Cette</w> <w pos="JJ" id="4">ancienne</w> ………… <w pos="CD" id="7">trois</w> <w pos="NN" id="8">empires</w> <note> <w pos="PN" id="16">Istanbul</w> ……… </note> <w pos="V" id="9">est</w> ………….. </par></article>
Analyse textuelle(ex: étiquetage morphosyntaxique)
Contextes delecture
Visitez Istanbul -- Cette ancienne capitale de trois empires
VPN -- DT JJ NN INCD NN
Reconstitution
XGTagger (example)
Balises dures, transparentes, de saut Contextes de lecture Classification automatique XGTagger
<article> <titre>Visitez I<pc>stanbul</pc></titre> <par>Cette ancienne capitales de trois empires<note>Istanbul a
été successivement la capitale des empires romain, byzantinet ottoman</note> est désormais la capitale économique de la<gras>Turquie</gras>.
</par></article>
Visitez Istanbul -- Cette ancienne capitales de trois empires est désormais la capitale économique de la Turquie. -- Istanbul a été successivement la capitale des empires romain, byzantin et ottoman
Classification des balises et contextes de lectureAnalyse des requêtes en langage naturel
Recherche contextuelleExpérimentations
27/09/2006
58/42
27/09/2006
59/42
La négation
• Pour les termes qui ne doivent PAS apparaître
• Report de la négation du verbe vers le complément
We are not interested in filtration
a e
a:(lem:filtration…)e:(lem:interest…)
in(e, a)neg(a)
Les spécificités de la RI semi-structurée Analyse syntaxique Règles sémantiques Construction de la requête
Introduction : les documents XMLAnalyse des requêtes en langage naturel
Recherche contextuelle
Expérimentations
27/09/2006
60/42
27/09/2006
61/42
Le langage XOR
Problématique Le langage XOR Recherche contextuelle avec XOR
(proposé avec Shlomo Geva et Marcus Hassler)
Les limites de NEXI
- prédicat 'about' seulement
- requêtes simples seulement
- aucune caractéristique supplémentaire
//article[about(. , automobile)]//p[about(. ,“navigation systems”)
Les réponses de XOR
- prédicats génériques
- requêtes multiples
- extensions des chemins et mots-clés
//article[about(. , automobile)]//p[about(. ,“navigation systems”)
OR//article[about(. , automobile)]
//p[about(. ,“navigation systems”)
- problème de négation - opérateur NOT
contains(), linkToAbout(), etc…
pas d'article sur le football à Saint-Etienne
-football -Saint-Etienne ?-"football Saint-Etienne" ?
pas d'article sur le football à Saint-Etienne
NOT about(., football Saint-Etienne)
about(., été{cat:nn})//*{taille_min:200}[about(., …)]NEXI est compatible avec XOR
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
27/09/2006
62/42
a paragraph about navigation systems for automobiles//p[about(. , navigation systems for automobiles)]
Modification de la requête
un paragraphe sur "navigation systems" dans un article sur "automobiles"
//article[about(. , automobile)]//p[about(. ,“navigation systems”)
perte de précision
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
Problématique Recherche contextuelle avec XOR
27/09/2006
63/42
a paragraph about navigation systems for automobiles GN1 PREP GN2
//article[about(. , automobile)]//p[about(. ,“navigation systems”)
OR
//article[about(. , “navigation systems”)]//p[about(. , automobile)
OR
//article//p[about(. , automobile) AND about(. ,“navigation systems”)]
Recherche contextuelle avec XOR
Problématique Le langage XOR Recherche contextuelle avec XOR
<article title="… automobiles …"> <paragraph> … … … … </paragraph> <paragraph> … navigation systems … </paragraph> … </article>
<article> <abstract> … navigation systems … </abstract> <paragraph> … automobiles … </paragraph> … </article>
<article> <paragraph> … </paragraph> <paragraph> … … … navigation systems … … automobiles … … … </paragraph> </article>
• hypothèse : gain de rappel et pas de perte de précision
• généralisé pour GN (PREP GN)+ (GN1 PREP GN2 PREP GN3, etc.)
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
27/09/2006
64/42
• Métriques d'INEX [Kazai et Lalmas 04]
– gain cumulé normalisé étendu (nxCG[n]) : compare le gain du système avec le gain d'un système idéal au bout de n éléments consultés
– effort-précision / gain-rappel : courbe évaluant l'effort que doit fournir l'utilisateur pour parvenir à un certain gain
• Jugements de pertinence des éléments fournis par INEX
Méthodologie : métriques
EENEXI / XORNEXI / XOR
NEXI (manuel)NEXI (manuel)
DescriptionDescription(langage (langage naturel)naturel)
"baseline""baseline"
"run""run"
Méthodologie Résultats Conclusion
Les documents XML et la recherche d'informationInterface de requêtes en langage naturel
Recherche contextuelleExpérimentations
top related