les techniques des moteurs de recherche comment ça marche ? est ce que ça marche ? quest-ce qui...
TRANSCRIPT
Les techniques des
moteurs de recherche
Comment ça marche ?
Est ce que ça marche ?
Qu’est-ce qui marche le mieux ?
BOUTTES
Cédric
Plan
I - Le fonctionnement des moteurs de recherche
II – Un mode de recherche booléen basé sur le contenu des documents
indexation en texte intégral avec prise en compte de la localisation et de la fréquence des mots des documents
III – Application des traitements linguistiques pour une recherche plus efficace
utilisation d’ index de lemmes et technique d’expansion de requête
utilisation d’ index de groupes nominaux
indexation sémantique à l’aide des ontologies
IV – Des techniques pour améliorer le classement des résultats
tri par popularité et tri par clustering
outils d’aide à la reformulation des requêtes
Plan
téléchargement des pages1
CrawlerServeur d’index
2indexation
Serveur Web
FONCTIONNEMENT DES MOTEURS DE RECHERCHES
3 interrogation de l’index et mis en forme des résultats
Base de données de documents indexés
Internet
INTRANET
requête
requin AND blanc
Fonctionnement des moteurs
Indexation en texte intégral
Page Web N°2url : www.dietetique.fr
Texte : … un homme mange le blanc d’œuf …
INDEX page 2www.dietetique.fr
F E U T I M PoidsHomme : 1 0 0 0 0 0 1
Blanc : 1 0 0 0 0 0 1
Recherche : 1 0 0 0 0 0 1INDEX page 1www.dents_de_la_mer.fr
F E U T I M PoidsRequin : 2 0 0 1 1 0 4
Blanc : 1 0 0 1 0 0 2
Homme : 1 0 0 0 0 0 1…
Page Web N°1url : www.dents_de_la_mer.fr
Titre : Le grand requin blanc.
Texte : ... le film où le requin attaquait l’homme …
Image :
INDEX inversé des motsPage PoidsBlanc :www.dents_de_la_mer.fr 2 www.dietetique.fr 1
Homme : www.dietetique.fr 1 www.dents_de_la_mer.fr 1
Requin : www.dents_de_la_mer.fr 4
Mange : www.dietetique.fr 1…
à lade d’dans lespar desle nos
Liste mots-vides
Bruit et Silence
Ensemble des documents trouvés
Ensemble des documents de la base
BRUIT = ensemble des documents non pertinents trouvés
Rappel Précision
SILENCE = ensemble des documents pertinents non trouvés
Documents pertinents trouvés
Ensemble des documents pertinents dans la base
Source de silence
REQUETE UTILISATEUR : « REQUIN BLANC ATTAQUE HOMME»
… ont attaqué …
… attaquera …
… attaquait…
… attaque …
Non trouvé et pertinent
= SILENCETrouvé et pertinent
Rappel
Extraction des mots bruts
attaquera attaquait ont attaqué
Dico de lemmes
INDEXATIONAnalyse Syntaxique
attaquer : Doc1 Doc2 Doc3
REQUETE UTILISATEUR : « … attaque … »
ANALYSE DE LA REQUETE Analyse Syntaxique
Dico de lemmes
Indexation libre par fichier inverse de lemmes
Doc1 Doc2 Doc3
Index de lemmes
Doc1 Doc2 Doc3
Extraction des mots bruts
attaquera attaquait ont attaqué
INDEXATION EN TEXTE INTEGRAL
attaquera : Doc1attaquait : Doc2ont attaqué : Doc3
REQUETE UTILISATEUR : « … attaque … »
ANALYSE DE LA REQUETE Analyse Syntaxique
Dico de lemmes
Technique d’expansion de requête
attaquera
attaquait
ont attaqué
Expansion de requête
Source de bruit
REQUETE UTILISATEUR : « GRAND REQUIN BLANC»
… blanc d’oeuf …
… requin blanc …
Trouvé et nonpertinent = BRUIT
Trouvé et pertinent
… requin baleine …Précision
Index de groupes nominaux
Doc1
Extraction de groupes nominaux
Le requin blanc a attaqué
Dico
INDEXATION
Attaque de requin blanc : Doc1 Doc2 Index inversé de
groupes nominaux
Analyse Syntaxique du texte
Nominalisation
Doc2
Des requins blancs ont attaqué
REQUETE UTILISATEUR : « Une attaque de requin blanc »
Dico
ANALYSE DE LA REQUETE Analyse Syntaxique
Nominalisation
Indexation libre par fichier inverse de groupes nominaux (ou syntagme)
requin
REQUETE UTILISATEUR : « Les attaques de requin blanc sur l’homme »
Extraction de mots, groupes nominaux
Analyse statistique pour le choix des concepts qui serviront à indexer le document
INDEXATION
AGRESSION : Doc1 Index des concepts extraits des documents
Analyse MorphoSyntaxique du texte
ANALYSE DE LA REQUETE Analyse statistique
Ontologie
AGRESSION
victime
Analyse MorphoSyntaxique de la question
Doc1« … l’homme a été victime d’un grand requin blanc … »
Indexation sémantique à l’aide des ontologies
attaque
requin
Ontologie
AGRESSION
victimeattaque
Indexation sémantique
52.8 7.7452.8
58
45.1
10045.1
10
25.8Méthode basée sur la co-citation
Techniques de classement
2) Tri par clustering
Classement des documents trouvés dans des dossiers eux même constitués de sous-dossiers
Autres techniques de classement
Sujets
Type
Source
Langue
Techniques d’affinage : l’exemple de Kartoo
Kartoo
CONCLUSION
L’interrogation en mode booléen des index en texte intégral génère du bruit et du silence.
Les techniques linguistiques permettent de limiter ces problèmes.
Il existe des méthodes pour améliorer le classement des résultats.
Une autre piste : le Web Sémantique