core techs et lucene

13
Lucene : cherche sémantique et typologiq 1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique

Upload: core-techs

Post on 26-Dec-2014

1.125 views

Category:

Technology


2 download

DESCRIPTION

Présentation Lucene, recherche sémantique et typologique.

TRANSCRIPT

Page 1: Core Techs Et Lucene

Lucene :Recherche sémantique et typologique

1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique

Page 2: Core Techs Et Lucene

Plan de la présentation :

1. Lucene et la recherche sémantique

2. Typologie documentaire et recherche

3. Trustin : l’application de recherche en ASP

1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique

Page 3: Core Techs Et Lucene

1. Lucene et la recherche sémantique

a. Rappels : Lucene, l’outil de recherche opensource en Java

• Lucene est né en 2001 au sein de la communauté Apache

• Système de recherche et d’indexation entièrement écrit en Java

• Les points forts de Lucene :

• Performance reconnue de l’index

• Un modèle applicatif ergonomique

• Une capacité d’intégration exemplaire

1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique

Page 4: Core Techs Et Lucene

1. Lucene et la recherche sémantique

b. Structure et fonctionnement de Lucene

1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique

DB

Index

File System

web

GatherData

IndexDocuments

Search Index

User

Get Users’Query

PresentSearch Results

Lu

cen

eA

pp

lica

tion

Page 5: Core Techs Et Lucene

1. Lucene et la recherche sémantique

• Une phase de structuration :

• Une phase d’indexation :

• Analyzer : fournit la méthode d’indexation

• Indexer : ajoute le contenu à l’index

1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique

b. Structure et fonctionnement de Lucene

Document

Field

Page 6: Core Techs Et Lucene

1. Lucene et la recherche sémantique

c. Application de recherche

• Query : modélise la requête de l’utilisateur, utilisation de syntaxe booléenne, etc

• Analyzer : méthode de parsing de la requête

• IndexSearcher : effectue la recherche sur l’index

• Hit : Un résultat de recherche

1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique

Page 7: Core Techs Et Lucene

2. Typologie documentaire et recherche

a. Référentiel documentaire

• Un référentiel documentaire est un ensemble de contenus produit par un groupe d’entités sur une thématique commune

• La typologie des documents du référentiel est hétérogène

• Le sens d’un terme est lié à sa position au sein de la structure du document

• Il est nécessaire de trouver un modèle capable de lier la position structurelle d’un terme (typologie) à son sens (sémantique)

1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique

Page 8: Core Techs Et Lucene

2. Typologie documentaire et recherche

b. Introduire la notion de typologie dans Lucene

1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique

Documents

XMLDescriptor

Content

Structure

Document

Field

Page 9: Core Techs Et Lucene

2. Typologie documentaire et recherche

c. Pondération de la pertinence des résultats de recherche

• Introduire un coefficient de pondération supplémentaire dans le taux de pertinence calculé par Lucene

• En identifiant les zones de contenu où la recherche doit être effectuée : descripteur XML

• Produire un « ranking » de termes par zone : statistique

1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique

Page 10: Core Techs Et Lucene

3. Trustin : l’application de recherche en ASP

a. Externalisation des application de recherche

1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique

DescripteursXML

CrawlerTrustin

Référentiel documentaire

Index

Applicationde recherche

Résultatsde recherche

Trustin SI externe

Page 11: Core Techs Et Lucene

3. Trustin : l’application de recherche en ASP

b. Les fonctionnalités de Trustin

• Suggestion automatique de rechercheEx : création ? création d’entreprise OU création artistique

• SiglaisonEx : CDI ? Contrat à Durée Indéterminée

OU Contrat Développement Innovation

• Stemmatisation :Ex : Commerce ? Commerce ET Commercial(e)

ET Commercialisation, etc

• Correction orthographique

• Indexation multi-format : XML, HTML, PDF, Word, Excel, PowerPoint, Ooo

1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique

Page 12: Core Techs Et Lucene

3. Trustin : l’application de recherche en ASP

c. Développement de Trustin

• Cofinancé par Oséo

• Ouverture prochaine à la communauté

[email protected]

1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique

Page 13: Core Techs Et Lucene

Merci de votre attention

Questions ?

1er février 2007 – Louis Sicard – Lucene : recherche sémantique et typologique