projet_rss_intelligence_architecture des systèmes de recherche d'information

7/29/2019 Projet_RSS_Intelligence_Architecture des Systèmes de recherche d'information

http://slidepdf.com/reader/full/projetrssintelligencearchitecture-des-systemes-de-recherche-dinformation 1/16

1 | P a g e

Université De Bretagne Du Sud

Ecole Nationale Supérieure D'ingénieurs De Bretagne-Sud

Projet :RSS-Intelligence

Rapport Final

Réalisé par Encadré par

Adnane AL ECHCHEIKH EL ALOUI Pierre-François Marteau

Année Universitaire 2012/2013

http://foad.univ-ubs.fr/course/view.php?id=623



3 | P a g e

1. Introduction

L’objectif du projet est de réaliser un système de veille sur internet qui exploite des flux RSS et intégrer les étapes suivantes :

Un crawler/reader de flux RSS qui exploite et collecte les flux RSS à distance sur Internet.

Un module d’analyse des flux qui contient des fonctions de :

o Stemmer (la racinisation des mots) .

o L'anti-dictionnaire : utilisé pour supprimer les mots « vides ».

L'indexation des flux RSS récupérées consiste à extraire les mots considérés comme significatifs du corpus à explorer. Les mots extraits sontenregistrés dans une base de données sous format d’un dictionnaire inverse ce qui permet de retrouver rapidement les mots .

La recherche en utilisant une technique qui permet de pondérer une mesure de cosinus en utilisant un indice de notoriété des flux.

Schéma global



6 | P a g e

4. Stockage des données

Puisque l’ajout de nouvelles Flux RSS est une opération fréquente, une structure type fichier de « log » peut être avantageuse , mais pour éviter le parcoure

de fichier log à chaque mise à jour ,on va passer par un hashtable (pointage rapide et la gestion des doublons ).

Cette étape consiste à stocker localement les dépêches RSS dans des fichiers LOG et à l’indexation incrémentale des éléments RSS ,et à chaque stockage on

vérifie que le dépêche n’existe pas dans fichier log via l’utilisation d’un hashtable . le but c’est d’accélérer la mise à jour.

Ce fichier log « fichier_log.log » contient tous les informations (

<title> <description> <link>...) pour chaque élément de flux RSS et aussi un

identificateur unique pour pointer rapidement sur les dépêches demandé et aussi pour éviter les redoublants.

identificateur unique est calculer par une fonction de hachage MD5 .,qui génère une clé en se basant sur les informations (<title> <description>

<link>...)



7 | P a g e

Traduction UML

La fonction ecrireFichier() de la class Writer_log permet de stocker localement les dépêches RSS dans des fichiers LOG

Format de fichier log :



9 | P a g e

6. L'indexation des flux RSS

Pour le modèle d’indexation on a choisi une représentation vectorielle – listes inverse car il permet une recherche rapide sur les termes mais aussi pour

chaque terme, on obtient une liste d’enregistrement contenant un PID, fréquence des termes et les positions des termes dans le document.

La première étape consiste à stocker la liste des mots dans un dictionnaire et pour chaque item une adresse unique qui point vers la liste inverse, cette liste

est présentée sous format d’une table de kyotocabinet de deux champs le did et une liste des items sérialisé



10 | P a g e

Le dictionnaire c’est un hashtable qui contient tous les mots avec un identifiant et sa fréquence et son adresse dans la liste inverse, ces trois dernier sont

présenter sous format d’un objet « Info_mots »

A la fin de chaque mise à jour le dictionnaire est sérialisé dans le fichier « dictionnaire_mots.ser » avec la methode

Ce qui permet de garde le contenu du dictionnaire à la fin de l’exécution d’indexation.

Traduction UML

dictionnaire liste inverse



12 | P a g e

Fonction pour convertir un objet a un string en utilisant ByteArray



13 | P a g e

7. Module moteur de recherche

La recherche et la classification est réalisé via le modèle vectoriel, c’est une méthode algébrique de représentation d'un document. La similarité cosinus (ou

mesure cosinus) permet de calculer la similarité entre deux vecteurs à dimensions en déterminant l'angle entre eux.

Donc cette étape du projet consiste à l’implémentation de ce modèle vectoriel en calculant la similarité.

Pour évaluer l'importance d'un terme contenu dans une dépêche on calcule Le TF-IDF

f(i,j) = freq(i,j) / max(freq(l,j))

c’ est le nombre d ’ occurance de i dans j diviser sur le max nombre

d ’ occurance dans j

i : un terme , j :un dépêche.

idf(i) = log (N/ni)

c’ est lelog du nombre total des dépêches diviser sur le nombre

dépêches contient le terme i

wij = f(i,j) * log(N/ni)

n

i k i

n

i ji

n

i k i ji

k j

k j

k j

ww

ww

d d

d d d d sim

1

2

,1

2

,

1 ,,),(



14 | P a g e

Pour les termes de la requête on va utiliser la suggestion du cours (page 244)

wiq = (0.5 + [0.5 * freq(i,q) / max(freq(l,q)]) * log(N/ni)

Pour calculer la similarité des dépêches il est important de fusionner les listes inverses des termes d ’ une requête

Ma liste fusionnée est sous le

format suivant



15 | P a g e

Calcule de la similarité en parcourant ma liste fusionnée

n

i k in

i ji

n

i k i ji

k j

ww

wwd d sim

1

2,1

2,

1 ,,),(



16 | P a g e

8. Index Traduction UML

projet_rss_intelligence_architecture des systèmes de recherche d'information

Documents