veille technologique assist´ee par la fouille de textes · veille technologique assist´ee par la...

13

Click here to load reader

Upload: vuongdung

Post on 15-Sep-2018

212 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Veille Technologique assist´ee par la Fouille de Textes · Veille Technologique assist´ee par la Fouille de Textes de donn´ees semblent attractives et d’autant plus adapt´ees

Veille Technologique assistee par la Fouille de Textes

Francois Jacquenet, Christine Largeron, Stephanie Chapaux

Universite Jean Monnet de Saint-EtienneEURISE

23 rue du docteur Paul Michelon42023 Saint-Etienne Cedex 2

[email protected]@univ-st-etienne.fr

Resume. Le domaine de la veille technologique vise a recolter, traiter,et analyser des informations scientifiques et techniques utiles aux acteurseconomiques. Dans cet article, nous proposons d’utiliser des techniques defouille de textes pour automatiser le processus de traitement des donneesissues de bases de textes scientifiques. Toutefois, la veille introduit unedifficulte inhabituelle par rapport aux domaines d’application classiquesdes techniques de fouille de textes, puisqu’au lieu de rechercher de laconnaissance frequente cachee dans les donnees, il faut rechercher de laconnaissance inattendue. Les mesures usuelles d’extraction de la connais-sance a partir de textes doivent de ce fait etre revues. Pour ce faire, nousavons developpe le systeme UnexpectedMiner dans lequel de nouvelles me-sures permettent d’estimer le caractere inattendu d’un document. Notresysteme est evalue sur une base de resumes d’articles dans le domaine del’apprentissage automatique.

1 Introduction

Depuis quelques annees le secteur economique a pris conscience des enjeux liesa la maıtrise de l’information strategique. Toutefois, les entreprises sont de plusen plus submergees d’informations. Elles ont de grandes difficultes a degager lesdonnees strategiques dont elles ont besoin pour anticiper les marches, prendre desdecisions et agir sur leur environnement socio-economique [Samier et Samoval, 2001,Martinet et Marti, 2001, Revelli, 2000]. Ceci a conduit a l’emergence de l’intelligenceeconomique definie par H. Martre comme ”l’ensemble des actions de recherche, de trai-tement, de distribution et de protection de l’information obtenue legalement et utileaux acteurs economiques” [Martre, 1994]. Lorsque les informations a analyser sont denature scientifique et technique, on parle plus specifiquement de veille technologiquepour designer la surveillance des brevets et de la documentation scientifique (articles,theses, ...) [Desvals et Dou, 1992, Jakobiak, 1990, Jakobiak, 1994].

Le processus de veille peut etre decompose en quatre phases principales : l’audit desbesoins, la collecte des donnees, le traitement des donnees et la synthese et la diffusiondes resultats. Dans cet article, nous nous interessons principalement a la troisiemephase. Pour automatiser le traitement des donnees collectees, les techniques de fouille

Page 2: Veille Technologique assist´ee par la Fouille de Textes · Veille Technologique assist´ee par la Fouille de Textes de donn´ees semblent attractives et d’autant plus adapt´ees

Veille Technologique assistee par la Fouille de Textes

de donnees semblent attractives et d’autant plus adaptees que la plupart de ces donneessont disponibles sous une forme numerique.

La fouille de donnees a connu un fort developpement depuis le milieu des annees1990 du fait de la mise au point de nouveaux algorithmes performants permettant detraiter de gros volumes de donnees dans le domaine commercial [Fayyad et al., 1996].Lorsque les donnees considerees se presentent sous la forme de textes, qu’ils soientstructures ou non, on parle alors de fouille de textes (text mining). Par analogie avec lafouille de donnees, la fouille de textes [Kodratoff, 1999], introduite en 1995 par RonanFeldman [Feldman et Dagan, 1995], est definie par Sebastiani [Sebastiani, 2002] commel’ensemble des taches qui, par analyse de grandes quantites de textes et la detection demodeles frequents, essaie d’extraire de l’information probablement utile. Les premierstravaux realises en fouille de textes ont consiste a appliquer les algorithmes developpespour la fouille de donnees sans tenir compte de la specificite des donnees considerees asavoir leur caractere textuel. Ainsi, par exemple, B. Lent [Lent et al., 1997] a montrecomment il etait possible d’utiliser les methodes d’extraction de sequences frequentespour decouvrir de nouvelles tendances dans une base de donnees de brevets chez IBM.Depuis, d’autres travaux ont vu le jour dans le domaine de la veille. On peut citer parexemple ceux de Liu [Liu et al., 2001], Rajaraman [Rajaraman et Tan, 2001] ou encoreMatsumura [Matsumura et al., 2001] et dans le cadre francais le projet Communication[Poibeau, 2003].

Toutefois, les algorithmes d’extraction de motifs sequentiels frequents, employes ha-bituellement en fouille de donnees, sont inappropries pour effectuer de la veille surtouten raison meme de la specificite de ce domaine. Comme leur nom l’indique, ces outilss’interessent en effet aux informations qui apparaissent frequemment dans une base dedonnees. Or, dans le domaine de l’intelligence economique, il est essentiel de detecterdes informations nouvelles et inattendues pour le veilleur. De telles informations n’ap-paraissent donc pas en general avec une frequence elevee. C’est vraisemblablement unedes raisons principales pour laquelle les logiciels commercialises repondent mal actuel-lement a l’attente des veilleurs.

2 Le systeme UnexpectedMiner

Dans le cadre de la veille technologique, nous avons developpe le systeme Unex-pectedMiner qui vise a extraire, de corpus documentaires, des documents pertinentspour le veilleur en ce sens qu’ils traitent de sujets inattendus et inconnus auparavantde celui-ci. De plus, le systeme doit prendre en compte explicitement la demande duveilleur tout en ne lui imposant pas une forte participation. Finalement, un aspectimportant que nous avons souhaite conferer a notre systeme est qu’il ne soit pas dediea un domaine ou a un sujet particulier.

Compte tenu de ces objectifs, nous proposons un systeme articule autour deplusieurs modules, represente par la figure 1. Notre systeme peut etre rapproched’autres travaux qui se sont interesses a la meme problematique tels que ceux de[Liu et al., 2001] ou [Cherfi et Toussaint, 2002, Cherfi et al., 2003] ou [Aze, 2003].

RNTI - E - 2

Page 3: Veille Technologique assist´ee par la Fouille de Textes · Veille Technologique assist´ee par la Fouille de Textes de donn´ees semblent attractives et d’autant plus adapt´ees

Jacquenet et al.

Fig. 1 – Architecture du systeme UnexpectedMiner

2.1 Pre-traitement des donnees

Dans un premier temps, le responsable de la cellule de veille specifie ses besoins enproduisant quelques documents de reference. Dans la suite de cet article, l’ensemblede ces documents sera note R et |R| designera leur nombre. Dans la pratique, entredix et vingt documents doivent suffire pour cibler le domaine de la veille. Le systemedoit ensuite consulter des nouveaux documents dans divers corpus a sa dispositionafin d’y rechercher les informations innovantes. Dans la suite N designera l’ensemblede ces nouveaux documents et |N | son cardinal. Les ensembles R et N vont ensuitesubir un pre-traitement. Le module concu a cet effet comporte un certain nombre detraitements classiques tels qu’un nettoyage pour eliminer les elements non pertinentsdes documents (logo, url, balises, ...), une analyse morphologique des mots des phrasesextraites et la suppression des mots vides. Finalement chaque document est representeclassiquement sous forme vectorielle. Le document dj est ainsi considere comme unensemble de termes indexes ti ou chaque terme indexe est en fait un mot du documentdj . Un index note T = t1, t2, ..., tm liste tous les termes rencontres dans les documents.Chaque document est alors represente par un vecteur de poids ~dj = (w1,j , w2,j , ..., wm,j)ou wi,j represente le poids du terme ti dans le document dj . Si le terme ti n’apparaıtpas dans le document dj alors wi,j = 0. Pour evaluer le poids d’un terme dans undocument la formule TF.IDF est generalement utilisee [Salton et McGill, 1983]. TF(Term Frequency) correspond a la frequence relative du terme ti dans un document dj

definie par :

tfi,j =fi,j

maxlfl,j

ou fi,j designe la frequence du terme ti dans le document dj . Plus le terme ti estfrequent dans le document dj , plus tfi,j est eleve.

RNTI - E - 2

Page 4: Veille Technologique assist´ee par la Fouille de Textes · Veille Technologique assist´ee par la Fouille de Textes de donn´ees semblent attractives et d’autant plus adapt´ees

Veille Technologique assistee par la Fouille de Textes

IDF (Inverse Document Frequency) est une mesure du pouvoir discriminant duterme ti definie par :

idfi = log2

N

ni+ 1

ou N est le nombre de documents traites et ni le nombre de documents contenant leterme ti. Plus le terme ti est rare dans l’ensemble des documents, plus idfi est eleve.Dans la pratique, la frequence relative d’un terme ti est calculee simplement par :

idfi = logN

ni

Le poids wi,j d’un terme ti dans un document dj est obtenu en combinant les deuxcriteres precedents :

wi,j = tfi,j × idfi

Il est d’autant plus eleve que le terme ti est frequent dans le document dj et rare dansles autres documents.

2.2 Recherche de documents similaires

Le but du second module est d’extraire de la base N de nouveaux documents, ceuxqui sont le plus similaires aux documents de reference R fournis par le veilleur. Lasimilarite sjk entre un nouveau document dj ∈ N et un document de reference dk ∈ Rest egale a la distance du cosinus, couramment employee dans les systemes de recherched’information. Elle est egale au cosinus de l’angle forme par les vecteurs representantces documents :

sjk =~dj • ~dk

|~j| × |~k|

ou

~dj • ~dk =∑

i

wi,j × wi,k

|~j| =√ ∑

i=1,m

w2i,j

La similarite moyenne sj du nouveau document dj ∈ N avec l’ensemble des documentsde reference R est egale a :

sj =1|R|

|R|∑k=1

sjk

Apres avoir classe par ordre decroissant de similarite moyenne les nouveaux docu-ments, un sous ensemble S est extrait de N . Il est compose des nouveaux documentsles plus proches de ceux fournis comme reference par le veilleur.

RNTI - E - 2

Page 5: Veille Technologique assist´ee par la Fouille de Textes · Veille Technologique assist´ee par la Fouille de Textes de donn´ees semblent attractives et d’autant plus adapt´ees

Jacquenet et al.

2.3 Recherche d’information inattendue

Le module de recherche d’information inattendue constitue le coeur du systemeUnexpectedMiner. L’objectif de ce module est de rechercher les documents de S conte-nant des informations inattendues par rapport a celles contenues non seulement dansles documents de reference (R) mais aussi dans les documents de S selectionnes al’etape precedente. En effet, un document sera tres inattendu si les themes qu’il abordene sont presents ni dans un autre document de S ni dans un document de R. Ce moduleest decrit en detail dans la section suivante.

3 Mesures du caractere inattendu d’un document

Cinq mesures ont ete proposees pour evaluer le caractere inattendu d’un document.

3.1 Mesure 1

La premiere mesure est directement inspiree du critere propose par Liu, Ma et Yu[Liu et al., 2001] pour reperer des pages inattendues dans un site WEB. Elle est definiepar :

M1(dj) =

∑mi=1 U1

i,j,c

m

avec :

U1i,j,c =

{1− tfi,c

tfi,jsi tfi,c/tfi,j ≤ 1

0 sinon

ou dj designe un document de S et Dc le document obtenu en combinant tous lesdocuments de reference de R avec les documents selectionnes sauf dj : R ∪ S − {dj}.L’inconvenient de la mesure U1 est qu’elle prend la meme valeur pour deux termes tiet ti′ apparaissant avec des frequences differentes dans un nouveau document dj ∈ Sdes lors que ces termes n’apparaissent pas dans Dc (autrement dit dans les autresdocuments de R ∪ S − {dj}). Or il serait souhaitable d’obtenir une valeur U1

i,j,c d’in-attendu pour ti superieure a U1

i′,j,c trouvee pour ti′ si ti est plus frequent que ti′ dansdj , notamment dans le cas ou ti correspond a un nouveau mot cle alors que ti′ est unmot mal orthographie. Cette remarque nous a conduit a proposer et a experimenterd’autres mesures pour evaluer le caractere inattendu d’un document.

3.2 Mesure 2

Dans cette seconde mesure, le caractere inattendu d’un terme ti dans un documentdj ∈ S par rapport a l’ensemble des autres documents Dc est definie par :

U2i,j,c =

{tfi,j − tfi,c si tfi,j − tfi,c ≥ 00 sinon

RNTI - E - 2

Page 6: Veille Technologique assist´ee par la Fouille de Textes · Veille Technologique assist´ee par la Fouille de Textes de donn´ees semblent attractives et d’autant plus adapt´ees

Veille Technologique assistee par la Fouille de Textes

Le caractere inattendu d’un document dj est, comme dans M1, egal a la moyenne desmesures d’inattendu associees aux termes representant dj :

M2(dj) =

∑mi=1 U2

i,j,c

m

Cette seconde mesure comble la lacune de la premiere. En effet, en reprenantl’exemple precedent, si le terme ti figure plus frequemment que ti′ dans le documentdj sans que ni l’un ni l’autre n’apparaissent dans Dc alors :

U2i,j,c > U2

i′,j,c

On peut cependant observer que les deux mesures precedentes ne tiennent pascompte du pouvoir discriminant d’un terme exprime par idf. Le fait de combiner l’en-semble des documents permet de remedier en partie a ce defaut. Neanmoins il nous aparu interessant de concevoir des mesures d’inattendu qui exploitent directement cetteinformation. C’est le cas des deux mesures suivantes.

3.3 Mesure 3

La troisieme mesure fait intervenir directement le pouvoir discriminant idfi d’unterme ti puisqu’elle evalue le caractere inattendu d’un document dj par la somme despoids wi,j des termes ti qui le representent :

M3(dj) =m∑

i=1

wi,j

Mais, avec cette mesure deux documents dj et d′j peuvent presenter la meme valeur

d’inattendu alors que les poids des termes representatifs du premier document sontegaux tandis que ceux du second document sont tres differents.

3.4 Mesure 4

Pour pallier la limite de M3, la quatrieme mesure proposee attribue comme va-leur d’inattendu a un document dj le poids le plus eleve apparu dans son vecteur derepresentation :

M4(dj) = maxlwl,j

3.5 Mesure 5

Dans le cas des mesures precedentes, seuls les termes ont ete consideres. Or dansle domaine de la veille, comme en recherche d’information, c’est souvent l’associationde plusieurs termes, telle que par exemple “data mining” qui est interessante. Cecinous a conduit a representer chaque document par des termes et par des sequences determes. Sur ces sequences, nous avons alors utilise une implementation de l’algorithmeapriori – propose initialement par R. Agrawal et R. Srikant [Agrawal et Srikant, 1994]pour extraire des ensembles d’items frequents servant a la construction de regles

RNTI - E - 2

Page 7: Veille Technologique assist´ee par la Fouille de Textes · Veille Technologique assist´ee par la Fouille de Textes de donn´ees semblent attractives et d’autant plus adapt´ees

Jacquenet et al.

d’associations. Une extension de cet algorithme a en effet ete proposee en 1995[Agrawal et Srikant, 1995] pour extraire des ensembles de sequences frequentes dans lesdonnees. C’est cette version de l’algorithme qui nous interesse ici puisque nous recher-chons, dans chaque document, les sequences de termes qui apparaissent frequemmentdans une phrase. Les documents utilises etant relativement courts, l’algorithme apriorirevele le plus souvent une seule sequence par document. Par ailleurs une sequence ex-traite d’un document de l’ensemble S n’a tendance a apparaıtre que dans ce document.Ceci nous a amene a definir une cinquieme mesure, qui est une adaptation de M2 danslaquelle :

tfi,j =fi,j

maxlf ′l,j

ou maxlf′l,j est la frequence maximale observee dans les termes et les sequences de

termes.Des tests ont ete realises pour evaluer ce systeme et comparer ces differentes me-

sures. Ils sont presentes dans la section suivante.

4 Experimentations

4.1 Corpus et criteres d’evaluation utilises

L’ensemble de reference R est compose de 18 articles scientifiques en an-glais consacres a l’apprentissage automatique (Machine learning) mais dont aucunn’abordent certains themes tels que Support Vector Machines, Affective Computing,Reinforcement Learning, .... La base N est composee de 57 nouveaux documents dont17 sont consideres par le veilleur comme similaires aux documents de reference. Parmices 17 documents, 14 traitent de themes juges inattendus par ce dernier.

Pour evaluer UnexpectedMiner nous avons utilise les criteres de precision et derappel definis par J.A. Swets [Swets, 1963]. Dans le cas de notre systeme, la precisionmesure le pourcentage de documents extraits par le systeme et qui ont reellement uncaractere inattendu. Le rappel mesure quant a lui le pourcentage de documents ayantun caractere inattendu retrouves dans le corpus N par le systeme. Ces criteres sontclassiques en recherche d’information et nous ne les detaillerons pas plus ici.

4.2 Evaluation des cinq mesures

L’apport principal de ce travail etant la definition de nouvelles mesures du caractereinattendu d’un document, le module qui met en oeuvre ces mesures a d’abord ete evalueindependamment du module d’extraction de documents similaires puis globalement entenant compte de tous les modules.

Dans un premier temps nous avons donc restreint la base S aux 17 nouveauxdocuments juges similaires, par le veilleur, aux documents de reference de R. Lesresultats obtenus en termes de rappel et de precision a l’aide des cinq mesures definiesprecedemment sont presentes dans les figures 2 a 6 ou l’axe des abscisses indique lenombre de documents extraits par le systeme. Alors que la base N comporte tres ma-

RNTI - E - 2

Page 8: Veille Technologique assist´ee par la Fouille de Textes · Veille Technologique assist´ee par la Fouille de Textes de donn´ees semblent attractives et d’autant plus adapt´ees

Veille Technologique assistee par la Fouille de Textes

Fig. 2 – Precision et Rappel pour la mesure 1

joritairement des documents qui traitent de sujets inattendus (14 documents sur 17),seule la mesure M1 ne parvient pas a les retrouver en priorite puisque la precision vaut0% en ne considerant que les deux premiers documents extraits (figure 2) alors qu’elleatteint 100% pour les autres mesures (figures 3 a 6). Les resultats obtenus a l’aide des

Fig. 3 – Precision et Rappel pour la mesure 2

mesures M2 (figure 3) et M5 (figure 4) sont plus satisfaisants. Ce sont toutefois lesmesures M3 et M4 qui fournissent en priorite le plus grand nombre de documents trai-tant de sujets inattendus. La precision reste en effet egale a 100% lorsqu’on considerejusqu’a six documents pour M3 (figure 5) et jusqu’a sept pour M4 (figure 6).

Nous avons ensuite considere le systeme complet et l’avons evalue sur la base Ncontenant les 57 nouveaux documents. Parmi les 15 premiers documents juges similairesaux documents de reference par le systeme, 9 seulement l’etaient reellement ; ce qui

RNTI - E - 2

Page 9: Veille Technologique assist´ee par la Fouille de Textes · Veille Technologique assist´ee par la Fouille de Textes de donn´ees semblent attractives et d’autant plus adapt´ees

Jacquenet et al.

Fig. 4 – Precision et Rappel pour la mesure 5

correspond a un taux de precision de 60 % et a un taux de rappel de 52,9 %. Parmi ces 9documents, 7 abordaient des themes inattendus. Dans cette seconde experience encore,seule la mesure M1 n’est pas capable d’extraire en premier un document traitantun sujet inattendu : la precision est egale a 0% alors qu’elle vaut 100% pour M2,M3, M4 et M5 qui identifient correctement le meme document inattendu. Notonsque la mesure M1 detecte moins bien les documents inattendus puisque le rappelatteint 100% uniquement lorsque le nombre de documents extraits devient egal aunombre de documents fournis au systeme. Les performances de M2 et de M3 sont assezcomparables mais c’est encore la mesure M4 qui extrait en priorite les documents serapportant a des sujets inattendus. En revanche cette mesure presente la particularited’attribuer relativement souvent une meme valeur a plusieurs documents. Enfin, si lesresultats fournis par M5 sont un peu moins satisfaisants, par contre, les sequences demots inattendues retrouvees correspondent bien a celles recherchees a savoir “supportvector machine” ou “reinforcement learning”. A ce propos, il convient de noter que lesysteme UnexpedtedMiner presente l’avantage d’indiquer les mots ou les sequences demots qui ont le plus contribue a faire d’un document qui lui est soumis un documentinattendu.

5 Conclusion et perspectives

Nous avons developpe un systeme de veille qui vise a extraire d’un corpus docu-mentaire des documents pertinents dans le sens ou ils traitent de sujets inattenduset inconnus du veilleur auparavant. Plusieurs mesures du caractere inattendu d’undocument ont ete proposees et comparees. Bien que les resultats obtenus soient en-courageants, ils sont encore loin d’etre totalement satisfaisants. Ces experimentationsont toutefois permis d’envisager plusieurs ameliorations du systeme. D’une part, ellesont mis en evidence combien il est difficile de reperer des documents contenant desinformations inattendues dans un ensemble comportant des documents juges a tort

RNTI - E - 2

Page 10: Veille Technologique assist´ee par la Fouille de Textes · Veille Technologique assist´ee par la Fouille de Textes de donn´ees semblent attractives et d’autant plus adapt´ees

Veille Technologique assistee par la Fouille de Textes

Fig. 5 – Precision et Rappel pour la mesure 3

Fig. 6 – Precision et Rappel pour la mesure 4

comme similaires par le systeme. Pour trouver des informations interessantes pour leveilleur, il paraıt donc indispensable de cibler correctement l’ensemble des documentsdans lequel il faut rechercher ces informations. Ceci conduit a accorder une atten-tion particuliere aux premiers modules consacres a la representation des documentset a l’extraction de l’ensemble S des documents juges similaires, par le systeme, auxdocuments de reference fournis par le veilleur. Il serait interessant d’etudier d’autresmesures de similarite [Lebart et Rajman, 2000] ou encore un modele probabiliste derepresentation des documents [Siolas et D’Alche-Buc, 2003]. Par ailleurs une autreamelioration du systeme pourrait etre liee a la prise en compte de la structure des do-cuments [Piwowarski et al., 2002]. Dans le contexte de la veille strategique, ceci paraıtd’autant plus facile a integrer que la plupart des bases utilisees contiennent des do-cuments fortement structures. Par exemple, les articles scientifiques ou les resumesde theses sont composes de parties clairement identifiees comme le titre, les auteurs,

RNTI - E - 2

Page 11: Veille Technologique assist´ee par la Fouille de Textes · Veille Technologique assist´ee par la Fouille de Textes de donn´ees semblent attractives et d’autant plus adapt´ees

Jacquenet et al.

la liste des mots cles, le resume et le document lui meme, generalement organises ensections subdivisees en paragraphes. Il en va de meme pour les fiches descriptives debrevets. Dans le cas de documents diffuses sur le Web, qui sont de plus en plus large-ment exploites en veille, ceci s’avere egalement vrai du fait de l’utilisation de langagesde description tels que XML qui permettent de representer conjointement l’informa-tion textuelle et l’information sur la structure du document. Dans le contexte d’uneveille, le changement de position d’un mot dans les differentes parties des documentsau cours du temps pourrait etre un critere pertinent pour deceler automatiquementdes changements de tendance ou des evolutions du sujet.

References

[Agrawal et Srikant, 1994] R. Agrawal et R. Srikant. Fast algorithms for mining asso-ciation rules. In Proceedings VLDB’94, pages 487–499. Morgan Kaufmann, 1994.

[Agrawal et Srikant, 1995] R. Agrawal et R. Srikant. Mining sequential patterns. InEleventh International Conference on Data Engineering, pages 3–14, Taipei, Taiwan,1995. IEEE.

[Aze, 2003] J. Aze. Une nouvelle mesure de qualite pour l’extraction de pepites deconnaissances. Extraction des connaissances et apprentissage, Hermes, 17(1) :171–182, 2003.

[Cherfi et al., 2003] H. Cherfi, A. Napoli, et Y. Toussaint. Vers une methodologie defouille de textes s’appuyant sur l’extraction de motifs frequents et de regles d’asso-ciation. In Actes de la Conference d’Apprentissage Automatique (CAP 2003), pages61–76, 2003.

[Cherfi et Toussaint, 2002] H. Cherfi et Y Toussaint. Fouille de textes par combinai-son de regles d’association et d’indices statistiques. In Actes du Premier ColloqueInternational sur la Fouille de texte CIFT, pages 67–80, 2002.

[Desvals et Dou, 1992] H. Desvals et H. Dou. La veille technologique. Dunod, 1992.

[Fayyad et al., 1996] U.M Fayyad, G. Piatetsky, P. Smyth, et R. Uthurusamy. Ad-vances in Knowledge Discovery and Data Mining. AAAI/MIT Press, 1996.

[Feldman et Dagan, 1995] R. Feldman et Ido Dagan. Knowledge discovery from textualdatabases. In Proceedings of the International Conference on Knowledge Discoveryfrom DataBases, pages 112–117, 1995.

[Jakobiak, 1990] F. Jakobiak. Pratique de la veille technologique. Editions d’Organi-sation, 1990.

[Jakobiak, 1994] F. Jakobiak. Le brevet source d’information. Dunod, 1994.

[Kodratoff, 1999] Y. Kodratoff. Knowledge discovey in texts : A definition and applica-tions. In Proceedings of the International Symposium on Methodologies for IntelligentSystems, volume LNAI 1609, pages 16–29, 1999.

[Lebart et Rajman, 2000] L. Lebart et M. Rajman. Computing similarity. In Handbookof Natural Language Processing, pages 477–505. Dekker, 2000.

RNTI - E - 2

Page 12: Veille Technologique assist´ee par la Fouille de Textes · Veille Technologique assist´ee par la Fouille de Textes de donn´ees semblent attractives et d’autant plus adapt´ees

Veille Technologique assistee par la Fouille de Textes

[Lent et al., 1997] B. Lent, R. Agrawal, et R. Srikant. Discovering trends in text da-tabases. In Proceedings KDD’97, pages 227–230. AAAI Press, 14–17 1997.

[Liu et al., 2001] B. Liu, Y. Ma, et P. S. Yu. Discovering unexpected information fromyour competitors’ web sites. In Proceedings KDD’2001, pages 144–153, 2001.

[Martinet et Marti, 2001] B. Martinet et Y.M. Marti. L’intelligence economique. Edi-tions de l’organisation, 2001.

[Martre, 1994] H. Martre. Intelligence economique et strategie des entreprises. Com-missariat General au Plan. Rapport du groupe preside par Henri Martre. La Docu-mentation francaise, 1994.

[Matsumura et al., 2001] N. Matsumura, Y. Ohsawa, et M. Ishizuka. Discovery ofemerging topics between communities on WWW. In Proceedings Web Intelligen-ce’2001, pages 473–482, Maebashi, Japan, 2001. LNCS 2198.

[Piwowarski et al., 2002] B. Piwowarski, L. Denoyer, et P. Gallinari. Un modele pourla recherche d’information sur les documents structures. In 6eme Journees interna-tionales d’Analyse statistique de Donnees Textuelles, 2002.

[Poibeau, 2003] T. Poibeau. Extraction automatique d’information. Du texte brut auweb semantique. Hermes, 2003.

[Rajaraman et Tan, 2001] K. Rajaraman et A.H. Tan. Topic detection, tracking andtrend analysis using self-organizing neural networks. In Proceedings PAKDD’2001,pages 102–107, Hong-Kong, 2001.

[Revelli, 2000] C. Revelli. Intelligence Strategique sur Internet. Dunod, 2000.[Salton et McGill, 1983] G. Salton et M. J. McGill. Introduction to modern informa-

tion retrieval. In McGraw-Hill, 1983.[Samier et Samoval, 2001] H. Samier et V. Samoval. La veille strategique sur Internet.

Hermes, 2001.[Sebastiani, 2002] F. Sebastiani. Machine learning in automated text categorization.

ACM Computing Surveys, 34(1) :1–47, March 2002.[Siolas et D’Alche-Buc, 2003] G. Siolas et F. D’Alche-Buc. Modeles probabilistes et

scores de Fisher pour la representation de mots et de documents. In Actes de laConference d’Apprentissage CAP 2003, pages 47–59, 2003.

[Swets, 1963] J.A. Swets. Information retrieval systems. Science, 141 :245–250, 1963.

Summary

In the domain of business intelligence, computers are useful for extracting scienti-fic or technological information that may be relevant to companies. Moreover, in thiscontext, the aim is to find some unexpected knowledge that may appear with a lowfrequency. In order to automatically discover some useful knowledge from databases(patents, research publications,etc) we propose to use text mining techniques. Never-theless, most of these techniques can help finding some frequent information insteadof unexpected one, thus, they are not well suited for business intelligence that requiresa specific approach. To this end, we have designed several new knowledge discovery

RNTI - E - 2

Page 13: Veille Technologique assist´ee par la Fouille de Textes · Veille Technologique assist´ee par la Fouille de Textes de donn´ees semblent attractives et d’autant plus adapt´ees

Jacquenet et al.

measures and integrated them in the UnexpectedMiner System that is able to extractsome novel information that may be of interest for the user. We have experimentedUnexpectedMiner on a database of scientific abstracts and reported the impact of thevarious measures on the efficiency of the system.

RNTI - E - 2