entités nommées

18
Entités nommées IA03 - A08 Sébastien Heymann – Laurine Sailly

Upload: seb-seb

Post on 27-Mar-2016

226 views

Category:

Documents


0 download

DESCRIPTION

Ceci est un état de l'art synthétique des techniques et méthodes de reconnaissance et de classification des entités nommées.

TRANSCRIPT

Page 1: Entités nommées

Entités nomméesIA03 ­ A08

Sébastien Heymann – Laurine Sailly

Page 2: Entités nommées

Résumé

Ce rapport  est  un état  de  l'art  synthétique des   techniques et  méthodes  de reconnaissance et  de classification des entités nommées. Sous­tâche de l'extraction d'informations, elle traite des noms d'individus et d'organisations, de lieux, d'expressions temporelles et numériques. Appliquées à la veille technologique ou à la recherche d'informations en génétique, elles font depuis peu l'objet d'un intérêt  particulier  pour améliorer  les moteurs de recherche en corpus ouvert  (Web),  devenir  des systèmes robustes et performants pour traiter de grandes quantités de documents en flux continue, ou encore automatiser la génération de contenus pour les technologies liées au Web Sémantique.

Mots­clés

Traitement   automatique  du   langage  naturel,   information   retrieval,   pattern  matching,   case­based reasonning, machine learning, ingénierie documentaire, ontologie, web

Page 3: Entités nommées

Table des matièresPlan de travail.........................................................................................................................4Problématique........................................................................................................................4Entités nommées : définition..................................................................................................5Méthodes................................................................................................................................5

NER....................................................................................................................................5Définition........................................................................................................................5Quelques exemples.......................................................................................................6Limites...........................................................................................................................6

NEC....................................................................................................................................7Définition........................................................................................................................7Un exemple....................................................................................................................7Modèle statistique / probabiliste....................................................................................7Modèle linguistique........................................................................................................8Sous­classification.........................................................................................................8Approche modulaire......................................................................................................8Limites...........................................................................................................................8

Normalisation.....................................................................................................................9La problématique des corpus ouverts...............................................................................9Méthodes système.............................................................................................................9

Méthodes symboliques (supervision lourde).................................................................9Case­Based Reasonning (supervision légère)............................................................10Machine Learning (auto­supervision)..........................................................................10

Techniques...........................................................................................................................10Extraction de patterns......................................................................................................10Extraction de relations......................................................................................................11Désambiguïsation.............................................................................................................11Classification....................................................................................................................12Correction d'erreur...........................................................................................................12

Evaluation des systèmes......................................................................................................12Quelques exemples..............................................................................................................13Ontologie..............................................................................................................................13Conclusion............................................................................................................................16Bibliographie.........................................................................................................................18

Page 4: Entités nommées

Plan de travailCe rapport  est  un état  de  l'art  synthétique des   techniques et  méthodes  de reconnaissance et  de classification des entités nommées. Il fut réalisé sur la base d'une recherche bibliographique la plus exhaustive et qualitative possible, d'un interview de Julien Carcenac, expert du domaine travaillant à Exalead SA la société éditrice du moteur de recherche éponyme, de la construction de l'ontologie du domaine telle que demandée par les responsables de l'UV IA03, et enfin de la production dudit rapport.

Problématique« Le knowledge management, ou gestion des connaissances, est le processus au cours duquel la bonne information est apportée à la bonne personne afin qu'elle prenne la bonne décision. »[cours IA03]

La   première   étape   de   ce   processus   est   la   sélection   de   la   bonne   information,   ou  information  extraction   /   information   retrieval.   L'information   est   souvent   contenue   dans   des   documents   en langage naturel, qui la plupart du temps ne comportent aucune méta­données. Comment, dans ce contexte, traiter les requêtes complexes comme « les entreprises qui ont fusionné dans l'année » ou sélectionner   les  documents   sur  Georges  Washington  et   non   sur   la  ville  du  même nom ?  Une recherche sur des mot­clés s'avère insuffisante, car trop de documents seront sélectionnés, et trop passeront sous silence.

La solution pour  la   recherche d'information est  de s'appuyer sur  le  Traitement  Automatique du Language   Naturel   (TALN),   une   discipline   qui   allie   linguistique,   informatique   et   intelligence artificielle. L'enjeu du TALN est de capter l'information contenue dans un texte et de rendre compte de son sens. Pour cela, le TALN étudie les structures grammaticales et syntaxiques dans le texte.

Depuis une dizaine d'année, les chercheurs se sont penchés sur le traitement d'unités linguistiques à forte valeur informative ou référentielle. Ces unités peuvent être des noms propres, qui sont des références à une entité particulière sans l’intermédiaire d’un sens lexical codifié, et qui désignent toujours le même particulier. Bien que largement traités dans la littérature, les noms propres sont insuffisant   pour   rendre   compte   de   phénomènes   de   « pluralité   interprétative »   (changements, transferts et superpositions de sens). C'est pourquoi la notion d'Entité Nommée a été introduite.

Après avoir défini ce qu'est qu'une entité nommée, nous exposerons les méthodes et les techniques construites et utilisées par les chercheurs pour le traitement de ces entités. Nous nous pencherons ensuite sur l'évaluation d'un système de reconnaissance d'entités nommées, puis nous étudierons quelques­uns de ces  systèmes en comparant   les  différentes approches.  Enfin,  nous présenterons l'ontologie du domaine que nous avons construite à partir de nos recherches.

Page 5: Entités nommées

Entités nommées : définitionLa reconnaissance d'entités nommées est un processus d'identification et de catégorisations de ces unités   lexicales   particulières   que   l'on   regroupe   sous   le   nom   d'   « Entité   nommée »   (« Named Entities »).  Ce  processus   se   déroule   en   trois   parties   :   identification   (NER  ou  « Named  Entity Recognition »), classification (NEC ou « Named Entity Classification »), et normalisation.

Traditionnellement, les entités nommées sont des noms (noms propres), mais aussi des expressions temporelles   et   plus   rarement   des   expressions   numériques.   Ainsi,   la   Message   Understanding Conferenre de 2007 (MUC­7) propose 3 types d'entités nommées :– ENAMEX : noms de personnes, noms de villes– TIMEX : date, heure– NUMEX : montants financiers, pourcentagesL'étude des entités nommées s'étend au­delà des frontières de ces trois types : on a inclu par la suite les   titres d'oeuvres culturelle  (livres,  films,  etc.),   les  noms de produits  ou de marques,  et   toute dénomination d'entités spécifiques à un domaine...

Les entités nommées s'inscrivent dans des circonstances d'énonciation, et sont donc sujettes à un contexte. Ainsi, des rôles sont souvent ajoutés pour spécialiser les types d'entités. Les catégories utilisées peuvent être absolues, c'est­à­dire vraies dans tout corpus de document, comme la division entre personnes, lieux, etc. ; mais elles peuvent être relatives à un domaine, comme le nom des gènes  et  hormones  que   l'on   trouvera  dans   les   corpus   spécifiques  à   la  biologie.  De même,   les catégories d'entités nommées peuvent être strictement hiérarchisées, ou peuvent correspondre à des tags et se recouper.

MéthodesL'extraction   d'entités   nommées   se   divisent   en   trois   sous­tâches   :   leur   reconnaissance   ou identification (connue sous l'expression « Named Entity Recognition » dans la littérature, ou NER), leur classification (« Named Entity Classification », ou NEC) et leur normalisation. On doit ainsi dans un premier temps reconnaître les portions de texte susceptibles d'être des entités nommées pour ensuite essayer de les classer. Cette classification est généralement donnée. Nous traitons de ces trois aspects dans cette partie sur le plan méthodologique.

NER

DéfinitionLa NER traite des méthodes et des techniques de détection des entités. Dans l'analyse d'un texte, elle 

Page 6: Entités nommées

indique les expressions à annoter. Elle peut se baser sur un dictionnaire d'expressions (gazetteer) à repérer, ce qui fonctionne sur des corpus maîtrisés et donc fermés. Mais elle peut aussi s'en passer et dans ce cas nécessiter l'exploitation du contexte du ou des termes recherchés, et surtout de la forme des mots (pattern matching). Les critères ne sont pas pré­déterminés et leur nombre n'est pas limité. Cette détection repose le plus souvent sur un système à base de règles données par un humain ou apprises (Machine Learning), voire un système raisonnant à partir de cas (Case­Based Reasonning). Le choix est  principalement conditionné  par  l'application sur un corpus documentaire fermé  ou ouvert  comme  le  Web,  et  par   le  coût   admissible  d'une   intervention  humaine,  que  ce  soit  pour construire des règles ou pour superviser le système.

Quelques exemples● Un mot composé de lettres en majuscule ou dont la première lettre est une majuscule peut 

nous indiquer que nous avons affaire à un nom.● Un nom d'entreprise est le plus souvent recherché dans un dictionnaire.● Une date est identifiable par son formattage.● Un nom de lieu peut être détecté grâce aux particules de la langue indiquant une position 

(« à », « vers », « depuis »...) et s'il possède une majuscule.

LimitesLa NER est cependant confrontée à  des problématiques de limites,  que ce soit  au niveau de la définition (portée des règles de reconnaissance) ou de la langue :

● la portée des classes (les frères Coen, les Français, la famille Kennedy)● la coordination (Bill et Hilary Clinton)● l'imbrication (l'Université d'Orléans)● les frontières (la candidate Ségolène Royal)● les variantes, ramené à un problème de normalisation (Zizou)● l'homonymie :  deux mots différents  ayant  la même forme orale et écrite (Les poules du 

convent couvent.)● la polysémie : un même mot prenant des sens différents selon le contexte (« hôte » désigne 

selon le contexte celui qui reçoit ou celui qui est reçu)● la métonymie : figure de style consistant à remplacer un substantif par un autre ou par un 

élément substantivé (« Paris a froid Paris a faim », où Paris désigne les habitants plus que la ville, « boire une bouteille »...), utilisé couramment en prenant la partie pour le tout (« Deux voiles cinglaient vers le couchant »)

● la métaphore● l'autonomase : nom propre utilisé comme nom commun (un watt, un frigo, une poubelle...)● les facettes (Leclerc)

Page 7: Entités nommées

NEC

DéfinitionLa   NEC,   vue   aussi   sous   le   terme   de   « clustering »,   traite   de   la   manière   de   construire   une classification lorsque la liste des classes ne pré­existe pas à l'extraction des entités. Dans l'analyse d'un texte,  elle  indique  le contenu des balises servant  à  annoter   les expressions.  Basée sur une analyse   statistique   ou   probabiliste   du   contexte   du   terme   trouvé   via   un   système   apprenant   ou raisonnant à partir de cas. Elle peut requérir l'extraction des relations du terme avec les autres pour identifier   sa   classe.   Certaines   études   nécessitent   même   de   proposer   des   sous­classifications (spécialisations de classes génériques comme les dates à des domaines précis comme des dates de séminaires). Notons que l'approche classique consistant à catégoriser (une entité appartient à une classe   et   une   seule)   est   parfois   critiquée   au   profit   de   l'annotation   modulaire   (une   entité   peut appartenir à plusieurs classes).

La classification est généralement donnée. Elle peut être reprise de thésaurus génériques tels que la hiérarchie étendue Sekine, ou être constituée pour l'étude en fonction des attentes des utilisateurs. Il s'agit d'une liste pour les études les plus simples, d'un hiérarchie dans la plupart des cas, voire d'un système de modules où une entité peut prendre différents rôles.

Un exemplePhrase annotée avec le style de classification MUC (Message Understanding Conference) :

Jim bought 300 shares of Acme Corp. in 2006. =><ENAMEX   TYPE="PERSON">Jim</ENAMEX>  bought  <NUMEX   TYPE="QUANTITY">300</NUMEX>  shares   of  <ENAMEX   TYPE="ORGANIZATION">Acme   Corp.</ENAMEX>  in  <TIMEX TYPE="DATE">2006</TIMEX>.

Modèle statistique / probabilisteCe modèle sert à mettre en place une méthode par apprentissage à partir de textes étiquetés à la main. Posons que la reconnaissance d'une entité est conditionnée par la vérification d'un ensemble de   caractéristiques   (features)   pouvant   la   faire   entrer   dans   une   classe.   A   partir   d'un   corpus d'apprentissage, le système peut calculer la répartition de l'appartenance d'une entité sur l'ensemble des classes possibles, et ainsi mettre en œuvre une fonction déterminant la probabilité pour chaque nouvelle occurrence de l'entité d'appartenir à une classe donnée. Cette fonction tient compte des caractéristiques de l'occurrence (cf. Extraction de patterns), et repose la plupart du temps sur les chaînes/modèles de Markov cachées (CMC, MMC, ou HMM en anglais). Rappelons qu'un MMC permet   de   modéliser   des   processus   stochastiques,   plus   précisément   des   systèmes   dont   le comportement  n'est  que partiellement  prévisible   :  on connaît   la  séquence de sortie  mais  pas  la séquence produisant cette sortie, une sortie ayant pu être générée par des séquences de production différentes.   Elles   sont   aussi   employées   en   reconnaissance   d'image   et   de   la   parole,   en   bio­informatique ou encore en ordonnancement de tâches.

Page 8: Entités nommées

Références : [Bikel, 1998] [Markov] 

Modèle linguistiqueC'est   un   modèle   à   base   de   règles   écrites   manuellement   utilisant   des   informations   morpho­syntaxiques comme des mots déclencheurs: Mr, Mme, SA, rivière... Il est employé pour extraire des noms, prénoms et noms d'organisation.

Références : [Gazeau, 2008] 

Sous­classificationIl   existe   plusieurs   classification   normalisées,   ou   tout   du   moins   suffisamment   génériques   pour convenir   à   la   plupart   des   besoins,   telle   que   la   classification   Sekine.   Cependant   il   est   parfois nécessairement de classer les entités de manière fine, par exemple en considérant uniquement les « monnaies européennes », ce qui est une spécialisation de la classe « monnaie ». Elle repose sur une analyse du contexte de l'entité, et peut être associée à un algorithme d'apprentissage. Elle est nécessaire lorsque l'on souhaite exploiter les entités nommées dans une application de questions­réponses, de recherche d'informations ou pour la génération automatique d'ontologies.

Références : [Fleischman, 2002] [Sekine, 2002] 

Approche modulaireLa   catégorisation   stricte   d'une   entité   dans   une   classe   n'est   pas   toujours   pertinentes.   Certaines équipes de recherche préfèrent  expérimer une catégorisation souple sous forme de modules,  ou « facettes » d'une même entité. Ainsi l'abandon une approche catégorisante (Jacques Chirac est une personne) permet d'arriver à une annotation modulaire (Jacques Chirac a été  maire de Paris ET Président de la République) afin d'être plus précis.

Références : [Ehrmann, 2006]

LimitesLes principaux problèmes portent sur la sous­catégorisation et le recouvrement de classes pour une entité détectée, lorsque le contexte ne permet pas de la classer de manière déterminée.

Notons   que   les   méthodes   peuvent   être   combinées   pour   créer   des   systèmes   hybrides,   comme [http://www.limsi.fr/Individu/habert/04­05/] qui mêle les approches statistique et sémantique avec les étapes quivantes :

1. Analyse lexicale.2. Reconnaissance des séquences pertinentes par une grammaire dédiée.3. Étiquetage des séquences isolées : mécanisme d'acquisition dynamique.

Page 9: Entités nommées

NormalisationLa normalisation est l'étape de regroupement des entités conceptuellement identiques mais dont l'orthographe varie, par exemple le groupe de musique « Dub Incorporation » est parfois écrit « Dub Inc ». Elle repose sur des expressions rationnelles simples (pattern matching). Elle est optionnelle selon le corpus étudié.

La problématique des corpus ouvertsAvant de poursuivre, nous devons détailler ce que la différence entre un corpus ouvert et un corpus fermé produit en terme de méthode, car elle conditionne à la fois l'approche et les techniques de mise en oeuvre.

Par corpus fermé,  nous entendons un corpus statique dont la  limite en terme de documents est connue, et qui n'a pas vocation à évoluer dans le temps. Un corpus ouvert est donc soit un corpus dont tous les documents ne sont pas connaissable à l'avance comme le Web, qui évolue au fil du temps,   soit  un  corpus  comportant  une  quantité   trop   importante  de  documents  pour   traiter  une thématique précise et se soumettre aux techniques employées sur les corpus fermés.

Fondamentalement, faire face à un corpus ouvert implique :

● de ne pouvoir utiliser de dictionnaire car ils ne seront jamais suffisamment exhaustifs, sauf à pré­définir un ensemble d'entités recherchées

● de devoir mettre en place un système qui s'adapte aux documents, et donc ne pas posséder de règles statiques

● de   s'auto­superviser   si  possible   et   apprendre  par   lui­même pour   adapter   ses   règles   aux mutations du corpus.

Méthodes systèmeLa reconnaissance et de la classification des entités nommées sont mises en œuvre de différentes façons   selon   la   taille   du   corpus   et   la   niveau   de   supervision   humaine   acceptée,   soit   une problématique de performances.  Par supervision,  nous entendrons l'intervention d'un humain au cours du processus d'extraction et de classification des entités nommées.

Méthodes symboliques (supervision lourde)Ce système consiste à produire manuellement des règles d'extraction, généralement des expressions rationnelles, et de disposer d'un dictionnaire pour la classification. Elle est adaptée à des corpus fermés de taille raisonnable et les règles produites ne s'appliquent que pour le corpus donné à un instant donné. Aucune garantie n'est possible sur son application à un corpus modifié ou à un tout autre corpus. Il a cependant l'avantage d'être très efficace et précis : ses taux de précision et de rappel sont les meilleurs (cf. Critères d'évaluation).

Page 10: Entités nommées

Case­Based Reasonning (supervision légère)Le raisonnement à partir de cas nécessite qu'un humain fournisse des bouts de corpus déjà annotés, soit  un ensemble de cas à  partir duquel le système peut se calibrer pour ensuite fonctionner de manière autonome. En fait il n'a « plus qu'à » annoter des exemples, ce qui est bien plus aisé que d'écrire un extracteur à base de règles. Le système peut posséder un ensemble de règles paramétrées à   l'initialisation,  voire générer directement ses règles (combinaison de Machine Learning).  Bien entraîné, ce système donne de très bons taux de rappels et de précision.

Exemple : 

Réutilisation et réponse automatique au courrier électronique d'une entreprise. [Danet, 2006]

Machine Learning (auto­supervision)Le système par apprentissage est employé sur des corpus ouverts, lorsqu'il est veillé et  qu'il change avec le temps. Il repose sur des algorithmes dont les paramètres évoluent grâce à « l'expérience » acquise. Il est capable de générer et de corriger des règles d'extraction et de classification selon une approche   top­down   (spécialisation)   ou   bottom­up   (généralisation).   Les   systèmes   vus   dans   la littérature   scientifique   sont   essentiellement   non   supervisés   :   ils   se   servent   d'heuristiques,   et comportent un bootstrap, où l'émergence des règles à l'initialisation est contrôlée par un individu, conditionnant   la   suite   de   son   fonctionnement.   Ils   sont   combinables   avec   les   systèmes   de raisonnement à partir de cas pour remplacer le boostrap. Ce système est difficilement évaluable de part son terrain d'exploitation, mais semble donner de bons résultats. Il constitue la voie privilégiée en Recherche actuellement.

Exemple : 

Système d'extraction et de classification d'entités nommées sur un corpus ouvert de plusieurs millions de documents. [Etzioni, 2004]

TechniquesAbordons maintenant les principales techniques employées en reconnaissance et classification, qui peuvent se combiner selon la méthode utilisée.

Extraction de patternsUne   entité   est   reconnaissable   par   un   ensemble  de   règles,   qui   ne   sont   pas   nécessairement   des expressions rationnelles. Rappelons qu'en généralisant, on considère qu'une entité doit vérifier un ensemble de caractéristiques (features) pouvant la faire entrer dans une classe. Voici une liste non exhaustive de patterns appliquables sur les termes d'une entité :

● Première lettre du mot en majuscule.

Page 11: Entités nommées

● Premier mot d'une phrase : permet d'éviter que tous les premiers mots d'une phrase soient considérables comme des entités par l'application de la règle précédente.

● Contient des chiffres.● n­grams :  permet de détecter   les entités comprenant plusieurs mots par accumulation de 

statistiques n­grams. C'est un modèle particulier de chaîne de Markov cachée.Et sur le contexte d'une entité :

● TnT POS tagger : annoteur grammatical basé sur les statistiques.● sous­chaîne, comme les préfixes et suffixes.● abbréviations.● mots précédents et suivants.

Références : [Wasson, 2000] [Etzioni, 2004] [Dingare, 2005]

Extraction de relationsLa détection d'entités peut amener dans une second temps à analyser les relations entre elles, mais l'inverse est aussi possible. Une approche mise en œuvre par [acl04­hasegawa.pdf] est la découverte de patterns relationnels pour identifier des sociétés, par exemple une relation « Company A merged  with Company B » répétée un nombre de fois suffisant déclenchera l'enregistrement non seulement des entités Company A et Company B, mais aussi la relation de fusion entre les deux. Le système peut   rechercher   des   relations   pré­définies,   mais   aussi   découvrir   de   nouvelles   relations.   Une exploitation  possible  est   la  mise  en  place  à  posteriori  d'un  système de  question­réponse  ou de résumé automatique.

Références : [Brin, 2003] [Hasegawa, 2004]

DésambiguïsationLa reconnaissance d'une entité  doit faire principalement face aux problèmes d'homonymie et de polysémie. Le problème principal sous­jacent être de savoir s'il peut exister une ambiguïté sur une entité. L'identification du sens peut se résoudre par :

● l'usage de ressources lexico­syntaxiques● une analyse grammaticale (Part­Of­Speech Tagging) qui marque les termes de chaque phrase 

par leur catégorie grammaticale (sujet, verbe, complément, COD...)● des solutions plus originales comme l'utilisation des pages de redirection de Wikipedia pour 

savoir s'il peut exister une ambiguïté sur une expression donnée.Exemple :

● « Washington » : ville ou personnage historique ?

Références : [Bunescu, 2006]

Page 12: Entités nommées

ClassificationLa   classification   repose   sur   l'exploitation  d'une   hiérarchie   de   classes.  Elle   est   parfois   générée automatiquement à partir de l'ontologie du domaine étudié, ce qui facilite notamment l'exploitation des entités dans le remplissage automatique de méta­données pour le Web Sémantique.

Références : [Fleischman, 2002] [Etzioni, 2004] [Valkeapää, 2007]

Correction d'erreurLa correction d'erreur peut amener  une amélioration notable de  la précision de  l'ordre de un à quelques %. Elle consiste à vérifier, pour chaque entité classée, si elle respecte un certain nombre de règles d'assertion.

Evaluation des systèmesLe choix d'un système de reconnaissance d'entités nommées se base sur un compromis entre les performances du système et les contraintes technologiques qu'il pose.

Les performances d'un systèmes sont évaluées à   l'aide de trois  valeurs  :   rappel,  précision et F­mesure. Le rappel d'une classe C est le rapport entre le nombre d'entités correctement attribuées à cette classe C et le nombre total d'entités appartenant à la classe. On définit le rappel d'un système comme la moyenne des rappels de toutes les classes. La précision est le rapport entre le nombre d'entités correctement attribuées à cette classe C et le nombre total d'entités attribuées à la classe. On définit la précision d'un système comme la moyenne des précisions de toutes les classes. La F­mesure est une combinaison de ces deux critères, que l'on définit par la formule suivante :

Le terme permet de pondérer la précision et le rappel et ainsi de privilégier l'un de ces deux critères. Néanmoins, la mesure F1, qui prend pour la valeur 1, reste la solution la plus souvent utilisée.

Chaque méthode de traitement d'entités nommées présente aussi des contraintes technologiques en terme de coût et de maintenabilité. Le coût d'un système englobe tant le temps de traitement que la puissance   et   la   capacité   mémoire  du   serveur   ;   la  maintenabilité   estime   combien   l'intervention humaine   est   nécessaire   pour   le   fonctionnement   du   système pour   un   corpus  donné   et   pour   un changement ou un élargissement du corpus.

Le choix du système à utiliser doit donc se baser sur les caractéristiques du corpus que l'on souhaite étudier et sur le type de résultats de recherche que l'on souhaite obtenir : le corpus est­il ouvert ou fermé ? Va­t­il varier dans le temps ? Privilégiera­t­on l'exhaustivité ou la pertinence des résultats ?

F=1

2× précisionrappel

2×précisionrappel

Page 13: Entités nommées

Quelques exemplesExalead

Les entités nommées sont désormais au coeur des technologies développées   par   la   société   Exalead   SA,   leader   européen   du Search.   Tous   les   projets   de   son   Labs   les   utilisent,   comme Voxalead,  qui permet  la recherche textuelle dans les contenus audio et vidéo via la reconnaissance vocale et la transcription de texte. Les entités nommées sont déjà intégrées aux produits en production, comme la barre de contexte du moteur de recherche Web (termes associés proposés et annuaire donnant la classification).

http://labs.exalead.fr & http://www.exalead.fr/search

AMI

AMI   est   une   société   éditrice   de   logiciel   de   veille   et   d'intelligence   économique.   Ses   produits permettent d'analyser de grandes quantités de données textuelles et d'en extraire les entités nommées : les personnes et les organisations essentiellement, mais aussi les sujets de discussion, dans le but de traquer des évolutions (importance, émergence et disparition).

http://www.amisw.com

OntologieUne étape préliminaire de la construction de l'ontologie pour le domaine des entités nommées a été la réalisation d'un thésaurus qui rassemble les concepts les plus importants du domaine. Dans ce but, les mots­clés les plus cités dans les articles de référence ont été extraits et représentés sur le graphe ci­dessous.

Page 14: Entités nommées

Ce   graphe   des   relations   entre   mots­clés   met   en   évidence   les   concepts   qui   sont   le   centre   des recherches en cours sur le sujet des entités nommées. Dans l'ontologie décrite ci­dessous, certains points  ne sont pas détaillés.  Ils  sont   largement  approfondis dans les parties correspondantes du présent rapport.

Illustration 1: Représentation du thésaurus des principaux termes de notre corpus (un lien existe entre deux termes s'ils  sont présents au moins 5 fois dans un de nos documents) réalisé avec l'extension Firefox TimmyMiner basée sur les n­grams (http://web­mining.fr/technologies/timmyminer)

Page 15: Entités nommées

Figure 1 : Ontologie

Page 16: Entités nommées

L'ontologie du domaine des entités nommées se rassemble autour de deux concepts majeurs : l'entité nommée elle­même, et le système de reconnaissance des entités nommées.

L'entité nommée est une unité lexicale, qui est un objet d'étude du TALN (Traitement Automatique du Langage Naturel). Elle est contenue dans un document, lui­même contenu dans un corpus. On définit un document comme l'association unique d'un support d'inscription (dans notre cas, le fichier numérique) et de l'information qu'il contient. Un corpus est un recueil de documents qui ont trait à une même matière.

L'entité nommée est reconnue au cours d'un processus qui comporte trois étapes : identification ou reconnaissance   (NER),  classification   (NEC)  et  normalisation.  La  classification  peut   s'opérer  de plusieurs  manières  :  en suivant   la  hiérarchie MUC, par  une annotation modulaire,  ou avec une hiérarchie relative au domaine. La hiérarchie MUC divise les entités nommées en trois types : les noms   (ENAMEX),   les   nombres   (NUMEX),   et   les   dates   (TIMEX).   La   hiérarchie   relative   au domaine, comme son nom l'indique, se base sur les concepts clés du corpus et varie en fonction de celui­ci.

Le processus de reconnaissance des entités nommées dans les documents est mis en oeuvre par un système   de   reconnaissance   des   entités   nommées.   Plusieurs   méthodes   existent   :   la   méthode symbolique,   le   case­based   reasonning   (raisonnement   à   partir   de   cas)   et   le   machine   learning (apprentissage). La méthode symbolique revient à écrire des règles à la main pour un corpus donné. Le case­based reasonning part  d'un corpus  déjà  annoté  pour extraire  des  cas  et   les  appliquer  à d'autres documents. Enfin, le principe du machine learning est de capitaliser l'expérience acquise pour modifier, généraliser ou spécialiser les règles sur lesquelles il se base. Ces deux dernières méthodes   peuvent   être   autonomes   ou   supervisées,   c'est­à­dire   subir   ou   non   une   intervention humaine.

Le   système de   reconnaissance  d'entités  nommées  peut  être  évalué   selon  plusieurs  critères   :   sa performance en terme de rapidité  de  traitement, sa précision,  son rappel, et  la F­mesure. La F­mesure correspond à un composé de la précision et du rappel.

ConclusionLes entités nommées, initialement étudiées sur des corpus fermés de documents pour identifier des noms, fut étendue à des domaines de plus en plus diverses et requérant plus de précision que les premières   classifications   génériques.   Appliquées   à   la   veille   technologique,   l'intelligence économique ou à la recherche d'informations en génétique, elles font depuis peu l'objet d'un intérêt particulier pour améliorer les moteurs de recherche en corpus ouvert (Web), devenir des systèmes robustes et performants pour traiter de grandes quantités de documents en flux continue, ou encore automatiser la génération de contenus pour les technologies liées au Web Sémantique. Une voie récemment ouverte est la détection des émotions dans un texte.

Cette synthèse est le fruit d'un travail de veille liant la recherche de littérature scientifique à la prise de   contact   avec   une   grande   entreprise   française   exploitant   les   entités   nommées   à   un   stade expérimental [ExaLabs] et aussi en production. Elle fut l'occasion pour nous de plonger au cœur de 

Page 17: Entités nommées

ce concept et d'en évaluer les capacités, la portée mais aussi les limites, et de modéliser ce domaine sous la forme d'une ontologie,  excepté  son langage formel pour l'opérationnaliser.  Notons qu'un thésaurus aurait été suffisant puisqu'il n'en sera pas fait d'exploitation informatique.

Page 18: Entités nommées

BibliographieNotez  que  cette   liste  ne  vise  pas   l'exhaustivité,   beaucoup  d'autres   travaux   sont   accessibles   sur CiteSeerx.

[Banko, 2008] Banko M. et al., Open Information Extraction from the Web, University of Washington (2008)

[Bikel, 1998] Bikel D. M. et al., Nymble: a High­Performance Learning Name­finder, Cambridge (1998)

[Brin, 2003] Brin S., 6.891: Lecture 21 Relation Extraction, Stanford University (2003)

[Bunescu, 2006] Bunescu R., Pasca M., Using Encyclopedic Knowledge for Named Entity Disambiguation, University of Texas at Austin & Google Inc. (2006)

[Danet, 2006] Danet L., Réutilisation d'entités nommées pour la réponse au courriel, Université de Laval (2006)

[Dingare, 2005] Dingare S. et al., A system for identifying named entities in biomedical text: how results from two  evaluations reflect on both the system and the evaluations, University of Edinburgh & Stanford University (2005)

[Downey, 2007] Downey D. et al., Locating Complex Named Entities in Web Text, University of Washington (2007)

[Ehrmann, 2006] Ehrmann M., Jacquet G., Vers une double annotation des entités nommées, Centre de Recherche Xerox de Grenoble (2006)

[Etzioni, 2004] Etzioni O. et al., Unsupervised Named­Entity Extraction from the Web: An Experimental Study, University of Washington (2004)

[Fleischman, 2002] Fleischman M., Hovy E., Fine Grained Classification of Named Entities, USC Information Science Institute (2002)

[Hasegawa, 2004] Hasegawa T., Sekine S., Grishman R., Discovering Relations among Named Entities from Large  Corpora, Nippon Telegraph and Telephone Corporation & New York University (2004)

[Heath, 2005] Heath T. et al., Uses of Contextual Information to Support Online Tasks, The Open University (2005)

[Sekine, 2002] Sekine S. et al., Extended Named Entity Hierarchy, New York University (2002)

[Tjong Kim Sang, 2003] Tjong Kim Sang E. F., De Meulder F., Introduction to the CoNLL­2003 Shared Task:  Language­Independent Named Entity Recognition, University of Antwerp (2003)

[Valkeapää, 2007] Valkeapää O. et al., Efficient Content Creation on the Semantic Web Using Metadata Schemas with  Ontology Services, Helsinki University of Technology (2007)

[Wasson, 2000] Wasson M., Large­scale Controlled Vocabulary Indexing for Named Entities, Lexis­Nexis (2000)

[Gazeau, 2008] Gazeau M­A. et al.,  Projet Variling  Reconnaissance des entités nommées d'un corpus oral transcrit, Université de Tours François­Rabelais (2008)

CiteSeerx base de littérature scientifique  ­ http://citeseerx.ist.psu.edu

[ExaLabs] Exalead Labs ­ http://labs.exalead.fr

[Sekine hierarchy] Sekine's Extended Named Entity Hierarchy – http://nlp.cs.nyu.edu/ene/

[Wikio] Usage des entités nommées chez Wikio ­ http://aixtal.blogspot.com/2008/04/outil­qui­buzze­aujourdhui.html

[NER] Wikipedia Named Entity recognition ­ http://en.wikipedia.org/wiki/Named_entity_recognition

[Markov]   Wikipédia   Modèle   de   Markov   caché   ­  http://fr.wikipedia.org/wiki/Mod%C3%A8le_de_Markov_cach%C3%A9