extracteur - iro.umontreal.cafelipe/memoires/slides-hugo.pdf · raret e a v oir (jacquemin, 1997) s...
TRANSCRIPT
-
ExtracteurTerminologiqueStatistique
HugoLarochelle
2002
S�eminaireRALI/LLI:
ExtracteurTerminologiqueStatistique
StageCRSNG,�et�e2002
1/41
-
Plan
�Introduction
�Pr�erequis�al'extraction
�Erreursetremarquessurlespr�erequis
�Quelquesmotssurlasubjectivit�edel'extraction
�Architecturedel'extracteur
��Evaluationdesm�etriques
�R�esultats�naux
�Conclusion
�Voiesfutures
S�eminaireRALI/LLI:
ExtracteurTerminologiqueStatistique
StageCRSNG,�et�e2002
2/41
-
Introduction
Extractionterminologique:
�Qu'est-cequ'unterme?
{untermeestunerepr�esenationlitt�eraired'unconceptdans
undomainedonn�ea
�Pourquoiextrairedestermes?
{recherched'information
{traduction
{extractiond'information
�Doit-on�etudierlesens?
{pasn�ecessairement,carilexistedestestsstatistiquesqui
permettentd'�evaluerlapertinenced'untermeselon
d'autrescrit�eres,soitlafr�equenceetlararet�e
avoir(Jacquemin,1997)
S�eminaireRALI/LLI:
ExtracteurTerminologiqueStatistique
StageCRSNG,�et�e2002
3/41
-
Pr�erequisdel'extraction
L'extractionterminologiqueetl'�evaluationdecelle-cin�ecessite
certainspr�erequis.
Lemod�eledecettelignedecommandeUnixlesmontretous:
catfcorpusgjf�etiquetteurgjflemmatiseurgjfextracteurg
S�eminaireRALI/LLI:
ExtracteurTerminologiqueStatistique
StageCRSNG,�et�e2002
4/41
-
Pr�erequisdel'extraction(suite)
Corpusder�ef�erence
�corpussurl'alimentationeneau
{12492mots
{listedetermesextraitsnecontientquedesexpressions(plusd'unmots)
{OÆcedelalanguefran�caise
{extractionmanuelleetcorrectionsselonlasortiedeslogiciels
�corpusdem�edecine
{3296mots
{listedestermesextraitscontientdesmotsetdesexpressions
{membresduRALI/LLI
{extractionmanuelleindividuelle,convergencedesr�esultatset
ajustements
Corpus
Nbtermesf=1
Nbtermesf>2
Eau
164
61
M�edecine
84
103
S�eminaireRALI/LLI:
ExtracteurTerminologiqueStatistique
StageCRSNG,�et�e2002
5/41
-
Pr�erequisdel'extraction(suite)
�Etiqueteura
Permetde\tokenizer"etd'�etiquetergrammaticalementuntexte�a
l'aided'unlexique.Exemple:
Les
Dete-dart-ddef-masc-plur
enfants
NomC-masc-plur
s'
Pron-pr-prea-genI-nomI-p3
amuse
Verb-IndPre-sing-p3
dans
Prep
le
Dete-dart-ddef-masc-sing
parc
NomC-masc-sing
.
Punc-pcst
fEOFg
avoir(Foster,1991)
S�eminaireRALI/LLI:
ExtracteurTerminologiqueStatistique
StageCRSNG,�et�e2002
6/41
-
Pr�erequisdel'extraction(suite)
Lemmatiseur
Permetd'obtenirlelemmedechacundes\tokens"dutexte.
Exemple:
Les
Dete-dart-ddef-masc-plur/le
enfants
NomC-masc-plur/enfant
s'
Pron-pr-prea-genI-nomI-p3/me
amuse
Verb-IndPre-sing-p3/amuser
dans
Prep/dans
le
Dete-dart-ddef-masc-sing/le
parc
NomC-masc-sing/parc
.
Punc-pcst
fEOFg
Exempled'entr�eesdulexique:
industries
NomC
industrie
industriel
NomC
industriel
industriels
NomC
industriel
S�eminaireRALI/LLI:
ExtracteurTerminologiqueStatistique
StageCRSNG,�et�e2002
7/41
-
Erreursetremarquessurlespr�erequis
Corpusder�ef�erence
�extractionmanuellenecomportequedesexpressionspourle
corpusdel'eau
�termesextraitssontsousleurformeneutre,etj'aid^utrouver
laformeapparaissantdansletexte
�beaucouptropdetermessontdefr�equenceunitaire
S�eminaireRALI/LLI:
ExtracteurTerminologiqueStatistique
StageCRSNG,�et�e2002
8/41
-
Erreursetremarquessurlespr�erequis
�Etiqueteur
��etiquetageestparfoiserron�e.Exemple:
un
Dete-dart-dind-masc-sing
massif
AdjQ-masc-sing
�ltrant
AdjQ-masc-sing
�certainssymbolessontassoci�esinjustement�adesnomscommuns(%,
*,|,etc.);
�segmentationdutexteestquelquefoismalr�ealis�ee.Exemple:
depompage
AdjQ-masc-sing
fonctionnel
AdjQ-masc-sing
�motsraressouventmalanalys�esgrammaticalementExemple:
antigen
Quan-ndg-sgpl-Sord-ind
antigen
NomC-sing
antigen
Adve-XNOT
antigen
AdjQ
S�eminaireRALI/LLI:
ExtracteurTerminologiqueStatistique
StageCRSNG,�et�e2002
9/41
-
Erreursetremarquessurlespr�erequis(suite)
��etiquetagenepeut^etrefaitdansdeuxlanguessimultann�ement.
Exempleducorpusdel'eau
These
NomP
problems
NomP
pose
Verb-IndPre-sing-p3
a
Verb-IndPre-sing-p3
considerable
Verb-ParPas-masc-sing
challenge
NomP
to
NomP
water
NomP
utilities
NomP
and
NomP
other
NomP
well
NomP
owners
NomP
in
NomP
North
NomP
America
NomP
and
NomP
around
NomP
the
NomP
world
NomP
.
Punc-pcstS
�eminaireRALI/LLI:
ExtracteurTerminologiqueStatistique
StageCRSNG,�et�e2002
10/41
-
Quelquesmotssurlasubjectivit�ede
l'extraction
IlsuÆtd'essayersoi-m^emed'extrairedestermespourr�ealiserque
lasubjectivit�eestdemise.
L'extractionfaiteparleRALI/LLIexprimebiencefait.
�lenombredetermesapprouv�esparpersonnevariede99�a343
�letableausuivantmontre�aquelpointlenombredetermes
faisantconsensusdiminueaveclenombredepersonnedu
consensus
Nbpersonnes
Nbdetermes
5
55
4
104
3
187
2
269
1
427
S�eminaireRALI/LLI:
ExtracteurTerminologiqueStatistique
StageCRSNG,�et�e2002
11/41
-
Architecturedel'extracteur
L'extracteurestdivis�edelafa�consuivante:
�Lectureducorpusmonde
�Lectureducorpus�aanalyser
�Cr�eationduSFXetduLCP
�Recherchedess�equencesetassignationdesscores
�Filtrationnormale
S�eminaireRALI/LLI:
ExtracteurTerminologiqueStatistique
StageCRSNG,�et�e2002
12/41
-
Lectureducorpusmondeetducorpus�a
analyser
Qu'est-cequelecorpusmonde:
�ilpermettrademesurerlararet�ed'unmot
�leHansardaservidecorpusmonde
Exemple:
2968
attitude
Corpus�aanalyser
��Al'aidedel'utilisationduSFX(suÆxearray)etduLCP
(longestcommonpre�xe),ilestpossibled'obtenirrapidement
lafr�equenceetlesoccurencesdetoutes�equenceapparaissant
dansuncorpus.Voir(Russell,1998).
S�eminaireRALI/LLI:
ExtracteurTerminologiqueStatistique
StageCRSNG,�et�e2002
13/41
-
Recherchedess�equencesetassignationdes
scores
Di��erentesvariablessontrequisesparlesm�etriques.
�fr�equencef
�fr�equencemondialeF
�variablesa,b,cetd,permettantdemesurerlaliaisonentre
deuxlemmesetd�e�niesparletableaudecontingencesuivant:
B
:B
A
a
b
:A
c
d
S�eminaireRALI/LLI:
ExtracteurTerminologiqueStatistique
StageCRSNG,�et�e2002
14/41
-
Recherchedess�equencesetassignationdes
scores(suite)
L'�eventaildesm�etriquestest�eesesttr�esgrand.Envoiciquelques
unes:
Pourlesmots
�Entropie(E)
e(wn1)
=
(eleft (wn1)+eright (wn1))=2
eleft (s)
=
Pwjws2Th �jwsj
jsj �
eright (s)
=
Pwjsw2Th �jswj
jsj �
h(x)
=
�xlog2 (x)
Faibleentropie
Forteentropie
par
.autre
ce
9=;exemple
8>>:l'en...d'9>>=>>;
eau8>>>:
de
potable
...peut
9>>=>>;(117
S�eminaireRALI/LLI:
ExtracteurTerminologiqueStatistique
StageCRSNG,�et�e2002
15/41
-
Recherchedess�equencesetassignationdes
scores(suite)
�Scoredecomparaisonaveclemonde(S)
S
=
�flog2 �f+F
jTj+jMj �
ExemplepourS(corpusdem�edecine):
monocytes:
f=2etF=0
!
S=47:7892
presence:
f=2etF=1796
!
S=28:1648
S�eminaireRALI/LLI:
ExtracteurTerminologiqueStatistique
StageCRSNG,�et�e2002
16/41
-
Recherchedess�equencesetassignationdes
scores(suite)
Pourlesexpressions
�Ratiodevraisemblance(L)
L
=
aloga+blogb+dlogd+NlogN
�(a+c)log(a+c)�(a+b)log(a+b)
�(c+d)log(c+d)�(d+b)log(d+b)
o�uN
estlatailleducorpus.Ceratioestrelativementr�epandu.�A
vraidire,c'estletestdevraisemblanceappliqu�edansuncontexte
binomial.
�Entropie(E)
idem�al'entropiepourlesmots.
S�eminaireRALI/LLI:
ExtracteurTerminologiqueStatistique
StageCRSNG,�et�e2002
17/41
-
Filtrationnormale
On�ltre�nalement�al'aided'unseuilnormal.
Exempleavecseuilt=2
Terme
Entropie
Entropienormalis�ee
Choisi
puitsart�esien
49.6853
6.9507
x
eausouterraine
29.9798
3.9923
x
quantit�ed'eau
9.8399
0.9687
facture�nale
3.4624
0.0113
S�eminaireRALI/LLI:
ExtracteurTerminologiqueStatistique
StageCRSNG,�et�e2002
18/41
-
�Evaluationdesm�etriques
Oncherchemaintenant�aobserverletravailfaitparchacunedes
m�etriquesd�ecritesplushaut.Pourcefaire,oncompareles
m�etriquesavec,entreautre,lebruitetlesilence,d�e�niescomme
suit:
Bruitnombredetermesextraitsautomatiquementquinese
trouventpasdanslalisteder�ef�erencesurlenombredetermes
extraits
Silencenombredetermesnonextraitsautomatiquementetse
trouvantdanslalisteder�ef�erence,surlenombredetermes
danscetteliste
Cesquantit�essontexprim�eesenpourcentage.
S�eminaireRALI/LLI:
ExtracteurTerminologiqueStatistique
StageCRSNG,�et�e2002
19/41
-
Expressions(�evaluation)
N
10.00
20.00
30.00
40.00
50.00
60.00
70.00
80.00
90.00
100.00
f
100.00
80.00
73.33
65.00
62.00
63.33
57.14
55.00
54.44
53.00
l
100.00
65.00
66.67
60.00
58.00
51.67
48.57
46.25
48.89
48.00
d
50.00
55.00
56.67
65.00
60.00
55.00
51.43
51.25
53.33
53.00
dm
60.00
65.00
63.33
55.00
50.00
46.67
47.14
45.00
47.78
49.00
fag
50.00
60.00
63.33
67.50
56.00
53.33
52.86
51.25
53.33
53.00
mim
70.00
65.00
56.67
50.00
50.00
46.67
45.71
47.50
47.78
49.00
s
70.00
60.00
66.67
65.00
64.00
58.33
57.14
56.25
52.22
51.00
c
80.00
75.00
70.00
60.00
56.00
53.33
47.14
50.00
52.22
52.00
e
100.00
90.00
70.00
70.00
62.00
58.33
55.71
51.25
50.00
52.00
kuc
50.00
55.00
56.67
65.00
60.00
55.00
51.43
51.25
53.33
53.00
och
50.00
55.00
56.67
65.00
60.00
55.00
51.43
51.25
53.33
53.00
chi
50.00
35.00
43.33
40.00
36.00
35.00
40.00
41.25
42.22
45.00
smc
50.00
55.00
56.67
65.00
60.00
55.00
51.43
51.25
53.33
53.00
phi
60.00
50.00
40.00
40.00
38.00
40.00
41.43
45.00
46.67
48.00
mi
50.00
50.00
46.67
40.00
36.00
38.33
40.00
42.50
46.67
48.00
y
70.00
70.00
53.33
52.50
54.00
53.33
51.43
55.00
52.22
53.00
fa
80.00
80.00
76.67
62.50
62.00
56.67
57.14
52.50
52.22
49.00
Table1:Progressiondelapr�ecisiondesm�etriquessurlecorpusde
l'eaupourlesexpressions
S�eminaireRALI/LLI:
ExtracteurTerminologiqueStatistique
StageCRSNG,�et�e2002
20/41
-
Expressions(suite)
N
3.00
6.00
9.00
12.00
15.00
18.00
21.00
24.00
27.00
30.00
f
100.00
100.00
88.89
91.67
93.33
88.89
85.71
83.33
85.19
83.33
l
100.00
100.00
88.89
91.67
86.67
88.89
85.71
75.00
74.07
73.33
d
33.33
33.33
55.56
66.67
73.33
72.22
71.43
62.50
62.96
60.00
dm
100.00
100.00
88.89
83.33
86.67
88.89
85.71
79.17
81.48
76.67
fag
0.00
50.00
66.67
75.00
80.00
77.78
71.43
66.67
66.67
63.33
mim
66.67
83.33
88.89
83.33
80.00
83.33
71.43
70.83
70.37
66.67
s
100.00
83.33
77.78
75.00
80.00
77.78
76.19
70.83
62.96
66.67
c
100.00
66.67
66.67
50.00
53.33
44.44
42.86
50.00
55.56
60.00
e
100.00
100.00
100.00
91.67
93.33
94.44
90.48
91.67
88.89
83.33
kuc
33.33
33.33
55.56
66.67
73.33
72.22
71.43
62.50
62.96
60.00
och
33.33
33.33
55.56
66.67
73.33
72.22
71.43
62.50
62.96
60.00
chi
66.67
50.00
44.44
41.67
33.33
33.33
33.33
29.17
33.33
40.00
smc
33.33
33.33
55.56
66.67
73.33
72.22
71.43
62.50
62.96
60.00
phi
66.67
66.67
44.44
50.00
60.00
55.56
47.62
41.67
37.04
43.33
mi
66.67
66.67
44.44
50.00
53.33
44.44
38.10
41.67
44.44
46.67
y
100.00
66.67
55.56
50.00
46.67
44.44
52.38
58.33
62.96
63.33
fa
100.00
83.33
77.78
75.00
80.00
77.78
76.19
75.00
66.67
66.67
Table2:Progressiondelapr�ecisiondesm�etriquessurlecorpusde
m�edecinepourlesexpressions
S�eminaireRALI/LLI:
ExtracteurTerminologiqueStatistique
StageCRSNG,�et�e2002
21/41
-
Expressions (suite)
0
10
20
30
40
50
60
70
80
90
100
-3 -2 -1 0 1 2 3
"f.sl.test""f.bt.test"
Figure 1: �Evolution du bruit et du silence avec la fr�equence pour les
expressions
S�eminaire RALI/LLI:
Extracteur Terminologique Statistique
Stage CRSNG, �et�e 2002
22/41
-
Expressions (suite)
0
10
20
30
40
50
60
70
80
90
100
-3 -2 -1 0 1 2 3
"e.sl.test""e.bt.test"
Figure 2: �Evolution du bruit et du silence avec l'entropie pour les
expressions
S�eminaire RALI/LLI:
Extracteur Terminologique Statistique
Stage CRSNG, �et�e 2002
23/41
-
Expressions (suite)
0
10
20
30
40
50
60
70
80
90
100
-3 -2 -1 0 1 2 3
"l.sl.test""l.bt.test"
Figure 3: �Evolution du bruit et du silence avec le ratio de vraisem-
blance pour les expressionsS�eminaire RALI/LLI:
Extracteur Terminologique Statistique
Stage CRSNG, �et�e 2002
24/41
-
Expressions (suite)
0
10
20
30
40
50
60
70
80
90
100
-3 -2 -1 0 1 2 3
"fa.sl.test""fa.bt.test"
Figure 4: �Evolution du bruit et du silence avec la moyenne
fr�equentielle pour les expressions
S�eminaire RALI/LLI:
Extracteur Terminologique Statistique
Stage CRSNG, �et�e 2002
25/41
-
Expressions(conclusion)
-Aucunem�etriquenepeutdonneruncompromisbruit/silence
quisoitsatisfaisant(lebruitetlesilencesecroisentdansles
alentoursdes40%pourchacun).
-Malheureusement,aucunecombinaisonnedonnedemeilleurs
r�esultats.Ongarderadoncl'entropiecommeseulem�etriquede
�ltration.
-Lafr�equenceestmisedec^ot�eecar,dansl'optiqueo�ul'onlaisse
lechoixduseuil�al'utilisateur,unem�etriquelapluscontinue
possible(quiprendleplusdevaleurs)estsouhaitable.
L'utilisateuraainsiplusdechoix.
-Deplus,onsoup�connel'entropied'^etreencorepluseÆcacesur
degrandscorpus,contrairement�alafr�equence.
S�eminaireRALI/LLI:
ExtracteurTerminologiqueStatistique
StageCRSNG,�et�e2002
26/41
-
Mots
-Und�eroulementsimilaireestappliqu�epourlesmots.Dansce
cas-ci,lecorpusdem�edecineestutilis�e.
-Laconclusionestlam^eme:l'entropieestlameilleurem�etrique,
etaucunecombinaisonn'estsatisfaisante.
-Deplus,lafr�equenceestencoreunefoisunebonnem�etrique,
maisoubli�eepourlesm^emesraisons.
S�eminaireRALI/LLI:
ExtracteurTerminologiqueStatistique
StageCRSNG,�et�e2002
27/41
-
IneÆcacit�edesm�etriquessurlestermesde
fr�equenceunitaire
A�ndejusti�erl'aÆrmationquelesm�etriquesnefonctionnentpas
surless�equencesdefr�equenceunitaire,voiciuntableau
d�emontrantcefait:
N
20.00
40.00
60.00
80.00
100.00
120.00
140.00
160.00
180.00
200.00
f
0.00
2.50
5.00
7.50
8.00
9.17
8.57
7.50
10.56
9.50
l
0.00
5.00
5.00
3.75
5.00
5.00
5.71
6.25
6.67
6.50
d
0.00
5.00
5.00
3.75
5.00
5.00
5.71
6.25
6.67
6.50
dm
5.00
5.00
6.67
10.00
8.00
6.67
5.71
6.88
6.11
7.00
fag
0.00
2.50
5.00
7.50
8.00
9.17
8.57
7.50
10.56
9.50
mim
0.00
5.00
5.00
3.75
5.00
5.00
5.71
6.25
6.67
6.50
s
10.00
7.50
5.00
6.25
9.00
10.00
9.29
10.62
10.00
12.00
c
0.00
5.00
5.00
8.75
7.00
5.83
7.86
6.88
6.67
8.50
e
0.00
2.50
5.00
7.50
8.00
9.17
8.57
7.50
10.56
9.50
kuc
0.00
5.00
5.00
3.75
5.00
5.00
5.71
6.25
6.67
6.50
och
0.00
5.00
5.00
3.75
5.00
5.00
5.71
6.25
6.67
6.50
chi
0.00
5.00
5.00
3.75
5.00
5.00
5.71
6.25
6.67
6.50
smc
0.00
5.00
5.00
3.75
5.00
5.00
5.71
6.25
6.67
6.50
phi
0.00
5.00
5.00
3.75
5.00
5.00
5.71
6.25
6.67
6.50
mi
0.00
5.00
5.00
3.75
5.00
5.00
5.71
6.25
6.67
6.50
y
0.00
5.00
5.00
8.75
7.00
5.83
7.86
6.88
6.67
8.50
Table3:Progressiondelapr�ecisiondesm�etriquessurlecorpusde
l'eaupourlesexpressionsdefr�equenceunitaire
S�eminaireRALI/LLI:
ExtracteurTerminologiqueStatistique
StageCRSNG,�et�e2002
28/41
-
�Evaluationdesoptions
Enplusdesm�etriques,ilyadesoptionsduprogrammequiin
ue
surlestermesextraits.
�Automatepourd�etecterlesgroupesnominaux
��Eliminationdessous-s�equences
�Fusiondesvariationsmorphologiques
�Fusiondesvariationsterminologiques
S�eminaireRALI/LLI:
ExtracteurTerminologiqueStatistique
StageCRSNG,�et�e2002
29/41
-
Automate
Ce graphe montre tr�es bien l'utilit�e d'un automate:
0
10
20
30
40
50
60
70
80
90
100
-3 -2 -1 0 1 2 3
"e-sansaut.sl.test""e-sansaut.bt.test"
S�eminaire RALI/LLI:
Extracteur Terminologique Statistique
Stage CRSNG, �et�e 2002
30/41
-
�Eliminationdessous-s�equences
�Eliminerlessous-s�equencesn'estpeut-^etrepastoujourssouhaitable
Ene�et,pourlecorpusdel'eau,10%destermesdelalistede
r�ef�erence(expressionsdefr�equence2etplus)sontdes
sous-s�equences.Parexemple:
�\eauxdepluie"appara^�ttoujoursdanslas�equence\leseaux
depluieetdelafontedesneiges"
Iln'estdoncpassugg�er�ed'utilisercetteoption.
S�eminaireRALI/LLI:
ExtracteurTerminologiqueStatistique
StageCRSNG,�et�e2002
31/41
-
Fusiondesvariationsmorphologiques
Lafusiondesvariationsmorphologiquesestaussiunebonneoption:
Termeducorpus
Fr�equencesans
Fr�equenceavec
variation
variation
analysebact�eriologique
1
2
bact�eriedetypecoliforme
1
2
champd'�epuration
7
8
contaminationbact�erienne
9
11
eaudepluie
1
3
eauderuissellement
1
2
eaudesurface
5
9
eaunaturelle
2
3
eausouterraine
17
25
fosseseptique
1
3
garantied'eau
4
5
napped'eau
2
3
nappesouterraine
9
10
puitsart�esien
25
35
puitsdomestique
1
4
puitsfor�e
4
6
puitsmunicipal
1
2
S�eminaireRALI/LLI:
ExtracteurTerminologiqueStatistique
StageCRSNG,�et�e2002
32/41
-
R�esultats �naux
0
10
20
30
40
50
60
70
80
90
100
-4 -3 -2 -1 0 1 2 3 4
"final-med-f2+.sl.test""final-med-f2+.bt.test"
Figure 5: �Evolution du bruit et du silence �nale pour le corpus de
m�edecine (mots et expressions de fr�equence 2 et plus)
S�eminaire RALI/LLI:
Extracteur Terminologique Statistique
Stage CRSNG, �et�e 2002
33/41
-
R�esultats�naux(suite)
Mots
Expressions
est
corpusdel'eau
"
fr�equenceunitaire
\
listeder�ef�erence
corpus
termesextraits
mots
corpusdem�edecine
termes
ratiodevraisemblance
fr�equence
aÆnit�eslexicales
m�etriques
corpusdem�edecine
liste
moyennefr�equentielle
entropie
�chierdecon�guration
expressions
m�etriquesstatistiques
$
expressionsdefr�equence
fait
s�equence
Table4:Comparaisondesfr�equencesenconsid�erantlesvariations
morphologiquesoupas(termessinguliers)
S�eminaireRALI/LLI:
ExtracteurTerminologiqueStatistique
StageCRSNG,�et�e2002
34/41
-
R�esultats�naux(suite)
VoiciaussiunepartiedelasortieCGIduprogramme:
...Danscecasci,lalisteder�ef�erencecontient61expressionsdefr�equence2etplus.Il
sembledoncquelesm�etriqueslespluseÆcacessoientlafr�equence,le
ratiodevraisemblanceetl'entropie.Lamoyennefr�equentielleetlecoeÆcientde
Cosiner�eussissentpassablementbienaussi.Pourtrancher,onn'aqu'�aobserverle
m^emetableau,maispourlecorpus
...Ici,lalisteder�ef�erencecontient39expressionsdefr�equence2etplus.Onpeut
observerquelafr�equence,leratiodevraisemblanceetl'entropiesonttoujourstr�es
eÆcaces.Deplus,lecoeÆcientdeDicemodi��eestaussitr�esbon.Onnepeut
cependantpasleretenir,carilnedonnaitpasdebonsr�esultatsdansle
corpusdel'eau.
...
S�eminaireRALI/LLI:
ExtracteurTerminologiqueStatistique
StageCRSNG,�et�e2002
35/41
-
Conclusions
Lesm�etriquesstatistiqueslaissentcroirequ'ellesnesontpasassez
eÆcacespourpermettreunseuilunitaired'extraction.Cecipeut^etre
expliqu�ededeuxfa�cons:
�soitl'extractionestuneactivit�etropsubjectivepourpermettreun
choixjusti��epourchacun
�soitlas�emantiquedesmotsestuneconnaissancen�ecessaire�a
l'extractionterminologique
Lad�etectiondesvariationsdetermesestuneautrevoie,maisilest
probablequ'ellenesaurapascomblertotalementlevidedelas�election.
Pourl'instant,ondevralaisserlesoin�al'utilisateurdefairelecompromis
entresilenceetbruit.Deplus,untermepeutsouvent^etredefr�equence
unitaire,unprobl�emequ'onnepeutpasr�egler�al'aidedem�etriques
statistiques.
Danslecasdess�equences�afr�equencemultiple,l'utilisationdel'entropie
estdonclapluspro�table.Ilestint�eressantdesoulignerque,comme
pressentidanslestravauxdeB�eatriceDaille,lafr�equenceestunemesure
plut^oteÆcace.
S�eminaireRALI/LLI:
ExtracteurTerminologiqueStatistique
StageCRSNG,�et�e2002
36/41
-
Conclusions(suite)
Cesconclusionssontconformesaveclesr�esultatsd'autres�etudes.
L'oÆcedelalanguefran�caisatest�eplusieurslogicielssimilaires:
Logiciels
Lexter
Nomino
System
Quirk
TermFinder
Ztext
UCN
UCNetUCNA
Silence
22
12
7
59
39
78
Bruit
84
78
84
96
88
94
Cesr�esultatstiennentcomptedess�equencesdefr�equence
quelconque.
Onpeutvoirquelesr�esultatsnesontpastr�esimpressionnant.
D'ailleurs,l'applicationlaplusperformante,Nomino,poss�edeun
modules�emantique.
S�eminaireRALI/LLI:
ExtracteurTerminologiqueStatistique
StageCRSNG,�et�e2002
37/41
-
Voiesfutures
L'�etudedel'extractiondetermesestloind'^etretermin�ee,etvoici
lescheminspotentiellementavantageux:
�approfondissementdel'�etudes�emantique
�d�etectiondesvariationsterminologiques
Ilexistecependantdestermesquin'apparaissentquesousdes
variationsetquel'ondevraitd�etecter.Parexemple:
�\carbonatedemagn�esium"dans\carbonatedecalciumetde
magn�esium"
�\captagecomplet"dans\captager�esidentielcomplet".
S�eminaireRALI/LLI:
ExtracteurTerminologiqueStatistique
StageCRSNG,�et�e2002
38/41
-
Voiesfutures(suite)
M^emesiellenesuÆtpas�aelle-m^eme,unetelleapplicationpeut
d�ej�aservir�aconstruireunlexiquesp�ecialis�epourundomaine
particulier.Uncertaintravailmanueldevraparcontrevenir
compl�eterl'extraction.
Dansuncontextebilingue,ilpeutaussiservir�aconstuireun
dictionnairebilinguesp�ecialis�e.Danslecaso�uunepersonne
poss�edeunm^emetextedansdeuxlanguesdi��erentes,lasortiede
l'extracteurpourlesdeuxcorpusestalors�etudi�eeparunmod�elede
traduction,a�nded�eterminerlesassociationstraductivespossibles.
S�eminaireRALI/LLI:
ExtracteurTerminologiqueStatistique
StageCRSNG,�et�e2002
39/41
-
Bibliography
G.F.Foster.1991.Statisticallexicaldisambiguation.Master'sthesis,
SchoolofComputerScience,McGillUniversity.
ChristianJacquemin.1997.Variationterminologique:Reconnaissanceet
acquisitionautomatiquesdetermesetdeleursvariantesencorpus.Ph.D.
thesis,Universit�edeNante,Nantes.
GrahamRussell.1998.Identi�cationofsalienttokensequences.Internal
Report,RALI.
S�eminaireRALI/LLI:
ExtracteurTerminologiqueStatistique
StageCRSNG,�et�e2002
40/41
-
Autresprogrammes
Desapplicationscompl�ementairesontaussi�et�ed�evelopp�ees.Une
d'entreellesestund�etecteurd'abr�eviations.Ilfonctionnepour
fran�caisetanglais.Voicilasortiepourlecorpusdem�edecine:
CD
:clustersofdi�erentiation
IFNa:Interferonalpha
IFNb:Interferonbeta
IFNg:Interferongamma
G-CSF:granulocytecolonystimulatingfactor
M-CSF:macrophagecolonystimulatingfactor
GM-CSF:granulocyte-macrophagecolonystimulatingfactor
IL:Interleukin
TNF:tumornecrosisfactors
IL:Interleukins
TH2:T
helper
ELAM-1:endothelialleucocyteadhesionmolecule
ICAM-1:intercellularadhesionmolecule
VCAM-1:vascularcelladhesionmolecule
AIT
:allergenimmunotherapy
PBL:peripheralbloodlymphocytes
AD
:atopicdermatitis
S�eminaireRALI/LLI:
ExtracteurTerminologiqueStatistique
StageCRSNG,�et�e2002
41/41