extracteur - iro.umontreal.cafelipe/memoires/slides-hugo.pdf · raret e a v oir (jacquemin, 1997) s...

41

Upload: others

Post on 18-Feb-2021

3 views

Category:

Documents


0 download

TRANSCRIPT

  • ExtracteurTerminologiqueStatistique

    HugoLarochelle

    2002

    S�eminaireRALI/LLI:

    ExtracteurTerminologiqueStatistique

    StageCRSNG,�et�e2002

    1/41

  • Plan

    �Introduction

    �Pr�erequis�al'extraction

    �Erreursetremarquessurlespr�erequis

    �Quelquesmotssurlasubjectivit�edel'extraction

    �Architecturedel'extracteur

    ��Evaluationdesm�etriques

    �R�esultats�naux

    �Conclusion

    �Voiesfutures

    S�eminaireRALI/LLI:

    ExtracteurTerminologiqueStatistique

    StageCRSNG,�et�e2002

    2/41

  • Introduction

    Extractionterminologique:

    �Qu'est-cequ'unterme?

    {untermeestunerepr�esenationlitt�eraired'unconceptdans

    undomainedonn�ea

    �Pourquoiextrairedestermes?

    {recherched'information

    {traduction

    {extractiond'information

    �Doit-on�etudierlesens?

    {pasn�ecessairement,carilexistedestestsstatistiquesqui

    permettentd'�evaluerlapertinenced'untermeselon

    d'autrescrit�eres,soitlafr�equenceetlararet�e

    avoir(Jacquemin,1997)

    S�eminaireRALI/LLI:

    ExtracteurTerminologiqueStatistique

    StageCRSNG,�et�e2002

    3/41

  • Pr�erequisdel'extraction

    L'extractionterminologiqueetl'�evaluationdecelle-cin�ecessite

    certainspr�erequis.

    Lemod�eledecettelignedecommandeUnixlesmontretous:

    catfcorpusgjf�etiquetteurgjflemmatiseurgjfextracteurg

    S�eminaireRALI/LLI:

    ExtracteurTerminologiqueStatistique

    StageCRSNG,�et�e2002

    4/41

  • Pr�erequisdel'extraction(suite)

    Corpusder�ef�erence

    �corpussurl'alimentationeneau

    {12492mots

    {listedetermesextraitsnecontientquedesexpressions(plusd'unmots)

    {OÆcedelalanguefran�caise

    {extractionmanuelleetcorrectionsselonlasortiedeslogiciels

    �corpusdem�edecine

    {3296mots

    {listedestermesextraitscontientdesmotsetdesexpressions

    {membresduRALI/LLI

    {extractionmanuelleindividuelle,convergencedesr�esultatset

    ajustements

    Corpus

    Nbtermesf=1

    Nbtermesf>2

    Eau

    164

    61

    M�edecine

    84

    103

    S�eminaireRALI/LLI:

    ExtracteurTerminologiqueStatistique

    StageCRSNG,�et�e2002

    5/41

  • Pr�erequisdel'extraction(suite)

    �Etiqueteura

    Permetde\tokenizer"etd'�etiquetergrammaticalementuntexte�a

    l'aided'unlexique.Exemple:

    Les

    Dete-dart-ddef-masc-plur

    enfants

    NomC-masc-plur

    s'

    Pron-pr-prea-genI-nomI-p3

    amuse

    Verb-IndPre-sing-p3

    dans

    Prep

    le

    Dete-dart-ddef-masc-sing

    parc

    NomC-masc-sing

    .

    Punc-pcst

    fEOFg

    avoir(Foster,1991)

    S�eminaireRALI/LLI:

    ExtracteurTerminologiqueStatistique

    StageCRSNG,�et�e2002

    6/41

  • Pr�erequisdel'extraction(suite)

    Lemmatiseur

    Permetd'obtenirlelemmedechacundes\tokens"dutexte.

    Exemple:

    Les

    Dete-dart-ddef-masc-plur/le

    enfants

    NomC-masc-plur/enfant

    s'

    Pron-pr-prea-genI-nomI-p3/me

    amuse

    Verb-IndPre-sing-p3/amuser

    dans

    Prep/dans

    le

    Dete-dart-ddef-masc-sing/le

    parc

    NomC-masc-sing/parc

    .

    Punc-pcst

    fEOFg

    Exempled'entr�eesdulexique:

    industries

    NomC

    industrie

    industriel

    NomC

    industriel

    industriels

    NomC

    industriel

    S�eminaireRALI/LLI:

    ExtracteurTerminologiqueStatistique

    StageCRSNG,�et�e2002

    7/41

  • Erreursetremarquessurlespr�erequis

    Corpusder�ef�erence

    �extractionmanuellenecomportequedesexpressionspourle

    corpusdel'eau

    �termesextraitssontsousleurformeneutre,etj'aid^utrouver

    laformeapparaissantdansletexte

    �beaucouptropdetermessontdefr�equenceunitaire

    S�eminaireRALI/LLI:

    ExtracteurTerminologiqueStatistique

    StageCRSNG,�et�e2002

    8/41

  • Erreursetremarquessurlespr�erequis

    �Etiqueteur

    ��etiquetageestparfoiserron�e.Exemple:

    un

    Dete-dart-dind-masc-sing

    massif

    AdjQ-masc-sing

    �ltrant

    AdjQ-masc-sing

    �certainssymbolessontassoci�esinjustement�adesnomscommuns(%,

    *,|,etc.);

    �segmentationdutexteestquelquefoismalr�ealis�ee.Exemple:

    depompage

    AdjQ-masc-sing

    fonctionnel

    AdjQ-masc-sing

    �motsraressouventmalanalys�esgrammaticalementExemple:

    antigen

    Quan-ndg-sgpl-Sord-ind

    antigen

    NomC-sing

    antigen

    Adve-XNOT

    antigen

    AdjQ

    S�eminaireRALI/LLI:

    ExtracteurTerminologiqueStatistique

    StageCRSNG,�et�e2002

    9/41

  • Erreursetremarquessurlespr�erequis(suite)

    ��etiquetagenepeut^etrefaitdansdeuxlanguessimultann�ement.

    Exempleducorpusdel'eau

    These

    NomP

    problems

    NomP

    pose

    Verb-IndPre-sing-p3

    a

    Verb-IndPre-sing-p3

    considerable

    Verb-ParPas-masc-sing

    challenge

    NomP

    to

    NomP

    water

    NomP

    utilities

    NomP

    and

    NomP

    other

    NomP

    well

    NomP

    owners

    NomP

    in

    NomP

    North

    NomP

    America

    NomP

    and

    NomP

    around

    NomP

    the

    NomP

    world

    NomP

    .

    Punc-pcstS

    �eminaireRALI/LLI:

    ExtracteurTerminologiqueStatistique

    StageCRSNG,�et�e2002

    10/41

  • Quelquesmotssurlasubjectivit�ede

    l'extraction

    IlsuÆtd'essayersoi-m^emed'extrairedestermespourr�ealiserque

    lasubjectivit�eestdemise.

    L'extractionfaiteparleRALI/LLIexprimebiencefait.

    �lenombredetermesapprouv�esparpersonnevariede99�a343

    �letableausuivantmontre�aquelpointlenombredetermes

    faisantconsensusdiminueaveclenombredepersonnedu

    consensus

    Nbpersonnes

    Nbdetermes

    5

    55

    4

    104

    3

    187

    2

    269

    1

    427

    S�eminaireRALI/LLI:

    ExtracteurTerminologiqueStatistique

    StageCRSNG,�et�e2002

    11/41

  • Architecturedel'extracteur

    L'extracteurestdivis�edelafa�consuivante:

    �Lectureducorpusmonde

    �Lectureducorpus�aanalyser

    �Cr�eationduSFXetduLCP

    �Recherchedess�equencesetassignationdesscores

    �Filtrationnormale

    S�eminaireRALI/LLI:

    ExtracteurTerminologiqueStatistique

    StageCRSNG,�et�e2002

    12/41

  • Lectureducorpusmondeetducorpus�a

    analyser

    Qu'est-cequelecorpusmonde:

    �ilpermettrademesurerlararet�ed'unmot

    �leHansardaservidecorpusmonde

    Exemple:

    2968

    attitude

    Corpus�aanalyser

    ��Al'aidedel'utilisationduSFX(suÆxearray)etduLCP

    (longestcommonpre�xe),ilestpossibled'obtenirrapidement

    lafr�equenceetlesoccurencesdetoutes�equenceapparaissant

    dansuncorpus.Voir(Russell,1998).

    S�eminaireRALI/LLI:

    ExtracteurTerminologiqueStatistique

    StageCRSNG,�et�e2002

    13/41

  • Recherchedess�equencesetassignationdes

    scores

    Di��erentesvariablessontrequisesparlesm�etriques.

    �fr�equencef

    �fr�equencemondialeF

    �variablesa,b,cetd,permettantdemesurerlaliaisonentre

    deuxlemmesetd�e�niesparletableaudecontingencesuivant:

    B

    :B

    A

    a

    b

    :A

    c

    d

    S�eminaireRALI/LLI:

    ExtracteurTerminologiqueStatistique

    StageCRSNG,�et�e2002

    14/41

  • Recherchedess�equencesetassignationdes

    scores(suite)

    L'�eventaildesm�etriquestest�eesesttr�esgrand.Envoiciquelques

    unes:

    Pourlesmots

    �Entropie(E)

    e(wn1)

    =

    (eleft (wn1)+eright (wn1))=2

    eleft (s)

    =

    Pwjws2Th �jwsj

    jsj �

    eright (s)

    =

    Pwjsw2Th �jswj

    jsj �

    h(x)

    =

    �xlog2 (x)

    Faibleentropie

    Forteentropie

    par

    .autre

    ce

    9=;exemple

    8>>:l'en...d'9>>=>>;

    eau8>>>:

    de

    potable

    ...peut

    9>>=>>;(117

    S�eminaireRALI/LLI:

    ExtracteurTerminologiqueStatistique

    StageCRSNG,�et�e2002

    15/41

  • Recherchedess�equencesetassignationdes

    scores(suite)

    �Scoredecomparaisonaveclemonde(S)

    S

    =

    �flog2 �f+F

    jTj+jMj �

    ExemplepourS(corpusdem�edecine):

    monocytes:

    f=2etF=0

    !

    S=47:7892

    presence:

    f=2etF=1796

    !

    S=28:1648

    S�eminaireRALI/LLI:

    ExtracteurTerminologiqueStatistique

    StageCRSNG,�et�e2002

    16/41

  • Recherchedess�equencesetassignationdes

    scores(suite)

    Pourlesexpressions

    �Ratiodevraisemblance(L)

    L

    =

    aloga+blogb+dlogd+NlogN

    �(a+c)log(a+c)�(a+b)log(a+b)

    �(c+d)log(c+d)�(d+b)log(d+b)

    o�uN

    estlatailleducorpus.Ceratioestrelativementr�epandu.�A

    vraidire,c'estletestdevraisemblanceappliqu�edansuncontexte

    binomial.

    �Entropie(E)

    idem�al'entropiepourlesmots.

    S�eminaireRALI/LLI:

    ExtracteurTerminologiqueStatistique

    StageCRSNG,�et�e2002

    17/41

  • Filtrationnormale

    On�ltre�nalement�al'aided'unseuilnormal.

    Exempleavecseuilt=2

    Terme

    Entropie

    Entropienormalis�ee

    Choisi

    puitsart�esien

    49.6853

    6.9507

    x

    eausouterraine

    29.9798

    3.9923

    x

    quantit�ed'eau

    9.8399

    0.9687

    facture�nale

    3.4624

    0.0113

    S�eminaireRALI/LLI:

    ExtracteurTerminologiqueStatistique

    StageCRSNG,�et�e2002

    18/41

  • �Evaluationdesm�etriques

    Oncherchemaintenant�aobserverletravailfaitparchacunedes

    m�etriquesd�ecritesplushaut.Pourcefaire,oncompareles

    m�etriquesavec,entreautre,lebruitetlesilence,d�e�niescomme

    suit:

    Bruitnombredetermesextraitsautomatiquementquinese

    trouventpasdanslalisteder�ef�erencesurlenombredetermes

    extraits

    Silencenombredetermesnonextraitsautomatiquementetse

    trouvantdanslalisteder�ef�erence,surlenombredetermes

    danscetteliste

    Cesquantit�essontexprim�eesenpourcentage.

    S�eminaireRALI/LLI:

    ExtracteurTerminologiqueStatistique

    StageCRSNG,�et�e2002

    19/41

  • Expressions(�evaluation)

    N

    10.00

    20.00

    30.00

    40.00

    50.00

    60.00

    70.00

    80.00

    90.00

    100.00

    f

    100.00

    80.00

    73.33

    65.00

    62.00

    63.33

    57.14

    55.00

    54.44

    53.00

    l

    100.00

    65.00

    66.67

    60.00

    58.00

    51.67

    48.57

    46.25

    48.89

    48.00

    d

    50.00

    55.00

    56.67

    65.00

    60.00

    55.00

    51.43

    51.25

    53.33

    53.00

    dm

    60.00

    65.00

    63.33

    55.00

    50.00

    46.67

    47.14

    45.00

    47.78

    49.00

    fag

    50.00

    60.00

    63.33

    67.50

    56.00

    53.33

    52.86

    51.25

    53.33

    53.00

    mim

    70.00

    65.00

    56.67

    50.00

    50.00

    46.67

    45.71

    47.50

    47.78

    49.00

    s

    70.00

    60.00

    66.67

    65.00

    64.00

    58.33

    57.14

    56.25

    52.22

    51.00

    c

    80.00

    75.00

    70.00

    60.00

    56.00

    53.33

    47.14

    50.00

    52.22

    52.00

    e

    100.00

    90.00

    70.00

    70.00

    62.00

    58.33

    55.71

    51.25

    50.00

    52.00

    kuc

    50.00

    55.00

    56.67

    65.00

    60.00

    55.00

    51.43

    51.25

    53.33

    53.00

    och

    50.00

    55.00

    56.67

    65.00

    60.00

    55.00

    51.43

    51.25

    53.33

    53.00

    chi

    50.00

    35.00

    43.33

    40.00

    36.00

    35.00

    40.00

    41.25

    42.22

    45.00

    smc

    50.00

    55.00

    56.67

    65.00

    60.00

    55.00

    51.43

    51.25

    53.33

    53.00

    phi

    60.00

    50.00

    40.00

    40.00

    38.00

    40.00

    41.43

    45.00

    46.67

    48.00

    mi

    50.00

    50.00

    46.67

    40.00

    36.00

    38.33

    40.00

    42.50

    46.67

    48.00

    y

    70.00

    70.00

    53.33

    52.50

    54.00

    53.33

    51.43

    55.00

    52.22

    53.00

    fa

    80.00

    80.00

    76.67

    62.50

    62.00

    56.67

    57.14

    52.50

    52.22

    49.00

    Table1:Progressiondelapr�ecisiondesm�etriquessurlecorpusde

    l'eaupourlesexpressions

    S�eminaireRALI/LLI:

    ExtracteurTerminologiqueStatistique

    StageCRSNG,�et�e2002

    20/41

  • Expressions(suite)

    N

    3.00

    6.00

    9.00

    12.00

    15.00

    18.00

    21.00

    24.00

    27.00

    30.00

    f

    100.00

    100.00

    88.89

    91.67

    93.33

    88.89

    85.71

    83.33

    85.19

    83.33

    l

    100.00

    100.00

    88.89

    91.67

    86.67

    88.89

    85.71

    75.00

    74.07

    73.33

    d

    33.33

    33.33

    55.56

    66.67

    73.33

    72.22

    71.43

    62.50

    62.96

    60.00

    dm

    100.00

    100.00

    88.89

    83.33

    86.67

    88.89

    85.71

    79.17

    81.48

    76.67

    fag

    0.00

    50.00

    66.67

    75.00

    80.00

    77.78

    71.43

    66.67

    66.67

    63.33

    mim

    66.67

    83.33

    88.89

    83.33

    80.00

    83.33

    71.43

    70.83

    70.37

    66.67

    s

    100.00

    83.33

    77.78

    75.00

    80.00

    77.78

    76.19

    70.83

    62.96

    66.67

    c

    100.00

    66.67

    66.67

    50.00

    53.33

    44.44

    42.86

    50.00

    55.56

    60.00

    e

    100.00

    100.00

    100.00

    91.67

    93.33

    94.44

    90.48

    91.67

    88.89

    83.33

    kuc

    33.33

    33.33

    55.56

    66.67

    73.33

    72.22

    71.43

    62.50

    62.96

    60.00

    och

    33.33

    33.33

    55.56

    66.67

    73.33

    72.22

    71.43

    62.50

    62.96

    60.00

    chi

    66.67

    50.00

    44.44

    41.67

    33.33

    33.33

    33.33

    29.17

    33.33

    40.00

    smc

    33.33

    33.33

    55.56

    66.67

    73.33

    72.22

    71.43

    62.50

    62.96

    60.00

    phi

    66.67

    66.67

    44.44

    50.00

    60.00

    55.56

    47.62

    41.67

    37.04

    43.33

    mi

    66.67

    66.67

    44.44

    50.00

    53.33

    44.44

    38.10

    41.67

    44.44

    46.67

    y

    100.00

    66.67

    55.56

    50.00

    46.67

    44.44

    52.38

    58.33

    62.96

    63.33

    fa

    100.00

    83.33

    77.78

    75.00

    80.00

    77.78

    76.19

    75.00

    66.67

    66.67

    Table2:Progressiondelapr�ecisiondesm�etriquessurlecorpusde

    m�edecinepourlesexpressions

    S�eminaireRALI/LLI:

    ExtracteurTerminologiqueStatistique

    StageCRSNG,�et�e2002

    21/41

  • Expressions (suite)

    0

    10

    20

    30

    40

    50

    60

    70

    80

    90

    100

    -3 -2 -1 0 1 2 3

    "f.sl.test""f.bt.test"

    Figure 1: �Evolution du bruit et du silence avec la fr�equence pour les

    expressions

    S�eminaire RALI/LLI:

    Extracteur Terminologique Statistique

    Stage CRSNG, �et�e 2002

    22/41

  • Expressions (suite)

    0

    10

    20

    30

    40

    50

    60

    70

    80

    90

    100

    -3 -2 -1 0 1 2 3

    "e.sl.test""e.bt.test"

    Figure 2: �Evolution du bruit et du silence avec l'entropie pour les

    expressions

    S�eminaire RALI/LLI:

    Extracteur Terminologique Statistique

    Stage CRSNG, �et�e 2002

    23/41

  • Expressions (suite)

    0

    10

    20

    30

    40

    50

    60

    70

    80

    90

    100

    -3 -2 -1 0 1 2 3

    "l.sl.test""l.bt.test"

    Figure 3: �Evolution du bruit et du silence avec le ratio de vraisem-

    blance pour les expressionsS�eminaire RALI/LLI:

    Extracteur Terminologique Statistique

    Stage CRSNG, �et�e 2002

    24/41

  • Expressions (suite)

    0

    10

    20

    30

    40

    50

    60

    70

    80

    90

    100

    -3 -2 -1 0 1 2 3

    "fa.sl.test""fa.bt.test"

    Figure 4: �Evolution du bruit et du silence avec la moyenne

    fr�equentielle pour les expressions

    S�eminaire RALI/LLI:

    Extracteur Terminologique Statistique

    Stage CRSNG, �et�e 2002

    25/41

  • Expressions(conclusion)

    -Aucunem�etriquenepeutdonneruncompromisbruit/silence

    quisoitsatisfaisant(lebruitetlesilencesecroisentdansles

    alentoursdes40%pourchacun).

    -Malheureusement,aucunecombinaisonnedonnedemeilleurs

    r�esultats.Ongarderadoncl'entropiecommeseulem�etriquede

    �ltration.

    -Lafr�equenceestmisedec^ot�eecar,dansl'optiqueo�ul'onlaisse

    lechoixduseuil�al'utilisateur,unem�etriquelapluscontinue

    possible(quiprendleplusdevaleurs)estsouhaitable.

    L'utilisateuraainsiplusdechoix.

    -Deplus,onsoup�connel'entropied'^etreencorepluseÆcacesur

    degrandscorpus,contrairement�alafr�equence.

    S�eminaireRALI/LLI:

    ExtracteurTerminologiqueStatistique

    StageCRSNG,�et�e2002

    26/41

  • Mots

    -Und�eroulementsimilaireestappliqu�epourlesmots.Dansce

    cas-ci,lecorpusdem�edecineestutilis�e.

    -Laconclusionestlam^eme:l'entropieestlameilleurem�etrique,

    etaucunecombinaisonn'estsatisfaisante.

    -Deplus,lafr�equenceestencoreunefoisunebonnem�etrique,

    maisoubli�eepourlesm^emesraisons.

    S�eminaireRALI/LLI:

    ExtracteurTerminologiqueStatistique

    StageCRSNG,�et�e2002

    27/41

  • IneÆcacit�edesm�etriquessurlestermesde

    fr�equenceunitaire

    A�ndejusti�erl'aÆrmationquelesm�etriquesnefonctionnentpas

    surless�equencesdefr�equenceunitaire,voiciuntableau

    d�emontrantcefait:

    N

    20.00

    40.00

    60.00

    80.00

    100.00

    120.00

    140.00

    160.00

    180.00

    200.00

    f

    0.00

    2.50

    5.00

    7.50

    8.00

    9.17

    8.57

    7.50

    10.56

    9.50

    l

    0.00

    5.00

    5.00

    3.75

    5.00

    5.00

    5.71

    6.25

    6.67

    6.50

    d

    0.00

    5.00

    5.00

    3.75

    5.00

    5.00

    5.71

    6.25

    6.67

    6.50

    dm

    5.00

    5.00

    6.67

    10.00

    8.00

    6.67

    5.71

    6.88

    6.11

    7.00

    fag

    0.00

    2.50

    5.00

    7.50

    8.00

    9.17

    8.57

    7.50

    10.56

    9.50

    mim

    0.00

    5.00

    5.00

    3.75

    5.00

    5.00

    5.71

    6.25

    6.67

    6.50

    s

    10.00

    7.50

    5.00

    6.25

    9.00

    10.00

    9.29

    10.62

    10.00

    12.00

    c

    0.00

    5.00

    5.00

    8.75

    7.00

    5.83

    7.86

    6.88

    6.67

    8.50

    e

    0.00

    2.50

    5.00

    7.50

    8.00

    9.17

    8.57

    7.50

    10.56

    9.50

    kuc

    0.00

    5.00

    5.00

    3.75

    5.00

    5.00

    5.71

    6.25

    6.67

    6.50

    och

    0.00

    5.00

    5.00

    3.75

    5.00

    5.00

    5.71

    6.25

    6.67

    6.50

    chi

    0.00

    5.00

    5.00

    3.75

    5.00

    5.00

    5.71

    6.25

    6.67

    6.50

    smc

    0.00

    5.00

    5.00

    3.75

    5.00

    5.00

    5.71

    6.25

    6.67

    6.50

    phi

    0.00

    5.00

    5.00

    3.75

    5.00

    5.00

    5.71

    6.25

    6.67

    6.50

    mi

    0.00

    5.00

    5.00

    3.75

    5.00

    5.00

    5.71

    6.25

    6.67

    6.50

    y

    0.00

    5.00

    5.00

    8.75

    7.00

    5.83

    7.86

    6.88

    6.67

    8.50

    Table3:Progressiondelapr�ecisiondesm�etriquessurlecorpusde

    l'eaupourlesexpressionsdefr�equenceunitaire

    S�eminaireRALI/LLI:

    ExtracteurTerminologiqueStatistique

    StageCRSNG,�et�e2002

    28/41

  • �Evaluationdesoptions

    Enplusdesm�etriques,ilyadesoptionsduprogrammequiin

    ue

    surlestermesextraits.

    �Automatepourd�etecterlesgroupesnominaux

    ��Eliminationdessous-s�equences

    �Fusiondesvariationsmorphologiques

    �Fusiondesvariationsterminologiques

    S�eminaireRALI/LLI:

    ExtracteurTerminologiqueStatistique

    StageCRSNG,�et�e2002

    29/41

  • Automate

    Ce graphe montre tr�es bien l'utilit�e d'un automate:

    0

    10

    20

    30

    40

    50

    60

    70

    80

    90

    100

    -3 -2 -1 0 1 2 3

    "e-sansaut.sl.test""e-sansaut.bt.test"

    S�eminaire RALI/LLI:

    Extracteur Terminologique Statistique

    Stage CRSNG, �et�e 2002

    30/41

  • �Eliminationdessous-s�equences

    �Eliminerlessous-s�equencesn'estpeut-^etrepastoujourssouhaitable

    Ene�et,pourlecorpusdel'eau,10%destermesdelalistede

    r�ef�erence(expressionsdefr�equence2etplus)sontdes

    sous-s�equences.Parexemple:

    �\eauxdepluie"appara^�ttoujoursdanslas�equence\leseaux

    depluieetdelafontedesneiges"

    Iln'estdoncpassugg�er�ed'utilisercetteoption.

    S�eminaireRALI/LLI:

    ExtracteurTerminologiqueStatistique

    StageCRSNG,�et�e2002

    31/41

  • Fusiondesvariationsmorphologiques

    Lafusiondesvariationsmorphologiquesestaussiunebonneoption:

    Termeducorpus

    Fr�equencesans

    Fr�equenceavec

    variation

    variation

    analysebact�eriologique

    1

    2

    bact�eriedetypecoliforme

    1

    2

    champd'�epuration

    7

    8

    contaminationbact�erienne

    9

    11

    eaudepluie

    1

    3

    eauderuissellement

    1

    2

    eaudesurface

    5

    9

    eaunaturelle

    2

    3

    eausouterraine

    17

    25

    fosseseptique

    1

    3

    garantied'eau

    4

    5

    napped'eau

    2

    3

    nappesouterraine

    9

    10

    puitsart�esien

    25

    35

    puitsdomestique

    1

    4

    puitsfor�e

    4

    6

    puitsmunicipal

    1

    2

    S�eminaireRALI/LLI:

    ExtracteurTerminologiqueStatistique

    StageCRSNG,�et�e2002

    32/41

  • R�esultats �naux

    0

    10

    20

    30

    40

    50

    60

    70

    80

    90

    100

    -4 -3 -2 -1 0 1 2 3 4

    "final-med-f2+.sl.test""final-med-f2+.bt.test"

    Figure 5: �Evolution du bruit et du silence �nale pour le corpus de

    m�edecine (mots et expressions de fr�equence 2 et plus)

    S�eminaire RALI/LLI:

    Extracteur Terminologique Statistique

    Stage CRSNG, �et�e 2002

    33/41

  • R�esultats�naux(suite)

    Mots

    Expressions

    est

    corpusdel'eau

    "

    fr�equenceunitaire

    \

    listeder�ef�erence

    corpus

    termesextraits

    mots

    corpusdem�edecine

    termes

    ratiodevraisemblance

    fr�equence

    aÆnit�eslexicales

    m�etriques

    corpusdem�edecine

    liste

    moyennefr�equentielle

    entropie

    �chierdecon�guration

    expressions

    m�etriquesstatistiques

    $

    expressionsdefr�equence

    fait

    s�equence

    Table4:Comparaisondesfr�equencesenconsid�erantlesvariations

    morphologiquesoupas(termessinguliers)

    S�eminaireRALI/LLI:

    ExtracteurTerminologiqueStatistique

    StageCRSNG,�et�e2002

    34/41

  • R�esultats�naux(suite)

    VoiciaussiunepartiedelasortieCGIduprogramme:

    ...Danscecasci,lalisteder�ef�erencecontient61expressionsdefr�equence2etplus.Il

    sembledoncquelesm�etriqueslespluseÆcacessoientlafr�equence,le

    ratiodevraisemblanceetl'entropie.Lamoyennefr�equentielleetlecoeÆcientde

    Cosiner�eussissentpassablementbienaussi.Pourtrancher,onn'aqu'�aobserverle

    m^emetableau,maispourlecorpus

    ...Ici,lalisteder�ef�erencecontient39expressionsdefr�equence2etplus.Onpeut

    observerquelafr�equence,leratiodevraisemblanceetl'entropiesonttoujourstr�es

    eÆcaces.Deplus,lecoeÆcientdeDicemodi��eestaussitr�esbon.Onnepeut

    cependantpasleretenir,carilnedonnaitpasdebonsr�esultatsdansle

    corpusdel'eau.

    ...

    S�eminaireRALI/LLI:

    ExtracteurTerminologiqueStatistique

    StageCRSNG,�et�e2002

    35/41

  • Conclusions

    Lesm�etriquesstatistiqueslaissentcroirequ'ellesnesontpasassez

    eÆcacespourpermettreunseuilunitaired'extraction.Cecipeut^etre

    expliqu�ededeuxfa�cons:

    �soitl'extractionestuneactivit�etropsubjectivepourpermettreun

    choixjusti��epourchacun

    �soitlas�emantiquedesmotsestuneconnaissancen�ecessaire�a

    l'extractionterminologique

    Lad�etectiondesvariationsdetermesestuneautrevoie,maisilest

    probablequ'ellenesaurapascomblertotalementlevidedelas�election.

    Pourl'instant,ondevralaisserlesoin�al'utilisateurdefairelecompromis

    entresilenceetbruit.Deplus,untermepeutsouvent^etredefr�equence

    unitaire,unprobl�emequ'onnepeutpasr�egler�al'aidedem�etriques

    statistiques.

    Danslecasdess�equences�afr�equencemultiple,l'utilisationdel'entropie

    estdonclapluspro�table.Ilestint�eressantdesoulignerque,comme

    pressentidanslestravauxdeB�eatriceDaille,lafr�equenceestunemesure

    plut^oteÆcace.

    S�eminaireRALI/LLI:

    ExtracteurTerminologiqueStatistique

    StageCRSNG,�et�e2002

    36/41

  • Conclusions(suite)

    Cesconclusionssontconformesaveclesr�esultatsd'autres�etudes.

    L'oÆcedelalanguefran�caisatest�eplusieurslogicielssimilaires:

    Logiciels

    Lexter

    Nomino

    System

    Quirk

    TermFinder

    Ztext

    UCN

    UCNetUCNA

    Silence

    22

    12

    7

    59

    39

    78

    Bruit

    84

    78

    84

    96

    88

    94

    Cesr�esultatstiennentcomptedess�equencesdefr�equence

    quelconque.

    Onpeutvoirquelesr�esultatsnesontpastr�esimpressionnant.

    D'ailleurs,l'applicationlaplusperformante,Nomino,poss�edeun

    modules�emantique.

    S�eminaireRALI/LLI:

    ExtracteurTerminologiqueStatistique

    StageCRSNG,�et�e2002

    37/41

  • Voiesfutures

    L'�etudedel'extractiondetermesestloind'^etretermin�ee,etvoici

    lescheminspotentiellementavantageux:

    �approfondissementdel'�etudes�emantique

    �d�etectiondesvariationsterminologiques

    Ilexistecependantdestermesquin'apparaissentquesousdes

    variationsetquel'ondevraitd�etecter.Parexemple:

    �\carbonatedemagn�esium"dans\carbonatedecalciumetde

    magn�esium"

    �\captagecomplet"dans\captager�esidentielcomplet".

    S�eminaireRALI/LLI:

    ExtracteurTerminologiqueStatistique

    StageCRSNG,�et�e2002

    38/41

  • Voiesfutures(suite)

    M^emesiellenesuÆtpas�aelle-m^eme,unetelleapplicationpeut

    d�ej�aservir�aconstruireunlexiquesp�ecialis�epourundomaine

    particulier.Uncertaintravailmanueldevraparcontrevenir

    compl�eterl'extraction.

    Dansuncontextebilingue,ilpeutaussiservir�aconstuireun

    dictionnairebilinguesp�ecialis�e.Danslecaso�uunepersonne

    poss�edeunm^emetextedansdeuxlanguesdi��erentes,lasortiede

    l'extracteurpourlesdeuxcorpusestalors�etudi�eeparunmod�elede

    traduction,a�nded�eterminerlesassociationstraductivespossibles.

    S�eminaireRALI/LLI:

    ExtracteurTerminologiqueStatistique

    StageCRSNG,�et�e2002

    39/41

  • Bibliography

    G.F.Foster.1991.Statisticallexicaldisambiguation.Master'sthesis,

    SchoolofComputerScience,McGillUniversity.

    ChristianJacquemin.1997.Variationterminologique:Reconnaissanceet

    acquisitionautomatiquesdetermesetdeleursvariantesencorpus.Ph.D.

    thesis,Universit�edeNante,Nantes.

    GrahamRussell.1998.Identi�cationofsalienttokensequences.Internal

    Report,RALI.

    S�eminaireRALI/LLI:

    ExtracteurTerminologiqueStatistique

    StageCRSNG,�et�e2002

    40/41

  • Autresprogrammes

    Desapplicationscompl�ementairesontaussi�et�ed�evelopp�ees.Une

    d'entreellesestund�etecteurd'abr�eviations.Ilfonctionnepour

    fran�caisetanglais.Voicilasortiepourlecorpusdem�edecine:

    CD

    :clustersofdi�erentiation

    IFNa:Interferonalpha

    IFNb:Interferonbeta

    IFNg:Interferongamma

    G-CSF:granulocytecolonystimulatingfactor

    M-CSF:macrophagecolonystimulatingfactor

    GM-CSF:granulocyte-macrophagecolonystimulatingfactor

    IL:Interleukin

    TNF:tumornecrosisfactors

    IL:Interleukins

    TH2:T

    helper

    ELAM-1:endothelialleucocyteadhesionmolecule

    ICAM-1:intercellularadhesionmolecule

    VCAM-1:vascularcelladhesionmolecule

    AIT

    :allergenimmunotherapy

    PBL:peripheralbloodlymphocytes

    AD

    :atopicdermatitis

    S�eminaireRALI/LLI:

    ExtracteurTerminologiqueStatistique

    StageCRSNG,�et�e2002

    41/41