intro-tal-ri-b2

14
                

Upload: lukasesane

Post on 05-Oct-2015

3 views

Category:

Documents


0 download

DESCRIPTION

Traitement automatique des langues:introductionPierre Zweigenbaum

TRANSCRIPT

  • Traitement automatique des langues

    Introduction au TAL

    Pierre Zweigenbaum

    LIMSI, CNRS

    [email protected] http://www.limsi.fr/~pz/

    TIM, INALCO

    1 / 14

  • Traitement automatique des langues

    Grands domaines

    du traitement automatique des langues

    Pragmatique

    Smantique

    Syntaxe

    Morphologie

    2 / 14

  • Traitement automatique des langues

    Plan

    1

    Morphologie et lexique

    2

    Syntaxe

    3

    Smantique

    4

    Pragmatique

    3 / 14

  • Traitement automatique des langues

    Morphologie et lexique

    Units de base

    partir d'une chane de caractres, reconnatre les units

    linguistiques de base (les mots)...

    Filtrer / convertir les caractres incorrects

    ^M, ^A, \212 ...

    Encodage : jeux de caractres

    Segmentation : o sont les mots ?

    c'est--dire les pommes de terre des U.-S.-A.

    /

    4 / 14

  • Traitement automatique des langues

    Morphologie et lexique

    Lexique

    ... et associer aux mots des informations

    Lexique = tableau [mot

    i

    7 informationsi

    ]

    Exemples d'informations :

    Forme, lemme

    Proprits syntaxiques (N, V, A..., masculin, pluriel...

    . . .

    Ambigut

    Homomorphes (montre, pu)

    Polysmes (avocat, verre, livre)

    Le lexique d'une langue est ouvert

    rednationaliser, web, vidoprojecteur, SRAS

    5 / 14

  • Traitement automatique des langues

    Morphologie et lexique

    Morphologie

    Regrouper les direntes formes du mme mot

    formes chies, forme canonique

    abdominale, abdominales, abdominaux 7 abdominalRelier les dirents mots d'une mme famille

    mots drivs, mots composs ; radical, base

    abdominal 7 abdomen

    6 / 14

  • Traitement automatique des langues

    Syntaxe

    Syntaxe (1/4) : catgories

    Quels mots fonctionnent ensemble dans une phrase ?

    Catgorie syntaxique : classe de mots possdant un

    fonctionnement associatif similaire (classes

    distributionnelles)

    N,V ,A . . .

    Ambigut catgorielle

    La

    /DET,N,PRO

    coronarographie

    /N,V

    est

    /A,N,V

    normale

    /A,N

    .

    7 / 14

  • Traitement automatique des langues

    Syntaxe

    Syntaxe (2/4) : structure

    Structure syntaxique : relations hirarchiques

    Arbre de constituants Arbre de dpendance

    (entre groupes de mots) (entre mots)

    p

    sn sv

    det

    n v sa

    la

    tension

    est

    a

    normale

    est

    tension

    normale

    la

    8 / 14

  • Traitement automatique des langues

    Syntaxe

    Syntaxe (3/4) : ambigut structurale

    je vois ... avec un

    tlescope

    p

    sn sv

    pro v sn sp

    je vois

    det

    n prep sn

    un

    homme

    avec

    det

    n

    un

    tlescope

    un homme ... avec

    un tlescope

    p

    sn sv

    pro v sn

    je vois

    det

    n sp

    un

    homme

    prep sn

    avec

    det

    n

    un

    tlescope

    9 / 14

  • Traitement automatique des langues

    Syntaxe

    Syntaxe (4/4) : relations

    Relations grammaticales

    sujet-verbe ; nom-modieur ; pronom-antcdent...

    sous-catgorisation (rection)

    Il pleut. pleuvoir()

    Jean dort. dormir(X)

    Jean prend un livre. prendre(X, Y)

    Jean donne un livre Marie. donner(X, Y, Z)

    Jean interdit Mdor de sortir. interdire(X, Y, Z)

    Jean promet Marie de venir. promettre(X, Y, Z)

    10 / 14

  • Traitement automatique des langues

    Smantique

    Smantique : reprsenter le sens d'un nonc

    Catgories smantiques : regrouper les sens de mots

    Possibilit d'utilisation des catgories de haut niveau

    d'un thsaurus (ex. : WordNet)

    Ambigut smantique

    {artre, avenue, boulevard} vs {artre, veine}

    Relations smantiques

    Dans le lexique : hyperonymie, mronymie, antonymie...

    Dans un nonc : les rles thmatiques relient un

    vnement ses actants

    agent, thme, source, destination

    Les restrictions de slection typent les actants :

    donner(anim, objet, anim)

    interdire(anim, anim, vnement)

    11 / 14

  • Traitement automatique des langues

    Smantique

    Smantique : exemples de reprsentation

    Fiche la MUC

    John Simon, Chief Financial Ocer of Prime Corp. since 1986, saw

    his pay jump 20%, to $1.3 million, as the 37-year-old also became

    the nancial-services company's president.

    :=

    Doc_Nr : "93"

    Content :

    :=

    Succession_Org :

    Post : "president"

    In_And_Out :

    Vacancy_Reason : OTH_UNK

    :=

    Per_Name : "John Simon"

    :=

    Io_Person :

    New_Status : IN

    On_The_Job : YES

    Other_Org :

    Rel_Other_Org : SAME_ORG

    :=

    Org_Name : "Prime Corp."

    Org_Descriptor : "the nancial-services

    company"

    Org_Type : COMPANY

    12 / 14

  • Traitement automatique des langues

    Smantique

    Smantique : exemples de reprsentation

    Reprsentation conceptuelle (MENELAS)

    Patient g de 62 ans, hospitalis pour angor spontan rptition.

    [Admission]-

    (past)

    (pat)[HumanBeing](cultural_role)[Patient :I63](attr)[Age](val_qt)[QtVal :62](ref_unit)[YearDuration]%(motivated_by)[AnginaSyndrome :I77]

    (timed_during)[TemporalInterval]-(temp_role)[Spontaneous](temp_role)[Recurrent]%%

    13 / 14

  • Traitement automatique des langues

    Pragmatique

    Pragmatique ( analyse du discours )

    Au-del de la phrase : l'interprtation d'un nonc dpend de

    son contexte

    co-texte : reste du texte

    cohsion : continuit du texte (anaphore, ellipse, thme)

    cohrence : intelligibilit (relations causales, temporelles)

    contexte : conditions d'nonciation, connaissances partages

    Appel des connaissances sur le monde (scnarios,

    plans)

    Identication de structures de texte (structure de

    dialogue, structure argumentative)

    14 / 14

    Morphologie et lexiqueSyntaxeSmantiquePragmatique