apprentissage automatique et traitement du langage (chapitre 18 aima, pp.531-544 tom mitchell...

Apprentissage automatique et traitement du langage

(chapitre 18 AIMA, pp.531-544Tom Mitchell Machine Learning)

Représentation: probabiliste, symbolique,

Entraînement: supervisé ou non-supervisé

Tâches:

reconnaissance de la parole;

analyse syntaxique (parsing)/désambiguïsation;

Classification textes;

acquisition lexicale: attachement du PP, classes des mots;

désambiguïsation du sens des mots;

traduction automatique.

Différentes méthodes empiriques

Définition

On dit qu'un programme informatique apprend à partir d’une expérience empirique E par rapport à une tâche T et par rapport à une mesure de performance P, si sa performance P à la tâche T s’améliore à la suite de E.

Exemple

Tâche T: classer des verbes anglais dans des classes prédéfinies

Mesure de performance P : % de verbes classés correctement par rapport à une classification définie par des experts (gold standard)

Expérience d’entraînement E: base de données de couples de verbes (et leurs propriétés) et classe correcte

Apprentissage: définition

La tâche la plus étudiée en apprentissage automatique (machine learning) consiste à inférer une fonction classant des exemples représentés comme vecteurs de traits distinctifs dans une catégorie parmi un ensemble fini de catégories données.

Apprentissage par classification

Soit un ensemble de verbes.

Tâche: classification binaire: verbes de types de mouvement (courir, se promener) et verbes de changement d’état (fondre, cuire).

Traits: pour chaque forme du verbe dans un corpus,

le verbe, est-il transitif? est-il passif? Son sujet, est-il animé?

Vecteur: vecteur du pourcentage de fois où le verbe est transitif, passif et son sujet est animé sur le total d’effectifs dans le corpus.

Apprentissage par classification: exemple

ExempleTrans? Pass? Anim? Class

courir 5% 3% 90% MoM

marcher 55% 5% 77% MoM

fondre 10% 9% 20% CoS

cuire 80% 69% 88% CoS

Apprentissage par classification:exemple

Fonctions apprises possibles

Si Pass? < 10% et Anim? >25% alors MoM

Si Trans? <= 10% et Anim >25% alors MoM

Si Trans? > 10% et Pass? < 10% alors MoM

Apprentissage par classification

Arbre de décision

Les arbres de décision sont des classifieurs (classeurs?) qui opèrent sur des instances représentées par des vecteurs de traits. Les nœuds testent les traits. Il y a une branche pour chaque valeur du trait. Les feuilles spécifient les catégories.

Ils peuvent aussi être écrits comme de règles.

Exercices Dessiner les (sous-)arbres de décision correspondant aux règles vues auparavant.

Apprentissage des arbre de décision

Les instances sont représentées en tant que vecteurs de couples traits-valeurs.

La fonction cible à des valeurs discrètes de sortie.

L’algorithme gère des masses de données avec efficacité,

il gère des données bruitées,

il gère des données auxquelles manquent certaines valeurs.

Algorithme de base d’apprentissage des arbres de décision

ArbreD(exemples,attributs)

Si tous les exemples appartient à une catégorie alors

retourner une feuille avec cette catégorie comme étiquette

Sinon si attributs est vide alors

retourner une feuille dont l’étiquette est la catégorie majoritaire dans exemples

Sinon choisir un attribut A pour la racine:

pour toutes les valeurs possibles vi de A

soit exemplesi le sous-ensemble dont la valeur de A est vi

ajouter une branche à la racine pour le test A = vi

si exemplesi est vide alors

créer une feuille dont l’étiquette est la catégorie majoritaire dans exemples

sinon appeler récursivement ArbreD(exemplesi,attributs – {A})

Exercice

Construire l’arbre de décision à partir des données suivantes.

Exemple Trans? Pass? Anim? Class

courir bas bas haut MoM

marcher haut bas haut MoM

fondre bas bas bas CoS

cuire haut haut haut CoS

Exemple

Exemple Trans? Pass? Anim? Classe



fondere bas bas bas CoS

cuocere haut haut haut CoS

Anim?

haut bas

Courir/MoM

Marcher/MoM

Cuire/CoS

Fondre/CoS

Marcher/MoM

Cuire/CoS

Trans?

haut bas

Courir/MoM

Cuire/CoS Marcher/MoM

Pass?

haut bas

Exemple

Anim?

haut bas

Fondre/CoS Trans?

haut bas

Courir/MoM


pass?

haut bas

Choisir la racine

En général, on se donne comme but de construire l’arbre de décision le plus petit possible (rasoir d’Occam)

Il nous faut un test qui partage les exemples en sous-ensembles homogènes par rapport à une classe donnée, car ils sont plus proche à être des feuilles

Marcher/

MoMCuire/CoS

Courir/MoM

Fondre/CoS

Trans?

haut bas


Courir/MoM

Fondre/CoS

pass?

haut bas

Cuire/CoS

Courir/MoM

Marcher/MoM

Fondre/CoS

Anim?

haut bas

Choisir la racine

En général, on se donne comme but de construire l’arbre de décision le plus petit possible (rasoir d’Occam)

Il nous faut un test qui partage les exemples en sous-ensembles homogènes par rapport à une classe donnée, car ils sont plus proche à être des feuilles. Le test parfait diviserait les données en sous-ensembles pures, appartenant tous à la même classe.

L’entropie est la mesure indiquant l’impureté d’un ensemble d’exemples par rapport à une classification

Les mesures utilisées pour choisir l’attribut racine sont basées sur l’entropie

Entropie

L’entropie est la mesure indiquant l’impureté où le désordre d’un ensemble d’exemples par rapport à une classification

L’entropie d’un ensemble d’exemples S par rapport à une classification

Où pi est la proportion d’exemples de catégorie i dans S

c

i

ii ppSEntropie1

2log)(

Exercice

c

i

ii ppSEntropie1

2log)(Etant donnée la formule de l’entropie, calculer l’entropie des deux classification ci-dessous

Exemple ClassA

courir MoM

marcher MoM

fondre CoS

cuire CoS

Exemple ClassB

courir MoM

marcher MoM

voler MoM

cuire CoS

Exercice - solution

c

i

ii ppSEntropie1

2log)(

Entropie(ClassA) = -(.5 log2 .5) -(.5 log2 .5) = -(.5 –1) –(.5 –1) =1

Entropie(ClassB)= -(.25 log2 .25) – (.75 log2 .75) = -(.25 -2) –(-75-.415) =.811

Pour une classification donnée, la distribution uniforme est celle avec l’entropie maximale

Exemple ClassA

courir MoM

marcher MoM

fondre CoS

cuire CoS

Exemple ClassB

courir MoM

marcher MoM

voler MoM

cuire CoS

Le gain d’information d’un attribut A est la réduction de l’entropie à laquelle on peut s’attendre si on fait une partition sur la base de cet attribut.

Values(A)= ensemble des valeurs possibles de l’attribut A

Sv= sous-ensemble de S pour lequel A a valeur v

|S| = taille de S

| Sv|= taille de Sv

Gain d’information (information gain)

)(||||)(),(

)(

v

Avaluesv

v SEntropySSSEntropyASGain

Le gain d’information est donc la réduction attendue de l’entropie (l’entropie des données, moins la moyenne proportionnelle de l’entropie) qui reste après avoir fait la partition.

Plus le gain est élevé, plus cet attribut nous fourni de l’information pour la classification des données. Pour la racine de l’arbre, on choisit donc l’attribut qui maximise ce gain.

Gain d’information (information gain)

Exercice

Calculer le gain d’information de chaque attribut des données ci-dessous.

Exemple Trans? Pass? Anim? Classe



fondre bas bas bas CoS

cuire haut haut haut CoS

)(||

||)(),(

)(v

Avaluesv

v SEntropyS

SSEntropyASGain

Exercice—solution

Gain(S,Anim?) = 1 – 3/4 (.39+.53) – 1/4 (0) = 1 – .69 = .31

Gain(S,Pass?) = 1 – 1/4 (0) – 3/4 (.39+.53) = 1 – .69 = .31

Gain(S,Trans?) = 1 – 2/4 (.5+.5) – 2/4 (.5+.5) = 1 – 1 = 0

)(||

||)(),(

)(v

Avaluesv

v SEntropyS

SSEntropyASGain

)0(||||)53.39(.

||||)(

))11()11((||||))

31

31()

32

32((

||||)(

)(||||)(

||||)(?),(

loglogloglog

SS

SSSE

SS

SSSE

SESSSE

SSSEAnimSGain

bashaut

bashaut

basbas

hauthaut

Le biais inductif (inductive bias)

Toute méthode utilisée par un système de classification pour choisir entre deux fonctions, toutes les deux compatibles avec les données d’entraînement, s’appelle biais inductif.

Le biais inductif est de deux types

le biais du langage – le langage représentant les fonctions d’apprentissage définit un' espace d’hypothèses limité

le biais de la recherche – le langage est assez expressif pour exprimer toutes les fonctions possibles, mais l’algorithme de recherche implique une préférence pour certaines hypothèses plutôt que d’autres

Les arbres de décision impliquent un biais pour les arbres plus petits par rapport aux plus grands (biais de recherche)

La futilité de l’apprentissage en absence de biais

Un apprenant qui n’utilise aucune assomption a priori concernant l’identité du concept cible ne possède aucune base rationnelle pour classer de nouvelles instances.

L’apprentissage sans biais est impossible.

Le biais inductif décrit la logique avec laquelle l’apprenant généralise au delà des données d’entraînement.

Le biais inductif de l’apprenant est l’ensemble d’assomptions ultérieures suffisantes pour justifier l’inférence inductive en tant que déduction

Le rasoir de Occam

Pluralitas non est ponenda sine necessitate

Pourquoi donner la préférence aux hypothèses courtes? Car il y en a moins

Mais alors, pourquoi ne pas préférer les hypothèses très spécifiques, qui sont aussi très peux nombreuses

Le rasoir de OccamPluralitas non est ponenda sine necessitate

- citation attribuée à William of Occam (vers 1320)Interprétation courante : préférer l’hypothèse la plus simple qui

décrit les données observées.

Pourquoi donner la préférence aux hypothèses courtes? Car il y en a moins. Il y a donc moins de chance qu’une mauvaise hypothèse décrive parfaitement les données d’entraînement par hasard.

Autre principe apparenté : description de longueur minimale (minimum description length).

Ces principes ne sont pas parfaits, ils sont difficiles à justifier théoriquement, mais la pratique a démontré qu’ils sont utiles. Ils sont donc très souvent utilisés.

Systèmes d’induction d’arbres de décision

C4.5, par Ross Quinlan. Gratuit à :• http://www.cse.unsw.edu.au/~quinlan/

C4.5-ofai, version de C4.5 modifiée par Johann Petrak. Gratuit à :• http://www.ai.univie.ac.at/~johann/c45ofai.html

C5.0, par Ross Quinlan. C5.0 est une version vastement améliorée de C4.5, mais n’est pas gratuit. Démo gratuit—mais limité à 400 exemples—à :• http://www.rulequest.com/

Classification des verbes

• Les verbes sont la source principale d’information relationnelle dans la phrase

Jane hit the ballGN GNAgent Theme

• Classifier est une forme d’apprentissage indirect du lexique

- organisation facile: les verbes partage des propriétés syntaxique et sémantiques

- extension cohérente: l’association d’un verbe à une classe donnée permet d’hériter toutes les

propriétés de la classe

Exemple de classification des verbes

• Classes des verbes anglais selon Levin (1993)

environs 200 classes pour 3000 verbes

• Par exemple

Manner of Motion: race, jump, skip, moosey

Sound Emission: buzz, ring, crack

Change of State: burn, melt, pour

Creation/Transformation: build, carve

Psychological state: admire, love, hate, despise

Alternances des verbes

Comment arrive-t-on à une telle classification?

Hypothèse: les verbes avec une sémantique semblable expriment leurs

arguments de façon semblable dans les cadres de sous-catégorisation

permis. Ils présentent les mêmes alternances.

Exemple

si un verbe peut être transitif melt butter jump horse

et il peut être intransitif butter melts horse jumps

et il peut donner lieu à un adjectif melted butter *jumped horse

alors il est change of state

La méthode de Merlo et Stevenson (2001)

• Selon Levin, il y a un correspondance régulière entre la sémantique d’un verbe et sa syntaxe: les verbes qui partagent la même sémantique partagent aussi la même syntaxe.

• On peut faire un raisonnement inverse et induire les classes sémantiques à partir de l’usage syntaxique: les verbes qui ont la même syntaxe en surface–-comme dans l’exemple précédent—ont les mêmes propriétés sémantiques.

On apprend les classes des verbes sur la base de leurs

propriétés dans un corpus.

Méthodologie

• Analyser les classes des verbes afin de déterminer leurs propriétés les plus discriminantes.

• Développer des indices qui se rapprochent des propriétés

discriminantes des verbes et qu’on peut compter dans un corpus.

• Compter dans un corpus afin de construire un résumé numérique pour chaque verbe.

• Utiliser un algorithme d’apprentissage automatique (par exemple l’algorithme d’induction des arbres des décision) pour construire un classificateur et mesurer sa performance.

Classes des verbes anglais

Manner of Motion The rider raced the horse past the barn Agent Agent(Causal)

The horse raced past the barnAgent

Change of State The cook melted the butterAgent Theme (Causal)

The butter meltedTheme

Creation/Transformation The contractors built the houseAgent Theme

The contractors built all summerAgent

Résumé des propriétés thématiques

IDEE PRINCIPALE

Les différences thématiques sous-jacentes entre les classes de verbes se reflètent dans des différences d’usage à la surface.

Classes

Transitif Intransitif

Sujet Objet Sujet

Manner of Motion (race) Agent (Causal) Agent Agent

Change of State (melt) Agent (Causal) Theme Theme

Create/Transform (build) Agent Theme Agent

Traits pour la classification automatique

Trait Transitivité (usage de la construction transitive )

• La transitivité par « causation » est plus complexe.• L’objet agent est très rare parmi les langues.

• Ordre de fréquence de la transitivité auquel on peut s’attendre :MoM < CoS < C/T

Classes

Transitif

ExempleSujet Objet

MoM Agent (Causal) Agent The jockey raced the horse

CoS Agent (Causal) Theme The cook melted the butter

C/T Agent Theme The workers built the house

Relation entre fréquence et transitivité

• Transitivité par « causation » : MoM, CoS• Complexité plus grande car deux événements

(en français : « faire courir », « faire fondre »)

• Objet Agentif : MoM (transitif inergatif)• Rare en Anglais: seulement MoM• Rare dans la typologie des langues

(* Italien, Français, Allemand, Portugais, Tchèque et Vietnamien)

• Difficile à traiter chez l’humain (Stevenson et Merlo, 97, Filip et al., CUNY 98)

Animacy

• Il est moins probable que les thèmes soient animés

• Ordre de fréquence de « animacy » auquel on peut s’attendre :COS < {MoM,C/T}

Classes

Sujet du

ExempleTransitif Intransitif

MoM (Causal) Agent Agent The jockey raced the horse

The horse raced

CoS (Causal) Agent Theme The cook melted the butter

The butter melted

C/T Agent Agent The workers built the house

The workers built

Utilisation Causative

• Transitivité par « causation » : MoM, CoSSujet causal, même rôle thématique entre sujet intr. et objet trans.

• Ordre de fréquence du chevauchement auquel on peut s’attendre :MoM, C/T < CoS

Classes

Objet Sujet

Transitif Intransitif Exemple

MoM Agent Agent The jockey raced the horse

The horse raced

CoS Theme Theme The cook melted the butter

The butter melted

C/T Agent Theme No causative alternation

Résumé des fréquences auxquelles on s’attend

Transitivité : verbe est transitif

MoM < CoS < C/T

Causativité : usage causatif

CoS > C/T

Animacy : sujet est une entité animé

CoS < {MoM, C/T}

Récolte des données

Verbes

manner of motion: jump, marchchange of state: open, explodeCreation/transformation: carved, painted

Forme du verbe: ``-ed'‘

Corpus

65 millions mots étiquetés Brown + étiquetés WSJ corpus (LDC)29 millions mots analysés WSJ (LDC corpus, parser Collins 97)

Récolte des données–-Méthode

TRANS

Token du verbe suivi immédiatement d’un groupe nominal

= transitif sinon intransitif.

PASS

Verbe principal (VBD) = forme active.

Token avec étiquette VBN = active si auxiliaire précédent = have

= passive si auxiliaire précédent = be.

VBN Étiquette POS

Récolte des données–-Méthode

CAUS L’objet de la forme causative transitive est le même argument sémantique que le sujet de la forme intransitive.

Étapes d’approximation

Récolter les multi-ensembles des sujets et des objets pour chaque verbe

Calculer le chevauchement des deux multi-ensembles

Calculer la proportion entre le chevauchement et la somme

de deux multi-ensembles

ANIM Proportion de pronoms sujet sur le total des sujets pour chaque verbe

Analyse statistique des données

Fréquences relatives moyennes

Toutes significatives, sauf la différences entre CoS et ObD pour les traits PASS et VBN

TRANS PASS VBN CAUS ANIM

MoM .23 .07 .12 .00 .25

CoS .40 .33 .27 .12 .07

ObD .62 .31 .26 .04 .15

Expériences de classification

Entrée

Vecteur: [ verbe,TRANS,PASS,VBN,CAUS,ANIM,class]

Exemple: [ open, .69, .09, .21, .16, .36, CoS ]

Méthode

Apprenant: C5.0 (algorithme d’induction d’arbre de décision)

Entraînement/Test: 10-fold cross-validation, répété 50 fois

Résultats

• Exactitude 69.8%

(baseline 33.9, limite supérieure experts 86.5%)

54% réduction du taux d’erreur sur des verbes jamais vus

Traits Exactitude %

1 TRANS PASS VBN CAUS ANIM 69.8






Résultats

Tous les traits sont utiles, sauf le passif

Résultats classe par classeMoM Levin Program floated, E O hurried, E E jumped, E E leaped, E E marched, E E paraded,E O raced, E Erushed, E E vaulted, E E wandered,E E galloped, E A glided, E E hiked, E E hopped, E E jogged, E E scooted, E E scurried, E E skipped, E E tiptoed, E E trotted, E O

CoS Levin Program boiled, A A cracked, A Odissolved, A

Aexploded, A

Aflooded, A A fractured, A

Ahardened,A Amelted, A E opened, A O solidified, A

Ocollapsed,A E cooled, A A folded, A E widened, A

A changed, A

A cleared, A A divided, A A simmered,A E stabilized, A

A

C/T Levin Program carved, O O danced, O Okicked, O Eknitted, O O painted, O Oplayed, O E reaped, O Otyped, O O washed, O O yelled, O E borrowed, O O inherited, O O organized,O A rented, O E sketched, OA cleaned, O O packed, O O studied, O A swallowed,O O called, O A

Résultats classe par classe

Traits MoM (E)

P R

CoS (A)

P R

C/T (O)

P R

TRANS PASS VBN CAUS ANIM 16/24

.67

16/20

.8

12/17

.71

12/19

.63

12/18

.67

12/20

.6

F = .73 F = .67 F = .63

Analyse des Erreurs

Tous traits

Classe donnée

MoM CoS C/T

Vraie Classe

MoM 1 2

CoS 4 3

C/T 5 3

Sans Animacy

Classe donnée

MoM CoS C/T

Vraie classe

MoM 2 2

CoS 5 6

C/T 3 5

• TRANS augmente la discrimination des trois classes

• ANIM augmente la discrimination des CoS

• VBN augmente la discrimination des C/T

Conclusions

On peut apprendre trois classes de verbes anglais à l’aide de calculs tirés d’un corpus avec une performance satisfaisante

Questions:

La méthode, s’applique-t-elle à d’autres verbes?

à d’autres classes?

à d’autres langues?

Généralisation 1 : nouveaux verbes

• Nouveaux verbes - Mêmes classes de verbes, plus de verbes

- Une classe similaire: Verbes d’émission de son (similaire à MoMs)

• Données Comptage du corpus BNC (100 M mots)

• Exactitude Selon les groupes de verbes, de 58.8% à 80.4%

• Conclusion 1 - la généralisation de la méthode à de nouveaux

verbes a une performance très variable

Généralisation 2 : nouvelle classe

• Nouvelle Classe Verbes d’état psychologique

• Rôles thématiques Experiencer Stimulus

Exemple The rich love money Experiencer Stimulus

The rich love too Experiencer

• Traits d’apprentissage : TRANS, CAUS, ANIM

PROG utilisation du progressif (statif/pas statif)

carefully indique action volontaire (agent vs experiencer)

• Résultats 74.6% exactitude(baseline 57%)

TRANS, CAUS, ANIM meilleurs traits

Discussion

• Relation entre fréquence et propriétés thématiques est valable pour la nouvelle classe

• Certains traits d’apprentissage (ANIM,TRANS) sont valables pour plusieurs classes

Généralisation 3 : nouvelle langue

• Extension de la méthode mono-langue développé pour l’anglais à une nouvelle langue (Italien)

- on profite des similarités entre langues (anglais, italien)

- on étends la couverture de la méthode

Extension monolingue(Merlo, Stevenson, Tsang et Allaria, 2002; Allaria, 2001)

Nouvelle langue Italien

Classes 20 Cos, 20 Obd, 19 Psy (*MoM)

Traits: TRANS, CAUS, ANIM (for CoS et obD)

PROG, PRES (Psy)

Données et Méthode

Corpus : PAROLE 22 millions mots (CNR, Pisa)

extraction de patrons pour chaque verbe (CNR, Pisa)

comptages manuelle (Allaria, Geneva)

Comptages : pourcentages

(à différence de comptages pour l’anglais, ils sont exacts)

Méthode Algorithme : C5.0

Entraînement/Test: 10-fold cross-validation,

répété 50 fois

Résultats

• 79% réduction du taux d’erreur pour nouveaux verbes• Classification est faite avec les traits développés pour l’anglais (TRANS ANIM)

Traits Exa%

TRANS CAUS ANIM PRES (PROG) 85.1

TRANS CAUS ANIM PROG 85.4

TRANS (CAUS) ANIM 86.4

Conclusions

• Méthode générale s’applique à une nouvelle langue

• Certains traits sont portables à travers les langues

• En pratique on peut utiliser la technique pour démarrer une classification dans une nouvelle langue

Généralisation 4 : données multilingues

Extension à l’utilisation de données multilingues

pour classifier une langue

Par exemple, Chinois et Anglais pour classifier verbes anglais

- On exploite les différences entre les langues

- On améliore la précision de la classification

Extension multilingue(Tsang, Stevenson et Merlo, 2002)

Ce qui est implicite dans une langue peut être explicite dans une autre

Exemple

- Verbes psychologique en allemand ou italien ont souvent

une forme réflexive pléonastique sich

- Forme causative en chinois a une marque morphologique

On utilise données des plusieurs langues pour en classer une

Entraînement Chinois Anglais

Test Anglais

Classification monolingue avec données multilingues

Classes des verbes anglais: 20 MoM, 20 CoS, 20 C/TTraits anglais: TRANS,PASS,VBN,CAUS,ANIM.

Traduction chinoise des verbes (on garde toutes les traductions)

Comptage de nouveaux traits adaptés au chinois

- étiquette POS (sous-catégorisation et statif/actif) - particule passive - particule périphrastique causative

Données et méthode

Données anglaises du BNC (étiquetés et chunked),

Données chinoises du Mandarin News (165 millions de caractères)

Proportions de étiquette CKIP

particule causative

particule passive

Algorithme: C5.0

Entraînement/Test : 10-fold cross-validation, répété 50 fois

Résultats

Traits Exa%

Best English : ANIM,TRANS 67.6

Best Chinese : CKIP 82.0

Best combination : ANIM,TRANS,CKIP 83.5

• Meilleur résultat : combinaison de traits chinois et anglais

• Les traits chinois donne une meilleure performance que les traits anglais.

Conclusions

• Les différences parmi les langue fournissent différents points de vue à l’algorithme et améliorent ainsi la performance.

• En pratique, cela élargit la quantité de données disponibles.

apprentissage automatique et traitement du langage (chapitre 18 aima, pp.531-544 tom mitchell...

Documents