apprentissage automatique et traitement du langage (chapitre 18 aima, pp.531-544 tom mitchell...
TRANSCRIPT
![Page 1: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/1.jpg)
Apprentissage automatique et traitement du langage
(chapitre 18 AIMA, pp.531-544Tom Mitchell Machine Learning)
![Page 2: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/2.jpg)
Représentation: probabiliste, symbolique,
Entraînement: supervisé ou non-supervisé
Tâches:
reconnaissance de la parole;
analyse syntaxique (parsing)/désambiguïsation;
Classification textes;
acquisition lexicale: attachement du PP, classes des mots;
désambiguïsation du sens des mots;
traduction automatique.
Différentes méthodes empiriques
![Page 3: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/3.jpg)
Définition
On dit qu'un programme informatique apprend à partir d’une expérience empirique E par rapport à une tâche T et par rapport à une mesure de performance P, si sa performance P à la tâche T s’améliore à la suite de E.
Exemple
Tâche T: classer des verbes anglais dans des classes prédéfinies
Mesure de performance P : % de verbes classés correctement par rapport à une classification définie par des experts (gold standard)
Expérience d’entraînement E: base de données de couples de verbes (et leurs propriétés) et classe correcte
Apprentissage: définition
![Page 4: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/4.jpg)
La tâche la plus étudiée en apprentissage automatique (machine learning) consiste à inférer une fonction classant des exemples représentés comme vecteurs de traits distinctifs dans une catégorie parmi un ensemble fini de catégories données.
Apprentissage par classification
![Page 5: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/5.jpg)
Soit un ensemble de verbes.
Tâche: classification binaire: verbes de types de mouvement (courir, se promener) et verbes de changement d’état (fondre, cuire).
Traits: pour chaque forme du verbe dans un corpus,
le verbe, est-il transitif? est-il passif? Son sujet, est-il animé?
Vecteur: vecteur du pourcentage de fois où le verbe est transitif, passif et son sujet est animé sur le total d’effectifs dans le corpus.
Apprentissage par classification: exemple
![Page 6: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/6.jpg)
ExempleTrans? Pass? Anim? Class
courir 5% 3% 90% MoM
marcher 55% 5% 77% MoM
fondre 10% 9% 20% CoS
cuire 80% 69% 88% CoS
Apprentissage par classification:exemple
![Page 7: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/7.jpg)
Fonctions apprises possibles
Si Pass? < 10% et Anim? >25% alors MoM
Si Trans? <= 10% et Anim >25% alors MoM
Si Trans? > 10% et Pass? < 10% alors MoM
Apprentissage par classification
![Page 8: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/8.jpg)
Arbre de décision
Les arbres de décision sont des classifieurs (classeurs?) qui opèrent sur des instances représentées par des vecteurs de traits. Les nœuds testent les traits. Il y a une branche pour chaque valeur du trait. Les feuilles spécifient les catégories.
Ils peuvent aussi être écrits comme de règles.
Exercices Dessiner les (sous-)arbres de décision correspondant aux règles vues auparavant.
![Page 9: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/9.jpg)
Apprentissage des arbre de décision
Les instances sont représentées en tant que vecteurs de couples traits-valeurs.
La fonction cible à des valeurs discrètes de sortie.
L’algorithme gère des masses de données avec efficacité,
il gère des données bruitées,
il gère des données auxquelles manquent certaines valeurs.
![Page 10: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/10.jpg)
Algorithme de base d’apprentissage des arbres de décision
ArbreD(exemples,attributs)
Si tous les exemples appartient à une catégorie alors
retourner une feuille avec cette catégorie comme étiquette
Sinon si attributs est vide alors
retourner une feuille dont l’étiquette est la catégorie majoritaire dans exemples
Sinon choisir un attribut A pour la racine:
pour toutes les valeurs possibles vi de A
soit exemplesi le sous-ensemble dont la valeur de A est vi
ajouter une branche à la racine pour le test A = vi
si exemplesi est vide alors
créer une feuille dont l’étiquette est la catégorie majoritaire dans exemples
sinon appeler récursivement ArbreD(exemplesi,attributs – {A})
![Page 11: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/11.jpg)
Exercice
Construire l’arbre de décision à partir des données suivantes.
Exemple Trans? Pass? Anim? Class
courir bas bas haut MoM
marcher haut bas haut MoM
fondre bas bas bas CoS
cuire haut haut haut CoS
![Page 12: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/12.jpg)
Exemple
Exemple Trans? Pass? Anim? Classe
courir bas bas haut MoM
marcher haut bas haut MoM
fondere bas bas bas CoS
cuocere haut haut haut CoS
Anim?
haut bas
Courir/MoM
Marcher/MoM
Cuire/CoS
Fondre/CoS
Marcher/MoM
Cuire/CoS
Trans?
haut bas
Courir/MoM
Cuire/CoS Marcher/MoM
Pass?
haut bas
![Page 13: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/13.jpg)
Exemple
Anim?
haut bas
Fondre/CoS Trans?
haut bas
Courir/MoM
Cuire/CoS Marcher/MoM
pass?
haut bas
![Page 14: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/14.jpg)
Choisir la racine
En général, on se donne comme but de construire l’arbre de décision le plus petit possible (rasoir d’Occam)
Il nous faut un test qui partage les exemples en sous-ensembles homogènes par rapport à une classe donnée, car ils sont plus proche à être des feuilles
Marcher/
MoMCuire/CoS
Courir/MoM
Fondre/CoS
Trans?
haut bas
Cuire/CoS Marcher/MoM
Courir/MoM
Fondre/CoS
pass?
haut bas
Cuire/CoS
Courir/MoM
Marcher/MoM
Fondre/CoS
Anim?
haut bas
![Page 15: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/15.jpg)
Choisir la racine
En général, on se donne comme but de construire l’arbre de décision le plus petit possible (rasoir d’Occam)
Il nous faut un test qui partage les exemples en sous-ensembles homogènes par rapport à une classe donnée, car ils sont plus proche à être des feuilles. Le test parfait diviserait les données en sous-ensembles pures, appartenant tous à la même classe.
L’entropie est la mesure indiquant l’impureté d’un ensemble d’exemples par rapport à une classification
Les mesures utilisées pour choisir l’attribut racine sont basées sur l’entropie
![Page 16: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/16.jpg)
Entropie
L’entropie est la mesure indiquant l’impureté où le désordre d’un ensemble d’exemples par rapport à une classification
L’entropie d’un ensemble d’exemples S par rapport à une classification
Où pi est la proportion d’exemples de catégorie i dans S
c
i
ii ppSEntropie1
2log)(
![Page 17: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/17.jpg)
Exercice
c
i
ii ppSEntropie1
2log)(Etant donnée la formule de l’entropie, calculer l’entropie des deux classification ci-dessous
Exemple ClassA
courir MoM
marcher MoM
fondre CoS
cuire CoS
Exemple ClassB
courir MoM
marcher MoM
voler MoM
cuire CoS
![Page 18: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/18.jpg)
Exercice - solution
c
i
ii ppSEntropie1
2log)(
Entropie(ClassA) = -(.5 log2 .5) -(.5 log2 .5) = -(.5 –1) –(.5 –1) =1
Entropie(ClassB)= -(.25 log2 .25) – (.75 log2 .75) = -(.25 -2) –(-75-.415) =.811
Pour une classification donnée, la distribution uniforme est celle avec l’entropie maximale
Exemple ClassA
courir MoM
marcher MoM
fondre CoS
cuire CoS
Exemple ClassB
courir MoM
marcher MoM
voler MoM
cuire CoS
![Page 19: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/19.jpg)
Le gain d’information d’un attribut A est la réduction de l’entropie à laquelle on peut s’attendre si on fait une partition sur la base de cet attribut.
Values(A)= ensemble des valeurs possibles de l’attribut A
Sv= sous-ensemble de S pour lequel A a valeur v
|S| = taille de S
| Sv|= taille de Sv
Gain d’information (information gain)
)(||||)(),(
)(
v
Avaluesv
v SEntropySSSEntropyASGain
![Page 20: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/20.jpg)
Le gain d’information est donc la réduction attendue de l’entropie (l’entropie des données, moins la moyenne proportionnelle de l’entropie) qui reste après avoir fait la partition.
Plus le gain est élevé, plus cet attribut nous fourni de l’information pour la classification des données. Pour la racine de l’arbre, on choisit donc l’attribut qui maximise ce gain.
Gain d’information (information gain)
![Page 21: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/21.jpg)
Exercice
Calculer le gain d’information de chaque attribut des données ci-dessous.
Exemple Trans? Pass? Anim? Classe
courir bas bas haut MoM
marcher haut bas haut MoM
fondre bas bas bas CoS
cuire haut haut haut CoS
)(||
||)(),(
)(v
Avaluesv
v SEntropyS
SSEntropyASGain
![Page 22: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/22.jpg)
Exercice—solution
Gain(S,Anim?) = 1 – 3/4 (.39+.53) – 1/4 (0) = 1 – .69 = .31
Gain(S,Pass?) = 1 – 1/4 (0) – 3/4 (.39+.53) = 1 – .69 = .31
Gain(S,Trans?) = 1 – 2/4 (.5+.5) – 2/4 (.5+.5) = 1 – 1 = 0
)(||
||)(),(
)(v
Avaluesv
v SEntropyS
SSEntropyASGain
)0(||||)53.39(.
||||)(
))11()11((||||))
31
31()
32
32((
||||)(
)(||||)(
||||)(?),(
loglogloglog
SS
SSSE
SS
SSSE
SESSSE
SSSEAnimSGain
bashaut
bashaut
basbas
hauthaut
![Page 23: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/23.jpg)
Le biais inductif (inductive bias)
Toute méthode utilisée par un système de classification pour choisir entre deux fonctions, toutes les deux compatibles avec les données d’entraînement, s’appelle biais inductif.
Le biais inductif est de deux types
le biais du langage – le langage représentant les fonctions d’apprentissage définit un' espace d’hypothèses limité
le biais de la recherche – le langage est assez expressif pour exprimer toutes les fonctions possibles, mais l’algorithme de recherche implique une préférence pour certaines hypothèses plutôt que d’autres
Les arbres de décision impliquent un biais pour les arbres plus petits par rapport aux plus grands (biais de recherche)
![Page 24: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/24.jpg)
La futilité de l’apprentissage en absence de biais
Un apprenant qui n’utilise aucune assomption a priori concernant l’identité du concept cible ne possède aucune base rationnelle pour classer de nouvelles instances.
L’apprentissage sans biais est impossible.
Le biais inductif décrit la logique avec laquelle l’apprenant généralise au delà des données d’entraînement.
Le biais inductif de l’apprenant est l’ensemble d’assomptions ultérieures suffisantes pour justifier l’inférence inductive en tant que déduction
![Page 25: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/25.jpg)
Le rasoir de Occam
Pluralitas non est ponenda sine necessitate
Pourquoi donner la préférence aux hypothèses courtes? Car il y en a moins
Mais alors, pourquoi ne pas préférer les hypothèses très spécifiques, qui sont aussi très peux nombreuses
![Page 26: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/26.jpg)
Le rasoir de OccamPluralitas non est ponenda sine necessitate
- citation attribuée à William of Occam (vers 1320)Interprétation courante : préférer l’hypothèse la plus simple qui
décrit les données observées.
Pourquoi donner la préférence aux hypothèses courtes? Car il y en a moins. Il y a donc moins de chance qu’une mauvaise hypothèse décrive parfaitement les données d’entraînement par hasard.
Autre principe apparenté : description de longueur minimale (minimum description length).
Ces principes ne sont pas parfaits, ils sont difficiles à justifier théoriquement, mais la pratique a démontré qu’ils sont utiles. Ils sont donc très souvent utilisés.
![Page 27: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/27.jpg)
Systèmes d’induction d’arbres de décision
C4.5, par Ross Quinlan. Gratuit à :• http://www.cse.unsw.edu.au/~quinlan/
C4.5-ofai, version de C4.5 modifiée par Johann Petrak. Gratuit à :• http://www.ai.univie.ac.at/~johann/c45ofai.html
C5.0, par Ross Quinlan. C5.0 est une version vastement améliorée de C4.5, mais n’est pas gratuit. Démo gratuit—mais limité à 400 exemples—à :• http://www.rulequest.com/
![Page 28: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/28.jpg)
Classification des verbes
• Les verbes sont la source principale d’information relationnelle dans la phrase
Jane hit the ballGN GNAgent Theme
• Classifier est une forme d’apprentissage indirect du lexique
- organisation facile: les verbes partage des propriétés syntaxique et sémantiques
- extension cohérente: l’association d’un verbe à une classe donnée permet d’hériter toutes les
propriétés de la classe
![Page 29: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/29.jpg)
Exemple de classification des verbes
• Classes des verbes anglais selon Levin (1993)
environs 200 classes pour 3000 verbes
• Par exemple
Manner of Motion: race, jump, skip, moosey
Sound Emission: buzz, ring, crack
Change of State: burn, melt, pour
Creation/Transformation: build, carve
Psychological state: admire, love, hate, despise
![Page 30: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/30.jpg)
Alternances des verbes
Comment arrive-t-on à une telle classification?
Hypothèse: les verbes avec une sémantique semblable expriment leurs
arguments de façon semblable dans les cadres de sous-catégorisation
permis. Ils présentent les mêmes alternances.
Exemple
si un verbe peut être transitif melt butter jump horse
et il peut être intransitif butter melts horse jumps
et il peut donner lieu à un adjectif melted butter *jumped horse
alors il est change of state
![Page 31: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/31.jpg)
La méthode de Merlo et Stevenson (2001)
• Selon Levin, il y a un correspondance régulière entre la sémantique d’un verbe et sa syntaxe: les verbes qui partagent la même sémantique partagent aussi la même syntaxe.
• On peut faire un raisonnement inverse et induire les classes sémantiques à partir de l’usage syntaxique: les verbes qui ont la même syntaxe en surface–-comme dans l’exemple précédent—ont les mêmes propriétés sémantiques.
On apprend les classes des verbes sur la base de leurs
propriétés dans un corpus.
![Page 32: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/32.jpg)
Méthodologie
• Analyser les classes des verbes afin de déterminer leurs propriétés les plus discriminantes.
• Développer des indices qui se rapprochent des propriétés
discriminantes des verbes et qu’on peut compter dans un corpus.
• Compter dans un corpus afin de construire un résumé numérique pour chaque verbe.
• Utiliser un algorithme d’apprentissage automatique (par exemple l’algorithme d’induction des arbres des décision) pour construire un classificateur et mesurer sa performance.
![Page 33: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/33.jpg)
Classes des verbes anglais
Manner of Motion The rider raced the horse past the barn Agent Agent(Causal)
The horse raced past the barnAgent
Change of State The cook melted the butterAgent Theme (Causal)
The butter meltedTheme
Creation/Transformation The contractors built the houseAgent Theme
The contractors built all summerAgent
![Page 34: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/34.jpg)
Résumé des propriétés thématiques
IDEE PRINCIPALE
Les différences thématiques sous-jacentes entre les classes de verbes se reflètent dans des différences d’usage à la surface.
Classes
Transitif Intransitif
Sujet Objet Sujet
Manner of Motion (race) Agent (Causal) Agent Agent
Change of State (melt) Agent (Causal) Theme Theme
Create/Transform (build) Agent Theme Agent
![Page 35: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/35.jpg)
Traits pour la classification automatique
Trait Transitivité (usage de la construction transitive )
• La transitivité par « causation » est plus complexe.• L’objet agent est très rare parmi les langues.
• Ordre de fréquence de la transitivité auquel on peut s’attendre :MoM < CoS < C/T
Classes
Transitif
ExempleSujet Objet
MoM Agent (Causal) Agent The jockey raced the horse
CoS Agent (Causal) Theme The cook melted the butter
C/T Agent Theme The workers built the house
![Page 36: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/36.jpg)
Relation entre fréquence et transitivité
• Transitivité par « causation » : MoM, CoS• Complexité plus grande car deux événements
(en français : « faire courir », « faire fondre »)
• Objet Agentif : MoM (transitif inergatif)• Rare en Anglais: seulement MoM• Rare dans la typologie des langues
(* Italien, Français, Allemand, Portugais, Tchèque et Vietnamien)
• Difficile à traiter chez l’humain (Stevenson et Merlo, 97, Filip et al., CUNY 98)
![Page 37: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/37.jpg)
Animacy
• Il est moins probable que les thèmes soient animés
• Ordre de fréquence de « animacy » auquel on peut s’attendre :COS < {MoM,C/T}
Classes
Sujet du
ExempleTransitif Intransitif
MoM (Causal) Agent Agent The jockey raced the horse
The horse raced
CoS (Causal) Agent Theme The cook melted the butter
The butter melted
C/T Agent Agent The workers built the house
The workers built
![Page 38: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/38.jpg)
Utilisation Causative
• Transitivité par « causation » : MoM, CoSSujet causal, même rôle thématique entre sujet intr. et objet trans.
• Ordre de fréquence du chevauchement auquel on peut s’attendre :MoM, C/T < CoS
Classes
Objet Sujet
Transitif Intransitif Exemple
MoM Agent Agent The jockey raced the horse
The horse raced
CoS Theme Theme The cook melted the butter
The butter melted
C/T Agent Theme No causative alternation
![Page 39: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/39.jpg)
Résumé des fréquences auxquelles on s’attend
Transitivité : verbe est transitif
MoM < CoS < C/T
Causativité : usage causatif
CoS > C/T
Animacy : sujet est une entité animé
CoS < {MoM, C/T}
![Page 40: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/40.jpg)
Récolte des données
Verbes
manner of motion: jump, marchchange of state: open, explodeCreation/transformation: carved, painted
Forme du verbe: ``-ed'‘
Corpus
65 millions mots étiquetés Brown + étiquetés WSJ corpus (LDC)29 millions mots analysés WSJ (LDC corpus, parser Collins 97)
![Page 41: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/41.jpg)
Récolte des données–-Méthode
TRANS
Token du verbe suivi immédiatement d’un groupe nominal
= transitif sinon intransitif.
PASS
Verbe principal (VBD) = forme active.
Token avec étiquette VBN = active si auxiliaire précédent = have
= passive si auxiliaire précédent = be.
VBN Étiquette POS
![Page 42: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/42.jpg)
Récolte des données–-Méthode
CAUS L’objet de la forme causative transitive est le même argument sémantique que le sujet de la forme intransitive.
Étapes d’approximation
Récolter les multi-ensembles des sujets et des objets pour chaque verbe
Calculer le chevauchement des deux multi-ensembles
Calculer la proportion entre le chevauchement et la somme
de deux multi-ensembles
ANIM Proportion de pronoms sujet sur le total des sujets pour chaque verbe
![Page 43: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/43.jpg)
Analyse statistique des données
Fréquences relatives moyennes
Toutes significatives, sauf la différences entre CoS et ObD pour les traits PASS et VBN
TRANS PASS VBN CAUS ANIM
MoM .23 .07 .12 .00 .25
CoS .40 .33 .27 .12 .07
ObD .62 .31 .26 .04 .15
![Page 44: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/44.jpg)
Expériences de classification
Entrée
Vecteur: [ verbe,TRANS,PASS,VBN,CAUS,ANIM,class]
Exemple: [ open, .69, .09, .21, .16, .36, CoS ]
Méthode
Apprenant: C5.0 (algorithme d’induction d’arbre de décision)
Entraînement/Test: 10-fold cross-validation, répété 50 fois
![Page 45: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/45.jpg)
Résultats
• Exactitude 69.8%
(baseline 33.9, limite supérieure experts 86.5%)
54% réduction du taux d’erreur sur des verbes jamais vus
Traits Exactitude %
1 TRANS PASS VBN CAUS ANIM 69.8
2 TRANS PASS VBN CAUS ANIM 69.8
3 TRANS PASS VBN CAUS ANIM 67.3
4 TRANS PASS VBN CAUS ANIM 66.5
5 TRANS PASS VBN CAUS ANIM 63.2
6 TRANS PASS VBN CAUS ANIM 61.6
![Page 46: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/46.jpg)
Résultats
Tous les traits sont utiles, sauf le passif
![Page 47: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/47.jpg)
Résultats classe par classeMoM Levin Program floated, E O hurried, E E jumped, E E leaped, E E marched, E E paraded,E O raced, E Erushed, E E vaulted, E E wandered,E E galloped, E A glided, E E hiked, E E hopped, E E jogged, E E scooted, E E scurried, E E skipped, E E tiptoed, E E trotted, E O
CoS Levin Program boiled, A A cracked, A Odissolved, A
Aexploded, A
Aflooded, A A fractured, A
Ahardened,A Amelted, A E opened, A O solidified, A
Ocollapsed,A E cooled, A A folded, A E widened, A
A changed, A
A cleared, A A divided, A A simmered,A E stabilized, A
A
C/T Levin Program carved, O O danced, O Okicked, O Eknitted, O O painted, O Oplayed, O E reaped, O Otyped, O O washed, O O yelled, O E borrowed, O O inherited, O O organized,O A rented, O E sketched, OA cleaned, O O packed, O O studied, O A swallowed,O O called, O A
![Page 48: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/48.jpg)
Résultats classe par classe
Traits MoM (E)
P R
CoS (A)
P R
C/T (O)
P R
TRANS PASS VBN CAUS ANIM 16/24
.67
16/20
.8
12/17
.71
12/19
.63
12/18
.67
12/20
.6
F = .73 F = .67 F = .63
![Page 49: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/49.jpg)
Analyse des Erreurs
Tous traits
Classe donnée
MoM CoS C/T
Vraie Classe
MoM 1 2
CoS 4 3
C/T 5 3
Sans Animacy
Classe donnée
MoM CoS C/T
Vraie classe
MoM 2 2
CoS 5 6
C/T 3 5
• TRANS augmente la discrimination des trois classes
• ANIM augmente la discrimination des CoS
• VBN augmente la discrimination des C/T
![Page 50: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/50.jpg)
Conclusions
On peut apprendre trois classes de verbes anglais à l’aide de calculs tirés d’un corpus avec une performance satisfaisante
Questions:
La méthode, s’applique-t-elle à d’autres verbes?
à d’autres classes?
à d’autres langues?
![Page 51: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/51.jpg)
Généralisation 1 : nouveaux verbes
• Nouveaux verbes - Mêmes classes de verbes, plus de verbes
- Une classe similaire: Verbes d’émission de son (similaire à MoMs)
• Données Comptage du corpus BNC (100 M mots)
• Exactitude Selon les groupes de verbes, de 58.8% à 80.4%
• Conclusion 1 - la généralisation de la méthode à de nouveaux
verbes a une performance très variable
![Page 52: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/52.jpg)
Généralisation 2 : nouvelle classe
• Nouvelle Classe Verbes d’état psychologique
• Rôles thématiques Experiencer Stimulus
Exemple The rich love money Experiencer Stimulus
The rich love too Experiencer
• Traits d’apprentissage : TRANS, CAUS, ANIM
PROG utilisation du progressif (statif/pas statif)
carefully indique action volontaire (agent vs experiencer)
• Résultats 74.6% exactitude(baseline 57%)
TRANS, CAUS, ANIM meilleurs traits
![Page 53: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/53.jpg)
Discussion
• Relation entre fréquence et propriétés thématiques est valable pour la nouvelle classe
• Certains traits d’apprentissage (ANIM,TRANS) sont valables pour plusieurs classes
![Page 54: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/54.jpg)
Généralisation 3 : nouvelle langue
• Extension de la méthode mono-langue développé pour l’anglais à une nouvelle langue (Italien)
- on profite des similarités entre langues (anglais, italien)
- on étends la couverture de la méthode
![Page 55: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/55.jpg)
Extension monolingue(Merlo, Stevenson, Tsang et Allaria, 2002; Allaria, 2001)
Nouvelle langue Italien
Classes 20 Cos, 20 Obd, 19 Psy (*MoM)
Traits: TRANS, CAUS, ANIM (for CoS et obD)
PROG, PRES (Psy)
![Page 56: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/56.jpg)
Données et Méthode
Corpus : PAROLE 22 millions mots (CNR, Pisa)
extraction de patrons pour chaque verbe (CNR, Pisa)
comptages manuelle (Allaria, Geneva)
Comptages : pourcentages
(à différence de comptages pour l’anglais, ils sont exacts)
Méthode Algorithme : C5.0
Entraînement/Test: 10-fold cross-validation,
répété 50 fois
![Page 57: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/57.jpg)
Résultats
• 79% réduction du taux d’erreur pour nouveaux verbes• Classification est faite avec les traits développés pour l’anglais (TRANS ANIM)
Traits Exa%
TRANS CAUS ANIM PRES (PROG) 85.1
TRANS CAUS ANIM PROG 85.4
TRANS (CAUS) ANIM 86.4
![Page 58: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/58.jpg)
Conclusions
• Méthode générale s’applique à une nouvelle langue
• Certains traits sont portables à travers les langues
• En pratique on peut utiliser la technique pour démarrer une classification dans une nouvelle langue
![Page 59: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/59.jpg)
Généralisation 4 : données multilingues
Extension à l’utilisation de données multilingues
pour classifier une langue
Par exemple, Chinois et Anglais pour classifier verbes anglais
- On exploite les différences entre les langues
- On améliore la précision de la classification
![Page 60: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/60.jpg)
Extension multilingue(Tsang, Stevenson et Merlo, 2002)
Ce qui est implicite dans une langue peut être explicite dans une autre
Exemple
- Verbes psychologique en allemand ou italien ont souvent
une forme réflexive pléonastique sich
- Forme causative en chinois a une marque morphologique
On utilise données des plusieurs langues pour en classer une
Entraînement Chinois Anglais
Test Anglais
![Page 61: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/61.jpg)
Classification monolingue avec données multilingues
Classes des verbes anglais: 20 MoM, 20 CoS, 20 C/TTraits anglais: TRANS,PASS,VBN,CAUS,ANIM.
Traduction chinoise des verbes (on garde toutes les traductions)
Comptage de nouveaux traits adaptés au chinois
- étiquette POS (sous-catégorisation et statif/actif) - particule passive - particule périphrastique causative
![Page 62: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/62.jpg)
Données et méthode
Données anglaises du BNC (étiquetés et chunked),
Données chinoises du Mandarin News (165 millions de caractères)
Proportions de étiquette CKIP
particule causative
particule passive
Algorithme: C5.0
Entraînement/Test : 10-fold cross-validation, répété 50 fois
![Page 63: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/63.jpg)
Résultats
Traits Exa%
Best English : ANIM,TRANS 67.6
Best Chinese : CKIP 82.0
Best combination : ANIM,TRANS,CKIP 83.5
• Meilleur résultat : combinaison de traits chinois et anglais
• Les traits chinois donne une meilleure performance que les traits anglais.
![Page 64: Apprentissage automatique et traitement du langage (chapitre 18 AIMA, pp.531-544 Tom Mitchell Machine Learning)](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9db5497959293b8d9f43/html5/thumbnails/64.jpg)
Conclusions
• Les différences parmi les langue fournissent différents points de vue à l’algorithme et améliorent ainsi la performance.
• En pratique, cela élargit la quantité de données disponibles.