sémantique et corpus, toulouse, juin 20041 la sémantique des connecteurs: de lanalyse manuelle à...
TRANSCRIPT
Sémantique et Corpus, Toulouse, juin 2004
1
La sémantique des connecteurs: de l’analyse manuelle à l’analyse
automatisée de corpus
Liesbeth DegandFNRS/Université catholique de Louvain
Sémantique et Corpus, Toulouse, juin 2004
2
Relations causales et connecteurs
• Son prochain objectif: le record du monde d'apnée statique d'Andy Le Sauce qui, en piscine, retient sa respiration pendant 7 minutes 35 secondes. Pour inscrire son nom sur les tablettes Jean-Pol François devra gagner plus de deux minutes puisque son record de Belgique est fixé à cinq minutes vingt-deux secondes. (Le Soir, 1997)
Sémantique et Corpus, Toulouse, juin 2004
3
Relations causales et connecteurs
• Apparemment, le président Mobutu est rentré, vendredi, à Kinshasa. Apparemment, puisque personne - des membres du gouvernement venus l'accueillir ni des représentants de la presse accourus pour l'événement - ne l'a vu descendre de l'avion dans lequel on l'avait vu embarquer, en matinée, à Nice. (Le soir, 1997)
Sémantique et Corpus, Toulouse, juin 2004
4
Relations causales et connecteurs
(…) je crois que ça s'appelle en français mais excusez-moi parce que je vais peut-être (…) estropier le mot hein / un goupillon là (Valibel)
Sémantique et Corpus, Toulouse, juin 2004
5
Relations causales et connecteurs
• Ce transfert de souveraineté est génial , parce que je vais fièrement pouvoir dire à l' avenir que je suis une vraie Chinoise. (Le soir, 1997)
Sémantique et Corpus, Toulouse, juin 2004
6
Relations causales et connecteurs
• A l' occasion de leurs retrouvailles , les deux cousins - qui ont pratiquement le même âge : 62 et 60 ans - auront tout le loisir de parler de leurs souvenirs communs et de leur progéniture, car il n' y a pas l' ombre d' un nuage dans les relations bilatérales entre les deux pays, même si les Belges préféreraient , évidemment , voir les Norvégiens les accompagner dans la grande fratrie européenne. (Le soir, 1997)
Sémantique et Corpus, Toulouse, juin 2004
7
L’échelle d’Implication du Locuteur
• Conceptualisation scalaire des connecteurs en termes d’implication du locuteur. Les connecteurs sont ordonnés sur une échelle allant d’un implication minimale (relation objective) à une implication maximale (relation subjective).
• IdL fait référence au degré avec lequel le locuteur joue implicitement un rôle actif dans la construction de la relation (causale)
Sémantique et Corpus, Toulouse, juin 2004
8
L’échelle d’Implication du Locuteur
Speaker Involvement increases with the degree to which both the causal relation and the related segments vehicle actions and assumptions of the present speaker (Pander Maat & Degand 2001)
NVC VC Cep NCEp CSA
Sémantique et Corpus, Toulouse, juin 2004
9
Détermination du niveau d’IdL
• Degré d’iconicité de la relation causale
• Présence d’un protagoniste conscient dans la situation causale
• Caractère plus ou moins implicite du protagoniste
• Distance par rapport au locuteur et au temps présent
Sémantique et Corpus, Toulouse, juin 2004
10
Connecteurs et Implication du Locuteur
• Tout connecteur encode un certain niveau d’IdL qu’il contribue à l’interprétation de son environnement discursif. Lorsque ce niveau est trop bas ou trop élevé pour être combinable avec cet environnement, l’usage du connecteur est inapproprié, ou il impose une nouvelle interprétation.
Sémantique et Corpus, Toulouse, juin 2004
11
Connecteurs et Implication du Locuteur
• J’étais pressé, monsieur l’agent, c’est pourquoi j’ai pris le sens interdit.
• J’étais pressé, monsieur l’agent, donc j’ai pris le sens interdit.
Sémantique et Corpus, Toulouse, juin 2004
12
Connecteurs, IdL et corpus
• Connecteurs causaux en néerlandais et en françaisNéerlandais: daardoor, daarom, dus, omdat,
want, aangezienFrançais: de ce fait, c’est pourquoi, dès lors,
donc, parce que, car, puisque
Sémantique et Corpus, Toulouse, juin 2004
13
Connecteurs, IdL et corpus
• Analyse manuelle de 50 occurrences de chacun des connecteurs dans corpus écrits (presse) et oraux (Valibel, CGN).
• Deux juges• Codage linguistique des marqueurs d’Idl
– Type de relation– Modalité de S1 et S2– Présence d’un protagoniste conscient– Expression linguistique du protagoniste– Continuïté du protagoniste entre S1 et S2– Temps verbal– …
Sémantique et Corpus, Toulouse, juin 2004
14
Codage linguistique
(…) On a pardonné à certains d'avoir collaboré parce qu'il ne fallait pas affaiblir le camp anticommuniste. (…)
7 14 08 5 2 9 1 3 6 3 1 11 11 1 6
Corpus: Le Soir1997Connecteur: parce queFragment: #08Modalité S1: Action Modalité S2: OpinionType de relation: volitifRéalisation du pp en S1: expliciteRéalisation du pp en S2: implicite…
Sémantique et Corpus, Toulouse, juin 2004
15
Difficultés
• Choix des catégories et des traits sémantiques– Combien de catégories?
Théorie(s) et hypothèses
– Combien de traits sémantiques?Ni trop, ni trop peu…
Sémantique et Corpus, Toulouse, juin 2004
16
Difficultés
• Accord inter-juges?!– Détermination de la modalité
Scène 2 : suite à un accident, la voiture de Madame P. est déclarée en perte totale car le coût de la réparation dépasse la valeur intrinsèque du véhicule.
S1 = fait, expérience ou action?
Sémantique et Corpus, Toulouse, juin 2004
17
Difficultés
• Accord inter-juges?!– Détermination de la relation causale
Si j' accepte aujourd'hui de sortir ces dossiers cachés au fond des tiroirs , c' est parce que le formidable travail qui a été fait ne peut rester oublié.
Relation volitive ou épistémique?
Sémantique et Corpus, Toulouse, juin 2004
18
Difficultés
• Les difficultés sont sémantiques, pas syntaxiques – Ex. Détermination de S1 et S2 & Modification du
connecteur– C' est donc surtout parce qu' il estime qu' il convient sur
ces sujets délicats d' éviter la précipitation dans la généralisation, que le corps médical de l' hôpital de l' ULB n' assurera pendant quatre jours que les urgences.
– C' est parfois difficile parce qu' il y a ce côté tri-dimensionnel alors que malgré tout , nous ne sommes pas dans l' eau et nous subissons le poids de la pesanteur.
Sémantique et Corpus, Toulouse, juin 2004
19
Difficultés
• Les difficultés sont sémantiques, pas syntaxiques – Ex. Détermination de S1 et S2 & Modification du
connecteur– C' est donc surtout parce qu' il estime qu' il convient sur ces
sujets délicats d' éviter la précipitation dans la généralisation (P), que le corps médical de l' hôpital de l' ULB n' assurera pendant quatre jours que les urgences (Q).
– C' est parfois difficile (Q) parce qu' il y a ce côté tri-dimensionnel alors que malgré tout , nous ne sommes pas dans l' eau et nous subissons le poids de la pesanteur (P).
Sémantique et Corpus, Toulouse, juin 2004
20
Solutions …
• Opérationaliser!!!– Explicitation du processus interprétatif
• Au moins deux juges
• Taille des échantillons (min. 50?)
Sémantique et Corpus, Toulouse, juin 2004
21
var4 modalité S1
1 = fait
Description d’un état ou d’un événement localisable dans le temps (attribution possible de VdV ; extrait imaginable au passé). Le segment ne contient pas de conceptualiseur, il n’y a pas de protagoniste conscient impliqué dans situation causale, seul un auteur/locuteur responsable du récit.
Ex. …
Papraphrase: “C’est un fait que …” + spécification de temps et lieu
Sémantique et Corpus, Toulouse, juin 2004
22
var4 modalité S1
3 = Expérience
Il y a un conceptualiseur, qui est non-agentif. L’expérience est localisable dans le temps, VdV possible. Il s’agit d’événéments individuels, vrais à un moment donné. Différent d’un fait par la présence d’un conceptualiseur, ou une autre forme de représentation mentale.
Ex. …
Paraphrase: “je me souviens que …”, “j’ai appris/découvert que… »
Sémantique et Corpus, Toulouse, juin 2004
23
Connecteurs causaux et IdL
• Le potentiel expressif de chacun des connecteurs causaux peut être représenté comme une zone continue sur l’échelle.
• Les connecteurs les plus fréquents doivent diverger significativement sur l’échelle.
• L’échelle est constante pour des langues différentes, les connecteurs peuvent diverger par les zones qu’ils occupent.
Sémantique et Corpus, Toulouse, juin 2004
24
Contiguïté relationnelle (NL)
05
101520253035404550
non-vol.vol.c-epist.nc-epist.sp-act
Sémantique et Corpus, Toulouse, juin 2004
25
Contiguïté relationnelle (FR)
05
101520253035404550
non-vol.vol.c-epist.nc-epist.sp-act
Sémantique et Corpus, Toulouse, juin 2004
26
Divergences d’IdL
• Français: parce que < car < puisquede ce fait < c’est pourquoi < donc/dès lors
• Néerlandais:omdat < want/aangeziendaardoor < daarom < dus
Sémantique et Corpus, Toulouse, juin 2004
27
Distance entre protagoniste et locuteur:donc/dès lors
05
101520253035404550
1ere pers.3eme pers.
Sémantique et Corpus, Toulouse, juin 2004
28
Expression linguistique du protagoniste:donc/dès lors
05
101520253035404550
impliciteexplicite
Sémantique et Corpus, Toulouse, juin 2004
29
Echelle d’IdL contrastive
• Français: parce que < car < puisquede ce fait < c’est pourquoi < dès lors <donc
• Néerlandais:omdat < aangezien < wantdaardoor < daarom < dus
Sémantique et Corpus, Toulouse, juin 2004
30
Premières conclusions
• L'IdL peut rendre compte de la variété d'usage des connecteurs causaux et des effets de substitution d'un connecteur par un connecteur de niveau différent.
• L'IdL peut mettre au jour des divergences très fines entre connecteurs.
• L'IdL permet de contraster des "équivalents" dans des langues différentes.
Sémantique et Corpus, Toulouse, juin 2004
31
Vers une analyse automatisée…
Yves Bestgen, FNRS/UCLWilbert Spooren, VU Amsterdam
Sémantique et Corpus, Toulouse, juin 2004
32
Connecteurs et Analyses de Corpus
• Approches classiques:– analyses manuelles d'échantillons relativement
restreints (25-50)– analyst-dependent
• Vers une approche automatisée– vastes corpus– analyst-independent
Sémantique et Corpus, Toulouse, juin 2004
33
Connecteurs causaux en NL et FR
• Aangezien, omdat, want, doordat• Puisque, parce que, car • Hypothèses linguistiques
doordat < omdat < aangezien < wantparce que < car < puisque
• Techniques TAL• identification et extraction du matériel linguistique
pertinent• analyse du matériel linguistique en fonction des
hypothèses
Sémantique et Corpus, Toulouse, juin 2004
34
Matériel (NL)
• Corpus presse écrite néerlandaise de +/- 30 millions de mots
• POS-taggé & lemmatisé
• Essai sur 6 premiers mois– exclusion des rubriques à faible contenu
sémantique
• Données: 16.5 millions de mots
Sémantique et Corpus, Toulouse, juin 2004
35
Techniques d'extraction d'information sémantique
Analyse sémantique latente
ET
Analyse de contenu thématique
Sémantique et Corpus, Toulouse, juin 2004
36
Analyse sémantique latente
Technique statistique permettant de calculer la proximité sémantique de deux mots (segments) sur base de la probabilité de les retrouver dans un contexte textuel similaire.
Deux mots sont similaires s'ils apparaissent dans des paragraphes similaires.
Sémantique et Corpus, Toulouse, juin 2004
37
Analyse sémantique latente
• Contexte textuel représenté par une base sémantique (énorme réseau multidimensionnel).
• La signification d'un mot est représentée par un vecteur à N dimensions.
• Pour calculer la proximité sémantique entre deux mots, on calcule le cosinus entre les deux vecteurs qui les représentent.
Sémantique et Corpus, Toulouse, juin 2004
38
Cos. = 0 Cos. > 0 Cos. = 1singe – lettre ordinateur – mémoire policier - gendarme
Sémantique et Corpus, Toulouse, juin 2004
39
Analyse sémantique latente
Identification des mots avec lesquels les connecteurs sont sémantiquement associés, i.e. determination de la similarité sémantique entre les segments, phrases, paragraphes contenant want, omdat, aangezien, doordat.
Sémantique et Corpus, Toulouse, juin 2004
40
Analyse de contenu thématique
• Technique d'analyse de contenu permettant de déterminer si un concept donné survient +/- fréquemment dans un type de segment donné (Popping 2000)
• Le concept X est plus fréquent dans les segments A que dans les segments B
Sémantique et Corpus, Toulouse, juin 2004
41
Analyse de contenu thématique: première étape
• Construction du dictionnaire
• Identification des segments, p.ex. avec want, omdat, doordat, aangezien …
Concept Entrées lexicales
Pronom personnel
Verbes d'opinion
Termes de couleurs
je, tu, il , elle, nous, vous, ils …
croire, penser, estimer, sembler …
rouge, bleu, vert, jaune, violet..
Sémantique et Corpus, Toulouse, juin 2004
42
Analyse de contenu thématique: seconde étape
• Construction d'une matrice avec les segments contenant des instances lexicales des concepts X, Y, Z
want doordat aangezien
concept X 312 954 102
concept Y 112 89 56
concept Z 230 115 465
Sémantique et Corpus, Toulouse, juin 2004
43
Fréquence des connecteurs dans le corpus
Connective
Raw frequency
Relative frequency (per million words)aangezien
doordatomdatwant
248826
76895621
30101938686
Sémantique et Corpus, Toulouse, juin 2004
44
Préalable: Analyse « syntaxique »
• Identification des segments de <cause> et de <conséquence> dans les phrases
• Règles heuristiques pour distinguer:– Conn. Antécédent:
Puisque c’est ainsi, je reviendrai mardi.– Conn. Médial 1:
Je suis venue parce que tu me l’avais demandé.– Conn. Médian 2:
Je reviendrai mardi. Car c’était délicieux.
Sémantique et Corpus, Toulouse, juin 2004
45
Analyse syntaxique: difficultés
• Hiérarchisation des règles par défaut et règles « prioritaires »
• Détermination des frontières des segments• Taille minimale des segments pour une
analyse sémantique
Pour le français c’est en cours, pour le néerlandais c’est fait!
Sémantique et Corpus, Toulouse, juin 2004
46
Analyse automatique du niveau d’IdL (analyse sémantique)
• Les connecteurs diffèrent les uns des autres par le niveau d’IdL qu’ils encodent – doordat: niveau d'IdL bas (non-volitif, objectif,
factuel)– want: niveau d'Idl élevé (épistémique-
interactionnel, subjectif, opinion-argument)– omdat & aangezien: position intermédiaire
(volitif, épistémique)
Sémantique et Corpus, Toulouse, juin 2004
47
Dictionnaire de subjectivité
Concepts Entrées lexicales
fait Exister, cellule, économie, décéder, procédure, événement …
action Aider, fabriquer, choisir, appeler, annoncer, écrire, battre, diriger, …
opinion Croire, estimer, probablement, horrible, très, exceptionnel, magnifique, …
Sémantique et Corpus, Toulouse, juin 2004
48
IdL (modalité de S1): Hypothèse
• Les segments de <conséquence> liés par doordat contiennent des mots factuels, ceux liés par omdat contiennent des mots d’action et d’opinion, et ceux liés par aangezien et want contiennent des mots d’opinion.
Sémantique et Corpus, Toulouse, juin 2004
49
IdL: Résultats
• L’analyse automatique confirme les analyses de corpus manuelles: doordat co-occure significativement plus avec des segments factuels que les autres connecteurs, omdat plus avec des segments d’action et want et aangezien plus avec des segments d’opinion.
Sémantique et Corpus, Toulouse, juin 2004
50
IdL et pronoms personnels
• Les pronoms personnels font référence à un protagoniste conscient dans l’événement causal, de ce fait on peut les considérer comme des marqueurs linguistiques de subjectivité (Degand & Pander Maat 2003, Pit 2003)
Sémantique et Corpus, Toulouse, juin 2004
51
Pronoms personnels: Hypothèses
• Les connecteurs subjectifs (à IdL élevé) devraient survenir plus avec des pronoms personnels que les connecteurs objectifs (à IdL basse).
• Les connecteurs subjectifs devraient être plus fréquents avec des pronoms personnels à la 1ère personne et les connecteurs objectifs plus fréquents avec des pronoms à la troisième personne.
Sémantique et Corpus, Toulouse, juin 2004
52
Pronoms personnels: analyse de contenu thématique
• Dictionnaire pour le concept « pronom personnel »– Entrées lexicales:
ik, jij, je, hij, zij, ze, u, wij, we, jullie.
Sémantique et Corpus, Toulouse, juin 2004
53
Pronoms personnels: Résultats
• La première hypothèse se vérifie:
doordat < aangezien < omdat < want
Sémantique et Corpus, Toulouse, juin 2004
54
Pronoms personnels: Résultats
• Confirmation partielle de la seconde hypothèse: Tous les connecteurs sont plus fréquents avec des pronoms personnels à la troisième personne, mais la proportion de segments liés par want contenant des pronoms à la première personne est plus élevée.
• Want est le connecteur le plus subjectif, les autres connecteurs se retrouvent dans la partie plus objective de l’échelle.
Sémantique et Corpus, Toulouse, juin 2004
55
Rupture de perspective (LSA)
• La perspectivisation rend compte du fait qu’un texte peut être polyphonique. Elle joue un rôle dans les divergences de sens entre want (rupture de perspective) et omdat (pas de rupture)
• Aucune confirmation empirique univoque
Sémantique et Corpus, Toulouse, juin 2004
56
Rupture de perspective (LSA)
• Conception de la rupture de perspective comme une rupture dans la cohésion sémantique des segments liés par les connecteurs.
• Une rupture de perspective devrait impliquer une diminution de la cohésion sémantique entre les segments connectés.
Sémantique et Corpus, Toulouse, juin 2004
57
Rupture de perspective: Hypothèse 1
• Le cosinus entre Q & P liés par des connecteurs monophoniques (omdat) sera plus élevé que le cosinus entre Q & P liés par des connecteurs polyphoniques (want).
Q conn-mono P vs. Q conn-poly P
Cosinus > Cosinus
Sémantique et Corpus, Toulouse, juin 2004
58
Rupture de perspective: Hypothèse 2
• Le cosinus entre la phrase précédente et la phrase suivante sera plus élévé pour les connecteurs monophoniques que pour les connecteurs polyphoniques.
PRIOR Q mono P NEXT vs. PRIOR Q poly P NEXT
Cosinus > Cosinus
Sémantique et Corpus, Toulouse, juin 2004
59
Rupture de perspective: Résultats LSA
• Les deux hypothèses se vérifient– Les segments reliés par omdat (monophonique)
sont sémantiquement plus proches que les segments reliés par want (polyphonique).
– Le connecteur omdat va de pair avec une continuité topicale entre la phrase précédente et la phrase suivante, ceci est moins le cas pour want.
Sémantique et Corpus, Toulouse, juin 2004
60
Rupture de perspective: Confirmation par ACT
• Construction d’un dictionnaire d’«Indicateurs de perspective » (adverbes d’attitude, « intensifieurs », « évaluateurs », …) sur base d’un thésaurus.
Sémantique et Corpus, Toulouse, juin 2004
61
Rupture de perspective: Hypothèse ACT
• Si les segments causaux sont reliés par want, les segment Q contient des indicateurs de perspective, P n’en contiendra pas. Les segments reliés par omdat, doordat, aangezien ne présentent pas une telle rupture (perspective uniforme ou absence de perspective).
• L’hypothèse est vérifiée…
Sémantique et Corpus, Toulouse, juin 2004
62
Conclusions
• L’analyse sémantique latente et l’analyse de contenu thématique sont des techniques permettant l’étude automatisée des facteurs linguistiques déterminant le sens et l’usage des connecteurs.
• Une analyse automatisée n’a des sens que si l’on dispose d’hypothèses linguistiques solides (avec premiers résultats « manuels »).
Sémantique et Corpus, Toulouse, juin 2004
63
Conclusions
• Usage de VASTES corpus
• Confirmation « automatique » des résultats manuels
• Complémentarité entre analyses qualitatives et quantitatives, avec « quantification » du « qualitatif ».
• Objectivation du processus interprétatif.
Sémantique et Corpus, Toulouse, juin 2004
64
Travaux futurs
• Automatisation (?) de l’analyse syntaxique préalable (identification des segments P&Q)
• Extension de l’analyse afin d ’identifier les différents environnements discursifs de différents connecteurs causaux (en néerlandais et en français), dans des genres différents.
• Etude de séquences implicites et sous-spécifiées.