la productivité des noms composés en français...je suis très reconnaissante aux professeurs...
TRANSCRIPT
La productivité des noms composés en français du XVIIe au début du XXe siècle
by
Elena Voskovskaia
A thesis submitted in conformity with the requirements for the degree of Doctor of Philosophy
Graduate Department of French University of Toronto
© Copyright by Elena Voskovskaia 2013
ii
La productivité des noms composés en français
du XVIIe au début du XXe siècle
Elena Voskovskaia
Doctor of Philosophy Graduate Department of French
University of Toronto
2013
Résumé
La présente thèse est une étude approfondie de la productivité des noms composés français
N-N, A-N, N-A et N-de-N du XVIIe au début du XXe siècle. La productivité morphologique
des mots composés demeure un domaine très peu exploré, surtout en français. Les études
antérieures sur la dérivation utilisent principalement la mesure de productivité basée sur les
hapax, soulevant la question de savoir si l’application d’une seule méthode est suffisamment
fiable pour évaluer la productivité en composition. Dans cette thèse, la productivité des
composés est calculée au moyen de trois mesures différentes : la mesure P basée sur les
hapax (Baayen et Lieber 1991; Baayen 1992), la taille catégorielle de la famille
morphologique (Baayen et Hay 2002) et la fréquence relative (Hay 2003). En outre, la
productivité est analysée en tenant compte de la position de la tête morphologique et l’aspect
régulier/irrégulier du composé. Je cherche à vérifier quatre hypothèses : 1) les composés
réguliers sont plus productifs que les irréguliers ; 2) les N-N et N-de-N sont les types les plus
productifs ; 3) il existe une corrélation inverse entre la productivité P et la fréquence
relative ; 4) il existe une corrélation inverse entre la productivité P et la taille catégorielle de
la famille morphologique. Les hypothèses #1 et #4 sont confirmées par les résultats obtenus :
iii
les formes régulières exocentriques sont les plus productives et le taux de productivité le plus
élevée coïncide avec la taille catégorielle la plus basse. L’hypothèse #2 a été appuyée
partiellement à cause de données lacunaires pour le type N-de-N. Toutefois, la corrélation
inverse entre la productivité et la fréquence relative n’est pas confirmée en composition. La
thèse a apporté plusieurs contributions : l’étude diachronique de productivité en composition,
l’utilisation de différentes méthodes statistiques et un corpus original de composés français
qui comporte 15 types différents.
iv
DÉDICACE
À mon fils Aleksandr.
v
Remerciements
Tout d’abord, je suis particulièrement honorée que la professeure Angela Ralli ait accepté
d'être évaluatrice externe et de faire partie du jury de ma thèse. Je suis immensément
reconnaissante à Angela Ralli de son regard d’experte sur mon manuscrit et de ses
commentaires pertinents.
Je voudrais remercier le professeur Janis Langins d’avoir accepté de présider le jury de ma
thèse.
J’adresse mes sincères remerciements à Anne-Marie Brousseau, ma directrice de thèse, avec
qui j’ai eu le privilège de pouvoir discuter de ma recherche et de partager mes réflexions
scientifiques tout au cours de ces années. Ce travail est le fruit de plusieurs années de
recherches en tant qu’étudiante de maîtrise et de doctorat à l’université de Toronto. Durant
toutes ces années, vous étiez toujours prête à m’aider et à offrir votre appui. Je vous remercie
de tout mon cœur pour vos lectures attentives et exigeantes de plusieurs brouillons de ma
thèse, vos commentaires très précis, vos suggestions incroyablement fructueuses et vos
conseils. Le chemin sera beaucoup plus difficile à parcourir sans votre énorme soutien.
Je remercie avec beaucoup de chaleur Yannick Portebois qui a montré un grand intérêt
envers mon travail. Un grand merci de m’avoir offert des conseils, des commentaires et
d’avoir inspiré/orienté/balisé certaines parties de ma thèse, tout particulièrement celles qui
portent sur la lexicographie historique du français. Cela m'a permis de comprendre que la fin
de la thèse n’est pas la fin de la recherche, mais plutôt le début de nouvelles explorations.
Merci d’avoir été une interlocutrice motivante et enthousiaste.
Je tiens également à remercier Mihaela Pirvulescu qui a pris le temps de discuter de ma
recherche et de me donner commentaires et ses conseils. Merci beaucoup d’avoir soulevé
quelques questions théoriques importantes et d’avoir fourni des critiques constructives et
précieuses.
vi
Je remercie le professeur Jeffrey Steele d’avoir accepté de relire ma thèse et d’en être
membre du jury. Je suis très reconnaissante d’avoir eu l’occasion de suivre vos cours de
linguistique à l’université de Toronto lors de mes années d’études au programme de maîtrise
et de doctorat.
Je suis très reconnaissante aux professeurs Parth Bhatt, Yves Roberge, Emmanuel Nikiema
et Juvenal Ndayiragije de m’avoir donné goût à la recherche linguistique et d’avoir motivé
ma vocation pour le domaine de la morphologie.
J’exprime mes profonds remerciements à mes collègues et amies Anna Frolova et Nathalie
Lenina pour leur soutien et leurs encouragements au cours de la réalisation de cette
recherche. Un immense merci à ma relectrice Meï-Lan Mamode pour ses relectures
minutieuses et incroyablement efficaces.
Et enfin, j’adresse spécialement de tendres remerciements à ma famille dont la chaleur et le
soutien m’ont permis de garder une bonne espérance. Je souhaite remercier tout
particulièrement mon cher fils Aleksandr pour ses encouragements enthousiastes et le respect
qu’il a toujours eu envers mes choix.
vii
Table des Matières
Résumé ................................................................................................................................................... ii
Remerciements ...................................................................................................................................... v
Table des Matières ............................................................................................................................ viii
Liste des tableaux ................................................................................................................................. xi
Liste des graphiques .......................................................................................................................... xiii
Principales abréviations ..................................................................................................................... xiv
CHAPITRE 1 – Introduction ............................................................................................................... 1
1.1 Objectifs ....................................................................................................................................... 1
1.2 Travaux antérieurs ..................................................................................................................... 3
1.3 Organisation de la thèse ............................................................................................................. 5
1.4 Contribution de la thèse ............................................................................................................. 7
CHAPITRE 2 – Les mots composés : descriptions et théories ........................................................ 10
2.1 Introduction ............................................................................................................................... 10
2.2 Identification des mots composés français .............................................................................. 12
2.2.1 Critères phonologiques et orthographiques ......................................................................... 14
2.2.2 Critères morphologiques ..................................................................................................... 16
2.2.3 Critères sémantiques ............................................................................................................ 18
2.2.4 Critère d’atomicité syntaxique ............................................................................................. 19
2.2.5 Tête et base dans les mots composés ................................................................................... 21
2.3 Typologie des mots composés français .................................................................................... 24
2.4 Les modèles théoriques des mots composés ............................................................................ 27
2.4.1 Le modèle lexicaliste de Di Sciullo et Williams (1987) et Di Sciullo (2005) ..................... 28
2.4.2 Le modèle des mots composés de Zwanenburg (1992) ....................................................... 33
2.4.3 La théorie de formation de Lieber (le modèle lexico-syntaxique) ...................................... 37
2.4.4 La théorie de Fabb ............................................................................................................... 42
2.4.5 Les modèles de traitement lexical des mots composés ........................................................ 47
2.5 Conclusion ................................................................................................................................. 49
viii
CHAPITRE 3 – L’objet de la productivité morphologique ............................................................ 55
3.1 Introduction ............................................................................................................................... 55
3.2 Le modèle de productivité morphologique de Bauer ............................................................. 58
3.3 Le modèle de productivité morphologique de Baayen .......................................................... 65
3.4 La fréquence relative de Hay (2003) ....................................................................................... 74
3.5 Productivité morphologique des mots composés : un paradoxe ........................................... 78
3.5.1 Le rôle de la fréquence des constituants dans les mots composés ....................................... 78
3.5.2 Le rôle de la longueur des constituants dans les composés ................................................. 80
3.5.3 Le paradoxe de la productivité des mots composés ............................................................ 80
3.6 La productivité et la taille de la famille morphologique ....................................................... 81
3.7 L’approche structurale versus l’approche sémantique ......................................................... 86
3.8 Productivité et diachronie ........................................................................................................ 88
3.9 Productivité et registre de langue ............................................................................................ 89
3.10 Sommaire ................................................................................................................................. 91
3.11 Conclusion ............................................................................................................................... 93
CHAPITRE 4 – Méthodologie et corpus ........................................................................................... 97
4.1 Introduction ............................................................................................................................... 97
4.2 L’évaluation de la productivité morphologique à partir des corpus textuels ..................... 98
4.3 Méthodologie ........................................................................................................................... 101
4.3.1 Étape 1 : Création de la liste de composés ........................................................................ 104
4.3.2 Étape 2 : Choix des types et formes des composés qui seront mesurés ............................ 107
4.3.3 Étape 3 : Organisation et exploitation du corpus Frantext ................................................ 109
4.3.4 Étape 4 : Mesure de la productivité dans Frantext ............................................................ 111
4.3.5 Étape 5 : ldentification de la base dans les mots composés ............................................... 113
4.3.6 Étape 6 : Étude diachronique des formes recensées .......................................................... 114
4.4 L’étude pilote : la productivité des composés garde-x ......................................................... 115
4.4.1 Étapes préparatoires ........................................................................................................... 115
4.4.2 La productivité des composés garde-x .............................................................................. 118
4.4.2.1 La productivité selon la mesure des hapax ................................................................ 118
4.4.2.2 La taille de la famille morphologique des composés garde-x .................................... 119
4.4.3 Identification des bases et fréquence relative ................................................................ 122
4.5 Corrélation entre les trois mesures ....................................................................................... 125
4.6 Conclusion ............................................................................................................................... 127
ix
CHAPITRE 5 – L’analyse de la productivité des noms composés français ............................... 130
5.1 Introduction ............................................................................................................................. 130
5.2 Productivité basée sur les hapax ............................................................................................ 132
5.2.1 Productivité des composés N-N ........................................................................................ 133
5.2.2 Productivité des composés A-N ........................................................................................ 137
5.2.3 Productivité des composés N-A ........................................................................................ 141
5.2.4 Productivité des composés N-de-N ................................................................................... 144
5.2.5 Facteurs corrélés à la productivité au sens strict ............................................................... 146
5.2.5.1 Productivité et position de la tête morphologique ...................................................... 147
5.2.5.2 Productivité et type de composés ............................................................................... 149
5.2.5.3 Productivité et aspect régulier/irrégulier des composés ............................................. 151
5.2.6 Sommaire ........................................................................................................................... 152
5.3 Productivité basée sur la taille de la famille morphologique ............................................. 153
5.4 Productivité et fréquence relative .......................................................................................... 158
5.4.1 Fréquence relative des composés N-N .............................................................................. 159
5.4.2 Fréquence relative des composés A-N .............................................................................. 164
5.4.3 Fréquence relative des composés N-A .............................................................................. 168
5.4.4 Fréquence relative des composés N-de-N ......................................................................... 171
5.4.5 Sommaire ........................................................................................................................... 173
5.5 Discussion ................................................................................................................................. 175
5.6 La productivité en diachronie ................................................................................................ 186
5.6.1 Évolution de la productivité par types et position de la tête .............................................. 186
5.6.1.1 Les composés N-N par période .................................................................................. 186
5.6.1.2 Les composés A-N par période .................................................................................. 188
5.6.1.3 Les composés N-A par période .................................................................................. 190
5.6.1.4 Les composés N-de-N par période ............................................................................. 191
5.6.2 Évolution globale de la productivité des composés ........................................................... 193
5.6.3 Combinaisons lexicales les plus courantes ........................................................................ 202
5.6.4 Sommaire ........................................................................................................................... 205
5.7 Conclusion ............................................................................................................................... 207
CHAPITRE 6 – Conclusion .............................................................................................................. 212
6.1 La productivité morphologique en composition .................................................................. 212
6.2 Méthodes et corpus ................................................................................................................. 214
6.2.1 Facteurs d’identification des mots composés en français .................................................. 214
x
6.2.2 Corpus et choix méthodologiques ..................................................................................... 215
6.2.3 Problèmes rencontrés ......................................................................................................... 217
6.3 Résultats ................................................................................................................................... 219
6.3.1 Les hypothèses ................................................................................................................... 220
6.3.2 Étude diachronique des composés ..................................................................................... 225
6.4 Questions et futures pistes de recherche ............................................................................... 228
Références bibliographiques ............................................................................................... 232
Appendice 1 Corpus Littré – liste des noms composés .................................................... 243
Appendice 2 Noms composés mesurés (Frantext) ............................................................ 252
Appendice 3 Noms composés non-mesurés (Littré) ......................................................... 265
Appendice 4 Étude pilote – composés garde-x .................................................................. 269
xi
Liste des tableaux
Tableau 3-1 A simplified example of an affix entry in morphological database .................. 85
Tableau 4-1 Typologie des composés qui seront potentiellement mesurés (liste de Littré) 109 Tableau 4-2 Typologie des noms composés garde-x/x-garde (liste de Gallica) ................. 116
Tableau 4-3 La fréquence d’occurrences des composés garde-x dans Gallica .................. 117 Tableau 4-4 La fréquence d’occurrences des composés garde-x dans le corpus Frantext . 118
Tableau 4-5 Productivité des composés garde-x selon la mesure P ................................... 119 Tableau 4-6 Taille de la famille morphologique des composés garde-x (Frantext) ........... 121
Tableau 4-7 Fréquence des composés garde-x et de leur base dans le corpus Frantext ..... 124 Tableau 4-8 Fréquence relative des composés garde-x par période .................................... 125
Tableau 4-9 Corrélation entre les trois mesures pour les composés garde-x ...................... 126 Tableau 5-1 Productivité des composés N-N selon la position de la tête ........................... 134
Tableau 5-2 Productivité des composés A-N réguliers et irréguliers selon la position de la tête .......................................................................................................... 138
Tableau 5-3 Productivité des composés N-A selon la position de la tête ........................... 142 Tableau 5-4 Productivité des composés N-de-N selon la position de la tête morphologique ................................................................................. 145 Tableau 5-5 Productivité des composés N-N, A-N, N-A et N-de-N selon la position
de la tête morphologique ................................................................................ 147 Tableau 5-6 Productivité des composés N-N, A-N, N-A et N-de-N par type ..................... 150
Tableau 5-7 Productivité des composés N-N, A-N, N-A et N-de-N selon l’aspect régulier/irrégulier ............................................................................................ 151
Tableau 5-8 Corrélation entre la taille catégorielle et la productivité des composés N-N, A-N, N-A et N-de-N .............................................................................. 154
Tableau 5-9 Corrélation entre la taille catégorielle et la productivité des composés N-N, A-N, N-A, N-de-N réguliers selon la position de la tête morphologique ....... 157
Tableau 5-10 Fréquence relative moyenne, productivité et taille catégorielle des composés N-N ......................................................................................... 161
Tableau 5-11 Fréquence relative moyenne, productivité et taille catégorielle des composés A-N ......................................................................................... 165
Tableau 5-12 Fréquence relative moyenne, taille catégorielle et productivité des composés N- A ......................................................................................... 168
xii
Tableau 5-13 Fréquence relative moyenne, taille catégorielle et productivité des composés N-de-N ..................................................................................... 171
Tableau 5-14 Productivité, fréquence d’occurrences et le nombre d’hapax selon la position de la tête morphologique dans les composés N-N, A-N, N-A, N-de-N .......... 176
Tableau 5-15 Distribution des formes avec de vrais hapax selon le type de composés ........ 179 Tableau 5-16 Productivité P des composés N-N par période ................................................ 187
Tableau 5-17 Productivité P des composés A-N par période ................................................ 188 Tableau 5-18 Productivité P des composés N-A par période ................................................ 190
Tableau 5-19 Productivité des composés N-de-N réguliers par période (mesures P, T) ...... 191 Tableau 5-20 Évolution globale de la productivité des composés N-N, A-N, N-A,
N-de-N (mesure P) .......................................................................................... 193 Tableau 5-21 Évolution de la productivité des composés réguliers N-N, A-N, N-A,
N-de-N (mesure P) .......................................................................................... 196 Tableau 5-22 Évolution de la productivité des composés irréguliers N-N, A-N, N-A,
N-de-N (mesure P) .......................................................................................... 197 Tableau 5-23 Évolution globale des composés N-N, A-N, N-A, N-de-N réguliers et
irréguliers selon la position de la tête morphologique (mesure P) .................. 199 Tableau 5-24 Évolution globale de la productivité des composés N-N, A-N, N-A,
N-de-N de 1606 à 1920 ................................................................................... 201 Tableau 5-25 Distribution des combinaisons lexicales les plus courantes ............................ 203
xiii
Liste des graphiques
Graphique 5-1 Productivité des composés N-N réguliers selon la position de la tête ...... 135 Graphique 5-2 Productivité des composés N-N selon l’aspect régulier/irrégulier ........... 137
Graphique 5-3 Productivité des composés A-N selon la position de la tête ..................... 140 Graphique 5-4 Productivité des composés A-N (réguliers vs irréguliers) ........................ 140
Graphique 5-5 Productivité des composés N-A selon la position de la tête .................... 143 Graphique 5-6 Productivité des composés N-A (réguliers vs irréguliers) ........................ 143
Graphique 5-7 Productivité des composés N-de-N selon l’aspect régulier/ irrégulier ..... 146 Graphique 5-8 Corrélation entre la taille catégorielle et la productivité
des composés N-N .................................................................................... 155 Graphique 5-9 Corrélation entre la taille catégorielle et la productivité
des composés N-A .................................................................................... 156 Graphique 5-10 Corrélation entre la taille catégorielle et la productivité
des composés A-N .................................................................................... 156 Graphique 5-11 Corrélation entre la mesure FR3 et la productivité P des composés N-N . 162
Graphique 5-12 Corrélation entre la mesure FR3 et la productivité P des composés A-N réguliers et irréguliers ............................................................................... 167
Graphique 5-13 Corrélation entre la mesure FR3 et la productivité P des composés N-A réguliers et irréguliers ............................................................................... 169
Graphique 5-14 Corrélation entre les mesures FR et la productivité P des composés N-de-N réguliers et irréguliers ................................................................. 172
Graphique 5-15 Distribution de la valeur N dans les composés N-N, A-N, N-A et N-de-N selon l’aspect régulier/irrégulier .............................................. 178
Graphique 5-16 Évolution globale des composés N-N (réguliers et irréguliers) selon la position de la tête morphologique ........................................................ 187
Graphique 5-17 Évolution globale des composés A-N (réguliers et irréguliers) selon la position de la tête morphologique ........................................................ 189
Graphique 5-18 Évolution des composés N-A (réguliers et irréguliers) selon la position de la tête morphologique .......................................................................... 190
Graphique 5-19 Évolution des composés N-de-N réguliers et irréguliers selon la position de la tête morphologique .......................................................................... 192
xiv
Principales abréviations
F la taille de la famille morphologique
FR la fréquence relative
FR1 la fréquence relative basée sur la fréquence du constituant qui est la tête
FR2 la fréquence relative basée sur la fréquence du constituant qui n’est pas la tête
FR3 la fréquence relative basée sur la somme des fréquences des constituants
FR4 la fréquence relative basée sur la moyenne des fréquences des constituants
n1 le nombre d’hapax legomena
N le nombre total d’occurrences des formes recensées dans le corpus
P la productivité au sens strict
P* la productivité globale
T la taille catégorielle de la famille morphologique
B et N Brousseau et Nikiema
1
CHAPITRE 1
Introduction
Bien que la question de productivité morphologique fasse l’objet de discussions récurrentes
dans les travaux linguistiques depuis plusieurs années (Aronoff 1976 ; Bauer 2001 ;
Kastovsky 1986), la productivité des mots composés est un domaine de recherche très peu
exploré, surtout en français. La présente thèse propose une étude approfondie de la
productivité des noms composés français dans un grand corpus littéraire du XVIIe au XXe
siècle, ainsi que l’analyse de l’utilisation de différentes méthodes statistiques pour mesurer la
productivité en composition. Dans ce chapitre, j’introduis d’abord les objectifs de la thèse.
Ensuite, je fais le survol des travaux antérieurs tant dans le domaine de la composition que
dans celui de la productivité morphologique. Puis, je décris l’organisation de la thèse.
Finalement, je parle de la contribution de la thèse à l’étude des noms composés en français
et, plus particulièrement, à l’analyse de leur productivité morphologique en diachronie.
1.1 Objectifs Les travaux récents en morphologie dérivationnelle ont démontré un intérêt nouveau pour le
concept de productivité et pour les moyens de mesurer celle-ci (Baayen 1992 ; Bauer 1983,
2001 ; Hay 2003, Plag 1999 ; Hay et Baayen 2002). Toutefois, la majorité des recherches en
productivité se trouve dans le champ de la dérivation et traite de l’anglais. À l’exception des
travaux de Corbin (1975, 1987), Namer (2003), Dal (2003) et Grabar et al. (2006) consacrés
à la productivité des affixes, la productivité morphologique inspire peu les chercheurs
français. D’ailleurs, la productivité en composition (Bauer 2008 ; Estopà 2009 ; Fernandez-
Dominguez 2007, 2009) est très peu explorée, que ce soit du point de vue théorique ou du
point de vue quantitatif.
Le présent travail vise à contribuer à l’étude de la productivité des noms composés français
du XVIIe au XXe siècle. Dans ce contexte, la présente thèse se donne les quatre objectifs
2
suivants. En premier lieu, il s’agit de créer un corpus de noms composés français et d’établir
la typologie des formes recensées. Le deuxième objectif consiste à évaluer la productivité des
formes recensées au moyen de diverses mesures de productivité et de déduire une corrélation
possible entre ces mesures. Le troisième objectif vise à démontrer comment la structure
interne et le statut (i.e. régulier/irrégulier) des composés contribue à leur productivité
morphologique. Finalement, le quatrième objectif est d’examiner l’évolution de la
productivité des composés français en diachronie.
Plus précisément, j’essaierai de répondre aux questions suivantes :
1) Quelles sont les meilleures mesures pour évaluer la productivité des composés français ?
Est-ce que la mesure de productivité au sens strict (basée sur les hapax legomena) est
suffisamment fiable pour calculer la productivité en composition?
2) Le niveau de productivité des composés français dépend-il de la taille de leur famille
morphologique et de la fréquence de leurs constituants ?
3) Quels types de composés sont les plus productifs en français du XVIIe au début du XXe
siècle?
4) Quels sont les facteurs qui influencent le changement dans le taux de productivité
morphologique des mots composés en français ?
Espérant pouvoir contribuer à l’approfondissement de la notion de productivité en
composition française, je propose d’effectuer, dans ce travail, une étude approfondie des
noms composés du XVIIe au XXe siècle. La recherche se limite aux quatre structures les plus
couramment utilisées en français : N-N, A-N, N-A et N-de-N. En analysant le changement
du taux de productivité de ces composés, je prends en considération plusieurs facteurs, tels
que la position de la tête morphologique, le type des composés, le statut régulier/irrégulier
(i.e. la transparence sémantique et la compositionnalité) des formes recensées, ainsi que la
taille de la famille morphologique et la fréquence des constituants. La productivité des
formes recensées sera évaluée dans un grand corpus littéraire, Frantext, au moyen de trois
mesures de productivité.
3
1.2 Travaux antérieurs La composition inclut plusieurs aspects morphologiques, syntaxiques, sémantiques et
phonologiques qui diffèrent d’une approche théorique à l’autre. Dans les premiers travaux
sur la composition, les mots composés ont été étudiés par rapport aux liens sémantiques
(Grevisse 1969) ou syntaxiques (Benveniste 1967 ; Martinet 1967) entre les constituants qui
les forment. Les linguistes contemporains comme Riegel (1991) et Anscombre (1991) se
penchent sur les propriétés référentielles des éléments du composé en tant qu’une expression
figée. Actuellement, deux grands modèles théoriques représentent le statut des mots
composés dans la grammaire générative : le modèle lexicaliste et le modèle syntaxique.
Dans le modèle lexicaliste (Di Sciullo 2005 ; Zwanenburg 1992 ; Di Sciullo et Williams
1987), le processus de la composition morphologique est organisé autour de la notion de tête.
Par contre, dans le modèle syntaxique (Fabb 1998 ; Lieber 1992, 2004), la formation des
mots composés est construite autour de la théorie X-barre (quelque peu révisée)
conformément aux règles de la syntaxe.
L’étude des mots composés présente parfois des problèmes, surtout en ce qui concerne leur
identification (Bauer 2009 ; Fabb 1998, 2005 ; Lieber 1992, 2004 ; Zwanenburg 1992 ; Di
Sciullo et Williams 1987 ; 2005 ; Lieber et Štekauer 2009). Le repérage des mots composés
est plus difficile en français parce que, dans la plupart des cas, les constituants y apparaissent
dans le même ordre qu’en syntaxe. Notamment, il est parfois difficile de distinguer les mots
composés des syntagmes (i.e. après-soinN vs soin après traitementSN) et des expressions
idiomatiques (i.e. mange-disqueN vs manger ses mots). Pour différencier les mots composés
des syntagmes nominaux, il faut utiliser un certain nombre de tests morphologiques,
syntaxiques, sémantiques et phonologiques qui tendent à établir la cohésion du composé.
Quant à la productivité morphologique en composition, très peu de recherches s’y sont
consacrées. Exception faite des travaux de Krott, Schreider et Baayen (1999), Fernandez-
Dominguez (2007, 2009), Bauer (2008) et Estopà (2009), les études portant sur la
productivité n’ont pratiquement pas traité des mots composés. D’ailleurs, il n’existe pas de
travaux sur la productivité des composés en français.
4
Un élément fondamental de la productivité morphologique, selon Bauer (2001), est lié à la
potentialité de créer des mots nouveaux. Dans les travaux antérieurs, la productivité a été
abordée soit sous un angle qualitatif, soit quantitatif. D'un point de vue qualitatif, on définit
la productivité comme la capacité des règles morphologiques à former de nouveaux lexèmes
(Bauer 2001) de façon non intentionnelle (Dal 2003). L’aspect quantitatif de la productivité
reflète la rentabilité du processus morphologique, c’est-à-dire le degré auquel cette
disponibilité est exploitée selon les normes de la langue particulière (Bauer 2001). Plusieurs
méthodes quantitatives, utilisant de grands corpus textuels, ont été proposées pour mesurer
des aspects différents de la productivité (Baayen 1992, 1993 ; Baayen et Lieber 1991 ;
Baayen et Renouf 1996 ; Krott, Schreider et Baayen 1999).
Parmi ces mesures, la plus largement utilisée actuellement est celle de la productivité au sens
strict proposée dans Baayen (1992, 1993), Baayen et Lieber (1991), Baayen et Renouf
(1996). Cette mesure est basée sur le nombre d’hapax legomena (les formes qui apparaissent
une fois seulement dans un grand corpus) qui sert à indiquer la probabilité de rencontrer de
nouveaux types d’une catégorie morphologique qui n’ont pas été enregistrés dans les
échantillons précédemment analysés (Baayen 1993).
Une autre mesure de productivité qui a été récemment appliquée à la composition dans le
travail de Fernandez-Dominguez (2009), est celle de la fréquence relative. Cette mesure,
proposée initialement en dérivation (Hay 2003), tient compte du rapport entre la fréquence
du composé et celle de ses constituants. Selon cette mesure, le niveau plus bas de la
fréquence relative indique que le mot complexe représente une structure décomposable et
potentiellement productive (Hay 2003).
Outre les mesures quantitatives de Baayen (1992, 1993) et Hay (2003), une nouvelle
méthode basée sur la taille catégorielle de la famille morphologique des mots complexes a
été récemment présentée dans Baayen et Hay (2002). En analysant la productivité des affixes
en anglais, ils montrent que l’augmentation de la taille catégorielle de la famille
morphologique d’un affixe coïncide avec la diminution du taux de sa productivité. Pourtant,
cette approche n’a jamais été appliquée à la mesure de la productivité des mots composés.
5
Par conséquent, étant donné le fait qu’il n’existe pas de travaux sur la productivité des
composés en français et peu sur la productivité des composes en général, ce travail élargira le
champ d’application de différentes mesures proposées avant tout pour la dérivation et pour
l’anglais.
1.3 Organisation de la thèse L'étude de la productivité morphologique des mots composés français est organisée en cinq
volets. Le premier chapitre consiste à présenter les objectifs de l’étude, des travaux
précédents dans le domaine de la productivité et la structure de la thèse. Le chapitre 2
propose un survol général de deux grands modèles théoriques en composition : le modèle
lexicaliste (Di Sciullo 2005 ; Zwanenburg 1992 ; Di Sciullo et Williams 1987) et le modèle
syntaxique (Fabb 1998 ; Lieber 1992, 2004). Un autre but de ce chapitre est de présenter les
différents critères qui sont pris en compte lors de l’identification des composés français (i.e.
critères phonologiques, morphologiques, sémantiques, syntaxiques). Comme la classification
des composés en français constitue parfois un problème, la typologie des formes recensées
est examinée selon quatre critères majeurs proposés dans Béchade (1992), Gross (1996) et
Brousseau et Nikiema (2001). Enfin, les questions liées à la base et la tête morphologique en
composition sont examinées. À l’issue de ce chapitre, je parle des concepts théoriques qui
sont retenus dans mon travail.
Le chapitre 3 vise à présenter les différentes théories de la productivité morphologique
(Aronoff 1976 ; Baayen 1992 ; Bauer 1988, 2001 ; Hay 2003 ; Plag 1999 ; Hay et Baayen
2002), en tenant compte des deux facettes de la productivité morphologique : l’aspect
qualitatif (Bauer 2001 ; Dal 2003) et l’aspect quantitatif (Baayen 1992, 1993 ; Baayen et
Lieber 1991 ; Baayen et Renouf 1996 ; Krott, Schreider et Baayen 1999). Dans ce chapitre,
je me concentre particulièrement sur les trois mesures de productivité qui seront appliquées
dans cette thèse : la productivité au sens strict (Baayen 1992 ; Baayen et Lieber 1991), la
fréquence relative (Hay 2003) et la taille catégorielle de la famille morphologique (Baayen et
Hay 2002). Étant donné que l’application de différentes mesures de productivité est possible
uniquement dans les grands corpus textuels, les questions de la taille et de la représentativité
de différentes bases de données sont également discutées. J’introduis brièvement la question
de l’approche structurale versus l’approche sémantique dans l’évaluation de la productivité
6
morphologique des mots composés. Je présente également le survol du rapport entre la
productivité et le registre de langue. Pour conclure le chapitre 3, je précise les méthodes
quantitatives et le corpus qui sont pris en considération.
Le chapitre 4 expose en détail la méthodologie retenue, ainsi que les résultats de l’étude-
pilote sur la productivité des noms composés français garde-x. En premier lieu, j’introduis
les trois bases de données utilisées : le corpus textuel Frantext, le corpus textuel Gallica et le
Dictionnaire de Littré. Je discute des forces et des faiblesses de chaque corpus, des
différentes méthodes d’organisation et d’exploitation de ces sources, ainsi que de certaines
questions liées à l’extraction des formes recensées. En deuxième lieu, je présente les
différentes étapes de la recherche, de la création de la liste de noms composés à partir du
dictionnaire de Littré jusqu’à l’application des trois mesures de productivité au corpus
Frantext. Finalement, je présente l’étude-pilote sur la productivité des composés garde-x,
entreprise pour valider les différents choix méthodologiques, et je fais l’analyse des
corrélations potentielles entre les trois mesures de productivité (i.e. la productivité au sens
strict, la fréquence relative et la taille catégorielle de la famille morphologique).
Dans le Chapitre 5 je présente l’analyse quantitative de la productivité des composés N-N,
A-N, N-A et N-de-N en utilisant les trois mesures quantitatives retenues. La productivité des
formes recensées est examinée au cours de quatre périodes différentes s’échelonnant du
XVIIe au XXe siècle. L’étude de la productivité est réalisée, tant globalement que par période,
en fonction de trois facteurs : le type de composés (structure), la position de la tête
morphologique et l’aspect régulier/irrégulier
En outre, dans le Chapitre 5, je discute les résultats obtenus pour vérifier les quatre
hypothèses suivantes. Pour l’hypothèse #1, il s’agit de confirmer que les composés réguliers
(arrière-boutique, basse-étoffe, arc-boutant, etc.) sont plus productifs que les irréguliers
(huppe-col, patte-fiche, bonne-vilaine, etc.). La deuxième hypothèse est liée à la structure
interne des formes recensées. Compte tenu du point de vue de Mathieu-Colas (1994) et
Brousseau et Nikiema (2001) qui considèrent les structures N-N et N-de-N parmi les plus
productives en synchronie, je mets à l’épreuve cette perception en analysant le taux de leur
productivité entre 1606 et 1920. La troisième hypothèse cherche à examiner la probabilité
7
d’une corrélation inverse entre la productivité et la taille catégorielle de la famille
morphologique des formes recensées. Je cherche à vérifier si la croissance de la taille
catégorielle de la famille morphologique des composés coïncide avec la décroissance du taux
de leur productivité. La quatrième hypothèse vise à examiner le lien entre la fréquence
relative et le niveau de productivité des formes recensées. Il s’agit de confirmer que le niveau
de productivité des composés est en relation inverse de celui de la fréquence relative, c’est-à-
dire que les mots composés dont la fréquence relative est plus basse sont plus productifs que
ceux dont la fréquence relative est plus élevée. En me basant sur l’hypothèse de Hay (2003)
en dérivation, je cherche à vérifier si la fréquence relative, proposée pour les mots affixés,
pourrait également être appliquée aux mots composés. Enfin, dans le chapitre 5, j’essaye de
répondre à la question majeure de la thèse : quelles sont les meilleures mesures quantitatives
pour évaluer la productivité en composition? Plus précisément, je cherche à savoir si la
mesure de productivité P au sens strict est suffisamment fiable comme seul moyen
d’évaluation de la productivité des noms composés.
Enfin, le chapitre 5 propose l’étude diachronique des formes recensées du XVIIe au début du
XXe siècle. Leur productivité est analysée par période selon le type et la position de la tête
morphologique, puis leur évolution générale en diachronie est examinée. Finalement, je me
penche sur les combinaisons lexicales qui apparaissent de façon récurrente au cours des
quatre périodes analysées.
La Conclusion (Chapitre 6) propose une synthèse des résultats obtenus au cours de la
recherche. J’y discute également des problèmes rencontrés, des résultats les plus significatifs,
des questions qui restent en suspens et des perspectives de recherches futures.
1.4 Contribution de la thèse Cette thèse se veut une contribution à la morphologie dérivationnelle du français,
particulièrement au processus de composition. Elle propose une analyse de la productivité de
différents types de composés, qui prend en compte leur typologie, fréquence d’emploi et
transparence sémantique et ce, en diachronie.
8
Par conséquent, le présent travail propose une étude détaillée de l’évolution de la
productivité des composés N-N, A-N, N-A et N-de-N au cours des années 1606-1920. En
outre, il examine l’application de différentes théories et de méthodes quantitatives qui n’ont
pas été précédemment utilisées pour l’évaluation de la productivité des composés de façon
générale ainsi que pour le français en particulier. Ainsi, le travail contribue à plus d’un titre à
l’étude morphologique de la composition en français.
La première contribution tient à la création d’un corpus des mots composés français. Vu la
nécessité d’effectuer une recherche quantitative dans une base de données textuelle de grande
taille, un corpus de 1970 noms composés à trait d'union a été initialement créé. Ce corpus est
formé de plusieurs types de composés réguliers et irréguliers utilisés en français du XVIIe au
XXe siècle. En effet, sauf une liste d’exemples dans Darmesteter (1875) et Mathieu-Colas
(1994), et le corpus des mots composés V-N (essuie-glace, porte-plume, casse-cou, etc.) de
Villoing (2002), il n’existe pas, à ma connaissance de corpus ou de liste de composés
français, sauf la banque de données créée récemment par Yves Bourque (2012)1, qui
regroupe une liste synchronique. Ainsi, la première contribution de la thèse consiste en la
création d’un corpus représentatif associé à plusieurs types de noms composés français
utilisés au cours de quatre périodes historiques différentes et couvrant une longue période, du
XVIIe au début du XXe siècle.
La deuxième contribution consiste en une nouvelle application des mesures de productivité
disponibles actuellement. D’une part, la méthode combinant trois mesures de productivité
utilisée dans la thèse n’a pas été précédemment appliquée à l’évaluation des mots en
composition. D’autre part, la productivité est examinée en fonction d’une série de propriéts
des composés : leur type structural (N-N, A-N, N-A, N-de-N), la position de la tête
morphologique (gauche/droite ou à l’extérieur du composé) et l’aspect régulier/irrégulier
(transparence/opacité sémantique).
Une contribution majeure de la thèse consiste certainement à combler une lacune dans
l’étude sur la productivité des mots composés visant à répondre à la question suivante : la
1 Voir http ://polylexical.com.
9
mesure de productivité P au sens strict, est-elle suffisamment fiable comme seul moyen de
calcul de productivité en composition ? Il s’agit donc d’une contribution théorique et
empirique. En premier lieu, ce travail permet de tester les différentes théories de productivité
morphologique disponibles. En deuxième lieu, la recherche sert à déduire une corrélation
possible entre les trois mesures de productivité utilisées pour raffiner des données et garantir
une fiabilité des résultats obtenus.
Finalement, comme il n’existe pas de travaux sur la productivité des composés en français,
soit en synchronie, soit en diachronie, cette thèse apporte une contribution empirique dans
l’étude diachronique de la néologie des mots composés français.
10
CHAPITRE 2
Les mots composés : descriptions et théories
2.1 Introduction L’analyse des mots composés par les linguistes du XXe siècle met en valeur les liens
syntaxiques et sémantiques entre les constituants des mots composés. Par exemple, chez le
célèbre grammairien Grevisse (1969), les études sur les composés français sont
essentiellement sémantiques ; il les considère comme des éléments constitutifs qui perdent
leurs sens d’origine et forment avec d’autres éléments lexicaux une nouvelle unité dont la
signification est autonome. Une autre tradition dans l’étude des mots composés est plutôt
d’inspiration syntaxique, mettant l’accent sur les différences qui caractérisent les noms
composés par rapport aux groupes nominaux libres. Parmi les linguistes qui ont étudié le
processus de composition à partir de cette idée, ce point de vue, on peut nommer Martinet
(1967) et Benveniste (1967). Certains linguistes contemporains comme Riegel (1991) et
Anscombre (1991) attirent l’attention sur les problèmes de référence que posent les mots
composés, dans la mesure où ils désignent des concepts préétablis.
Selon la définition de Bauer (1983), quand deux ou plus de deux radicaux pouvant être
utilisés comme bases se combinent, ils forment un autre radical – le mot composé : « A
compound may therefore be more fully defined as a lexeme containing two or more potential
stems that has not subsequently been submitted to a derivational process » (Bauer 1983 : 29).
Le processus de composition d’après Spencer (1991 : 309) représente l’interface par
excellence entre la morphologie et la syntaxe. La composition ressemble à la syntaxe d’avoir
des caractéristiques comme la présence du modifieur de la tête, les relations prédicat-
argument et les relations d’apposition entre les constituants. Du point de vue de la formation
des mots, les constituants du composé ne peuvent pas être séparés par l’insertion d’autres
mots ou de syntagmes.
11
D’après Libben (2006 : 2), la composition est un processus universel fondamental de la
formation des mots. L’étude des mots composés permet d’examiner des caractéristiques
fondamentales de la morphologie et des capacités humaines dans la représentation et le
traitement des mots. Les composés qui sont souvent utilisés (lexicalisés) sont stockés dans la
mémoire et ils sont accessibles comme un tout. Toutefois, cela n’exclut pas la décomposition
morphologique pour ces mots ; la lexicalisation ne coupe pas non plus les relations entre le
composé entier et ses morphèmes constituants. La notion de la maximalisation d’opportunité
(maximization of opportunity) de Libben (2006 : 6) suggère que les deux parties, le mot
composé et ses constituants, doivent être représentés dans le lexique mental en utilisant les
structures morphologiques et les liens vers les représentations monomorphémiques.
L’identification des mots composés et leur distinction des mots simples exigent beaucoup
d’analyse ainsi que l’application de plusieurs tests de validation qui servent à établir la
cohésion du mot composé ou le degré de figement de ses constituants. La notion du degré de
figement a été notée par Gross (1988, 1990) qui montre que le niveau de figement est plus
élevé quand la séquence admet moins de transformations syntaxiques.
Par composition, on entend un certain degré de figement de la relation qui existe entre éléments composants. Dès lors qu'on parle de figement ou de degré de figement, on établit une comparaison, implicite, avec des groupes qui ne sont pas figés, c'est-à-dire avec ce que nous appellerons des groupes nominaux ordinaires. Ainsi nous dirons que ‘une idée reçue’ est un groupe figé, tandis que ‘une idée stupide’ ne l'est pas. (Gross 1988 : 62)
Ainsi, selon Gross (1988 : 69), une structure qui permet toutes sortes de modifications est un
groupe nominal ordinaire (par ex. un livre difficile). Par contre, si aucune des propriétés ne
peut être changée, alors, c’est un cas de figement. D’après Corbin (1992), les noms composés
diffèrent des noms simples par le fait que ces derniers ne peuvent pas être décomposés en
unités plus petites, quelle que soit la nature de ces unités. Ceux qui peuvent être décomposés
sont des noms construits. Parmi ces derniers, on distingue les noms composés et les noms
dérivés ; les composés contiennent des éléments lexicaux qui peuvent être employés de façon
autonome. D’après Corbin (1992), « un mot composé est une unité lexicale complexe
construite par des règles lexicales conjoignant des unités lexicales à pouvoir référentiel »
Corbin (1992 : 28).
12
La définition des mots composés comme étant des structures morphologiques ou syntaxiques
dépend, chez les linguistes, du type de règles utilisées pour générer la formation des mots.
Ces règles relèvent soit du composant morphologique, soit du composant syntaxique. Deux
grands modèles théoriques représentent le statut des mots composés dans la grammaire
générative : le modèle lexicaliste (Di Sciullo 2005 ; Zwanenburg 1992 ; Di Sciullo et
Williams 1987) et le modèle syntaxique (Fabb 1998 ; Lieber 1992, 2004).
Dans le modèle lexicaliste, la formation des mots ne dépend pas de règles transforma-
tionnelles syntaxiques, mais bien du composant lexical. La formation des mots composés est
surtout organisée autour de la notion de la tête morphologique. Dans le modèle syntaxique,
par contre, les règles de la syntaxe sont responsables de la construction des mots composés, à
la fois du point de vue de l’assemblage de leurs constituants que de celui des relations
sémantiques qu’ils entretiennent. Conformément au modèle syntaxique, la construction des
mots composés est organisée autour de la théorie X-barre (quelque peu révisée).
Le présent chapitre a pour objectif de présenter un survol général de deux cadres théoriques
mentionnés ci-dessus en tenant compte de la représentation et du traitement des mots
composés en français. J’examinerai d’abord les différents critères d’identification des mots
composés en français (section 2.2). Ensuite, je discuterai le problème de la détermination de
la base et la notion de la tête morphologique dans la composition (section 2.2.5). Puis, dans
la section 2.3, je rendrai compte de la typologie des composés français. Enfin, je passerai en
revue les études théoriques sur le statut des mots composés, notamment le modèle lexicaliste
de Di Sciullo et Williams (section 2.4.1) et de Zwanenburg (section 2.4.2) en le comparant
au modèle lexico-syntaxique de Lieber (section 2.4.3) et à la théorie de Fabb (section 2.4.4).
Finalement, en conclusion (section 2.5) je présenterai les concepts théoriques retenus.
2.2 Identification des mots composés français L’étude des mots composés français présente parfois des problèmes, particulièrement au
niveau de leur identification. Dans plusieurs cas, il est difficile de distinguer, d’une part, les
mots composés des simplex et des mots dérivés et, de l’autre, des syntagmes et des
expressions idiomatiques. Bauer (1978) soutient que plusieurs composés en anglais, en
danois, en allemand et en irlandais ont pour équivalents des syntagmes nominaux en français.
13
Conformément à Martinet (1985) et Gross (1996), un mot composé possède la même
distribution syntaxique qu’un mot simple : « […] ils se combinent avec les mêmes
déterminants et participent aux mêmes fonctions » (Martinet 1985 : 37). Toutefois, la
distribution des marqueurs morphologiques dans les mots composés diffère de celle dans les
simplex. En composition, contrairement aux structures simples, on remarque de différentes
combinaisons possibles pour ce qui est de la flexion : absence de flexion (des rez-de-
chaussée), flexion du premier constituant (des timbres-poste, des pauses-café), flexions de
deux constituants (des francs-maçons).
La distribution du mot composé est aussi caractéristique par son intégralité : par exemple, on
ne peut pas introduire la négation à l’intérieur d’un mot composé sans que sa distribution ne
soit désorganisée (Gross 1996 : 23). Dans le cas de la composition, les deux morphèmes qui
forment un mot composé sont associés aux deux signifiants libres qui forment un signifié
unique (Martinet 1985 : 37).
L’identification des mots composés est plus difficile en français qu’en anglais (et autres
langues germaniques) parce que, dans la plupart des cas, les constituants y apparaissent dans
le même ordre qu’en syntaxe. Il faut donc trouver une façon de différencier les composés en
(1a, b) des syntagmes et des expressions idiomatiques en (1c, d).
(1) a. après-soin (composé) b. belle-sœur (composé) c. soin après traitement (syntagme nominal) d. cela me fait une belle jambe (expression idiomatique)
Pour identifier les composés, plusieurs tests morphologiques, syntaxiques, phonologiques et
orthographiques ont été proposés dans les travaux de Lees (1960), Levi (1978), Allen (1978 :
cité dans Brousseau 1989 : 23), Bauer (1978), Di Sciullo et Williams (1987), Roeper et
Siegel (1978), Selkirk (1982), Booij (1992). La majorité de ces tests a été regroupée pour les
composées français dans les travaux de Brousseau et Nikiema (2001).
Par conséquent, afin de distinguer les mots composés des syntagmes nominaux en français,
on utilise un certain nombre de critères phonologiques, morphologiques, sémantiques et
syntaxiques qui tendent à établir la cohésion du composé. Si un test fonctionne, alors on
14
considère une forme analysée comme un mot composé. Les tests les plus cohérents pour
distinguer les composés en français sont liés à des critères morphologiques et syntaxiques.
2.2.1 Critères phonologiques et orthographiques
Pour distinguer les composés des simplex et des dérivés, Brousseau et Nikiema (2001)
utilisent le critère « d’autonomie distributionnelle » pour chacun des composants du mot
composé. Selon ce critère, les composés sont formés des morphèmes libres qui peuvent
apparaître en isolation : « Les composés se distinguent des simplex et des mots dérivés en ce
que chacun des morphèmes qui les composent est libre » (Brousseau et Nikiema 2001 :
338)2. Ainsi, les formes en (2) peuvent être identifiées comme des composés parce que
chacun de leurs constituants est un morphème libre :
(2) adapte-couleur, chaise longue, grand-oncle
Toutefois, Brousseau (B et N 2001 : 338) rappelle qu’il faut rendre compte des nombreux
composés à caractère idiosyncratique qui sont devenus des simplex avec le temps (p. ex.
oripeau) et qu’il faut considérer seulement les composés qui ont conservé dans la langue un
statut de mot complexe dont la structure est utilisée dans la formation de mots nouveaux.
Ainsi, Brousseau propose d’utiliser le critère d’opacité phonologique, introduit par Lees
(1960) qui permet d’éliminer les noms figés ou lexicalisés et de distinguer la préfixation de
la composition. Selon ce critère, un mot complexe est un mot composé s’il peut être séparé
en unités phonologiques qui correspondent exactement à des items lexicaux.
2 Un point de vue similaire sur le processus de composition est présenté chez Bauer (2003) qui définit un mot composé comme “ the formation of a new lexeme by adjoining two or more lexemes » (Bauer 2003 : 40). Toutefois, Lieber et Štekauer (2009) parlent de deux raisons pour lesquelles, selon eux, il est difficile de trouver une définition satisfaisante et universellement applicable au composé: « On the one hand, the elements that make up compounds in some languages are not free-standing words, but rather stems or roots. On the other, we cannot always make a clean distinction between compound words on the one hand and derived words or phrases on the other. […] words like overfly and outrun in English must be considered compounds, rather than prefixed forms. There are two problems with this conclusion. First, the status of verbal compounds in English is highly disputed, and these items are clearly verbal. Second, even though over and out also occur as free morphemes in English, the form that attaches to the verbs fly and run behaves rather differently than the first element of a compound. ” (Lieber et Štekauer 2009 : 2-4)
15
En conséquence, les mots en (3 a-b) passent ce test parce que chaque unité phonologique du
composé correspond exactement à un item lexical de la langue, ce qui n’est pas le cas des
mots en (3 c-d) :
(3) a. contrecoup /k ntrəәku/ b. arc-en-ciel /arkãsjεl/ c. oripeau /ɔripo/ vs dorée peau /dɔre po/ d. vinaigre /vinɛgr/ vs vin aigre /vɛ ̃/ /ɛgr/
L’analyse des formes en (3) révèle les mots composés contrecoup et arc-en-ciel en (3a-b) qui
peuvent être séparés en unités phonologiques correspondant précisément à des items
lexicaux3. Par contre, oripeau et vinaigre en (3c-d) ne peuvent pas être décomposés en unités
qui correspondent synchroniquement à des items lexicaux tels qu’ils apparaîtraient dans les
syntagmes équivalents dorée peau et vin aigre.
En français, la présence d’un trait d’union est un indice clair du statut de mot composé en
contraste avec le syntagme nominal. Ainsi les groupes comme passe-temps et robe-houppette
sont clairement considérés comme mots composés. Toutefois, les cas où les composés
formés à partir d’un même élément possèdent (4a, c) ou non (4b, d) le trait d’union ne sont
pas rares (Béchade 1992 : 140).4
(4) a. arc-en-ciel b. arc de triomphe c. nouveau-né d. nouveau riche
3 Lieber et Štekauer (2009) pensent qu’au moins en anglais, l’accent peut être considéré comme un critère
phonologique pertinent pour l’identification des composés. En anglais, dans la plupart de cas, l’accent dans les mots composés tombe sur le constituant gauche, alors que dans les phrases syntaxiques c’est la tête, ou le constituant droit, qui est accentué. Néanmoins, il y a parfois des exceptions: “What we are forced to conclude is that for English, at least, left-hand stress is often a mark of compound, but certainly cannot be taken as either a necessary or a sufficient condition for distinguishing a compound from a phrase. […] There are phrases with left-hand stress and compounds with right-hand or double stress. We therefore need to look at other criteria that have been proposed for identifying compounds.” Lieber et Štekauer (2009 : 12) 4 Lieber et Štekauer notent qu’en anglais l'orthographe des composés est aussi relativement incohérente : “[…]
the orthography of English compounds is notoriously inconsistent : some compounds are written as single words (postcard, football), in others the constituents are hyphenated (sound-wave, tennis-ball), and in still others the constituent elements are spaced off, i.e. written as two separate words (blood bank, game ball). […] Some compounds occur in all three variants: flowerpot, flower-pot, flower pot.” (Lieber et Štekauer 2009 : 7)
16
2.2.2 Critères morphologiques
Comme nous l’avons vu dans la section précédente, si la présence du trait d’union peut être
considérée comme un indice fiable dans la reconnaissance des mots composés, son absence
ne nous révèle rien. Ainsi, plusieurs critères morphologiques ont aussi été proposés dans les
travaux de Béchade (1992), Gross (1996), Liber (1992), Martinet (1985), Riegel (1988).
Selon Lieber (1992), le premier élément du composé ne peut pas occuper la même position
dans le syntagme nominal ou adjectival :
[…] compounds frequently have items as their first elements which could not occur prenominally in a noun phrase, preadjectivaly in an adjective phrase, and so on. For example, nouns do not occur in the pre-head position either in NPs or APs, so where they appear in these positions it must be within compounds (e.g. file cabinet, sky blue, etc.). (Lieber 1992 : 13)
Lieber souligne aussi que pour certaines langues, les composés peuvent être distingués des
syntagmes par le fait que, dans un mot composé, l’élément non-tête reste non conjugué,
tandis qu’il doit être conjugué dans le syntagme (Lieber 1992 :13).
Gross (1996 : 32), à son tour, montre que dans le cas d’un syntagme nominal, chaque nom
peut avoir un modifieur (déterminant, dans la terminologie de Gross) alors que dans un mot
composé la modification porte sur l’ensemble de la structure figée.
(5) a. le livre de mon frère, l’intéressant livre de mon frère (syntagmes) b. le livre d’or (mot composé) c. *le livre épais d’or, *le livre d’or jaune (structures agrammaticales)
En élaborant plusieurs points de vue sur la structure morphologique des mots composés,
Brousseau (B et N 2001 : 339-341) propose les trois critères morphologiques suivants pour
faciliter l’identification des mots composés en français.
D’après le premier critère, le modifieur dans un composé peut apparaître seulement dans une
position déterminée (6a), tandis que dans un syntagme nominal ou adjectival il peut
occuper une autre place (6b).
17
(6) a. Composés b. Syntagmes après-soin N soin après traitement SN sud-africaine A africaine du sud SA amour-propre N amour qui est propre SN
Ainsi, le modifieur ‘après’ en (6a) peut être employé seulement dans de la position initiale
du composé, tandis que dans le syntagme nominal en (6b) il apparaît après le nom ‘soin’.
Selon le deuxième critère, les items lexicaux mineurs comme les prépositions et les
conjonctions qui font partie des syntagmes ne sont pas toujours présents dans les mots
composés :
(7) a. Composé b. Syntagme une construction [resto-bar]N une construction de [restaurant et bar]SN un soin [musico-cérebral]A un soin [musical et cérébral]SA
Finalement, conformément au troisième critère morphologique, le déterminant est souvent
absent dans les mots composés.
(8) a. Composés b. Syntagmes porte-serviettesN support recevant des serviettes pianiste-vedetteN pianiste qui est la vedette lève-glaceN mécanisme dans la voiture qui lève la glace
À la différence des autres langues romanes et germaniques, où il n’y a généralement pas
d’accord de genre ou de nombre, ni de marqueur de cas entre les deux éléments d’un
composé ; la plupart des composés français construits d’un adjectif et d’un nom s’accordent
en genre5.
(9) femme fatale, bande dessinée, produit vert
L’accord en nombre dans les composés français n’est pas régulier. Dans la plupart des
composés, c’est le sens qui détermine si le modifieur dans le composé doit apparaître au
singulier ou au pluriel :
5 Bauer (2003 : 41) montre qu’en général, il n’y a pas de marque d’inflexion entre les constituants des mots
composés. Toutefois, les cas où ce phénomène est présent peuvent être trouvés dans les langues danoise, finlandaise, turque, islandaise, etc.
18
(10) a. Singulier b. Pluriel une coupe de cheveux des coupes de cheveux (une coupe ou des coupes différentes des cheveux du client) une école de redressement des écoles de redressement (une école ou des écoles où on fait le redressement)
Pour cette raison, le critère d’accord en genre et en nombre ne peut pas être considéré comme
un test fort pour identifier correctement un mot composé en français.
2.2.3 Critères sémantiques
À partir des années 1960, les linguistes commencèrent à analyser consciencieusement la
question de l’interprétation sémantique des composés et celle des relations sémantiques entre
ses constituants (Lees 1960 ; Levi 1978 ; Lieber 1992 ; Zwanenburg 1991, 1992 ; Di Sciullo
et Williams 1987). Ces recherches, basées surtout sur les relations prédicat-argument,
contribuèrent beaucoup à la compréhension de la différence entre les mots composés et les
structures syntaxiques6.
Parmi les critères sémantiques permettant de faire une distinction claire entre les composés et
les structures syntaxiques, il faut mentionner les indices présentés chez Brousseau (B et N :
2001) qui, à leur tour, sont basés sur deux tests d’inhérence, introduits par Bauer (1978). Les
tests d’inhérence découlent d’une caractéristique importante de la relation entre les deux
éléments d’un composé, où l’élément modifieur doit être considéré en tant que propriété
inhérente de la tête du composé.
Le premier test d’inhérence postule qu’ « une suite [N-N] ou [A-N] est un composé si le fait
de modifier le composé par un antonyme de son modifieur interne n’entraîne pas de
contradiction » (B et N 2001 : 342). Ce test permet d’identifier les mots en (11) traitement-
choc et court-métrage comme des composés. Même si le modifieur externe (ordinaire, long)
6 L’une des recherches fondatrices sur les relations sémantiques entre les éléments du composé a été faite par
Levi (1978) qui a proposé le système de Recoverably Deletable Predicates. Ce système inclut neuf prédicats (CAUSER, AVOIR, FAIRE, ÊTRE, UTILISER, POUR, DANS, DE, À PROPOS DE) qui correspondent aux neuf interprétations sémantiques potentielles entre les éléments du composé. Ce système est devenu la base de plusieurs expériences psycholinguistiques dans le domaine de la composition.
19
et le modifieur interne (choc, court) sont des antonymes, l’expression est sémantiquement
correcte : elle ne contient pas de contradiction.
(11) a. un [traitement-choc] banalN b. un long [court-métrage]N
D’après le deuxième test d’inhérence, « une suite [N-N] ou [A-N] est un composé si l’ajout
d’une phrase complétive exprimant le caractère temporaire de la propriété exprimée par le
modifieur interne du composé entraîne une contradiction » (B et N 2001 : 342). Le deuxième
test identifie comme des composés les mots département-beauté et double personnalité dans
les exemples en (12b) et (13b). Les deux syntagmes en (13a) et (14a) sont considérés comme
contradictoires parce que la phrase complétive s’oppose au caractère permanent évoqué par
le modifieur interne. Les syntagmes en (b) sont corrects du point de vue sémantique parce
que le modifieur ne représente pas une propriété permanente.
(12) a. * C’est un département-beauté qui vend parfois des soins de beauté. b. Ce département de produits de beauté vend du linge de maison le samedi.
(13) a. *Sa personnalité-double est unique maintenant. b. Sa personnalité est double maintenant ; demain elle sera unique.
Dans les composés département-beauté et double personnalité, les modifieurs internes
(beauté, double) représentent des propriétés inhérentes des têtes (département, personnalité)
de ces composés. Ainsi, les phrases en (13a) et (14a) sont mal formées parce que les
syntagmes modificateurs (qui vend parfois des soins de beauté et est unique maintenant)
s’opposent au caractère permanent évoqué par les modifieurs internes (beauté, double).
Il est à noter que les deux tests d’inhérence peuvent être considérés comme des tests solides
pour identifier les mots composés, mais ils sont parfois difficiles à utiliser.
2.2.4 Critère d’atomicité syntaxique
Bauer (1978 : 54) avait déjà noté que le mot composé est traité dans la syntaxe comme une
seule unité, et non en tant que séquence de deux unités distinctes. Ainsi, la modification ou la
coordination des constituants dans les composés N-N ne sont pas permises. Par exemple,
dans le composé a bank note, toute modification d'un élément du composé en (14b) ou la
20
conjonction entre ses constituants en (14c) entraînent la modification de toute la structure qui
devient mal formée.
(14) a) a bank note b) *a bank red note/ *a [red bank] note c) *a bank and an office note
Le critère d’atomicité syntaxique a été précisé par Di Sciullo et Williams (1987 :19) qui ont
indiqué que les règles de la syntaxe ne peuvent pas accéder à la structure des mots, qu’ils
soient construits par dérivation ou par flexion.
Ainsi, conformément à la théorie de l’atomicité syntaxique, les composés sont des atomes
syntaxiques, c’est-à-dire des structures opaques, indécomposables pour la syntaxe. À partir
de certains travaux, notamment ceux de Di Sciullo et Williams (1987), Brousseau (B et N
2001) a élaboré une théorie en fonction des composés français en proposant trois tests
d’atomicité syntaxique permettant de les distinguer clairement des autres structures
syntaxiques. Ces tests sont formulés comme suit (B et N 2001 : 436) :
Une forme complexe est un mot si :
a) les éléments qui la composent ne peuvent être conjoints ;
b) ces éléments ne peuvent être remplacés par une anaphore ;
c) ces éléments ne peuvent être modifiés.
Le test d’atomicité syntaxique en (a) postule que l’insertion d’une conjonction entre les
éléments du composé est impossible. Ce test permet d’identifier comme des composés les
formes robe de bal et robe de mariée en (15a) puisque la conjonction des composants bal et
mariée génère une construction agrammaticale, comme le montre (15b). La conjonction est
possible seulement entre les structures syntaxiques.
(15) a. robe de bal, robe de mariée b. * Ma sœur a essayé des robes de bal et de mariée.
Le deuxième critère du test d’atomicité syntaxique en (b) stipule qu’on ne peut pas remplacer
un élément du composé par une anaphore. Ce test identifie des fards à paupières et des fards
à joues en (16a) comme des mots composés. En effet, la proposition ‘j’en utilise à joues’ en
(16b) est agrammaticale du fait que l’antécédent de en se trouve dans un mot.
21
(16) a. J’utilise des fards à paupières et j’utilise des fards à joues. b. * J’utilise des fardsi à paupières et j’eni utilise à joues.
Enfin, le troisième test d’atomicité syntaxique montre que les éléments du mot composé ne
peuvent être modifiés. Pour appliquer ce test, il suffit d’insérer un ou plusieurs items
lexicaux entre les deux constituants d’une structure bien formée. Si la structure est toujours
bien formée, il s’agit d’une structure syntaxique. Si la structure devient mal formée, il s’agit
d’un atome syntaxique, d’un mot composé.
Ce test permet d’identifier les structures porte-avions et fer à repasser en (17a) comme étant
des mots composés parce que l’insertion des items lexicaux gros en (17b) et bien en (17c) les
transforme en structures mal formées.
(17) a. porte-avions, fer à repasser b. * Les pilotes utilisent un porte-gros-avions comme base d’atterrissage. c. * Mon père a réparé un fer à bien repasser.
Il est à noter que, le critère d’atomicité syntaxique est le critère par excellence pour identifier
les mots composés par rapport aux syntagmes.
2.2.5 Tête et base dans les mots composés
La question de l’identification de la tête dans les mots dérivés et composés a été discutée
dans plusieurs travaux théoriques (Bauer 19987 ; Booij 2005 ; Fabb 1998, 2005 ; Lieber
1992, 2009 ; Plag 2006 ; Zwanenburg 1992). Le cadre théorique développé par Brousseau
(B et N 2001 : 246) adopte les deux critères suivants pour identifier la tête en composition.
En premier lieu, la tête est un élément qui possède les mêmes traits catégoriels que le mot
composé ; elle détermine la catégorie, et s’il y a lieu, le genre et le nombre du composé8. En
deuxième lieu, la tête est un hyperonyme du composé (le composé est un hyponyme de la
tête). L’hyponymie (voir Leech 1974 et Miller 1978, 1999) est un rapport d’inclusion :
7 Bauer (1998) suggère que la notion de la tête peut être utilisée comme un test pour différencier les mots composés des syntagmes. Dans le cas du composé black bird, il indique : “In a phrase, it should be possible to replace the head noun with one, but not in a compound. So a black one can refer to our crow, but a blackone cannot be our Agelaius.” (Bauer 1998 : 77) 8 Dans sa thèse consacrée au recensement et à la description des mots composés dans les dictionnaires
électroniques, Savary (2000 : 26) définit aussi la tête d’un mot composé comme un constituant qui a les mêmes traits morphologiques que le mot composé lui-même.
22
Hyponymy is a semantic relation describing the inclusion of one class in another. Semantic intuitions about hyponymy can be tested by sentences like x is a y or x is a kind of y. In terms of class inclusion, considering that the class of animals includes the subclass of dogs, “dog” is a hyponym of “animal” [and “animal” is a hypernym (or superordinate) of “dog”]. (Miller 1999 : 7)
La notion d'hyponymie a été élaborée chez Brousseau (1989 ; 2001) pour identifier la tête
dans les mots composés : « En morphologie, la tête d'un mot complexe est le constituant dont
le mot est un hyponyme (Brousseau 1989 :17). Ainsi, le composé bande-annonce est un
hyponyme de la tête morphologique bande (une bande-annonce est une bande). La tête du
composé (bande) est un hyperonyme du mot, c’est-à-dire qu’elle représente un terme
générique dont le sens comprend celui plus spécifique (bande-annonce). En conséquence, les
composés endocentriques (composés qui ont une tête morphologique) doivent respecter les
deux critères de la définition de la tête (B et N 2001 : 347). Le critère d’hyponymie est en
effet nécessaire pour identifier la tête dans les composés binominaux, comme bande-
annonce, où chaque constituant est de même catégorie (et de même genre) que le mot
composé.
Malgré le fait qu’aucun des constituants du composé exocentrique ne remplit les fonctions de
la tête morphologique, leur tête logique9 se trouve à l’extérieur du mot composé. Donc, une
claire-voie est une clôture ou une rangée de hautes fenêtres qui laissent passer des rais de
lumière. Un pied-bleu est un soldat qui porte des guêtres bleues.
Un autre aspect qui soulève beaucoup de discussions parmi les chercheurs est celui de la base
morphologique en composition. Actuellement, dans les travaux linguistiques, il n'existe pas
de consensus sur la notion de la base dans les mots composés. Cette notion est plus
clairement identifiée dans le domaine de la dérivation, c’est-à-dire pour les mots formés par
affixation. Par exemple, Bauer (1983 : 20) définit la base en dérivation comme suit : « A
base is any form to which affixes of any kind can be added ». Spenser (1991) considère une
base comme une unité morphologique à laquelle les autres morphèmes peuvent s’attacher
pour former des formes flexionnelles, des dérivés et des composés :
9 La notion de la tête logique des composés exocentriques dont les propriétés sont présentées dans l’entrée
lexicale du composé a été discutée chez Brousseau et Nikiema (2001 : 351).
23
I shall try to use the term root to refer to a single morpheme which bears the 'core' meaning of a word. The term stem will be reserved for that part of a word to which inflectional affixes are added, and base for that part to which any other morpheme is added (inflectional, derivational, compound). (Spencer 1991 : 461)
Dans le processus de dérivation, la base est une racine ou un morphème libre auquel peuvent
se joindre des affixes différents. Dans la plupart des modèles théoriques, il existe une relation
binaire entre la base et un affixe : à chaque niveau de dérivation, un mot dérivé est toujours
formé d’une seule base et d’un seul affixe. Dès que le dérivé est formé, il peut être utilisé de
nouveau comme base pour construire une nouvelle forme dérivationnelle à l’aide d’un autre
morphème (B et N 2001 : 213). Dans les exemples en (18), la base est identifiée par le
soulignement :
(18) a. music-al → musical-ité b. trans-form → transform-ation
Ainsi, la base du mot dérivé est un morphème libre alors que l’affixe est un morphème lié.
Le suffixe remplit généralement la fonction de tête (soulignée en (19)), portant les
caractéristiques syntaxiques et sémantiques du mot :
(19) penseurN
pensV eurN
Tout type de procédé morphologique dérivationnel (suffixation, préfixation) impose à la base
sélectionnée des contraintes phonologiques, morphologiques, sémantiques ou lexicales.
Bauer (2001 : 139) montre que seules les bases qui respectent ces contraintes peuvent
fonctionner comme bases potentielles pour un processus morphologique particulier.
Ainsi, en dérivation, la notion de la base morphologique possède les propriétés suivantes :
(20) Propriétés de la base dans les dérivés a. La base est un morphème libre ou une racine ; b. La base n'est pas la tête morphologique (dans la plupart des cas) ; c. Dans le mot dérivé, il y a seulement une base.
Théoriquement, et en prenant comme point de départ les propriétés de la base dans les mots
dérivés en (20), la base dans un composé peut être identifiée de deux façons possibles,
24
illustrées en (21) (le soulignement identifie la/les bases). Selon la première variante, on
considère comme la base le morphème libre qui n’est pas la tête du composé (cuisine en
(21a)) par analogie avec la base d’un mot dérivé (où l’affixe est la tête). Selon la deuxième
variante, on considère comme bases tous les morphèmes libres (fiche et cuisine en (21b)) par
analogie avec la base d’un mot dérivé qui est un morphème libre ou une racine (le radical du
mot)10 :
(21) a. fiche-cuisineN b. fiche-cuisineN
ficheN cuisineN ficheN cuisineN
- base + base + base + base
En analysant la productivité morphologique des composés néerlandais et allemands, Krott et
al. (1999) considèrent, mais sans le justifier, que chaque constituant d’un composé est une
base, comme en (21b) ci-dessus.
Nous verrons dans le chapitre 4 (section 4.3.3), que la notion de la base dans les mots
composés est très importante lorsqu’on mesure la fréquence relative des mots dérivés. Cette
mesure, proposée par Hay (2003) pour les mots dérivés, est calculée d’après la corrélation
entre la fréquence du mot complexe et celle de la base. En estimant la fréquence de la base
des composés, j’utiliserai les deux options de la base présentées en (21) puisqu’il n’y a pas
de motif théorique justifiant l’adoption d’une version de la base plutôt que l’autre.
2.3 Typologie des mots composés français En ce qui concerne la typologie des mots composés, Fabb (1998) et Lieber (1992, 2004)
suggèrent que chaque langue doit déterminer son inventaire de combinaisons possibles.
Toutefois, en suivant Lieber et Štekauer (2009), Bauer (2009) parle du fait que la question de
la typologie des mots composés n’est pas facile à cause des problèmes liés à l’identification
correcte des composés.
10
En ce qui concerne les composés primaires à trait d’union formés à l’aide des prépositions à et de, ces prépositions ne sont pas des constituants majeurs du composé. Ainsi, un composé bain à pied peut être analysé comme structure comportant une ou deux bases, pas trois.
25
There may be orthographic, phonological, morphological, syntactic or semantic ways of defining what a word is, and some of these will be reinterpreted in later discussion here as ways of being sure that we are dealing with compounds. (Bauer 2009 : 542)
En fait, il apparaît que la typologie des mots composés français varie selon les quatre axes
suivants (Béchade 1992, Gross 1996, B et N 2001) :
- la présence d’une tête morphologique : les composés endocentriques versus les composés
exocentriques ;
- la structure prédicat-argument explicite : les composés synthétiques versus les composés
primaires ;
- la formation selon des règles propres au français : les composés indigènes versus les
composés savants ;
- la transparence sémantique : les composés réguliers versus les composés irréguliers.
Selon le premier axe ci-dessus, la présence ou l’absence d’une tête morphologique explicite
permet de distinguer : les composés endocentriques ayant une tête morphologique explicite
(papier-musique, lunettes-soleil, appareil-photo) et les composés exocentriques, sans tête
morphologique explicite (reine-claude, gros-jean, table ronde).
À son tour, parmi les composés endocentriques, on peut établir une distinction
supplémentaire en fonction de la position de la tête : à gauche (22c, d) ou à droite (22a, b). Il
est à noter qu’en français, la tête des composés endocentriques est située préférablement à
gauche.
(22) a. beaux-arts b. sous-estimation c. café-concert d. firme-conseil
En se basant sur les relations prédicat-argument, le deuxième axe fait la distinction entre les
composés synthétiques et les composés primaires. Ainsi, les composés synthétiques en (23)
contiennent une tête déverbale. Leur sémantique est basée sur la structure argumentale de la
tête (p. ex. porte) ; l’élément non-tête (p. ex. avions) joue le rôle d'argument interne du verbe
26
dont la tête est dérivée. Contrairement à l’anglais, le français possède très peu de composés
synthétiques.
(23) massage dorsal, porte-avions
À leur tour, les composés primaires en (24) sont formés avec des constituants qui ne sont pas
impliqués dans une relation prédicat-argument explicite.
(24) petit-four, réseau familial
Le troisième axe est orienté sur les différents systèmes de formation des mots composés.
Deux groupes de composés y sont présentés : les composés indigènes et les composés
savants. Le groupe de composés indigènes comme en (25), inclut les structures où chacun
des constituants est un item lexical du français.
(25) après-guerre, haut-parleur, marchand-conseil
Par contraste, le groupe de composés savants comme en (26), regroupe des formes où un des
constituants est un morphème grec ou latin. Dans les composés savants, la tête
morphologique se trouve à droite.
(26) bio-enthousiaste, polydépendance
Du point de vue de leur formation, plusieurs formes savantes sont considérées ambiguës à
cause du statut plus ou moins autonome des morphèmes comme bio-, anti-, ex-, mi-, non-,
etc. qui peuvent être analysés comme des préfixes ou comme des morphèmes libres. Ces
types de formes savantes sont considérés par certains linguistes comme des composés
(Chung 2006 ; Assink et Sandra 2003).
Finalement, la typologie des composés selon le quatrième axe est centrée sur la transparence
sémantique et la compositionnalité des composés. Par exemple, les composés en (27) sont
des composés réguliers puisque leur signification est compositionnelle et que leurs propriétés
sémantiques (et également syntaxiques) peuvent être déduites des propriétés de leurs
constituants.
(27) adapte-couleur, piste de danse
27
Par contre, la signification des composés irréguliers ne peut pas être générée en assemblant
tout simplement des propriétés sémantiques et syntaxiques de leurs éléments (cf. (28)). Les
composés irréguliers doivent être stockés dans le lexique puisque leurs propriétés ne sont pas
dérivables.
(28) reine-claude, trique-madame, coup de barre
La théorie de la morphologie dérivationnelle ne s’intéresse qu’aux composés réguliers, soit
ceux dont les propriétés découlent de leur structure morphologique. Toutefois, l’objet de ma
recherche est l’étude des mots composés réguliers et, pour un certain type de composés (les
exocentriques), des irréguliers. Les types de composés qui ne sont pas formés par des
processus de composition propres au français ont été éliminés : les composés savants (p. ex.
polydépendance, hypo-allergénique) et les emprunts (p. ex. sweetshop, horse-guard).
2.4 Les modèles théoriques des mots composés Le phénomène de la composition a été examiné selon les différents aspects morphologiques,
syntaxiques et sémantiques dans les travaux linguistiques à partir du XIXe siècle
(Darmesteter 1875 ; Meunier 1875). Les travaux récents en morphologie ont démontré un
intérêt nouveau pour le concept de composition dans des langues différentes (Bauer 1978 ;
2008 ; Booij 2005 ; Brousseau 1989 ; Chung 2006 ; Estopà 2009 ; Fernández-Domínguez
2009 ; Bauer et Renouf 2001). Toutefois, malgré que le nombre de langues où la composition
fait l’objet d’une description se soit accru, la majorité de travaux théoriques dans le domaine
de composition est basée sur l’anglais. Le phénomène de la composition en français reste un
champ de recherche moins exploré (Corbin 1992 ; Gross 1996 ; Mathieu-Colas 1994 ; Savary
2000 ; Villoing 2002 ; Zwanenburg 1992).
En analysant les mots composés, les linguistes essaient de trouver une ligne de démarcation
entre la syntaxe et la morphologie. Par conséquent, deux positions différentes sont
regroupées autour des deux cadres théoriques suivants : le cadre lexicaliste (Corbin 1992 ; Di
Sciullo 2005 ; Selkirk 1982 ; Zwanenburg 1992 ; Di Sciullo et Williams 1987) et le modèle
syntaxique (Fabb 1998 ; Lieber 1992, 2004 ; Roeper 1988).
28
D’après le modèle lexicaliste, la formation des mots ne dépend pas de règles syntaxiques ;
c’est le composant lexical qui est au centre de la construction des mots composés. Par contre,
les représentants du camp syntaxique envisagent les mots composés comme des structures
syntaxiques. Ils attribuent un grand rôle aux règles syntaxiques qui, selon eux, participent au
processus de composition et aux relations sémantiques entre les constituants du composé.
La présente section a pour but d’examiner des modèles génératifs de mots composés élaborés
pendant les vingt dernières années et leur application à l’étude du processus de la
composition en français. Une attention particulière sera portée aux composés V-N qui, selon
les différents modèles théoriques appliqués, présentent souvent des problèmes d’analyse.
2.4.1 Le modèle lexicaliste de Di Sciullo et Williams (1987) et Di Sciullo (2005)
L’approche théorique de Di Sciullo et Williams (1987) et Di Sciullo (2005) se trouve dans le
cadre lexicaliste qui envisage la morphologie comme un domaine autonome générant les
mots construits et les mots composés11. D’après ce modèle, la grammaire comprend entre
autres deux « sous domaines», la morphologie et la syntaxe, qui diffèrent entre elles par la
classe des unités mises en œuvre et les règles qu’elles utilisent12.
La notion pertinente qui distingue cette approche du modèle syntaxique est « l’atomicité
syntaxique » qui postule le rôle autonome des composants morphologiques et syntaxiques
dans la construction des mots. D’après cette théorie, les règles de la syntaxe ne touchent pas
la structure des mots, qu’ils soient formés par dérivation ou par flexion (Di Sciullo et
Williams 1987 : 18-19). Il est à noter que l’application de la théorie de «l’atomicité
syntaxique » est extrêmement importante quant à l’identification des mots composés parce
qu’elle permet de distinguer les noms composés des groupes nominaux ou d’autres
syntagmes. Di Sciullo et Williams (1987) soulignent que le principe de l’atomicité
11
La première formulation de l’hypothèse lexicaliste (Lexicalist Hypothesis) est apparue chez Chomsky (1970 : 188). Néanmoins, il n’y discute pas directement la composition et plusieurs questions concernant la structure du lexique sont restées en suspens. 12
Di Sciullo et Williams (1987) ne spécifient pas la classe des unités formées, en se limitant par l’énonciation des différences entre la syntaxe et la morphologie.
29
syntaxique est appliqué aux mots, et seulement aux mots, qu’ils soient composés ou affixés :
« […] the rules of formation for words are a coherent whole, and the rules of formation for
phrases are another coherent whole. […] Words are opaque to syntactic descriptions and
operations, but phrases are not. » (Di Sciullo et Williams 1987 : 19)
Ainsi, en suivant la notion de l’atomicité syntaxique, le processus d’identification des mots
composés doit prendre en compte les faits ci-dessous :
a) En premier lieu, en anglais, les mots composés diffèrent des syntagmes du fait que les
composés sont des formes à tête finale (comme les dérivés affixés), alors que les syntagmes
ne le sont pas (Di Sciullo et Williams 1987 : 53). Par contre en français, la majorité de
composés sont des structures à la tête initiale.
b) En deuxième lieu, on ne peut pas réordonner la place des constituants de composés sans
que la structure ne devienne mal formée (*) ou reçoive une différence d'interprétation (≠)
comme en (29). Le caractère non réversible des constituants d'un composé suit la théorie de
l'Asymétrie Stricte de la Morphologie, selon laquelle l'asymétrie est la propriété
caractéristique des relations morphologiques (Di Sciullo 2005 :15).
(29) a. a movie producer / *a producer movie b. rail road / ≠ a road rail c. blue gray / ≠ a gray blue
c) Finalement, le processus de la composition morphologique est organisé autour de la notion
de tête. Ainsi, la composition utilise des règles morphologiques de formation de mots (Di
Sciullo et Williams 1987 : 23) et la RHR (Right-hand Head Rule) est une règle universelle.
Definition of «headF » (read : head with respect to the feature F) : The headF of a word is the rightmost element of the word marked for the feature F. (Di Sciullo et Williams 1987 : 26)
Ainsi, selon cette définition, la tête morphologique dans le mot composé suit les règles
suivantes (Di Sciullo et Williams 1987 : 24) : 1) elle est localisée à droite, comme les
suffixes ; 2) elle détermine la catégorie et le pluriel du mot composé, et éventuellement,
30
d’autres traits catégoriels ; 3) elle rend compte des généralisations d’ordre argumental et
sémantique13.
Cependant, la notion de la RHR de Di Sciullo et Williams entre en contradiction avec la
structure des mots construits dont l’élément à droite ne répond pas aux propriétés d’une tête
(par ex., les composés dans les langues romanes, en vietnamien, etc.). Pour résoudre ce
problème, Di Sciullo et Williams (1987) proposent la notion de la tête relativisée (relativised
head) qui détermine la position de la tête morphologique en respectant la structure
argumentale du mot composé.
The headF of a word T is the X-most element of the word marked for feature F. Parameter : X-most : initial/final position. (Di Sciullo et Williams 1987 : 62)
La notion de tête relativisée permet aussi à un mot d’avoir plusieurs têtes, où chaque tête est
marquée pour un trait particulier : « The notion « relativized head » permits the possibility
that words could have two heads, a head F1 and a head F2, where F1 and F2 are different
Features » (Di Sciullo et Williams 1987 : 26).
En tenant compte du fait que les règles syntaxiques ont accès au statut catégoriel et à la
structure argumentale des unités lexicales en assignant le rôle-théta, la structure argumentale
d’un mot composé doit suivre les règles suivantes (Di Sciullo et Williams 1987 : 62) :
a) La non-tête peut, mais ne doit pas satisfaire un argument de la tête.
b) La non-tête ne peut pas satisfaire l’argument externe de la tête.
c) L’argument de la non-tête ne fait pas partie de la structure argumentale du
composé.
d) Seulement l’argument externe (l’argument R)14 de la tête fait partie de la structure
argumentale du composé.
13
Di Sciullo et Williams indiquent (1987 : 32) que le rapport argumental entre les éléments tête et non-tête se produit d’une manière différente en composition et en dérivation. En dérivation, l’élément non-tête ne satisfait pas un rôle-thêta de la tête ; alors, la tête (un affixe) établit le lien avec sa non-tête à l’aide de la notion de la « composition fonctionnelle ». Par contre, en composition, la relation entre les constituants tête et non-tête se réalise par assignation du rôle-thêta.
31
Par exemple, le composé destruction story peut être interprété comme une histoire à propos
de la destruction. Dans ce cas-là, l’élément non-tête destruction en (30) satisfait l’argument
Thème de la tête story, conformément à la règle en (a) ci-dessus :
(30) destructioni story (R, A, Th) (R, A, Thi)
Le nom composé destruction story a un seul argument Agent disponible : celui qui raconte la
destruction.
Ensuite, l’exemple en (31) illustre la règle en (b). La structure est agrammaticale parce que
l’argument externe du verbe sleep est satisfait par la non-tête du composé (boy) :
(31) It was *boy-slept
En ce qui concerne la règle en (c), elle est mise en lumière par l’exemple en (32) où
l’argument de la non-tête destruction (city), ne pouvant pas faire partie de la structure
argumentale du composé, entraîne l’agrammaticalité de la construction.
(32) the *destruction-story of the city signification : l’histoire de la destruction de la ville
Finalement, l’exemple en (33) (Di Sciullo et Williams 1987 : 32) représente la règle en
(d) qui dit que seulement l’argument externe (l’argument R) de la tête fait partie de la
structure argumentale du composé.
(33) *tree-eating of pasta
Il ressort que la structure en (33) est agrammaticale parce que la structure du composé
comporte seulement l’argument R. En conséquence, le complément pasta ne peut pas être
interprété comme un argument (Thème) du composé. L’argument interne de la base verbale
eating ne peut pas passer au-delà de la première projection et doit donc être satisfait à
l’intérieur du composé. Néanmoins, la structure pasta-eating in trees est grammaticale parce
que l’argument interne pasta (Thème) est satisfait à l’intérieur du composé.
14
L’argument externe R correspond à la propriété référentielle du nom. Dans la phrase « John is a fool », le prédicat fool possède un argument R qui est satisfait par le R de John (prédication).
32
En d’autres termes, en composition, les propriétés argumentales peuvent être dissociées en
deux types différents (Di Sciullo et Williams 1987 : 30) : a) des propriétés représentant la
relation argumentale entre les éléments du composé ; b) des propriétés qui se rapportent à la
structure argumentale du composé lui-même.
En ce qui concerne les différentes relations fonctionnelles entre les constituants de composés,
Di Sciullo (2005 : 16) suggère que les composés primaires (root compounds) représentent
des relations de modification (34a) ; les composés synthétiques (34b) forment des relations
prédicat-argument et les composés dvandva (ou appositionnels) en (34c) sont établis par
l'apposition de deux constituants, où chaque élément contribue également à l'interprétation
du composé.
(34) a. catfish b. cigar cutter c. learner driver
Selon Di Sciullo (2005 : 19), la formation des composés en anglais et en français est
différente. Les composés anglais peuvent être formés seulement au niveau morphologique
DM tandis que les composés français peuvent aussi bien être construits au niveau syntaxique
DS. Ainsi, les composés français ont une structure interne de syntagme. Dans les composés
primaires, le modifieur (souligné dans les exemples en (35)) peut suivre la tête (35a, b, c) de
la même façon qu’en syntaxe française. Par contre, en anglais, le modifieur précède la tête
(35d, e, f).
(35) a. poisson chat d. catfish b. gris pâle e. pale gray c. papier à lettres f. letter paper
La position des adjectifs dans les mots composés illustre très bien la différence entre la
formation DM
/DS en anglais et en français. Dans la syntaxe française, l’adjectif peut suivre
ou précéder le nom ; dans les composés français, en général, l’adjectif suit le nom (36a). Par
contre, dans les syntagmes anglais, les adjectifs précèdent le nom. Dans les composés
anglais, ils se trouvent dans la position finale en tant que têtes (36b) ou dans la position
prénominale s’ils ne remplissent pas des fonctions de têtes (36c) (Di Sciullo 2005 : 20).
33
(36) a. peau-rouge b. sky blue, powder blue c. red snapper, black eye
Finalement, les composés français peuvent inclure des constituants syntagmatiques VP, PP,
AP ou NP, soutenant ainsi l’hypothèse qu’ils étaient formés en DS et transférés en DM (Di
Sciullo 2005 : 21).
(37) a. trompe-la-mort b. dur à cuire c. homme de paille d. chemin de fer
En conclusion, l’approche de Di Sciullo et Williams (1987) pose que la construction des
unités par des règles morphologiques est ordonnée autour de la notion d’une tête de la même
façon que les syntagmes construits par la syntaxe. En ce qui concerne la formation des mots
composés, le principe de l’atomicité syntaxique et la notion de la tête morphologique sont
des facteurs extrêmement importants lors de l’identification des mots composés parce qu’ils
permettent de distinguer les noms composés des groupes nominaux ou d’autres syntagmes.
2.4.2 Le modèle des mots composés de Zwanenburg (1992)
Le modèle de Zwanenburg (1992) comme celui de Di Sciullo et Williams (1987), se trouve
dans un cadre lexicaliste en ce qu’il pose l’existence d’un composant morphologique
autonome. La morphologie est donc un domaine autonome de la grammaire, qui produit les
mots construits, incluant les mots composés. Ainsi, un mot composé est formé selon les
principes d’organisation de la morphologie en combinant deux unités de type mot pour
construire une nouvelle unité de type mot (Zwanenburg 1992 : 222).
Dans son article consacré exclusivement à la composition en français, Zwanenburg propose
la typologie des composés français comme suit : les composés coordonnés (coordinate
compounds) en (38a), les composés subordonnés (subordinate compounds) en (38b) et les
composés exocentriques en (38c) (Zwanenburg 1992 : 225).
(38) a. guide-interprète, aigre-doux b. timbre-poste, coffre-fort, sous-chef c. rouge-gorge, brise-glace, en-tête
34
Les composés subordonnés en (38b) du type timbre-poste, coffre-fort doivent être analysés,
selon Zwanenburg (1992 : 225), comme des syntagmes idiomatiques. Ces structures sont
plus ou moins figées et elles sont listées dans le lexique.
En revanche, les composés subordonnés qui ont une préposition réelle (sous-chef) ou un
adverbe (arrière-pays) possèdent la tête à droite qui détermine la catégorie et le genre des
mots complexes ; ces structures sont alors considérées comme des composés et non pas des
syntagmes. En suivant l’analyse de Di Sciullo et Williams (1987), la tête morphologique
dans ce type de composés possède les propriétés suivantes : 1) elle est localisée à droite,
comme les suffixes ; 2) elle détermine la catégorie et le pluriel du mot composé, et
éventuellement, d’autres traits catégoriels ; 3) elle rend compte des généralisations d’ordre
argumental et sémantique (Zwanenburg 1992 : 225).
Pour analyser les composés exocentriques, Zwanenburg (1990 : 40) propose une règle de
conversion morphologique qui inclut un affixe nominal zéro. Cette règle permet au VP
d’accéder au statut du nom selon son type sémantique : soit un nom d’agent ou un nom
d’instrument.
Dans le composé exocentrique sous-bois en (39a), un affixe zéro se trouve à l’extérieur du
composé. Il a pour complément une projection prépositionnelle non maximale où la
préposition sous- joue le rôle de tête. Le constituant bois satisfait la structure argumentale de
la préposition sous (un sous-bois est quelque chose qui est sous le bois). Par contre, dans le
composé endocentrique avant-bras en (39b), la préposition avant est un complément qui joue
le rôle d’un modifieur de la tête bras (avant-bras signifie la partie avant du bras).
(39) a. N b. N P N Mod N
P N sous bois Ø avant bras
Cette analyse aide à éviter de traiter les composés exocentriques de façon arbitraire
puisqu’ils représentent ainsi des structures régulières. Dans les composés exocentriques, la
35
préposition remplit la fonction de la tête de la projection prépositionnelle et le suffixe
nominal est la tête de la projection nominale. La tête des composés est donc à droite dans les
deux cas : dans les composés exocentriques en (39a) et les composés endocentriques en (39b)
(Zwanenburg 1990 : 40).
Contrairement à Di Sciullo et Williams (1987)15 qui envisagent les composés V-N en
français comme des structures sans tête morphologique, Zwanenburg (1992 : 224) les traite
comme des constructions exocentriques ayant une tête externe, tel qu’illustré en (39a) :
« Besides these there are so-called exocentric compounds, which seem to have their head
outside » (Zwanenburg 1992 : 224).
Ainsi, les composés brise-glace et brise-tout sont analysés par Zwanenburg (1992) en tant
que des noms et des adjectifs suite à la conversion d’un syntagme verbal, à l’instar de Di
Sciullo et Williams (1987), mais avec une différence : ils comportent une tête externe. Le
composé V-N brise-glace en (40) est considéré comme un composé exocentrique où la règle
de conversion remplit les mêmes fonctions qu’une règle de suffixation, et elle attribue au mot
composé les mêmes propriétés qu’attribue une tête suffixale. La représentation des composés
V-N à l’aide d’un syntagme verbal (non maximal) est justifiée par la relation
verbe/complément entre le V et le N. Donc, dans le composé brise-glace en (40), le nom
glace est le complément du constituant verbal brise (Zwanenburg 1992 : 226) :
(40) brise-glace N
VP N V N brise glace ø
15
Di Sciullo et Williams (1987 : 80-83) soulignent qu’en français, les composés V-N ne peuvent pas être analysés comme des structures morphologiques parce qu’aucun de leurs constituants ne correspond à la tête du composé : « As in the case of [N ->VP], morphological principles are of little use in shedding light on these structures. For example, the left-hand member of these words is the head of the internal structure in some sens but not the head of the unit as a whole; the word as a whole is not headed by either member ». (Di Sciullo et Williams 1987 : 84)
36
Selon la règle de la conversion introduite par Zwanenburg (1992), des noms composés
peuvent être formés à partir d’un VP. De plus, le fait que le suffixe zéro impliqué dans la
formation des structures V-N fonctionne comme le suffixe -eur dans la dérivation justifie le
caractère morphologique de la formation de ce type de composés en français. En d’autres
termes, le suffixe zéro forme des noms d’agent ou d’instrument en utilisant une base verbale
(someone who /something which Vs).
[…] we can analyze them, with di Sciullo-Williams (1987 : 78-88), as conversion of verbal phrases into nouns and adjectives, respectively. The nouns are thus comparable to agent nouns with an overt suffix like arrang-eur from arrang-(er), and the adjectives to adjectival participles like charm-ant from charm-(er). This analysis allows us to interpret nouns like brise-glace semantically along the same lines as agent noun like arrangeur. (Zwanenburg 1992 : 232)
En tenant compte des arguments mentionnés ci-dessus, la règle de conversion prévoit aussi la
satisfaction des arguments du verbe de la base. Par exemple, dans le composé protège-
cordon, l’argument interne du verbe protéger est satisfait au moment de la construction
interne syntaxique. La fonction de l’argument externe est remplie par la règle de conversion,
de la même façon que le suffixe -eur remplit l’argument externe du verbe chercher dans le
dérivé chercheur : « […] the affixless conversion of a verb into a noun may have the same
headlike function as a suffix, and this accounts their so-called ‘exocentric’ character »
(Zwanenburg 1992 : 226).
Ainsi, la règle de conversion permet d’expliquer l’aspect nominal ou adjectival du VP et le
caractère non fléchi du verbe inclus dans les composés V-N.
This explains the left-hand headness of the bases of theses conversion and, as a consequence of their being conversions, the fact that in general these structures do not present internal inflection. (Zwanenburg 1992 : 221)
Il est à noter que la classe de « vrais composés », selon Zwanenburg (1992), est limitée aux
structures qui ont une tête morphologique à droite (sous-chef, sous-louer, arrière-pays, bien-
heureux, etc.).
The head status of the right-hand constituent manifests itself in that it determines always the category, and in the case of nouns the gender, of the complex word. We cannot analyze these words as phrases, and thus must consider them as real compounds. (Zwanenburg 1992 : 225)
37
Toutefois, en suivant Bally (1932) et Noailly (1989) qui suggèrent que la morphologie
française fait entrer dans la composition plusieurs syntagmes, Zwanenburg admet que la
plupart des composés français peuvent être analysés comme des structures ayant la tête
morphologique à gauche.
A general characterisation of French compounding as opposed to Germanic compounding might be that in French real, right-hand headed compounding is very restricted, and that French makes extensive use of left-hand headed lexicalised phrases and conversion with left-hand headed internal phrases. (Zwanenburg 1992 : 221)
Un résumé des observations présentées en 2.4.2 suggère que le modèle de formation des
mots composés de Zwanenburg (1992) se situe plutôt dans le cadre morphologique. Quant
aux structures V-N, sa règle de conversion morphologique permet à la fois de conférer au VP
son statut de nom et de prendre en compte le type sémantique du composé (celui d’agent ou
d’instrument).
2.4.3 La théorie de formation de Lieber (le modèle lexico-syntaxique)
Le modèle de formation des mots composés de Lieber (1992 : 14) est basé sur l’idée selon
laquelle le processus de composition a recours aux catégories syntagmatiques générées en
syntaxe. Ainsi, son point de vue est partiellement contre l’hypothèse lexicaliste de Di Sciullo
et Williams (1987) et Zwanenburg (1992). En fait, son travail consiste à démontrer, à
l’inverse de Chomsky (1970), que les règles de la syntaxe construisent aussi bien les
syntagmes que les mots. La proposition de Lieber (1992) est la suivante : il faut annexer la
morphologie à la syntaxe de sorte que la grammaire ne comprenne pas deux composants
séparés, mais un unique composant syntaxique qui est responsable également de la formation
des mots.
I argue that it is possible to merge the two theories so that in fact there is only one set of structural principles with parameters that are set only once for each language. I show that such a theory can account for ordinary derived words and compounds and their phrasal counterparts […] (Lieber 1992 : 26)
En d’autres termes, les mots composés sont considérés comme des constructions lexicales
répondant aux principes de la théorie X-barre, quelque peu révisés ; ils sont construits de
38
deux unités lexicales qui, en s’assemblant, construisent une unité lexicale de même niveau
qu’eux (Lieber 1992 : 65). Dans ces structures, un des composants joue le rôle de la tête du
composé, et selon la théorie X-barre, transfère ses propriétés à l’ensemble de la construction.
Dans l’approche lexico-syntaxique de Lieber (1992), la position de la tête dans les composés
est déterminée par les Conditions de Légitimation (Licensing Conditions), paramétrisées
pour chaque langue16. Autrement dit, la tête d’un mot composé prend la même position que
celle qui est prévue pour la tête syntaxique, relativement aux compléments, modifieurs et
spécifieurs. Ainsi, en français, la tête d’un composé remplit les positions suivantes (Lieber
1992 : 65)17 :
a) La tête précède le complément : un essuie-glace ;
b) La tête précède le modifieur : une statue de bronze, un timbre-poste ;
c) La tête suit le spécifieur : un grand-père.
En considérant les propriétés de la tête mentionnées ci-dessus, la formation des mots
composés ne se distingue pas théoriquement de celle des syntagmes, ni de celle des mots
construits par suffixation.
Contrairement à la RHR (Right-hand Head Rule) de Di Sciullo et Williams (1987), la notion
de tête selon Lieber (1992 : 33-40) est établie de façon identique pour la formation des mots
composés et celle des syntagmes. Ce point de vue se base sur plusieurs arguments.
Premièrement, l’anglais possède des préfixes qui peuvent déterminer la catégorie du mot (i.e.
préfixe en- qui forme des verbes à partir des noms ou des adjectifs : encase, endear).
16
Les trois paramètres de Licensing Conditions sont présentés chez Lieber (1992) de la manière suivante: a. Heads are initial/final with respect to complements and adjuncts. i. Theta-roles are assigned to the left/right. ii. Case is assigned to the left/right. b. Heads are initial/final with respect to specifiers. c. Heads are initial/final with respect to modifiers. (Lieber 1992 : 35) 17
Il est à noter qu’en anglais, la position des spécifieurs et des modifieurs par rapport à la tête syntaxique, est opposée à celle des compléments. En revanche, en français les spécifieurs apparaissent d’un côté de la tête et les compléments et modifieurs de l’autre (Lieber 1992 : 35).
39
Deuxièmement, il existe des langues où la tête morphologique est clairement à gauche (p. ex.
le français, le vietnamien).
La typologie des mots composés en anglais est présentée selon deux catégories principales
(Lieber 2009 : 358-359) :
(41) a. composés primaires : dog bed, maintenance schedule b. composés synthétiques : truck driver, meat-eating, home-made
En outre, cette classification comporte les sous-groupes suivants :
a) les composés coordonnés du type comedy-drama, secretary-treasure, blow-dry (Lieber
2009 : 359) ;
b) les composés subordonnés, qui peuvent être endocentriques (kick-ball, machine-wash,
sunrise) ou exocentriques (pickpocket, cutpurse, spoilsport) (Lieber 2009 : 361) ;
c) les composés attributifs, considérés par Lieber (2009 : 362) comme les plus productifs en
anglais. La plupart de ces composés sont de la structure N-N (immigration candidate,
sister node, key word), mais il y existe aussi des composés A-N (high school, barefoot,
long-term), N-A (dog-tired, jet-black) et A-A (funny-peculiar).
Pour expliquer l’interprétation sémantique des composés en anglais, Lieber (2004) introduit
le Principe de Co-indexation selon lequel l’argument le plus haut de la non-tête doit être co-
indexé avec l’argument le plus haut de la tête : « In a configuration in which semantic
skeletons are composed, co-index the highest nonhead argument with the highest (preferably
unindexed) head argument » (Lieber 2004 : 50).
Notamment, Lieber propose deux structures pour les composés synthétiques : une pour les
composés synthétiques anglais (thirst-quencher, wall builder, etc.) (Lieber 1992 : 59) et
l’autre pour les composés synthétiques français (essuie-glace, grille-pain, etc.) (Lieber 1992 :
67). Pour son modèle des composés synthétiques anglais elle propose une structure où N est
généré comme un complément du nom déverbal. Pour le composé thirst-quencher, par
exemple, le rôle-Theta (de la tête) de quench est hérité par le N formé du verbe quench et du
suffixe ‘er’ et il est assigné à droite, ce qui génère la structure en (42a). Mais parce que le
Cas peut être assigné seulement à la projection maximale, la représentation en (42a) est
40
bloquée à cette étape et force le mouvement de la tête (Roeper 1988) à entrer en vigueur. En
effet, la tête doit se déplacer pour respecter la Condition de visibilité qui demande qu’en NP
se voie assigner un Cas (Chomsky 1986). Le Nom thirst bouge à gauche et s’adjoint au Nom
quencher en formant le composé synthétique en (42b) :
(42)
Quant aux composés synthétiques français, ils sont interprétés comme des noms à relation
instrument/agent. Ils sont formés d'un VP et d'un affixe dérivationnel équivalent au suffixe -
er dans les composés synthétiques en anglais. Le verbe et le nom entretiennent entre eux des
relations syntaxiques de type tête-complément : d’une part, le nom correspond à l’argument
interne du verbe et d’autre part, la tête précède le complément. Le suffixe zéro, qui ne
possède pas de forme phonétique, est la tête du mot composé, remplissant les mêmes
fonctions que le suffixe -er qui forme des composés synthétiques anglais du type flame
thrower. Il détermine les traits diacritiques du composé et il a des effets sur sa structure
argumentale (Lieber 1992 : 159). Le composé essuie-glace est ainsi représenté comme suit
(Lieber 1992 : 67).
(43) essuie-glace
N VP V N | | essuie glace ø
41
Dans le cas du composé essuie-glace en (43), le suffixe zéro transmet la catégorie syntaxique
(nom), le genre masculin, l’interprétation agentive du composé ; il attribue à une structure
VP les propriétés lexicales d’un N, tout en restant dans un format de type X-barre (Lieber
1992 : 159).18 La tête du composé se trouve à l’intérieur du composé ; il s’agit d’un suffixe-
zéro qui ne possède pas de forme phonétique.
Dans le modèle de Lieber (1992), la tête du mot composé est un constituant essentiel parce
qu’elle détermine, par percolation, les propriétés syntaxiques et sémantiques de sa projection.
Ces traits ne percolent pas de manière aléatoire, mais ils se réalisent dans le cadre de la
signature catégorielle pertinente pour une langue particulière (Lieber 1992 : 88). La signature
catégorielle contient les traits morphosyntaxiques (les traits de nombre, de genre, de
personne, etc.) et les traits diacritiques (le mode, le temps, le Cas, etc.) ; elle exclut les
informations concernant la représentation sémantique et argumentale (Lieber 1992 : 90).
Lieber (1992) fait une distinction entre deux mécanismes de percolation liés à la notion de la
tête : la Percolation de tête (« Head percolation ») et la Percolation d’appui (« Backup
Percolation »). Selon la Percolation de tête, les traits morphosyntaxiques de la tête percolent
au nœud qui domine la tête (Lieber 1992 : 92). La Percolation d’appui est utilisée pour
transmettre des valeurs de traits si, après la Percolation de tête, le nœud dominant la tête reste
non-marqué pour un trait :
If the node dominating the head remains unmarked for a given feature after Head Percolation, then a value for that feature is percolated from an immediately dominated nonhead branch marked for that feature. Backup percolation propagates only values for unmarked features and is strictly local. (Lieber 1992 : 92)
18
Un autre point de vue sur les composés V-N est présenté notamment dans la thèse de Villoing (2002) qui considère les composés V-N comme des formes construites d’un verbe et d’un nom. Villoing montre que les mots composés V-N du français répondent aux caractéristiques des mots formés par la morphologie constructionnelle parce qu’ils sont des lexèmes composés de lexèmes (2002 : 181). La différence primordiale entre la théorie de Villoing et celle de Lieber (1992) consiste en ce que Villoing prend position contre l’analyse des mots composés français comme des constructions formées selon les règles de la syntaxe (Villoing 2002 : 141, 201), c’est-à-dire qu’elle est contre la présence de VP dans la structure des composés français. Toutefois, sa théorie ne rejette pas explicitement la structure N-N pour les composés comme porte-avions, qui comporte un suffixe-zéro. Elle admet la présence de certains composés N-N dans les cas où la forme nominale existe de façon indépendante, par exemple, ‘batte’, ‘guide’ et ‘pince’ dans batte-gazon, guide-interprète, pince-crocodile etc. (Villoing 2002 : 386).
42
La structure en (44) présentée chez Brousseau (1989 : 34) illustre le mécanisme de
percolation des traits morphosyntaxiques du morphème-tête corbeille au nœud dominant en
propageant les traits catégoriels du genre (féminin) et du nombre (singulier). Pour assurer
l’identité morphosyntaxique entre la tête et le mot composé, les traits de la tête corbeille (N2)
percolent premièrement au niveau dominant NP, puis au nom composé corbeille à papiers
(N1). Ainsi, la structure corbeille à papiers hérite du genre (féminin) et du nombre (singulier)
conférés par le morphème-tête corbeille.
(44) N1 [+f, +s] NP [+f, +s] N2 NP corbeille à papiers [+fém, +sing] [+masc, +pl]
Ainsi, nous voyons que l’analyse des noms composés en français, selon l’approche de
(Lieber 1992), dépend fortement de l’identification de la tête du composé et de la percolation
des traits morphosyntaxiques, traits que la tête partage avec le composé.
2.4.4 La théorie de Fabb
Les travaux de Fabb (1984, 1998, 2005) sur la composition se situent dans le cadre
syntaxique de la formation des mots. Sa définition des mots composés est assez générale :
« A compound is a word which consists of two or more words” (Fabb 1998 : 66).
Fabb (2005) indique qu’en anglais, la structure interne des composés se trouve à l’extérieur
de la syntaxe. Contrairement aux syntagmes, les composés sont généralement des structures
qui ne peuvent pas être altérées : « Compounds are unalterable in a way that phrasal
structures are not. One of the words cannot just be omitted or replaced or moved ; they are
frozen, and hence clearly distinguishable from phrasal structures » (Fabb 2005 : 50).
Pour lui, les relations entre la composition et la syntaxe posent deux sortes de problèmes
(Fabb 1998 : 76). Premièrement, il existe des langues qui possèdent des types de composés
ayant une structure interne disponible aux manœuvres syntaxiques et visibles pour le
43
processus syntaxique. Les composés incorporés et synthétiques sont des exemples clairs de
ce type de structure. Deuxièmement, les composés peuvent être interprétés comme un
résultat de la lexicalisation de syntagmes. Par exemple, il est presqu’impossible d’avoir un
article à l’intérieur du composé anglais, tandis qu’en français, les composés peuvent avoir
des éléments syntaxiques à l’intérieur du mot, notamment les prépositions de et à, ou un
déterminant : pomme-de-terre, trompe-l’œil.
Contrairement à la RHR (Right-hand Head Rule) de Di Sciullo et Williams (1987), Fabb
(1998 : 70) montre que la position de la tête morphologique dans les mots composés dépend
uniquement de la langue. Ainsi, la tête se retrouve à droite en anglais (sneak-thief), mais
généralement à gauche en français (bal masqué).
Dans l’approche de Fabb (1998), les relations entre les constituants du mot composé sont
basées sur la notion de la directionnalité. La structure du composé dépend à la fois de la
position de la tête morphologique (à droite ou à gauche) et du type de relations entre les
éléments du composé :
A compound can be ‘directional’ in two senses. One sense involves the position of the head : whether on the right or the left. The other sense involves the direction of the relation between the parts of the compound : the direction of modification in a noun–noun compound (e.g. in log cabin modification is rightwards) or the direction of complementation in a verb-based compound (e.g. in push-bike complementation is rightwards). (Fabb 1998 : 70)
La typologie générale des mots composés, selon Fabb (1998), est basée sur les trois types
suivants (Scalise et Bisetto 2009 : 40).
(45) composés
sans tête une tête deux têtes (exocentriques) (endocentriques) (coordonnés/appositionnels/dwanda)
Dans les composés endocentriques, comme sneak-thief, la tête du composé thief possède les
mêmes caractéristiques que la tête du syntagme : elle représente une signification
fondamentale du mot composé et possède les mêmes traits catégoriels que le mot composé
44
(e.g. sneak-thief est une sorte de thief ; thief et sneak-thief sont tous deux des noms) (Fabb
(1998 : 67).
Les composés exocentriques, comme greenhouse, n’ont pas de tête morphologique. Fabb
(1998 : 67) déclare qu’en fait, il existe des similarités entre les composés endocentriques et
exocentriques : par exemple, la classification du composé greenhouse en tant que composé
endocentrique ou exocentrique dépend du niveau de conceptualisation selon lequel
greenhouse est considéré comme un type de maison.
Quant aux composés coordonnés comme student-prince, les deux constituants partagent les
caractéristiques du composé (dans le composé student-prince, une personne est à la fois
prince et étudiant) (Fabb (1998 : 67). Ce type de composés peut être représenté par une
combinaison de synonymes (p. ex. toro-bèf ‘taureau’ en haïtien) ou d’antonymes (p. ex.
aigre-doux en français).
Selon Fabb (1998), sauf les types mentionnés ci-dessus, chaque langue possède des types de
composés spécifiques19.
Then there are compound types which are language – or language family – specific, such as the Japanese postsyntactic compounds […], Hebrew construct state nominal […], or Mandarin resultative verb compounds […]. Other types of compounds are found intermittently ; these include synthetic compounds […], incorporation compounds […] and reduplication compounds. (Fabb (1998 : 68)
Les composés synthétiques, selon Fabb (1984), sont créés uniquement dans la syntaxe. Fabb
propose le schéma révisé de X-barre (Xn →Xn-1) pour donner une possibilité au mot Xo
dominer d’autres Xo (B et N 2001 : 366). Les seuls mots qui peuvent être crées dans la
syntaxe sont ceux qui sont joints par des relations thématiques ; la structure interne de ces
mots doit respecter le Principe de projection. (B et N 2001 : 366).
19
Scalise et Bisetto (2009 : 60) indiquent que, conformément à la classification des composés chez Marchand (1969), Spencer (1991), Olsen (2001), Bauer (2001), Booij (2005), la typologie de mots composés de Fabb (1998) est assez limitée : « Fabb‘s classification is too restrictive when confronted with the variety of recognized compounds ». Par exemple, la classification de Spencer (1991) inclut quatre types de composes (endocentriques, exocentriques (bahuvrīhi), dvandva, appositionnels) ; la typologie de Booij (2005) est basée sur cinq types de composés (endocentriques, exocentriques, bahuvrīhis, copulatives, appositionnels).
45
Certains suffixes dérivationnels, selon Fabb (1984), peuvent devenir des suffixes
syntaxiques. Ainsi, il suggère que les affixes qui permettent la formation des composés
synthétiques (p. ex.-er, -ing, -en) sont en fait des affixes syntaxiques (Spencer 1991 : 334).
Ces affixes peuvent porter des rôles thématiques et ils sont considérés comme des items
appartenant au niveau X0 dans le schéma X-barre, liés par les règles de la syntaxe.
Selon le Critère-thêta, le verbe doit obligatoirement assigner un rôle-thêta à son argument
interne (Fabb 1984). Dans les composés synthétiques comme truck driving, le verbe-base
drive doit assigner son rôle-thêta au nom truck(s) pour satisfaire le critère-thêta. Pour ce
faire, le verbe doit gouverner le nom, donc occuper un nœud-sœur dans la structure
syntaxique (Spencer 1991 : 334) :
(46) V V ing Ni V<Thi>
truck drive
Dans la structure en (46), le <Thi> représente l’argument interne du verbe drive, coindicé
avec le nom truck. Ainsi, dans les composés synthétiques comme meat-eater, body-builder,
thief-taker, les relations entre les constituants du composé ressemblent à celles entres les
parties d’un syntagme : le premier constituant représente l’objet du deuxième élément,
comme si le composé était un syntagme inversé. Par contre, dans les composés N-N (p. ex.
living room, queen bee, etc.) et A-N (blackboard, greenhouse, redcap, etc.), le premier
élément (living, queen, black, green, red) est le modifieur du deuxième constituant (room.
bee, board, house, cap) (Fabb 2005 : 113).
Contrairement à la syntaxe, où chaque composant contribue à la signification de la phrase
d’une façon prévisible, la contribution de chaque constituant à la signification du composé
est visible seulement si l’on connaît la signification du mot figé (Fabb 1998 : 66) :
In syntax, each component part tends to add meaning in a clearly predictable way to the whole. In most though not all compounds the relation between the meaning of the parts and the whole is not predictable in the same way. (Fabb 2005 : 50)
46
En d’autres termes, la signification du composé ne peut pas forcément être déduite de celle
de ses éléments (Fabb (1998 : 66). Par exemple, le composé blackbird peut désigner un
oiseau de couleur brune, et non pas noire. Toutefois, il existe une corrélation entre la
prévisibilité du sens, la transparence sémantique et la transparence structurale du composé.
Par exemple, dans les langues avec deux types distincts de composés, le type possédant la
structure moins transparente aura plus de modifications morphologiques et phonologiques
(Fabb 1998 : 68).
D’après Fabb (1998), dans les composés synthétiques anglais, il existe un certain nombre de
lacunes dans l’interprétation sémantique liées au constituant gauche (nom, adjectif ou
adverbe). Théoriquement, cet élément doit remplir les fonctions de complément du
constituant-tête à droite et il ne peut pas être interprété comme un argument externe ou un
sujet. En fait, les composés synthétiques en -ing et -er ressemblent aux syntagmes verbaux
actifs (i.e. play checkers > checker-playing), tandis que les composés synthétiques comme
expert tested ressemblent aux syntagmes verbaux passifs (tested by experts > expert tested)
(Fabb 1998 : 75). Ainsi, les composés synthétiques diffèrent des composés primaires. Par
exemple, malgré que le composé *bird-singing est exclu, le composé bird-song, où le
constituant bird est interprété comme le sujet d’un élément à droite, est possible. Ainsi,
l’interprétation sémantique des composés synthétiques dépend des règles de construction des
syntagmes correspondants, étant liée à l’assignation des rôles-thêta à une position particulière
dans le syntagme selon la nature active ou passive du verbe (Fabb 1998 : 75).
En résumé, le modèle syntaxique de la formation des mots composés de Fabb (1984, 1998,
2005) attribue beaucoup d’importance aux règles de construction des mots composés, leur
typologie et leur représentation sémantique (surtout l’explication de certains composés
synthétiques ayant des lacunes dans leur interprétation sémantique). Selon cette approche, la
prédiction du sens du composé et sa transparence sémantique sont liées à la transparence
structurale : dans les langues où existent des composés avec un niveau différent de
transparence sémantique, les formes moins transparentes ont plus de modifications
morphologiques et phonologiques.
47
2.4.5 Les modèles de traitement lexical des mots composés
Les modèles récents de traitement morphologique des mots complexes ont démontré que ces
derniers peuvent être traités de deux façons : soit ils sont stockés en mémoire et reconnus de
façon globale (la théorie du stockage exhaustif, Butterworth 1983), soit ils sont décomposés
(dissociés) et reconnus par le biais des morphèmes qui les forment (la théorie
décompositionnelle, Taft 1979).
Le troisième modèle postule que les mots complexes peuvent être à la fois stockés et
décomposés. Ce modèle de traitement morphologique propose l’existence de deux routes
d’accès : une route directe qui permet au locuteur d’accéder au mot complexe comme s’il
était simple et une route dissociée (décomposée) où le locuteur accède au mot complexe par
le biais des morphèmes qui le composent. Selon le Morphological Race Model de Baayen et
Schreuder (1999), le traitement morphologique des mots composés comporte effectivement
deux routes comme en (47), où les lignes pleines représentent la route dissociée et la ligne
pointillée indique la route directe.
(47)
haut-parleur
Conformément au schéma en (47), le locuteur peut accéder au sens du mot composé haut-
parleur de façon directe (ligne pointillée) ou par le biais des constituants qui le composent
(p. ex. haut et parleur). Ce modèle est pertinent à la productivité des mots composés parce
que les locuteurs ne traitent pas toutes les formes complexes de la même manière20.
20
Libben (2005) indique aussi que la représentation morphologique des mots composés est décomposable : « Compounds words are, by definition, multi-morphemic. As such they have a dual life : we can consider the meaning of the compound word as a whole (“whole-word meaning”) or we can examine the meanings of the constituent parts of the compound (“constituent meaning”). […] compound words are parsed into morphemes during processing, so that the mental lexicon can be said to have morphological representations. […] The finding that morphological parsing automatically activates all possible constituents challenges the traditional distinction between semantically transparent versus semantically opaque compounds. » (Libben 2005 : 2)
haut-parleur
haut parleur
48
Par ailleurs, comme le note Hay (2003 : 7), l’utilisation de ce modèle permet de mettre en
relief l’idée que l'accès à un mot via la route directe affecte la représentation de ce mot, sa
décomposition et, potentiellement, le niveau de sa productivité morphologique. Les mots
complexes, même si on y accède via la route décomposée, sont stockés dans la mémoire
comme des formes analysées (« parsed forms »), ayant des liens forts avec leurs composants
internes.
Il ressort également que, dans le cas des composés, les deux routes de stockage sont activées
en parallèle et que le choix d’une route ou de l’autre dépend fortement de facteurs comme le
nombre de types de membres de la famille morphologique formés à partir de la base
(Bertram et al. 2000 : 491). Les structures possédant de grandes familles morphologiques
sont traitées plus vite à cause de la diffusion sémantique entre le mot composé et les
membres de sa famille morphologique.
Ainsi, comme le montrent Libben et Jarema (2006), le traitement des mots composés peut
être représenté de la façon suivante. D’une part, les composés doivent être facilement
décomposés en leurs constituants (morphèmes) et, d’autre part, la séquence qui est associée
au mot composé doit être stockée comme une unité complète dans la mémoire.
The fundamental capacity [of lexical processing of compounds] would seem to have two sides. On the one hand, compound words need to be easily segmentable into their constituent morphemes in much the same way as sentences need to be segmentable into their constituent words. […] On the other hand, the compound sequence as a whole must be stored in memory so it becomes a new lexical item that can be retrieved as a single entity for production and whose idiosyncratic meaning can be stored in the mind. (Libben et Jarema 2006 : 3)
Le traitement morphologique des composés exocentriques selon le Morphological Race
Model de Baayen et Schreuder (1999) est particulièrement intéressant, puisque la
signification de ces composés est souvent opaque, ne pouvant pas être déduite à partir de
celle de leurs constituants (Libben 2005 : 2).
Les recherches récentes dans le domaine de l’identification des mots composés révèlent que
les composés qui sont souvent utilisés (lexicalisés) sont stockés dans la mémoire et sont
accessibles comme un tout/non-décomposé. La notion de la maximalisation d’opportunité
49
(maximization of opportunity) suggère que les deux types d’éléments – le mot composé
global et ses constituants – doivent être représentés dans le lexique mental en utilisant les
structures morphologiques et les liens entre les représentations monomorphiques de leurs
constituants (Libben 2006 : 6).
En considérant les arguments présentés ci-dessus, on peut conclure que les mots composés
sont des structures situées au carrefour des mots et des syntagmes ; ils reflètent en même
temps les propriétés de la représentation linguistique mentale et leur traitement grammatical.
2.5 Conclusion Dans ce chapitre, j’ai fait un compte rendu du phénomène de la composition en me
concentrant surtout sur les questions de l’identification, de la typologie, de la tête et de la
base morphologique dans les composés français. Différents modèles théoriques des mots
composés ont été présentés en termes de leur utilisation dans la recherche sur la productivité
des noms composés en français : Di Sciullo et Williams (1987, 2005), Lieber (1992, 2004),
Zwanenburg (1992) et Fabb (1998, 2005).
L’identification des mots composés, surtout en français, pose souvent des problèmes
puisqu’il faut les différencier des syntagmes nominaux (après-soinN vs soin après
traitementSN) et des expressions idiomatiques (mange-disqueN vs manger ses mots). La
difficulté est liée au fait qu’en français les constituants apparaissent dans le même ordre en
composition et en syntaxe. Pour distinguer les mots composés des syntagmes nominaux, il
faut utiliser un certain nombre de tests morphologiques, syntaxiques, sémantiques et
phonologiques qui tendent à établir la cohésion du composé. Si un test fonctionne bien, on
considère une forme analysée comme un mot composé. Dans mon travail, je retiendrai
surtout le test basé sur le critère de l’atomicité syntaxique proposé par Di Sciullo et Williams
(1987) et élaboré dans le travail de Brousseau (B et N 2001). Ce test constitue le critère par
excellence pour identifier les mots composés par rapport aux syntagmes. Conformément à ce
critère, les constituants du mot composé : a) ne peuvent pas être conjoints ; b) ne peuvent pas
être remplacés par une anaphore ; c) ne peuvent pas être modifiés.
50
En ce qui concerne les autres tests solides dans d’identification des composés français,
j’aurai recours aux deux épreuves sémantiques présentées chez Brousseau (B et N : 2001)
qui, à leur tour, sont basés sur deux tests d’inhérence, introduits par Bauer (1978). D’après
ces tests, une suite N-N ou A-N est un composé si : a) le fait de modifier le composé par un
antonyme de son modifieur interne n’entraîne pas de contradiction ; b) l’ajout d’une phrase
complétive qui s’oppose au caractère permanent évoqué par le modifieur interne entraîne une
contradiction. Néanmoins, il faut noter que ces tests sont parfois difficiles à utiliser.
Concernant la notion de la tête en composition, tous les modèles théoriques présentés dans ce
chapitre mettent en évidence l’importance de cet élément morphologique dans
l’identification d’un mot composé. La tête du mot composé est un élément qui porte des
informations syntaxiques et sémantiques essentielles, et qui détermine la catégorie
grammaticale, le genre, le nombre et la sémantique du mot.
La tête morphologique est toutefois traitée différemment dans les modèles théoriques
présentés dans ce chapitre. Dans le cadre lexicaliste de Di Sciullo et Williams (1987), la tête
morphologique dans le mot composé doit suivre les règles de la RHR (the Right-hand Head
Rule) : 1) elle est localisée à droite, comme les suffixes ; 2) elle détermine la catégorie et le
pluriel du mot composé, et éventuellement, d’autres traits catégoriels ; 3) elle rend compte
des généralisations d’ordre argumental et sémantique. Une variante relativisée de la RHR (Di
Sciullo et Williams 1987) détermine la position de la tête morphologique en respectant la
structure argumentale du mot composé. En d’autres termes, la notion de tête relativisée
admet que : a) la tête peut occuper une position à droite ou à gauche ; b) un mot composé
peut avoir plusieurs têtes, où chaque tête est marquée pour un trait particulier. De cette façon,
la RHR relativisée permet, en premier lieu, d’accommoder les langues comme le français ou
le vietnamien qui ont la tête morphologique à gauche. En deuxième lieu, elle tient compte
des composés appositionnels possédant deux têtes morphologiques.
L’autre représentant du camp lexicaliste, Zwanenburg (1992), considère que la classe de
« vrais composés » est limitée aux structures qui ont une tête morphologique située
uniquement à droite (sous-chef, sous-louer, arrière-pays, bien-heureux, etc.). Toutefois, en
51
suivant Bally (1932) et Noailly (1989), il admet que la plupart des composés français
peuvent être analysés comme structures ayant la tête morphologique à gauche.
Contrairement à la RHR (Right-hand Head Rule) de Di Sciullo et Williams (1987), la notion
de tête dans le modèle lexico-syntaxique de Lieber (1992) est établie de façon identique pour
la formation des mots composés et celle des syntagmes. Selon cette approche, la position de
la tête dans les composés est déterminée par les Conditions de Légitimation (Licensing
Conditions), paramétrisées pour chaque langue. Ainsi, la tête d’un mot composé prend la
même position que celle qui est prévue pour la tête syntaxique, relativement aux
compléments, modifieurs et spécifieurs. Selon cette approche, en français, la tête d’un
composé : a) précède le complément (essuie-glace) ; b) précède le modifieur (timbre-poste) ;
c) suit le spécifieur (grand-père).
Enfin, en suivant le point de vue de Liber (1992), le modèle syntaxique de Fabb (1998)
révèle que la position de la tête morphologique dans les mots composés dépend uniquement
de la langue. En anglais sa position est à droite (sneak-thief), tandis qu’en français, elle se
trouve généralement à gauche (bal masqué).
Néanmoins, la tête du mot composé ne peut pas être définie en se basant uniquement sur la
définition positionnelle (à droite/gauche) et les traits catégoriels de ses constituants, par
exemple dans les composés N-N. Les propriétés sémantiques du composé et des éléments qui
le forment sont également importantes. Pour identifier la tête des formes recensées, j’aurai
recours à la notion d’hyponymie (voir Leech 1974 et Miller 1978, 1999), élaborée dans les
travaux de Brousseau (1989 ; 2001). D’après les relations sémantiques de l’hyponymie, il
existe un lien entre un mot X et un mot Y, où Y (un hyponyme) est plus spécifique que X (un
hyperonyme) et dont le sens contient aussi le sens de X (B et N 2001 : 245). Ainsi,
conformément au test d'hyponymie de Brousseau (1989 ; 2001), la tête du mot composé est
un morphème qui joue le rôle de l’hyperonyme du mot ; le composé à son tour, est
l’hyponyme de la tête morphologique. Par exemple, le composé femme d’affaire est un
hyponyme du constituant gauche femme, qui est la tête du composé (une femme d’affaire est
une femme).
52
En outre, l’identification de la base est cruciale pour mon travail puisque plusieurs mesures
statistiques utilisent la base dans leurs formules. Rappelons que la notion de la base en
composition n’est pas clairement définie dans les travaux linguistiques (Bauer 1983, Dressler
2006, Spenser 1991, Krott et all. 1999). Par exemple, Krott et al. (1999) considèrent, mais
sans le justifier, que chaque constituant d’un composé est une base. En fait, il existe deux
possibilités : a) la base peut être identifiée comme le morphème libre qui n’est pas la tête du
composé (par analogie avec les formes affixées où la base est clairement identifiable) ; b) on
considère comme bases tous les morphèmes libres. Néanmoins, il faut noter que l'objectif de
mon travail est d'analyser le lien entre les différentes variantes de base et la productivité des
formes recensées, plutôt que proposer une définition théorique de la notion de la base en
composition.
Enfin, en tenant compte du fait que la recherche sur la productivité des composés N-N, A-N,
N-A et N-de-N sera réalisée en diachronie conformément aux types de composés différents,
la question de la typologie des formes recensées est extrêmement importante pour mon
travail. Tout d’abord, rappelons que Bauer (2009) considère la question de la typologie des
mots composés difficile à cause des problèmes liés à l’identification correcte des composés.
Toutefois, en analysant la productivité morphologique des noms composés français, j’aurai
recours à la classification des noms composés proposée par Brousseau (2001), que je
considère comme détaillée et fiable pour toutes sortes de recherches sur les mots composés
en français.
D’après ce modèle de typologie, les composés français peuvent être classifiés selon quatre
axes différents. En premier lieu, le type auquel appartient le mot composé est basé sur la
présence/absence d’une tête morphologique (les composés endocentriques vs composés
exocentriques). En deuxième lieu, les formes sont classifiées selon la présence/absence d’une
structure prédicat-argument explicite (composés synthétiques vs composés primaires). En
troisième lieu, on classifie le composé selon qu’il a été formé ou non au moyen de règles
propres à la langue française (composés indigènes vs composés savants). Finalement, on a
recours à la transparence/opacité sémantique des formes étudiées (composés réguliers vs
composés irréguliers).
53
En ce qui concerne les types de composés, j’examinerai les deux groupes suivants. Le
premier groupe inclut tout d’abord des formes régulières des composés primaires N-N, A-N,
N-A et N-de-N, (chat-tigre, bel-outil, verre-à-vin, mestre de camp). Ce sont les structures qui
sont sémantiquement transparentes, compositionnelles, potentiellement décomposables.
Outre cela, ce groupe comprend aussi les composés exocentriques qui sont envisagés comme
des structures régulières (claire-voie, blanc-manteau, bec-cornu, vide-poches). Pour analyser
cette catégorie de composés, j’utiliserai le principe de compositionnalité proposé par Frege
(1892) selon lequel le sens d’une expression est une fonction du sens de ses composants.
Conformément à la notion de compositionnalité, le sens de l'ensemble (du composé) découle
du sens des parties composantes. Par exemple, un pied-bleu n’est ni un pied, ni quelque
chose de bleu. C’est un jeune soldat inscrit au rôle de la conscription portant encore les
guêtres bleues du paysan (Dictionnaire Littré 1877-1878). Dans le cas de pied-bleu, la tête
logique du composé (un jeune homme, un soldat) est, en quelque sorte, à l'extérieur. Le sens
du composé peut être déterminé en grande partie à partir des propriétés sémantiques et
syntaxiques de ses constituants. Pour cette raison, le composé pied-bleu sera analysé comme
régulier. Toutefois, il est à noter que pour la taille catégorielle de la famille morphologique,
seulement les formes régulières seront mesurées ici (voir le chapitre 4).
Le deuxième groupe de composés analysés est formé de structures exocentriques irrégulières
(reine-claude, huppe-col, patte-fiche, trique-madame). Ces composés doivent être stockés
dans le lexique puisque leurs propriétés ne sont pas dérivables (cf. section 2.3). L’analyse de
tels composés exocentriques permettra de comparer les deux types d’exocentriques.
Je mettrai de côté les composés synthétiques V-N (abat-faim, cache-lumière, frappe-plaque,
etc.) qui ont été très étudiés (cf. Villoing 2002). Toutefois, pour réaliser mon étude pilote
(voir les pages 117-126), je retiendrai les composés V-N garde-x, réanalysés comme des
structures N-N. Ce type de composés représente un nom d’Agent ou d’Instrument du genre
masculin ou féminin (p. ex. garde-corps, garde-ligne, garde-malade, etc.). En analysant les
composés synthétiques français, j’utiliserai la notion de la conversion par suffixe zéro
présentée chez Lieber (1992) et Zwanenburg (1992), en tenant compte de son rôle sur la
structure argumentale de la base verbale.
54
Contrairement au point de vue de Zwanenburg (1992), qui les considère plutôt comme des
syntagmes, j’anlyserai les composés N-N (arrière-boutique, bateau-dragon, etc.) et N-A
(p. ex. corde vocale, coffre-fort, colonne vertébrale), comme de vrais composés, en suivant
la notion de tête de Brousseau (2001) et celle de la tête relativisée de Di Sciullo et Williams
(1987).
Finalement, je tiendrai aussi compte du modèle de traitement morphologique présenté par
Baayen et Schreuder (le Morphological Race Model, 1999) qui postule que les mots
complexes réguliers peuvent être à la fois stockés et décomposés. Cette approche représente
le traitement morphologique des composés comme un modèle ayant deux routes possibles.
En premier lieu, il existe une route directe où le locuteur accède directement au mot
complexe (p. ex. haut-parleur), tandis que la deuxième route est dissociée – le locuteur
accède au mot complexe par le biais des morphèmes qui le composent (p. ex. haut et
parleur). Ce modèle est surtout pertinent pour la notion de la fréquence relative de Hay
(2003) qui sera utilisée au cours de ma recherche.
En résumé, la notion de la composition inclut plusieurs aspects morphologiques, syntaxiques,
sémantiques et phonologiques importants qui diffèrent parfois d’une approche théorique à
l’autre. Dans mon travail, je ne prends pas position pour un modèle théorique particulier, à
l’exception de l’identification de la tête, soit le test d’hyponymie de Brousseau (1989 ; 2001)
selon lequel la tête du mot composé est l’hyperonyme du mot alors que le composé est
l’hyponyme de la tête morphologique. Les autres aspects des modèles théoriques présentés
dans la section 2.4 n’ont pas d’incidence directe pour le calcul de la productivité.
Il ressort également que le statut des mots composés en français est un domaine peu exploré.
Très peu de recherches s’y sont consacrées, surtout concernant leur productivité
morphologique. Le chapitre suivant introduira les différents modèles de productivité qui
existent actuellement, de même que les différents instruments de la mesurer.
55
CHAPITRE 3
L’objet de la productivité morphologique
3.1 Introduction La notion de productivité morphologique occupe une place importante dans plusieurs travaux
linguistiques sur la formation des mots (Aronoff 1976 ; Baayen 1992 ; Bauer 1988,
2001 ; Hay 2003 ; Plag 1999 ; Hay et Baayen 2002). On peut trouver les premières
discussions sur la productivité morphologique en anglais chez Jespersen (1942). Récemment,
les différents aspects de la productivité morphologique ont été particulièrement étudiés dans
les travaux de Bauer (2001, 2003, 2003a), Dal (2003), Plag (1999). Chez Zwanenburg, la
définition de la productivité morphologique prend en compte le nombre de dérivés
effectivement produits : « On peut […] définir la productivité d’une règle dérivationnelle
comme le quotient du nombre de mots que cette règle peut former par le nombre de mots
qu’on rencontre réellement dans la langue » (Zwanenburg 1983 : 28).
Il faut souligner que la majorité des recherches en productivité se trouve dans le domaine de
la dérivation, surtout en ce qui concerne l’anglais. En revanche, la notion de la productivité
est moins explorée en français, que ce soit d’un point de vue théorique ou d’un point de vue
expérimental. À l’exception des travaux de Corbin (1976, 1987), Dal (2003), Namer (2003)
et Grabar et al. (2006) consacrés à la productivité des affixes, le phénomène de la
productivité morphologique inspire peu les chercheurs français. Plus généralement, la
discussion concernant la productivité morphologique se concentre surtout sur la dérivation
affixale (Aronoff 1976 ; Bauer 1988). Ainsi, la composition (grille-pain, grand-mère) est
considérée comme un processus productif, mais elle reste une question périphérique dans
l’analyse de la productivité morphologique.
Il apparaît que dans la dérivation, même s’il n’existe pas de définition uniforme dans la
littérature linguistique (Bauer 2001 ; Plag 1999), la majorité des linguistes conçoit la
productivité morphologique comme étant l’aptitude des affixes à créer de nouveaux dérivés.
56
Un même préfixe, par exemple, peut former des unités lexicales nouvelles appartenant à
différentes catégories grammaticales, selon la base à laquelle le préfixe s’attache.
(1) a. surcharge (nom) b. surhumain (adjectif) c. surchauffer (verbe)
Cependant, dans la langue contemporaine, certains préfixes, comme for-, outre-, sont
considérés comme morts ou rarement disponibles pour la création de nouveaux mots, et
d’autres comme sur-, super-, hyper- etc. sont envisagés comme assez productifs : suractivité,
surclasser, superprofit, hypermarché.
Concernant la dérivation en français, il est à noter que la productivité des suffixes a beaucoup
varié au cours des siècles. Par exemple, entre le XIIe et le XVIe siècle, le suffixe -able a servi
à dériver plusieurs adjectifs à partir de noms de propriété et de sentiment (Dal 2003 : 4) :
charitable, effroyable, équitable, pitoyable, etc. Donc, on peut dire que le suffixe -able était
productif pendant cette période-là. Par ailleurs, certains suffixes, comme -ie et -ure ont
démontré une grande vitalité pendant les siècles précédents, mais ils ne sont plus productifs
aujourd’hui (Béchade 1992 :116) : inertie, courtoisie, gelure, chevelure. Enfin, d’autres
suffixes (-age, -erie, -ique, etc.) restent productifs à travers les siècles et participent
activement à la création de mots nouveaux : dopage, jardinerie, électronique. En général,
l’aptitude d’un affixe à se joindre à des bases différentes est considérée comme un bon indice
de sa productivité.
Il faut constater que dans plusieurs langues, les locuteurs utilisent non seulement des mots
familiers, mais aussi des mots récemment inventés (‘newly coined’), facilement
compréhensibles. La création de nouveaux mots est très répandue dans la langue quotidienne,
comme on peut l’observer dans les médias (télé, radio, journaux, Internet) et le discours
familier. Il peut arriver que quelques mots inventés au moyen d’un processus morphologique
productif soient des items familiers pour certains locuteurs, sans nécessairement faire partie
de la norme de la langue. Une fois qu'un nouveau mot devient un item familier pour une
grande partie de la communauté linguistique, il est considéré comme un mot établi (Bauer
2001 : 36). Dal (2003 : 7) souligne aussi que « […] la conscience morphologique des
locuteurs est éminemment variable, et un mot peut passer inaperçu chez l’un et être repéré
57
comme nouveau chez l’autre (même quand il est installé de longue date dans le lexique
attesté) ».
La mesure de la productivité du processus morphologique est parfois difficile et elle dépend
de facteurs différents. En premier lieu, il n’existe pas d’unité de vues parmi les linguistes sur
la définition de la productivité morphologique et sur ce qui peut être considéré productif : le
processus, l’affixe ou les règles de formation de mots (Bauer 2001 : 12-15). En deuxième
lieu, le degré de productivité de différents affixes dépend de plusieurs restrictions
phonologiques, morphologiques, syntaxiques et sémantiques (Aronoff 1976 : 35-45 ; Bauer
2001 : 125-162) puisque certains affixes ne peuvent pas être utilisés librement dans la
formation de mots nouveaux. En anglais, par exemple, le suffixe –ment, peut s’attacher à
plusieurs verbes pour former de nouveaux noms, mais pas à n’importe quel verbe :
(2) a. settle + ment → settlement b. provide + ment → * providement
Toutefois, malgré les différences de vues, le facteur de « potentialité » est considéré comme
un élément fondamental dans l’étude de la productivité morphologique : « Productivity is all
about potential. A process is productive if it has a potential to lead to new coinages, or to the
extent to which it does lead to new coinages » (Bauer 2001 : 41).
Par ailleurs, la notion de productivité morphologique peut être abordée sous un angle
qualitatif ou quantitatif. D’un point de vue qualitatif, on définit la productivité comme la
capacité des règles morphologiques à former de nouveaux lexèmes de façon non
intentionnelle (Dal 2003 : 5), à partir de la disponibilité du processus morphologique (Bauer
2001 : 49). D'un point de vue quantitatif, plusieurs méthodes à base de corpus ont été
proposées pour mesurer des aspects différents de la productivité (Baayen 1992, 1993 ;
Baayen et Hay 2002 ; Baayen et Lieber 1991 ; Baayen et Renouf 1996 ; Krott et al.1999).
Toutefois, exception faite de l’ouvrage de Krott, Schreider et Baayen (1999), les études
portant sur la mesure de la productivité n’ont pratiquement pas traité des mots composés.
Ce chapitre a pour objectif de présenter : a) les différentes théories de la productivité
morphologique qui existent actuellement (sections 3.2) ; b) les différents modèles de la
productivité basés sur les hapax (Baayen 1992 ; Baayen et Lieber 1991) (section 3.3) ; c) la
58
notion de la fréquence relative de Hay (2003), qui sert à vérifier les corrélations potentielles
entre la productivité des constituants du composé employés seuls, et la productivité du nom
composé (section 3.4) ; d) le paradoxe de productivité morphologique des mots composés de
Krott, Schreuder et Baayen (1999) (section 3.5) ; e) une mesure basée sur la taille de la
famille morphologique (section 3.6) ; f) une analyse de la productivité des mots composés de
l’anglais par types sémantiques basée sur la notion de rentabilité (section 3.7).
Ce survol des différentes théories et des modèles d’évaluation discutés lors des sections 3.2-
3.7 me permettra de mettre au jour les tendances théoriques et empiriques dans le domaine de
la productivité. À l’issue de cet examen, je pourrai dégager les points forts et les points
faibles de chaque approche théorique pour limiter ma recherche aux méthodes qui sont
crucialement importantes dans l’analyse de la productivité des formes recensées.
La section 3.8 présentera un sommaire des notions théoriques liées à la productivité
morphologique. Finalement, en conclusion (section 3.9), je préciserai les mesures
quantitatives retenues.
3.2 Le modèle de productivité morphologique de Bauer La notion de la productivité morphologique est exhaustivement étudiée dans les travaux de
Bauer (1988, 2001, 2008), qui offrent plusieurs définitions de productivité morphologique
parmi lesquelles on peut citer la suivante : « […] the productivity of a morphological process
is its potential for repetitive non-creative morphological coining » (Bauer 2001 : 98).
La productivité est aussi considérée par Bauer (2001) comme étant une fonction de
l’innovation morphologique qui permet la création de nouveaux mots, mais ces créations ne
sont pas toutes productives :
Productivity is a feature of morphological innovation. It is a feature of morphological process which allow for new coinages, but not all coining necessarily indicates productivity. To be shown to be productive, coining must be repetitive in the speech community : isolated instances of coining from individuals do not in themselves necessarily indicate productivity. (Bauer 2001 : 97-98)
59
Deux facteurs importants déterminent la productivité morphologique : il s’agit premièrement
d’une productivité mécanique en termes de la fréquence d’emploi, qui peut être évaluée par
une mesure quantitative. Deuxièmement, c’est la potentialité d’un processus morphologique
de créer de nouveaux mots. Toutefois, la productivité ne se base pas exclusivement sur la
fréquence de mots ; elle est souvent liée à la haute fréquence, mais ce n’est pas nécessaire
(Bauer 2001 : 21).
Dans ses réflexions sur les notions fondamentales de la productivité, Bauer (2001 : 36)
souligne la nécessité de distinguer les objets morphologiques suivants : les mots existants
(‘existing words’), les nouveaux mots (‘new words’), les mots potentiels (‘potential words’)
et les mots probables (‘probable words’).
En ce qui concerne des mots existants, un mot existe à partir du moment où il est créé ; il fait
partie de la norme de la langue et entre dans un dictionnaire seulement quand il y est établi.
Bauer (2001 : 36) considère que dans un texte normal21, le nombre de dérivés non-établis est
probablement très bas (moins de 1 %)22. En même temps, vingt pour cent de ces formes non-
établies peuvent être des items familiers ; alors, ces chiffres nous donnent une estimation
possible de l’écart entre les mots existants et ceux que nous pouvons considérer attestés. Il
cite également en exemple 148 mots composés tirés du journal Time Magazine : dans ce
groupe, 67 composés comme crash site, airline official, island republic ne sont pas présents
dans le Oxford English Dictionary.
Bauer souligne que théoriquement, il est impossible de dire si un mot particulier attesté
existait ou non avant la déclaration de son attestation :
[…] we are in the awkward theoretical position of accepting in principle that there is a set of existing words, and of being able to identify some of those words, but not being able to say with confidence for a huge number of attested words whether they were or were not in existence before that attestation of them. (Bauer 2001 : 35)
21
Pour Bauer, un journal comme Time magazine représente un modèle du texte normal, tandis que The Oxford English Dictionary inclut des mots attestés qui font partie de la norme de la langue. (Bauer 2001 : 36) 22
En ce qui concerne la composition en anglais, dans un texte normal, le nombre de mots composés non-établis est plus élevé que celui des dérivés non-établis. (Bauer 2001 : 37)
60
Une recherche plus détaillée sur les mots existants est faite par Thiel (1973 : 379 ; cité dans
Bauer 2001 : 37) en allemand. Parmi 1331 composés attestés, seulement 37,9 % sont listés
dans les dictionnaires. Cependant, Bauer (2001 : 37) soutient que le nombre de composés
attestés en anglais et en allemand est considérablement plus grand que celui des composés
établis et qu’un cinquième des composés établis représente des formes familières. En suivant
Kiparsky (1982 : 26), Bauer suggère qu’en réalité, il est parfois difficile d’établir une
différence entre un mot existant et un mot établi.
Quant aux mots nouveaux, ce sont des mots créés dans la langue (‘coined word’) qui, à leur
tour, peuvent être des mots d'occasion (‘nonce words’) ou des néologismes. La différence
primordiale entre ces deux derniers types de mots consiste en ce qu’un néologisme fait partie
de la norme de la langue. Ainsi, il est considéré comme un bon marqueur de la productivité
du processus morphologique étudié (Bauer 2001 : 38).
Un élément fondamental de l’étude de la productivité, selon Bauer (2001), est la notion de la
« potentialité » de la création de mots nouveaux, c’est-à-dire le concept des mots potentiels
de la langue.
Productivity is all about potential. A process is productive if it has the potential to lead to new coinages, or to the extent to which it does lead to new coinages. We are aware of productivity only through the new coinages and the patterns of familiar and unfamiliar words coined by the relevant process. (Bauer 2001 : 41)
Un locuteur n’utilise pas nécessairement tous les mots potentiels ; par conséquent, tous les
mots potentiels ne vont pas devenir des mots probables (Bauer 2001 : 42) : « … a ‘possible’
word is defined in term of the linguistic system while a probable word is determined by
extra-systemic factors. » Les facteurs suivants sont considérés comme étant des facteurs
externes : le blocage, la sémantique, la longueur du mot, « les accidents de l’histoire
culturelle » ou l’échec de l’hypostatisation23 (Bauer 2001 : 42-43). Il est à noter que pour
Aronoff (1983 : 163, cité dans Bauer 2001 :42), la probabilité est un équivalent de la
23
En suivant Dressler et Ladányi (2000 : 106), Dal (2003 : 12) montre que « certains mots peuvent être bien formés, et pourtant avoir une probabilité d’actualisation faible, faute de trouver un contexte d’actualisation adéquat ou un référent plausible ».
61
productivité : « In word formation, the code word for probability is productivity.» Par contre,
pour Bauer (2001 : 43), les facteurs mentionnés ci-dessus diminuent la probabilité d’un mot
potentiel de devenir existant et, par conséquent, la productivité du processus morphologique
qui participe à la création de ce mot.
Il existe deux façons différentes et complémentaires d’étudier la productivité
morphologique : selon l’aspect qualitatif (i.e. la disponibilité du processus) ou quantitatif (i.e.
la rentabilité du processus) (Bauer 1988, 2001)24. Ainsi, la disponibilité du processus
morphologique représente son potentiel de former des mots nouveaux d’une manière
répétitive en suivant des règles de formation de mots, et elle est déterminée par le système de
chaque langue. Par contre, la rentabilité du processus morphologique reflète le degré auquel
cette disponibilité est exploitée selon les normes de la langue (Bauer 2001 : 211).25 D'un
point de vue qualitatif, pour que le processus morphologique soit productif, il doit être
disponible pour la production de nouveaux mots : « A morphological process is available
[…] if it can be used in the production of new words. This is the sense in which we have
been using the term ‘productive’ » (Bauer 2001 : 49).
La composition est considérée par Bauer (2001 : 117) comme un processus morphologique
très productif dans les langues comme l’anglais et l’allemand. Il soutient également (Bauer
2001 : 119) que si la composition est automatique et productive, ce processus morphologique
doit être disponible aux utilisateurs de la langue indépendamment de leur niveau d’éducation.
En dépit de la diversité des points de vue présentés parmi les linguistes sur ce qui doit être
considéré comme productif (i.e. mot, suffixe, processus morphologique), Bauer (2001)
24
Contrairement au point de vue de Corbin (1987) qui considère la notion de la rentabilité (profitabilité selon Bauer) du processus morphologique en termes de sa potentialité et de la production de nouveaux mots dans le passé, Bauer (2001 : 49) suggère qu’il faut distinguer ces deux notions. 25
Bauer souligne que pour le concept de productivité morphologique, la distinction entre la disponibilité et la rentabilité est assez importante : « Productivity deals with the number of new words that can be coined using a particular morphological process, and is ambiguous between the sense ‘availability’ and the sense ‘profitability’. The availability of a morphological process is it potential for repetitive rule-governed morphological coining. […] Availability is determined by the language system, and any process is either available or unavailable, with no middle ground. […] The profitability of a morphological process reflects the extent to which its availability is exploited in language use. » (Bauer 2001: 211)
62
montre que c’est plutôt un processus ou un patron morphologique qui peuvent être
considérés comme productifs :
[…] there seems to be some dispute among morphologists about what it is that is productive : whether it is, for example, a particular pattern of suffixation, or a particular semantic pattern at some level of generality, or a particular way of creating grammatical forms (such as nominalisation, adjectivalisation, etc.). […] we need to have some way of deciding which of these we should be considering on any given occasion. […] I should like to see a careful argument on this subject, explaining the problems with considering individual morphological processes as well as the benefits of looking at larger patterns. I suspect that both are justified, but under different circumstances. (Bauer 2003a : 14-15)
Différents facteurs peuvent faciliter la productivité : par exemple, la fréquence des bases
appropriées, la transparence phonologique et sémantique, la naturalité (‘naturalness’) (Bauer
2001 : 98). Tous ces facteurs favorisent la productivité d’un processus morphologique.
Toutefois, Bauer souligne qu’il est important de distinguer la productivité de la créativité,
puisque la productivité peut être vue comme un processus géré par des règles, tandis que la
créativité peut modifier ces règles. Pour Bauer, la créativité et la productivité sont des
prototypes : « It may be the case that productivity can be seen as rule-governed, and
creativity seen as rule-changing. […] Creativity and productivity are not distinct categories,
but prototypes. » (Bauer 2001 : 71)
En ce qui concerne les mesures de productivité, Bauer (2001 : 189) fait la révision d’un
certain nombre de formules proposées pour calculer la productivité morphologique et il
explore l'utilisation de la notion de l’hapax legomenon (des mots figurant dans un grand
corpus exactement une fois). Premièrement, il analyse le modèle d’Aronoff (1976 : 36) et sa
méthode basée sur la proportion entre les mots attestés et les mots potentiels produits par la
règle de formation des mots (RFM). Cette méthode de calcul a été formalisée par Bayeen et
Lieber (1991 : 803) comme suit :
(3) I = V/S
où I est l’index de la productivité, V est le nombre de types attestés et S et le nombre de
types potentiels formés par la RFM.
63
Selon Bauer (2001 : 146), cette formule ne fonctionne pas bien pour des raisons pratiques et
théoriques (S et V sont difficiles à identifier et à calculer). D’une part, le nombre précis des
mots attestés peut être déterminé seulement au moyen d’un corpus fixe (corpus électronique
ou dictionnaire). Ce type du corpus présente une lacune significative : il est possible que
certains processus productifs y soient absents. D’autre part, dans le modèle en (3), le nombre
S est en principe infini (Baayen et Lieber 1991 : 804). Bauer (2001 : 146) n’est pas d’accord
avec ce point de vue puisque le nombre de bases impliquées dans chaque processus productif
est limité. En conséquence, la formule en (3) possède les faiblesses suivantes : 1) elle mesure
la productivité du processus morphologique qui a eu lieu dans le passé ; 2) elle n’indique pas
si un processus morphologique particulier est disponible ou non.
Bauer (2001 :151) examine également la mesure de productivité basée sur la notion de
l’hapax legomenon proposée chez Bayeen (1989 ; 1993) ; Bayeen et Lieber (1991) et il
soulève le problème de la comparabilité des corpus. Pour justifier son point de vue, Bauer
mentionne l’exemple du suffixe –iana qui est utilisé une fois seulement (Victoriana) dans le
Corpus de Wellington de l’anglais néo-zélandais écrit. Dans ce corpus, le nombre d’hapax
(n1) correspondant à ce suffixe égal à 1, le nombre de type (N) est aussi 1 ; donc selon la
mesure basée sur l’hapax, le suffixe –iana doit être considéré comme absolument productif,
ce qui n’est pas vrai en réalité. Toutefois, Bauer souligne que ce n’est pas une faute de la
mesure de Baayen, mais plutôt de la taille insuffisante du corpus : plus petit est le corpus,
moins précis sont les résultats de la mesure basée sur l’hapax. Bauer est d’accord avec l’idée
suivante de Baayen : pour obtenir des résultats fiables, il faut utiliser le corpus le plus grand
possible. Mais la question du corpus de taille acceptable n’est pas résolue : il n’existe pas,
selon Bauer (2001 : 151), d’information précise concernant la taille minimale du corpus qui
garantit des données statistiques fiables.
Quoique la mesure de productivité de Baayen (1991) soit particulièrement prometteuse,
Bauer pense qu’une méthode d’évaluation de la productivité qui est complètement fiable
n’existe pas encore (Bauer 2001 : 199). Ses critiques touchent deux questions importantes :
1) le modèle de mesure de la productivité morphologique ; 2) la représentativité et la taille du
corpus dans la recherche sur la productivité morphologique. Concernant le premier problème
mentionné ci-dessus, il faut mentionner que Bauer n’a pas discuté dans ses travaux les
64
versions les plus récentes de calcul de la productivité de Baayen. Nous reviendrons donc sur
ces critiques à la prochaine section.
Bauer (2001 : 206) parvient ainsi à reconnaître que la disponibilité du processus
morphologique est limitée dans le temps : un processus peut être disponible pendant une
certaine période, mais pas durant une autre. Ainsi, la disponibilité est parfois difficile à
évaluer, du fait de plusieurs facteurs. Premièrement, il existe des types de formes nouvelles
(innovations) qui sont généralement exclus du domaine de productivité. Deuxièmement, le
phénomène de la productivité est considéré très souvent comme un phénomène lié à la
communauté, et non pas à un individu particulier. Les locuteurs individuels peuvent créer des
mots nouveaux qui ne sont pas attestés dans la communauté à un moment donné. Ainsi,
l’utilisation d’un processus morphologique par un locuteur ou un écrivain particulier ne
représente pas nécessairement la situation dans la communauté en général.
Parmi les autres facteurs qui peuvent limiter la productivité morphologique Bauer mentionne
les suivantes :
a) Les restrictions sur les bases utilisées dans les processus dérivationnels peuvent changer
en diachronie. Des processus morphologiques peuvent être disponibles pour certains types de
bases pendant une période de temps, mais pas pour une autre période adjacente (Bauer 2001 :
205).26
b) La productivité d'un processus peut limiter la productivité de l’autre (Bauer 2001 : 208).
c) La productivité peut varier selon le choix des utilisateurs de la langue : parfois, le locuteur
n’utilise pas souvent tel ou tel processus morphologique (Bauer 2001 : 209).
Afin d’évaluer le niveau de productivité, il est important d’utiliser un corpus textuel
représentatif, de taille suffisamment grande, qui puisse offrir une image réaliste de la
situation linguistique dans une langue particulière. Néanmoins, comme le remarque Bauer
26
Un exemple de la compétition entre les différents processus morphologiques est présenté dans le travail de Fleischer (1975 : 178-180 ; cité dans Bauer 2001 : 208), où les suffixes diminutifs allemands –chen et –lein rivalisent en s’attachant à des bases différentes.
65
(2001 : 160), tous les corpus ont la même faiblesse inhérente et irrémédiable : aucun corpus
ne peut couvrir tout ce qui arrive dans l'utilisation de la langue humaine, même dans un
domaine choisi. Ainsi, malgré leur immense utilité, les corpus ne peuvent pas résoudre le
problème de mesure de la productivité morphologique, quoique de très grands corpus servent
mieux que de plus petits.
Bauer défend l'utilité des dictionnaires dans l’étude de la productivité morphologique en
proposant les arguments suivants. En premier lieu, même si les dictionnaires ne donnent pas
généralement des listes complètes de formes morphologiques utilisées par telle ou telle
langue, certains dictionnaires sont plus explicites que d'autres sur ce compte. En deuxième
lieu, Bauer (2001 : 159) considère l’utilisation d’un bon dictionnaire comme un bon point de
départ dans la recherche sur la productivité morphologique.
3.3 Le modèle de productivité morphologique de Baayen Le modèle de productivité morphologique de Baayen se base sur une approche proprement
quantitative pour mesurer la productivité de différents procédés constructionnels. Il est à
noter que d'un point de vue quantitatif plusieurs méthodes à base de corpus ont été proposées
pour examiner des aspects différents de la productivité (Baayen 1992, 1993 ; Baayen et
Lieber 1991 ; Baayen et Renouf 1996 ; Krott, Schreider et Baayen 1999). Aronoff (1976 :
36) fut le premier parmi les générativistes à proposer d’attribuer à chaque règle de
construction de mots un indice de productivité. On obtient cet indice en divisant le nombre
de mots produits par la règle en question par le nombre de mots qu’elle est capable de former
(cf. 3.2).
Cette mesure a provoqué de nombreuses critiques indiquant la difficulté à déterminer une
valeur chiffrée aux mots actuels et possibles formés au moyen d’une règle de formation de
mots donnée (Bauer 2001 : 189 ; Plag 1999 ; Baayen et Lieber 1991 : 803-804). L’indice de
productivité d’Aronoff mène aussi à de fausses prédictions pour les cas extrêmes. Plag
(1999 : 23) remarque que les affixes capables de former un grand nombre de nouveaux
dérivés se voient affectés d’un indice tendant vers zéro (puisque le diviseur tend alors vers
66
l’infini), tandis qu’au contraire, l’indice des affixes peu aptes à former de nouveaux mots
peut être très supérieur à 1 (puisque le nombre de mots attestés excède celui des possibles)27.
Les mesures de calcul de la productivité les plus utilisées actuellement ont été proposées par
Baayen (1991, 1996, 1999, 2002). Pour éviter les défauts de l’indice de productivité
d’Aronoff, Baayen (seul ou en collaboration) propose une définition28 selon laquelle un
processus est productif quand il est capable de former en théorie un nombre infini de dérivés
de façon non-intentionnelle :
If a word-formation process is truly productive, new formations using that process will go unnoticed. For unproductive processes a new form may sometimes be coined, but such coinages will always draw attention to themselves : they will be used to shock, to amuse, or to achieve some other intentional effect. (Baayen et Lieber 1991 : 808)
Ainsi, selon Baayen, la mesure de productivité doit répondre aux exigences suivantes
(Baayen et Lieber 1991 : 809) :
– elle doit refléter l’intuition du linguiste concernant la productivité ;
– elle doit représenter le fait qu’un nouvel élément soit prêt à entrer dans de nouvelles
combinaisons de mots ;
– elle doit tenir compte du fait que des mots sémantiquement ou formellement
idiosyncratiques abaissent le niveau de la productivité du processus étudié.
En fait, deux mesures de calcul de la productivité morphologique ont été proposées par
Baayen : la productivité au sens strict et la productivité globale. Les deux mesures se
calculent relativement à un corpus donné.
27
Selon Plag, à moins que l’indice ne soit égal à 1, on considère que les mots attestés sont des mots possibles (Plag 1999 : 23). 28
En fait, Baayen utilise la définition de la productivité morphologique apparue chez H. Schultink (1961: 113 ; cité dans Plag 1999 : 13) : “We see productivity as a morphological phenomenon as the possibility for language users to coin unintentionally an in principle unlimited number of new formations, by using the morphological procedure that lies behind the form-meaning correspondence of some known words.”
67
La mesure la plus employée dans les recherches actuelles est la productivité morphologique
« au sens strict ». La productivité au sens strict, notée P, est une mesure quantitative qui se
base sur la notion d’hapax legomenon :
The category conditioned degree of productivity, P, assesses the likelihood, given we are encountering a word containing a certain affix, of that word representing a new type. It is calculated by the total number of hapaxes (forms containing the affix which are represented just once in the corpus) as a proportion of all tokens containing the affix (N). (Baayen et Lieber 2001 : 218)
Donc, il s’agit d’une mesure relative qui doit comparer la productivité des procédés
morphologiques à l’intérieur d’un même corpus ou entre des corpus différents (Baayen et
Renouf 1996). La formule pour mesurer la productivité au sens strict est définie comme suit :
(5) P = n1 / N
où P représente la productivité au sens strict (le taux de croissance du vocabulaire), n1
représente le nombre d’hapax legomena (les formes qui apparaissent une fois seulement dans
un grand corpus), et N représente le nombre total d’occurrences observées dans le corpus
contenant le type dérivationnel analysé (Baayen 1991 : 809).
Contrairement au modèle I = V/S, la formule révisée de Baayen en (5) est basée sur le
nombre d’hapax n1 et le nombre d’occurrences N des formes recensées et non pas sur le
nombre de types existants V et le nombre de types potentiels S. En réponse à la critique de
van Marle (1992 : 152), qui considère que la mesure P évalue plutôt ce qui est produit dans
le corpus de référence, et non pas une compétence naturelle, Baayen (1993 : 189) soutient
que le nombre d’hapax sert à indiquer la probabilité de rencontrer de nouveaux types qui
n’ont pas été enregistrés dans les échantillons précédemment analysés.
Baayen explique à plusieurs reprises la raison pour laquelle la mesure P se base sur le
nombre d’hapax legomena et le nombre d’occurrences, et non sur le nombre de types. Son
argumentation est liée au fait que les types à haute fréquence soient largement représentés
dans les processus qui sont incapables de former de nouveaux mots, tandis que les procédés
aptes à former de nouveaux mots se caractérisent par des types à basse ou moyenne
fréquence. Donc, les types qui sont responsables d'un procédé non disponible peuvent
68
augmenter la valeur du diviseur, et comme résultat, baisser sensiblement la valeur de P,
tandis que les types mettant en jeu un procédé productif produisent peu d’effet sur la valeur
du diviseur et sur celle de P (Baayen 1993 : 189).
L’analyse des données statistiques sur la productivité de 80 affixes anglais (utilisant la base
lexicale CELEX) de Baayen et Lieber (2001 : 233) confirme cette observation. Les affixes
de-, in-, re-, un- représentés dans ce corpus par un grand nombre de types à haute fréquence
(V = 121, 192, 289, 241 respectivement), sont peu aptes de former de nouveaux mots et, par
conséquent, leur productivité est assez basse : P = 0,0040 ; 0,0040 ; 0.0020 et 0.0050
respectivement.
Une autre mesure quantitative proposée par Baayen (1993) est aussi basée sur les hapax ;
toutefois, elle est rarement utilisée dans les recherches actuelles sur la productivité
morphologique. La mesure de la productivité globale (global productivity), notée P*,
exprime la probabilité d’apparition d’un mot nouveau dans un procédé donné (Baayen 1992 :
122-125 ; Hay et Baayen 2002)29. La mesure de la productivité globale est calculée comme
suit (Baayen 1993 : 190).
(6) P* = g (P, V)
où g est un index de probabilité, P est le degré de la productivité et V est la fréquence d’un
type analysé.
Selon cette mesure, la règle généralement plus productive aura de grandes valeurs tant pour
V (nombre de types observés) que pour P ; la règle qui n’est pas productive montrera peu de
nouveaux types de mots et un P de bas degré (Baayen et Lieber 1991 : 818). Ainsi, la mesure
de productivité globale P* évalue la probabilité d’apparition d’une nouvelle structure dans un
procédé morphologique en représentant la corrélation entre la productivité P et les types
attestés par le processus morphologique en question. La mesure de productivité globale P*
29
Dans ses premiers travaux (1989, 1991), Baayen représente la productivité globale comme un moyen d’incorporer la rentabilité du procédé étudié dans la mesure de la productivité (deux procédés A et B peuvent en effet avoir la même valeur P alors que l’un forme dix fois plus de mots que l’autre).
69
utilise un graphique bidimensionnel indiquant la productivité P avec l'axe horizontal X, et la
fréquence des types analysés avec l'axe vertical Y.
Toutefois, en analysant la productivité globale des suffixes anglais -er, -ation, -ity, -ous,
-able, -ment, etc., Baayen et Lieber (1991 : 819) réalisent que cette mesure pose des
problèmes méthodologiques : il est impossible (en se basant sur V et P) de mesurer quelle est
le processus le plus productif30.
Baayen révise donc la mesure de productivité globale P*. La nouvelle variante de P*
(Baayen 1993 : 205) considère la proportion entre le nombre d’hapax d’une catégorie et le
nombre total d’hapax dans le corpus de la façon suivante (Baayen 1993 : 193) :
(7) P* = n1,E,t / h1 où n1,E,t indique le nombre de mots de la catégorie morphologique pour laquelle on calcule P* ne possédant qu’une seule occurrence dans le corpus étudié (E = une catégorie morphologique ; t = le nombre d’occurrences de cette catégorie) et h1 le nombre total d’hapax (construits ou non) du corpus.
Ce que la mesure P* révèle, c’est la probabilité qu’un mot nouveau soit formé au moyen du
procédé que l’on mesure : elle est utilisée plutôt pour classer le processus productif selon le
degré de productivité en évaluant le degré de productivité conditionné par des hapax.
P* is the hapax conditioned degree of productivity. It expresses the probability that, if we are encountering an entirely new word, that word will contain the affix in question. It is measured by calculating what proportion of all hapaxes in the corpus is associated with that affix. (Baayen et Hay 2001 : 218)
En tenant compte de deux mesures mentionnées ci-dessus, Baayen suggère que P et P* sont
deux mesures complémentaires : « […] P and P* are complementary measures, the primary
use of P being to distinguish between unproductive and productive process as such, P* being
especially suited to ranking productive affixes » (Baayen 1993 : 194).
30
Bauer (2001) soulève un autre problème lié à cette mesure : « Unfortunately, [ …] it is not possible to weigh the relative contributions of the vertical and horizontal dimensions in such a chart. [ …] It fails to show that there is a vital relationship between the two measures, and rather implies that the two should be kept entirely separate » (Bauer 2001 : 154).
70
Toutefois, l’analyse des données statistiques de Baayen (Baayen et Lieber 1991 : 820) sur la
productivité morphologique des affixes différents fait ressortir trois séries d’observations.
Premièrement, certains affixes peuvent être représentés par un grand nombre de types (V) et
en même temps avoir un niveau bas de productivité (P) ou vice-versa. Par exemple, l’affixe
nominal anglais –ee, qui s’attache à une base verbale (employee), est représenté seulement
par 23 types (V), mais il démontre un degré élevé de productivité (0.0016) tandis que l’affixe
nominal –ment, qui forme des noms sur une base verbale (encouragement), inclut 184 types
différents, mais sa productivité est significativement plus basse (0.0002). Ce fait signifie que
les affixes peuvent être assez productifs même s’ils sont peu fréquents dans le corpus. Le
facteur crucial de la productivité, c’est la productivité au « sens étroit », c’est-à-dire une
proportion élevée d’hapax par rapport au nombre total d’occurrences : dans le cas des affixes
–ee et –ment cette ampleur est représentée par les chiffres suivants : 2 :1213 et 7 :44419
respectivement.
(8) Affixe N V P n1 nominal
_________________________________________________________ -ee 1213 23 0.0016 2
-ment 44 419 184 0.0002 7 où N = nombre d’occurrences ; V = nombre de types ; P = productivité ; n1 = nombre d’hapax.
Deuxièmement, on observe que les affixes rivaux qui forment des mots de la même catégorie
possèdent un niveau différent de productivité, ce qui peut être expliqué par des restrictions
différentes sur les affixes. Par exemple, le suffixe adjectival -ish (P = 0.0050), qui s’attache à
une base nominale, est plus productif que le suffixe adjectival –ous (P = 0.0006).
Troisièmement, on remarque que parmi les affixes dérivationnels anglais, la catégorie de la
base (nominale vs verbale) influence fortement le degré de productivité des dérivés : l’affixe
adjectival -ish (P = 0.0050) qui s’attache à une base nominale est plus productif que l’affixe
adjectival -able (P = 0.0007) qui se joint à une base verbale (Baayen et Lieber 1991 : 821).
Toutefois, en ce qui concerne la notion de l’hapax dans les mesures P et P*, Baayen (1991,
1992) insiste sur le fait qu’en premier lieu, les hapax qui ressortent dans un corpus donné
71
sont de bons marqueurs de la productivité du processus étudié (c’est-à-dire de l’aptitude à
former des mots nouveaux) : plus grand est le nombre d’hapax – plus productif est le
processus morphologique étudié. En deuxième lieu, le nombre d’hapax découverts dans le
corpus doit théoriquement représenter des néologismes (ou des innovations lexicales).
Toutefois, la taille du corpus est extrêmement importante : un corpus trop limité risque de
présenter à tort des formes uniques comme des néologismes. Les catégories morphologiques
non-productives sont caractérisées par une prédominance des types de haute fréquence, par
un petit nombre de types de basse fréquence et seulement par quelques (ou aucun) hapax,
surtout si la taille du corpus augmente. En contraste, la disponibilité des règles de formation
des mots pour un affixe donné garantit que, même les mots de basse fréquence avec cet
affixe peuvent être produits et compris (Baayen et Renouf 1996 : 74).
Baayen (1993), en se prononçant en faveur de la méthode basée sur les hapax, souligne que
des résultats fiables peuvent surtout être obtenus en travaillant sur un corpus de grande
taille :
[…] It is only for the larger corpora that neologisms will begin to appear, predominantly among the hapaxes. Even then, many hapaxes will be well-known lexical items. However, as the sample size increases, the proportion of the neologisms among the hapaxes will increase. Hence the probability of encountering neologisms is measured indirectly by means of the probability of encountering hapaxes. (Baayen 1993 : 189)
Ainsi, malgré le fait que la taille minimale du corpus n’est pas clairement spécifiée parmi les
linguistes, Baayen et Renouf (1996 : 71) montrent que la base lexicale CELEX (65 millions
de mots) a une taille suffisamment grande pour l’application de différents modèles qualitatifs
et quantitatifs.
Par ailleurs, il faut noter que Baayen (1991, 1993, 1996, 2006) soutient fortement
l’importance accordée aux corpus textuels dans la recherche sur la productivité
morphologique. Depuis longtemps, les principaux outils de recherche dans le domaine de la
morphologie étaient les dictionnaires (dont l’utilisation est fortement soutenue par Bauer) et
les intuitions des locuteurs (les acceptions des mots attestés/mots possibles). Le rapport entre
les hapax et la productivité soulève quand même quelques questions. Les trois raisons en
72
faveur de l’utilisation des hapax dans la mesure de la productivité morphologique, proposée
par Baayen et Renouf (1996 : 78), sont :
– Premièrement, dans un grand corpus, les hapax servent de marqueurs de probabilité pour
les nouveaux types de mots. Ils permettent de déduire, combien de nouveaux types de
mots sont à prévoir pour les grands échantillons.
– Deuxièmement, la plupart des néologismes apparaissent parmi les hapax legomena. Ainsi,
dans un corpus donné, les patrons les plus productifs sont révélés par les hapax.
– Enfin, les hapax attirent l’attention sur de nouvelles formes créées de façon spontanée,
non-intentionnelle. Ces créations ressemblent le plus aux constructions syntaxiques pour
ce qui est de à la productivité.
C’est la troisième raison qui provoque le plus de discussions parmi les linguistes (Bauer
2001, Dal 2003 ; Plag 1999). Bauer (2001 : 68) indique qu’il n’existe pas de règle qui
permette de déterminer quel mot est créé de façon non-intentionnelle et lequel est formé de
façon intentionnelle.
À son tour, Dal (2003 : 6) mentionne qu’on ne peut pas savoir exactement si, par exemple,
les huit occurrences du mot étanchéifier que comptent les archives du journal Libération ont
été créées d’une manière non-intentionnelle, ou si les journalistes qui ont utilisé ce verbe ont
voulu l’attester. Le problème de « non-intentionnalité » est résolu partiellement chez Baayen
où il introduit une notion « d’indistinguabilité » (Dal 2003 : 7) pour préciser la notion de
« non-intentionnalité » :
If a word-formation process is truly productive, new formations using that process will go unnoticed. For unproductive processes a new form may sometimes be coined, but such coinages will always draw attention to themselves : they will be used to shock, to amuse, or to achieve some other intentional effect. (Baayen et Lieber 1991 : 808)
Donc, un procédé est considéré productif quand il est utilisé pour former de nouveaux mots
non distingués comme tels par le récepteur. Ainsi, les mots comme accidentabilité ou
assurabilité démontreront autant la productivité du suffixe -ité que les mots attestés
agglutinabilité ou annulabilité, puisque rien ne permet a priori au locuteur de distinguer
entre les deux groupes (Dal 2003 : 7). Quand même, le problème reste en partie pour les
73
évaluateurs de la productivité : comme le note Plag (1999 : 14), la conscience morphologique
des locuteurs diffère beaucoup ; un mot nouveau peut passer inaperçu chez l’un et être
considéré comme nouveau chez l’autre.
Enfin, il apparaît que certains auteurs utilisent dans leurs travaux des lexèmes qui leur sont
propres ; dans ce cas-là ces formes peuvent être considérées, pour les besoins de la mesure,
comme des hapax d’un auteur particulier et non pas des hapax proprement dits.
Toutefois, compte tenu des observations présentées ci-dessus, on peut dire que les mesures
proposées par Baayen représentent une étape décisive dans l’évaluation de la productivité
morphologique puisqu’elles réunissent les divers paramètres linguistiques dans des formules
mathématiques, permettant ainsi des comparaisons objectives entre les procédés différents.
En fait, la discussion sur la productivité ne concerne pas tellement la définition de la notion
de la productivité, mais plutôt les mesures qui prennent en considération ces composantes
qualitatives et quantitatives31.
Même si le modèle de productivité P de Baayen possède des lacunes et a été vivement
critiqué, il continue d’être une mesure standard quand il s’agit de comparer quantitativement
la productivité de divers procédés morphologiques. Par conséquent, j’ai décidé d’utiliser
dans mon travail la mesure P au sens strict en (5) plutôt que la mesure P* en (7) représentant
un degré de productivité relative conditionné par des hapax parce que : a) la mesure P a été
largement utilisée et plusieurs recherches ont obtenu des résultats relativement fiables sur la
productivité morphologique en dérivation ; b) elle est très utile pour l’examen de la
corrélation entre la productivité et l’accès lexical (Bertram, Schreuder et Baayen 2000 ; Hay
et Baayen 2002 ; etc.). Cette mesure est considérée par plusieurs linguistes comme étant
assez solide parce que la productivité du processus morphologique s’abaisse lorsqu’on
observe des formes ayant une haute fréquence (Plag 1999).
31
Toutefois, Bauer (2001) suggère qu’il n’existe pas encore de mesure de productivité complètement fiable : “ We saw that the best measures currently available are indirect, and there are problems which even the best available methods do not solve, in particular comparability between corpora (or language, etc.). Perhaps what we are seeking in a measure, which will tell us for any morphological process M: What is the likelihood that the next word I meet which is formed by M will be a new word (or, an alternative formulation, a word which is not item-familiar)? Unfortunately, there does not seem to be any simple way of assigning reliable values to such a measure “ (2001: 162).
74
3.4 La fréquence relative de Hay (2003) Nous avons vu que la fréquence des patrons morphologiques est généralement reconnue
comme pertinente à la productivité. Hay (2003) et Hay et Baayen (2002) développent cette
idée et montrent que c’est la fréquence relative entre le mot dérivé et sa base qui détermine
leur productivité.
Contrairement aux modèles traditionnels qui considèrent que l’accès morphologique et la
productivité des dérivés sont liés à la fréquence absolue des formes dérivées, Hay propose
que ce soit la fréquence relative entre le dérivé et sa base qui influence sa décomposition et,
par conséquent, la productivité morphologique de l’affixe32 :
[…] relative frequency matters more than absolute frequency. A low-frequency form is likely to be non-transparent if it is composed of even-lower-frequency parts. And a high-frequency form may be highly decomposable if the base word it contains is higher frequency still. (Hay 2003 : 166)
La fréquence relative de Hay est calculée comme suit :
fdérivé (9) frelative = __________
fbase
Cette formule montre que si un dérivé est plus fréquent que sa base, le mot est vu comme
non décomposable du point de vue du traitement morphologique, et l’affixe inclus dans le
dérivé n’est pas productif. Si la base de la forme dérivée est plus fréquente, l’affixe est
considéré comme productif puisque le mot dérivé est décomposable selon le modèle du
traitement morphologique. Donc, selon cette mesure c’est la fréquence relative, plutôt que la
fréquence absolue qui a un effet sur la décomposition des mots complexes (Hay 2003 : 145).
L’analyse du mot complexe insane dans la base de données lexicale CELEX démontre, par
exemple, que la fréquence de sane est de 149/17.4 millions en comparaison avec 258/17.4
32
Anshen et Aronoff (1988) étaient parmi les premiers linguistes qui ont souligné l’importance de la fréquence relative pour des formes dérivées irrégulières. Selon eux, ces formes ont tendance à être plus fréquentes que leurs bases, ce qui facilite un accès lexical de ces mots. Par exemple, l’accès au mot feet, en comparaison avec la forme foot, est plus facile puisque la forme foot est moins fréquente. Ainsi, selon ce point de vue, les dérivés qui sont plus fréquents que leurs bases facilitent un accès lexical au mot entier ; si les bases sont plus fréquentes, ils facilitent la décomposition du dérivé.
75
millions pour insane (Hay 2003 : 144). Donc, insane possède une fréquence relative plus
élevée que sane. L’accès lexical au mot dérivé insane, qui est plus fréquent que sa base sane,
se passe via la route directe, ce qui prédit que même des mots moins fréquents peuvent être
non-décomposables s’ils sont plus fréquents que leurs bases (Hay 2003 : 73).
Pour vérifier son hypothèse, Hay a mené une expérience avec 34 paires de mots dérivés (17
dérivés préfixés et 17 dérivés suffixés) mélangés avec des mots pseudo-préfixés et pseudo-
suffixés, tel qu’illustré en (10).
(10) a. defend-dethrone b. family–busily c. adjective-protective
Les résultats de l’expérience ont clairement confirmé l’hypothèse de Hay. Il existe une
corrélation inverse entre la fréquence de la base et la décomposition du dérivé : les formes
plus fréquentes que leurs bases étaient constamment évaluées par les participants comme
moins complexes, tant pour les dérivés suffixés que préfixés. Donc, la fréquence relative des
formes dérivées influence fortement leur décomposabilité :
This provides strong evidence that the frequency of the base form is involved in facilitating decomposability. When the base is more frequent than the whole, the word is easily and readily decomposable. However when the derived form is more frequent than the base it contains, it is more difficult to decompose, and appears to be less complex. (Hay 2003 : 88)
En analysant séparément l’influence de la fréquence relative sur les dérivés préfixés et
suffixés, Hay (2003 : 102) montre qu’en général, les formes préfixées sont moins
décomposables et qu’elles sont souvent plus fréquentes que leurs bases (p<.01). La
corrélation entre la fréquence de la base et la fréquence du dérivé est plus forte dans les
formes suffixées (p<.00001).
Il ressort également que les formes dérivées qui sont plus fréquentes que leurs bases sont
plus indépendantes et plus polysémiques (Hay 2003 : 61). Si les dérivés préfixés sont plus
fréquents que leurs bases, ils ont plus de définitions que les formes préfixées qui sont moins
fréquentes que leurs bases (Hay 2003 : 105). Parmi les dérivés préfixés qui sont moins
76
fréquents que leurs bases, les formes fréquentes sont plus polysémiques que celles qui sont
moins fréquentes (Chi carré = 79.51, p<.001) (Hay 2003 : 117).
Ainsi, selon le modèle de la fréquence relative, la décomposition d’un affixe et sa
productivité sont étroitement liées : les affixes qui forment des dérivés décomposables sont
probablement plus productifs que ceux qui créent des formes non-décomposables, ce qui, à
son tour, supporte l’idée que la productivité morphologique est projetée du lexique : « The
more an affix is represented by highly decomposable forms, the more likely it is to be
productive» (Hay 2003 : 151).
En utilisant la base de données lexicale CELEX (qui inclut aussi des données du corpus
COBUILD), Hay examine aussi le rapport entre la fréquence relative et la productivité
morphologique des formes contenant des affixes productifs et des bases monomorphémiques.
En fait, la productivité morphologique représente un continuum : plus un affixe est
représenté par des formes décomposables, le plus de chances il a d’être productif. Par contre,
la fréquence de type d’affixes ne suffit pas à prédire la productivité :
Type frequency alone can not predict productivity. What is crucially missing from any analysis focusing on type frequency alone is any information about how decomposable the types are. An affix which has high type frequency is unlikely to be productive if all of the words containing it are relatively opaque. (Hay 2003 : 145).
Parmi les autres facteurs qui influencent la productivité morphologique du dérivé, Hay
(2003) mentionne les contraintes phonotactiques (séquences de phonèmes) telles qu’elles
s’appliquent à la jonction d’un affixe et de sa base. Hay suggère que les affixes qui ont
tendance à créer les frontières phonotactiques qui facilitent l'accès à un mot complexe (i.e.
inhumane) sont dans la plupart des cas moins fréquents que leurs bases ; par conséquent, ils
sont plus prédisposés à la décomposition et donc plus productifs.
Affixes which have a small proportion of form which are more frequent than their base and a large proportion of forms with illegal juncture are predicted to be highly productive…. We predict that any factor which facilitates decomposition of complex forms should also facilitate the emergence of productivity. (Hay 2003 : 151)
77
D’autres facteurs qui, selon Hay (2003), peuvent potentiellement faciliter la productivité
morphologique, sont la transparence phonologique et la transparence sémantique du mot
dérivé. En général, chaque facteur qui facilite la décomposition du mot complexe doit aussi
potentiellement faciliter la productivité. Un locuteur traite un mot complexe sémantiquement
transparent selon ses composants, ce qui appuie la notion de décomposabilité. La
transparence sémantique du mot complexe peut être mieux prédite par la fréquence relative
que par la fréquence absolue :
Relative frequency is related to semantic drift. Words for which the derived form is more frequent than the base are significantly less likely to mention their base in their definition than words for which the derived form is less frequent than the base. (Hay 2001 : 1057)
Dans le modèle de Hay (2003), la relation entre la fréquence relative et la polysémie est
proportionnelle : plus la forme dérivée est fréquente relativement à sa base, plus elle est
polysémique. Quand la forme dérivée devient suffisamment fréquente, elle est associée avec
plusieurs significations, sans égard à la fréquence relative de la base (Hay 2003 : 151).
Même si Hay ne parle pas de la corrélation possible entre le mot composé et sa base, il serait
important de savoir si la notion de la fréquence relative peut aussi être appliquée aux mots
composés. Puisque, d’une part, les composés et les dérivés sont tous deux formés dans le
composant morphologique et soumis essentiellement aux même principes (voir le chapitre 2)
et que, d’autre part, les autres mesures de productivité s’appliquent tant aux composés
qu’aux dérivés, ma prédiction est la suivante. Les mots composés vont suivre le modèle de la
fréquence relative élaboré en dérivation. Autrement dit, si un mot composé est plus fréquent
que les mots-bases (ses constituants), les constituants ne seront pas productifs et le mot
composé sera vu comme non décomposable du point de vue du traitement morphologique. Si
les mots-bases (les constituants) du composé sont plus fréquents, le patron de composition
sera considéré comme productif et le mot composé sera décomposable selon le modèle du
traitement morphologique33.
33
Il est à noter que, sauf les travaux de Fernandez-Dominguez (2007, 2009) sur la productivité des composés N-N en anglais, la notion de la fréquence relative n’a pas été appliquée aux composés. Fernández-Domínguez et al. (2007 : 38) suggèrent toutefois que la fréquence de la base des composés peut être mesurée selon trois
78
3.5 Productivité morphologique des mots composés : un paradoxe
Nous avons vu que les études portant sur la mesure de la productivité n’ont pratiquement pas
traité des mots composés. L’ouvrage de Krott, Schreider et Baayen (1999) fait exception : il
révèle un phénomène intéressant, soit que le degré de productivité des composés diffère
substantiellement de la productivité de ses constituants. Il existe en fait une corrélation entre
la productivité des mots composés et certaines propriétés de leurs composants : la fréquence
et la longueur des constituants employés seuls déterminent leur probabilité à l’intérieur des
composés. Les mots qui sont plus fréquents et plus courts ont plus de chances de devenir des
constituants de composés. Cela signifie que selon la mesure quantitative de la productivité
morphologique de Baayen (cf. 3.3), les mots qui sont plus courts et plus fréquents ont la plus
grande valeur de N (le nombre total d’occurrences observées dans le corpus), d’où vient le
niveau plus bas de P (la productivité au sens strict).
Les résultats de Krott et al. (1999) obtenus pour les composés néerlandais et allemands
montrent que la longueur et la fréquence des constituants du nom composé, aussi bien que la
productivité de la catégorie morphologique à laquelle appartiennent ces constituants, forment
une corrélation complexe qui détermine la productivité générale du mot composé.
3.5.1 Le rôle de la fréquence des constituants dans les mots composés
Dans leur analyse de la productivité des structures N-N34 en néerlandais et en allemand,
Krott et al. (1999) envisagent une représentation différente des types de mots employés
comme constituants dans les composés. Les mots-bases qui sont fréquemment employés
seuls ont plus de chance de devenir des constituants de composés : « The higher the average
word frequency for a given base word type, the higher the chance of it being overrepresented
variantes possibles : a) en additionnant les fréquences des constituants séparés ; b) en additionnant les fréquences des constituants séparés et en divisant la somme par le nombre de constituants pour calculer la fréquence moyenne ; c) en utilisant seulement la fréquence de la tête du composé. Nous verrons dans la section 4.3.3 qu’une quatrième variante est également possible, où la base est un élément qui n’est pas la tête du composé (en suivant l’analogie avec la base du mot dérivé qui n’est pas sa tête). 34
Krott, Schreider et Baayen (1999) utilisent dans leurs recherches le corpus CELEX qui inclut au moment de la recherche 42 millions de mots néerlandais et 6 millions de mots allemands.
79
in complex word » (Krott et al. 1999 : 910). Ainsi, l’étude de la fréquence de surface (le
nombre d’occurrences) moyenne des constituants droits et gauches dans les composés
néerlandais et allemands révèle une corrélation positive entre la fréquence des constituants et
le score-Z35 (Krott et al. 1999 : 919).
En premier lieu, dans les composés néerlandais, les mots qui sont plus fréquemment utilisés
comme des constituants gauches sont les mots monomorphémiques dont la fréquence
moyenne est égale à 4.37. Ils possèdent le score-Z le plus élevé (Z = 86.39), ce qui signifie
qu’ils ont plus de chance de devenir des constituants de composés. En deuxième lieu, les
mots dérivés, employés comme constituants de composés, représentent aussi une fréquence
élevée (moyenne f = 3.23), mais leur score-Z est assez bas (Z = 6.63). Par contre, les
composés synthétiques ont une fréquence moins élevée (moyenne f = 2,63) et possèdent un
score-Z négatif (Z = -6,31), qui les classifie comme de mauvais candidats dans le rôle des
constituants de composés. Ainsi, leur utilisation en tant que tel est moins fréquente.
Il ressort également que les composés N-N employés comme constituants de composés sont
les structures les moins fréquentes parmi tous les types analysés (moyenne f = 2,36) ; ils
possèdent le score-Z le plus négatif (Z = -65.02), ce qui signifie que ces formes deviennent
rarement des constituants dans les autres mots composés. Des résultats très similaires ont été
obtenus pour les constituants droits dans les composés néerlandais, aussi bien que pour les
constituants droits et gauches en allemand (Krott et al. 1999 : 919).
Compte tenu des observations présentées ci-dessus, les résultats obtenus appuient
l’hypothèse de Krott et al. (1999) sur les types de mots différents employés comme
constituants en composition. En général, il semble que la fréquence d’emploi des mots
employés seuls détermine leur probabilité à l’intérieur des composés, en tant que
constituants : les mots-bases qui sont plus fréquents ont plus de chance de servir de
constituants aux composés, en comparaison à ceux qui sont moins fréquents. Krott et al.
35
Berry-Rogghe a développé le score Z qui mesure la différence entre les fréquences observées pour chaque combinaison formée à partir de L (une unité lexicale) dans une fenêtre de mots-formes donnée et les fréquences attendues sous l’hypothèse du hasard. Plus le score d’une combinaison est élevé, plus cette combinaison est significative. (Berry-Rogghe 1973 : 103)
80
(1999 : 917) suggèrent que les mots qui sont plus fréquents sont reconnus et produits plus
vite, et d’une façon plus précise, contrairement aux mots employés moins fréquemment.
Globalement, ce fait signifie que les mots plus fréquents sont plus disponibles comme
constituants potentiels de mots composés.
3.5.2 Le rôle de la longueur des constituants dans les composés
Krott et al. (1999) ont également analysé dans les mots composés le nombre de morphèmes
dans les constituants gauches et droits. Leur hypothèse prédit une forte corrélation négative
entre la longueur des mots-bases et leur fréquence d’occurrences : « The longer a base word,
the higher the chance of it being underrepresented in complex words » (Krott et al. 1999 :
913).
En fait, les résultats obtenus avec le score-Z montrent que les constituants gauches qui sont
courts sont surreprésentés dans les composés néerlandais, tandis que les constituants longs y
sont rarement employés. La fréquence la plus haute est enregistrée parmi les constituants
formés d’un seul morphème (f moyenne = 4.37) ; ces constituants possèdent aussi un score-Z
positif très élevé (Z = 86.39) (Krott et al. 1999 : 913). En revanche, les constituants qui
contiennent deux ou trois morphèmes sont moins fréquents et leurs scores-Z sont négatifs
(moyenne f = 2,69 et 2,24 et Z = -34.09 et -32.30 respectivement). Des résultats très
similaires ont été obtenus sur la corrélation entre la longueur des mots-bases, la fréquence et
le score-Z des constituants droits des composés néerlandais (Krott et al. 1999 : 923).
Ainsi, Krott et al. (1999 : 917) suggèrent qu’en composition, les notions de longueur, de
fréquence et de types de base des constituants sont corrélées : les mots courts sont plus
fréquents et plus faciles à produire et à reconnaître que les mots longs ; ainsi, ils sont de bons
candidats pour remplir la fonction de constituants dans les mots composés.
3.5.3 Le paradoxe de la productivité des mots composés
Comme mentionné ci-dessus, la fréquence et la longueur des mots déterminent leur
probabilité d’apparition comme constituants dans les mots composés. Ces faits amènent
Krott et al. (1999 : 914) à une suggestion paradoxale liée à la productivité des constituants à
l’intérieur des mots composés : les catégories des mots-bases qui sont moins productives
81
employées seules, deviennent plus productives comme constituants des mots composés. La
mesure de la productivité morphologique utilisée par Krott et al. (1999 : 914) se base sur le
modèle de Baayen (1992, 1994) qui propose l’estimation de la productivité morphologique
comme suit :
(11) V(1, N) P = __________ N
où V (1, N) représente le nombre d’hapax legomena (les formes qui apparaissent une fois seulement dans un grand corpus), et N représente le nombre total d’occurrences du type de mot analysé.
En fait, il apparaît que les catégories qui incluent beaucoup de mots courts de haute
fréquence ont une grande valeur de N et, conséquemment, un degré bas de productivité. De
ce fait découle le paradoxe suivant (Krott et al. 1999 : 914) : des catégories de mots qui
possèdent un degré de productivité assez bas sont relativement plus productives comme
constituants de composés, tandis que les catégories qui sont en général plus productives
possèdent un degré de productivité plus bas comme constituants de composés.
Paradoxically, this suggests that those categories of base words that have a low category-conditioned degree of productivity are relatively more productive as constituents in other complex words than base words that have a high category-conditioned degree of productivity. (Krott et al. 1999 : 914)
En analysant les structures mentionnées ci-dessus, Krott et al. (1999) ont aussi découvert que
les catégories moins productives comprennent typiquement des formations assez fréquentes
possédant souvent plusieurs significations opaques. Ces formations doivent être stockées
dans le lexique mental pour être prêtes à la formation de mots nouveaux. Ainsi, ce fait peut
expliquer le paradoxe de la productivité des mots composés selon lequel les catégories moins
productives deviennent plus productives lorsqu’elles sont employées comme constituants des
mots composés (Krott et al. 1999 : 917).
3.6 La productivité et la taille de la famille morphologique Outre la mesure quantitative de Baayen (1992, 1993, 1996), une autre approche visant
l’évaluation de la productivité a récemment émergé – celle de la corrélation entre la
productivité et la taille de la famille morphologique. En fait, l’effet de la taille de la famille
82
morphologique est bien étudié dans les langues germaniques (néerlandais : Bertram et al.
2000 ; De Jong et al. 2000 ; Moscoso del Prado Martin et al. 2005 ; Schreuder et Baayen
1997 ; anglais : De Jong et al. 2002 ; allemand : Lüdeling et De Jong 2002) et récemment en
hébreu (Moscoso del Prado Martin et al. 2005).
Traditionnellement, la notion de la famille de mots inclut l’ensemble des unités lexicales
morphologiquement liées. Selon la définition de Schreuder et Baayen (1997 : 118), la famille
morphologique inclut tous les mots qui sont formés avec le mot de base via la dérivation ou
la composition, mais pas la flexion36. Par exemple, le terme de la famille morphologique est
utilisé par Schreuder et Baayen (1997 : 121) pour dénoter une série de mots dérivés d’un
radical (table) au moyen de la composition (tablespoon, timetable) ou de la dérivation
(tablet, tabular).
Selon Schreuder et Baayen (1997 : 121), la taille de la famille morphologique est déterminée
d’après le nombre de mots différents dans une famille morphologique particulière (excluant
du compte le mot de base lui-même). Quant à la notion de la fréquence cumulative de famille
morphologique, elle indique la somme de la fréquence d’occurrence des membres de la
famille morphologique, excluant la fréquence du radical du mot-base.
La taille de la famille morphologique apparaît comme un facteur substantiel lié à la décision
lexicale dans plusieurs travaux récents (Bertram et al. 2000 ; de Jong et al. 2002 ; Schreuder
et Baayen 1997). Par exemple, une expérience de décision lexicale visuelle présentée chez
Schreuder et al. (1997 : 118) montre que des mots monomorphémiques néerlandais ayant une
famille morphologique plus grande sont traités plus rapidement que ceux ayant moins de
membres dans leur famille morphologique.
En ce qui concerne la corrélation possible entre la taille de la famille morphologique et la
production lexicale des mots composés, Van Jaarsveld, Coolen et Schreuder (1994 : 134)
furent parmi les premiers à suggérer que la taille de la famille morphologique joue un rôle
important dans le traitement des composés. Apparemment, quand un nouveau composé est
36 De Jong et al. (2000) ne considèrent pas les formes fléchies (pluriel, féminin, verbes conjugués, etc.) comme membres d’une famille morphologique.
83
formé de constituants appartenant à de grandes familles morphologiques, son activation le
rend très semblable aux mots de la même famille et il est plus difficile de le rejeter comme
un mot inexistant.
La corrélation directe entre la taille de la famille morphologique et la fréquence de ses
membres a été constatée dans les composés anglais dans Moscoso del Prado Martin et al.
(2005). Ils révèlent que la taille de la famille morphologique des composés dépend fortement
de la fréquence de ses constituants ; en effet, quand un des constituants est fréquemment
utilisé, la taille de la famille morphologique du composé a tendance à être plus grande :
For instance, the English word man appears as a constituent in nearly 200 other English words, including compounds such as policeman or manpower, and derived words such as manhood. On the other extreme, word such as scythe does not appear as constituents in any other words. […] morphological family size is highly correlated with word frequency, i.e., the more frequent a word is, the larger its morphological family size tends to be. » (Moscoso del Prado Martin et al. 2005 : 496)
Bien, Levelt et Baayen (2005 : 17876) constatent par ailleurs qu’en néerlandais et en hébreu,
la fréquence des mots composés et de leurs constituants employés seuls dépend fortement de
la taille de leurs familles morphologiques. En néerlandais, comme en anglais, les familles
morphologiques consistent en grande partie de mots composés, tandis qu’en hébreu, elles
sont composées presque exclusivement de mots dérivés. Les structures des familles
morphologiques de ces langues sont clairement corrélées avec leurs volumes : la taille
moyenne de la famille morphologique est [0,549] en néerlandais et [0,25] en hébreu.
Plusieurs calculs expérimentaux sur la corrélation entre la taille de la famille morphologique
et la fréquence cumulative des mots complexes (incluant des composés) montrent aussi que
la taille de la famille est un facteur important dans le traitement lexical des composés en
anglais, en néerlandais et en allemand :
84
The counts of family size and cumulative family frequency for complex words (including compounds ) suggests that family size is an important factor in the lexical processing of English, Dutch and German. It shows that compounding, the most productive morphological process in Dutch, is responsible for the bulk of the family members. For languages such as French, in which compounding (chemin de fer,) is much less productive, it is unclear whether family size will turn out to be equally important as in Dutch or English. (Schreuder et Baayen 1997 :135)
En suivant Schreuder et Baayen (1997), Moscoso del Prado Martin et al. (2005 : 501)
suggèrent que l'effet de la taille de la famille est logarithmique de nature.
En ce qui concerne le rôle de la famille morphologique dans l’évaluation du niveau de
productivité des mots complexes, cet aspect a été examiné dans le travail de Baayen et Hay
(2002). Pour déduire une corrélation possible entre la productivité des affixes et la taille de
leur famille morphologique en anglais, Baayen et Hay (2002) ont proposé la mesure de la
taille catégorielle de la famille morphologique définie comme suit : « Let the ‘categorial
family size’ of a morphological category be the sum of the (logarithms of the) family sizes of
the base words of the members of this category » (Baayen et Hay 2002 : 2). La formule pour
cette mesure est la suivante :
V(affix)
(12) V (affix) = ∑ log V (basei)
i = 1
où V = catégorie morphologique d’un affixe particulier ; f (basei) = famille morphologique du mot-base formés avec cet affixe.
Selon cette formule, la taille catégorielle de la famille morphologique des mots formés avec
un affixe particulier, est calculée de la façon suivante :
(13) log (F1) + log (F 2) + log (F 3) etc.
où F = la taille de la famille morphologique des mots-bases formés avec un affixe.
Pour illustrer le calcul, prenons un exemple simplifié proposé par Baayen et Hay (2002 : 2) :
85
Tableau 3-1 A simplified example of an affix entry in morphological database
Category Members Whole word frequency
Base Base frequency
Family size of base
un unaware 284 aware 1768 2
unbound 8 bound 107 30
unease 105 ease 819 20
unsafe 56 safe 1584 28
unwise 91 wise 723 37
unbrave 1 brave 371 4
Baayen et Hay (2002 : 2) évaluent la taille catégorielle de la famille morphologique des
dérivés formés avec un affixe un- (cf. Tableau 3-1) comme suit :
(14) log (2) + log (30) + log (20) + log (28) + log (37) + log (4)
Ainsi, la taille de la famille catégorielle est une mesure reflétant le fait qu’une catégorie
morphologique au complet contribue à la connectivité morphologique dans le lexique mental.
Une mesure étroitement liée à celle-ci est la taille moyenne de la famille catégorielle calculée
de la façon suivante (Baayen et Hay 2002 : 2) :
(15) Vf (affix/V)
Cette mesure s’utilise pour estimer la taille catégorielle d’un membre individuel de la famille
morphologique.
En ce qui concerne la question majeure de la recherche, c’est-à-dire, si la taille catégorielle
de la famille morphologique peut prédire la productivité au niveau des différentes catégories
morphologiques, Baayen et Hay (2002) concluent que les catégories les plus productives
correspondent aux familles morphologiques plus petites :
[…] more productive categories extend to base words with smaller morphological families, while less productive categories tend to be restricted to higher-frequency base words with larger morphological families. Locally, at the level of the individual members of morphological categories, productivity manifests itself as the possibility of incorporating in the category formations with less well-established base words, less well-established both in terms of frequency and in terms of their connectivity in the mental lexicon. (Baayen et Hay 2002 : 4)
86
Il reste à voir comment cette corrélation entre la taille de la famille morphologique et la
productivité s’applique également aux mots composés du français.
3.7 L’approche structurale versus l’approche sémantique Contrairement à la dérivation où c’est l’affixe qui entraîne un changement de la catégorie
morphologique et détermine le type du mot affixé, en composition, on peut interpréter
différemment ce qu’est un type de composés : structural ou sémantique. Autrement dit, la
relation entre la productivité des mots composés et leur type peut être envisagée selon ce que
j’appellerai respectivement l’approche structurale ou l’approche sémantique.
Selon l’approche structurale, la typologie des mots composés en français est basée sur quatre
axes (cf. § 2.3) et elle inclut les types suivants : les composés endocentriques et
exocentriques (i.e. lunettes-soleil vs reine-claude) ; les composés synthétiques et primaires
(i.e. porte-avions vs petit-four) ; les composés indigènes et savants (i.e. haut-parleur vs
polydépendance) ; les composés réguliers et irréguliers (i.e. adapte-couleur vs trique-
madame). De plus, on peut considérer les combinaisons de catégories (gabarits) et la position
de la tête morphologique dans la structure (ie. N-N, A-N, N-A, etc.).
Par contre, la typologie des mots composés selon l’approche sémantique est établie par les
relations sémantiques entre ses constituants, c’est-à-dire entre les arguments et le prédicat,
que celui-ci soit explicite (composés synthétiques) ou implicite (composés primaires). Dans
le travail de Fernández-Domínguez (2009 :7), les types des composés N-N en anglais ont été
définis sémantiquement en fonction des prédicats implicites suivants proposés au départ par
Levi (1978) : ABOUT (business report, football team, etc.) ; BE (police officer, summertime,
etc.) ; CAUSE (pressure mark, teargas, etc.), FOR (sunglasses, massage room, etc.) ; FROM
(oak leaf, deerskin, etc.) ; HAVE (tea bag, wine bar, etc.) ; IN (kitchen shelf, watersport,
etc.) ; MAKE (glass door, beeswax, etc.) ; USE (motorbike, powerboat, etc.).
Ainsi, dans le travail de Fernández-Domínguez (2009), l’analyse de la productivité des
composés N-N est basée plutôt sur l’aspect qualitatif, notamment la notion de rentabilité
(Corbin 1987) du processus de composition. L’auteur propose deux variantes pour mesurer la
productivité des composés N-N en anglais. La première mesure (π) se base sur le ratio entre
87
le nombre de types (V) et le nombre d’occurrences (N) des formes recensées en indiquant
leur niveau de rentabilité en termes numériques. La deuxième variante (Π), sous forme du
graphique, est basée sur les mêmes facteurs ; elle sert d’une mesure complémentaire où l’axe
vertical reflète le nombre d’occurrences et l’axe horizontal le nombre de types. Fernández-
Domínguez souligne (2009 :173) que l’application combinée de ces deux mesures est
cruciale puisqu’elle permet d’expliquer des résultats ambigus. De cette manière, son modèle
de mesure est basé surtout sur la fréquence de types en tenant compte de la nature bipolaire
de la productivité (disponibilité versus rentabilité). En outre, d’après l’auteur, cette méthode
reflète mieux les besoins de formation de nouveaux composés chez un locuteur ; elle permet
aussi d’obtenir des résultats pertinents pour les groupes de composés sémantiquement
homogènes.
Toutefois, dans le travail de Fernández-Domínguez (2009 : 157), l’application de la mesure π
a généré des résultats contradictoires sur la productivité des composés N-N : les composés
formés au moyen de CAUSE et FROM, considérés généralement comme non productifs,
sont ressortis parmi les plus rentables. L’auteur explique ces données par le fait que
comparativement avec les autres prédicats où le nombre de types est assez élevé (i.e.
ABOUT→ V = 268 ; MAKE→ V = 122 ; FOR→ V = 364 ; etc.) le nombre de types dans les
prédicats CAUSE et FROM est considérablement plus petit (V = 55 vs V = 45
respectivement). Ainsi, le niveau de rentabilité de CAUSE (π = 0.2360) et FROM
(π = 0.1654) est plus élevé comparativement au niveau de rentabilité de MAKE (π = 0.1508)
et FOR (π = 0.1270). Par contre, selon la mesure Π (sous forme du graphique), les prédicats
IN, FOR et ABOUT sont les plus rentables, alors que selon la mesure π les prédicats IN et
FOR apparaissent parmi ceux qui sont les moins rentables (0.1244 et 0.1270 respectivement).
Ainsi, l’application de la mesure quantitative π représente certains points faibles (i.e. les cas
où V est inférieur à 60). En outre, comme le montre Bauer (2001), la rentabilité selon Corbin
(1987) est envisagée à la fois comme un potentiel et une réalisation du processus
morphologique dans le passé. Toutefois, ces deux notions devraient probablement être
distinguées.
88
Dans mon travail, l’analyse quantitative de la productivité des noms composés sera basée sur
l’approche structurale. Cette méthode me permettra d’évaluer l’évolution du niveau de
productivité des formes recensées en fonction de plusieurs facteurs tels que le type
endocentrique/exocentrique, la position de la tête morphologique, le statut régulier/irrégulier
et le type structural du composé. Outre cela, la productivité des composés N-N, A-N, N-A et
N-de-N sera examinée tant globalement qu’en diachronie.
3.8 Productivité et diachronie La productivité des mots composés est un domaine de recherche qui intéresse actuellement
beaucoup de linguistes (Bauer 2008 ; Estopà 2009 ; Fernandez-Dominguez 2007, 2009).
Toutefois, comme l’a remarqué Trips (2009), il existe peu de travaux qui analysent la
productivité morphologique en fonction des changements diachroniques : « …almost all
work done in morphological productivity has made none or little reference to time, leaving
aside changes over time, i.e., the diachrony of the language » (Trips 2009 : 33). Selon
Dalton-Puffer (1996 : 217), en dérivation, la productivité en diachronie peut être mesurée en
comparant la fréquence d’occurrences d’un type de composés durant des périodes de temps
ou au cours des sous-périodes différentes d'un corpus : « …a productive morphological rule
produces many different words (types), and it is therefore likely that in a given corpus a
productive suffix will occur more often than an unproductive one ».
Estopà (2009 : 552) souligne qu’il existe peu de travaux qui étudient la productivité en
composition sous l’aspect de la diachronie dans les langues romanes, surtout en français.
Cependant, selon lui, ce type de recherche peut être très fructueuse pour la linguistique
puisqu’il reflète des changements au niveau de création de nouvelles formes complexes
durant les différentes périodes historiques :
Par ailleurs, peu d’études traitant de la néologie des langues romanes ont été réalisées sous l’angle de la diachronie pour mettre en relief la créativité linguistique d’une communauté au cours d’une longue période, données pourtant précieuses, car permettant de réaliser une « radiographie » des changements linguistiques plus complète que la description basée sur des données synchroniques. (Estopà 2009 : 552)
89
Étant donné qu’il n’existe pas de travaux sur la productivité des composés français en
diachronie, dans le Chapitre 5, je présenterai l’étude diachronique sur la productivité des
composés N-N, A-N, N-A et N-de-N.
L’étude diachronique m’aidera à distinguer les vrais hapax (i.e. des néologismes potentiels)
des faux hapax (i.e. des mots rares), un problème soulevé par (Dal 2003), et ainsi de mieux
tester la fiabilité de la mesure de productivité P. Les mots rares (faux hapax) ne seront pas
retenus puisque seulement les hapax parus dans Frantext pour la première fois (vrais hapax)
seront pris en considération. Les hapax d’une période donnée sont ainsi traités comme de
faux hapax s’ils apparaissent ne serait-ce qu’une fois dans la période précécente.
Évidemment, cette distinction n’est pas possible pour la première période puisque je n’ai pas
consulté les données pour la période antérieure (pré-1606). Conséquemment, en raffinant le
statut des hapax, l’étude diachronique contribuera à la fiabilité de la mesure P et éliminera,
pour trois des quatres périodes, le problème des mots rares.
3.9 Productivité et registre de langue
D'après certains linguistes, le phénomène de productivité peut être lié au registre (ou niveau)
de langue qui reflète une situation d’énonciation particulière. Ainsi, Bauer (2001 : 17)
suggère : « I am not aware of any others efforts to equate ‘semi-productivity’ with
productivity in particular registers, though the idea is an interesting one.»
Lethmann et Martin-Berthet (2008 : 52) soulignent que c’est « une situation de discours qui
détermine le registre utilisé », néanmoins, le terme ‘registre’ est quelquefois employé de
façon ‘extensive’ représentant les aspects comme domaine, usage, fréquence, etc. (Lethmann
et Martin-Berthet 2008 : 26). Elles montrent également qu’en français, l’emploi des mots
composés se rapporte à une situation de discours et le registre utilisé :
Mots composés et locutions offrent un grand nombre d’emploi métaphoriques, quel que soit le registre de la langue ; jeter des perles aux pourceaux ou aux cochons (« accrocher à quelqu’un une chose dont il est incapable d’apprécier la valeur ») est une locution littéraire, … donner de la confiture aux cochons est une locution familière. (Lethmann et Martin-Berthet 2008 : 115)
90
Dans son travail récent, Estopà (2009 : 552) indique que dans la langue catalane, « de
nombreux néologismes formés par composition nominale sont utilisés dans un registre
populaire et vulgaire. » Quant aux structures V-N, plusieurs néologismes enregistrés en
catalan ont aussi comme origine un registre familier, voire vulgaire (Estopà 2009 : 562).
L’importance de différents registres pour les études linguistiques a également été notée par
Dubois et all. (2002) :
À l’intérieur d’une même langue, les variations sont également importantes, synchroniquement parlant : pour les niveaux de langue, on parle de langue familière, soutenue, technique, savante, populaire, propre à certaines classes sociales, à certains sous-groupes (famille, groupes professionnels). (Dubois et all. 2002 : 267)
Bien que mon travail ne vise pas à examiner le rôle du registre de langue dans la productivité
des noms composés en français, cette question est liée à la représentativité des corpus. Étant
donné que le corpus textuel Frantext est formé principalement de textes littéraires (80%), il
aurait été intéressant d’explorer la productivité des mots composés en utilisant des corpus
journalistique, plus susceptibles de contenir des formations lexicales quotidiennes. Toutefois,
à ma connaissance, ce type de corpus n’existe pas pour les périodes antérieures au XXe
siècle. Les deux corpus du français journalistique les plus utilisés actuellement sont : le
Corpus Chambers-Rostand du français journalistique (environ 1 million de mots) qui inclut
des articles parus en 2002-2003 dans les journaux Le Monde, L'Humanité, La Dépêche du
Midi et le corpus du journal Le Monde (environs 25 millions de mots) constitué des articles
parus en 1995. Ce dernier a été utilisé par Grabar et al. (2006) au cours de la recherche sur la
productivité des mots dérivés en français.
Deuxièmement, avant le XXe siècle, les articles parus dans les journaux ont été écrits
généralement par des auteurs littéraires. En dépit du fait que ces articles aient traité de sujets
différents (i.e. la politique, la science, la culture, etc.), il est raisonnable de penser qu’ils
s’apparentaient aux œuvres littéraires par leur style ou leur registre. Ainsi, les journaux
disponibles avant le XXe siècle ne représentaient pas un vrai style journalistique. Dans les
limites imposées par l’approche diachronique retenue ici, Frantext constitue donc la
mielleure source pour les données.
91
3.10 Sommaire Les différents modèles de productivité présentés dans ce chapitre révèlent que les questions
les plus intéressantes ne concernent pas tant la définition de la productivité morphologique
elle-même, que ses mesures qualitatives et quantitatives.
Comme on l’a vu, la notion de productivité peut être abordée sous un angle qualitatif ou
quantitatif. D'un point de vue qualitatif, on définit la productivité comme la capacité des
règles morphologiques à former de nouveaux lexèmes de façon non intentionnelle (Dal
2003). L’aspect quantitatif de la productivité reflète la rentabilité du processus
morphologique, c’est-à-dire le degré auquel cette disponibilité est exploitée selon les normes
de la langue particulière. Ainsi, il existe deux facettes de la productivité morphologique :
d’une part, c’est une productivité mécanique déterminée par la fréquence d’emploi et évaluée
par une mesure quantitative, et d’autre part c’est la possibilité de création d’un patron
productif (Bauer 2001 : 9). Plusieurs méthodes, utilisant de grands corpus, ont été proposées
pour mesurer des aspects différents de la productivité (Baayen 1992, 1993 ; Fernández-
Domínguez 2009 ; Baayen et Lieber 1991 ; Baayen et Renouf 1996 ; Krott, Schreider et
Baayen 1999).
Quelques problèmes importants liés à la productivité morphologique ont été soulevés par
Bauer (2001, 2005, 2008). Ses critiques touchent en général deux questions : 1) le modèle de
mesure de la productivité morphologique ; 2) la représentativité et la taille du corpus utilisé.
On doit à Baayen (1991, 1993, 1996) les mesures de productivité les plus utilisées
actuellement qui réunissent les différents paramètres de la productivité dans des formules
mathématiques, en permettant des comparaisons objectives entre processus. En général,
Baayen propose deux mesures de productivité morphologique : la productivité au sens strict
et la productivité globale ; les deux mesures se calculent relativement à un corpus donné,
nécessairement de taille suffisamment grande.
Toutefois, la mesure la plus utilisée présentement est celle de la productivité P au sens strict
(Baayen 1991, 1993). Comme l'un des principaux points forts de cette méthode, Baayen et
Renouf (1996) mentionnent les hapax qui sont de bons marqueurs de la productivité du
92
processus étudié : plus grand est le nombre d’hapax, plus productif est le processus
morphologique étudié. Néanmoins, la taille du corpus utilisé est aussi extrêmement
importante : un corpus trop limité risque de présenter, à tort, des formes uniques comme des
néologismes.
La seconde mesure de la productivité (Baayen 1992 ; 1993), appelée la productivité globale,
reflète un index de probabilité d’apparition d’un mot nouveau dans un procédé donné.
Cependant, comme l’indique Bauer (2001), l'utilisation de cette méthode révèle les
problèmes liés à la représentation du niveau de productivité. Selon son point de vue, il est
impossible d’évaluer correctement la contribution réelle de chaque facteur en termes de leurs
dimensions verticale et horizontale sur un graphique bidimensionnel.
En contraste avec les modèles traditionnels qui considèrent que la productivité
morphologique est liée à la fréquence absolue des formes dérivées, Hay (2003) souligne
l’importance de la fréquence relative. Selon son modèle, élaboré pour la dérivation, un affixe
qui est présent dans les formes décomposables est probablement plus productif que celui qui
fait partie des formes non-décomposables.
Enfin, la mesure récemment introduite dans le calcul du niveau de productivité a été
proposée par Baayen et Hay (2002) et est liée à la taille de la famille morphologique des
formes analysées. Selon cette mesure, il existe une corrélation inverse entre la taille
catégorielle et le niveau de productivité des structures complexes : l’augmentation de la taille
d’une famille catégorielle correspond au niveau de productivité plus bas.
Finalement, une approche sémantique basée sur l’aspect qualitatif de la productivité a été
proposée dans le travail récent de Fernández-Domínguez (2009). En suivant le modèle de
Levi (1978), le niveau de productivité des mots composés N-N en anglais a été évalué en
termes de relations sémantiques entre ses constituants (i.e. entre le prédicat et les arguments).
Toutefois, l’utilisation de la mesure π proposée par l’auteur a parfois démontré des résultats
qui entrent en conflit avec la mesure P au sens strict de Baayen (1991, 1993). Ainsi, les
composés N-N formés au moyen de prédicats CAUSE et FROM, envisagés généralement
comme non productifs, sont apparus comme les plus rentables.
93
3.11 Conclusion Dans ce chapitre, j’ai présenté les aspects importants liés à la notion de la productivité
morphologique, ainsi que les différents modèles théoriques visant à évaluer la productivité
des mots complexes. J’ai montré que, malgré un intérêt nouveau pour le concept de
productivité et les moyens de mesurer celle-ci dans les travaux récents en morphologie
dérivationnelle, la productivité des mots composés est un domaine de recherche très peu
exploré, surtout en français. L’intérêt des chercheurs envers la productivité morphologique
privilégie surtout la productivité des affixes ; et c'est en cela que la productivité des
composés mérite d’être étudiée plus profondément.
Parmi toutes les mesures présentées dans ce chapitre, j’ai retenu trois approches quantitatives
pour évaluer la productivité des formes recensées, tant globalement que par période.
La première mesure est celle de la productivité P au sens strict basée sur la notion d’hapax
legomenon (Baayen 1992, 1993, 2008 ; Baayen et Lieber 1991 ; Baayen et Renouf 1996).
Cette approche, représentée par la formule P = n1 / N, prend en considération le nombre
d’hapax et le nombre total d’occurrences des formes recensées. Ainsi, la mesure P au sens
strict me permettra d’analyser de nouveaux types de composés en calculant la fréquence
d’occurrences des formes recensées (composés et leurs constituants) et des membres de leurs
familles morphologiques (cf. § 4.3). Finalement, l’utilisation de la mesure P rendra possible
la présence des hapax qui sont de bons marqueurs de la productivité du processus étudié :
plus grand est le nombre d’hapax – plus productif est le processus de composition. Ainsi, le
rôle principal de cette mesure est la distinction entre les processus productifs et non
productifs.
Rappelons que Bauer (2001) a critiqué la mesure P au sens strict en termes de la
représentativité et la taille du corpus utilisé. Toutefois, il exprime la même opinion que
Baayen (1993) sur la taille du corpus utilisé : il faut utiliser un corpus le plus grand possible
pour garantir des données statistiques fiables. Les formes recensées dans mon travail seront
validées dans le corpus informatisé Frantext comptant plus de 170 millions de mots. Cette
base de données comporte environ 4000 textes, dont 80 % sont des textes littéraires et 20 %
sont des textes techniques, représentant de principales disciplines scientifiques. Ce corpus est
94
assez représentatif du point de vue de la langue et il inclut des formes attestées aussi bien que
des formes établies de la langue française. Même s’il n’existe pas encore de consignes
précises concernant la taille du corpus utilisé pour mesurer le taux de productivité, il est
raisonnable de penser que ce corpus est suffisamment grand pour résoudre les problèmes
soulevés par Bauer (2001). Notons qu’il dépasse en taille le corpus CELEX (65 millions de
mots) et Cobuild (16 millions de mots) utilisés notamment par Baayen.
La deuxième mesure est la mesure de la fréquence relative de Hay (2003). Cette approche,
élaborée pour les mots dérivés comme frelative = fdérivé / fbase, sera adaptée aux composés
comme frelative = fcomposé / fbase. Cette mesure calculera séparément la fréquence des
constituants (des bases) du composé et la fréquence du composé lui-même.
Selon Hay (2003), la fréquence relative d’un mot complexe par rapport à sa base influence sa
décomposition et, par conséquent, le niveau de sa productivité : plus un affixe est représenté
par des formes décomposables, plus probablement il doit être productif. Donc, en appliquant
la notion de la fréquence relative aux noms composés, je pourrai valider ce modèle pour la
composition. Il est à noter que la mesure de la fréquence relative était appliquée au processus
de composition seulement dans le travail de Fernandez-Dominguez (2009). Sa thèse
consacrée à la productivité des composés N-N en anglais a révélé des résultats mixtes en
termes de l’emploi de la fréquence relative dans le calcul de la productivité des formes
recensées. J’utiliserai donc la notion de la fréquence relative de Hay (2003) en conjonction
avec la mesure de l’hapax de Baayen (1992, 1993).
Finalement, la troisième mesure est celle de la taille de la famille d’une catégorie
morphologique de Baayen et Hay (2002). Cette approche sera appliquée pour définir une
corrélation possible entre la productivité et la taille catégorielle de la famille morphologique
du nom composé. Cette mesure se calculera en deux étapes. En premier lieu, je mesurerai la
taille de la famille morphologique de chaque constituant d’une forme recensée. En deuxième
lieu, j’utiliserai la formule logarithmique log (F3) + log (F2) + log (F3) etc. de Baayen et
Hay (2002) où F1, F2, F3, sont les tailles de la famille morphologique des mots-bases. Étant
donné qu’actuellement, dans les travaux linguistiques, il n'existe pas de consensus sur la
notion de la base dans les mots composés (cf. 2.2.5), j’aurai recours à la notion de constituant
95
plutôt que de base dans mon étude sur la taille catégorielle de la famille morphologique des
composés N-N, A-N, N-A et N-de-N. Rappelons que Krott et al. (1999) dans leur étude sur la
productivité morphologique des composés néerlandais et allemands, considèrent que chaque
constituant d’un composé est une base (cf.2.2.5).
La mesure de la taille catégorielle de la famille morphologique me permettra d’évaluer la
fréquence des constituants du composé aussi bien que la fréquence des membres de leurs
familles morphologiques. Selon les recherches récentes de Baayen et Hay (2002) menées sur
la productivité des affixes, il existe une forte corrélation entre la fréquence relative et la taille
de la famille morphologique des dérivés : quand la fréquence de la base augmente, le nombre
d’hapax diminue. En corollaire, une taille de la famille catégorielle plus basse est liée à un
nombre d’hapax accrû et, par conséquent, un niveau plus élevé de la productivité P.
En considérant la pertinence des recherches mentionnées ci-dessus, l’application de la
méthode de la taille catégorielle, en termes de la corrélation entre la famille morphologique
des constituants et la productivité du mot composé, peut révéler des résultats intéressants. En
premier lieu, ce modèle n’a jamais été appliqué à l’étude de la productivité morphologique
des composés français. En deuxième lieu, en utilisant cette approche, il est possible d’affiner
les outils de mesure en comparant la mesure quantitative de la productivité P au sens strict de
Baayen (cf.3.3) avec les données sur la taille de la famille morphologique des composés.
Cette étude me permettra d'analyser comment les familles de grande taille contribuent au
nombre d’hapax et, conséquemment, à la productivité des composés N-N, A-N, N-A et
N-de-N en général.
Ma recherche vise aussi à vérifier les corrélations potentielles entre la productivité des
constituants du composé et la productivité du nom composé lui-même (i.e. la fréquence
relative). Selon Krott et al. (1999), les constituants qui sont plus courts et plus fréquents
possèdent un plus grand nombre de N, d’où vient le nombre plus bas de P. Je vais donc
repérer les structures les plus courantes dans les types N-N, A-N, N-A et N-de-N pour
vérifier cette observation. Toutefois, dans les limites de ce travail, je ne tiendrai pas compte
de la longueur des consituants.
96
En conclusion, étant donné que la productivité morphologique des mots composés est très
peu étudiée, et qu’il n’existe pas de travaux sur la productivité du processus de composition
en français, ma recherche testera plusieurs modèles théoriques qui existent dans ce domaine
en utilisant les trois mesures mentionnées ci-dessus. Dans le chapitre suivant, je présenterai
la méthodologie et le corpus dont je me servirai dans mon travail, ainsi que l’étude-pilote sur
la productivité des composés garde-x.
97
CHAPITRE 4
Méthodologie et corpus
4.1 Introduction La discussion des diverses mesures de productivité des noms complexes au chapitre
précédent a révélé l’importance de l’utilisation d’un corpus textuel de taille suffisamment
grande puisque les résultats obtenus en dépendent fortement. Pour cette raison, j’aurai
recours à une large base de données, Frantext.
Le présent chapitre a pour objet d’expliciter la méthodologie utilisée dans cette recherche. En
premier lieu, j’introduis les trois bases de données qui sont explorées dans mon étude : le
corpus textuel Frantext, le corpus Gallica et le Dictionnaire de Littré. Je discute des forces et
des faiblesses de chaque base de données, des différentes méthodes d’organisation et
d’exploitation de ces sources, ainsi que des questions liées à l’extraction des formes
recensées et à la formation de la liste de noms composés qui sont évalués au cours de mon
travail. En deuxième lieu, j’explique les méthodes d’application de trois mesures de calcul de
la productivité au corpus Frantext : la mesure basée sur les hapax (Baayen 1992 ; Baayen et
Lieber 1991), la mesure de la fréquence relative de Hay (2003) et la mesure de la taille
catégorielle de la famille morphologique de Baayen et Hay (2002). Finalement, je présente
les étapes et les résultats de l’étude-pilote qui a été menée pour tester mes choix
méthodologiques et vérifier la pertinence des mesures de productivité retenues.
Le chapitre est structuré de la façon suivante. La section 4.2 propose un survol de
l’évaluation de la productivité morphologique à partir des corpus textuels. Dans la section
4.3 sont présentées les étapes de la création de la liste de noms composés français à partir de
la base de données Gallica et et du Dictionnaire de Littré, les méthodes d’identification des
formes recensées et le choix des types et des structures analysés. Dans les sections 4.3.4 et
4.3.5, les étapes préparatoires concernant l’organisation et l’exploitation du corpus Frantext
sont introduites. La section 4.4 décrit l’étude pilote sur la productivité des noms composés
98
garde-x. La section 4.5 analyse les résultats de l’étude pilote quant à corrélation potentielle
entre la productivité, la fréquence relative et la taille de la famille morphologique.
Finalement, la section 4.6 présente une brève conclusion sur l’étude pilote et les choix
méthodologiques.
4.2 L’évaluation de la productivité morphologique à partir des corpus textuels
Comme nous l’avons vu au chapitre précédent, deux grands types de mesures ont été
proposés pour évaluer la productivité d’un processus morphologique : les mesures basées sur
les mots listés dans les dictionnaires et les mesures reposant sur l’attestation textuelle (Bauer
2003 : 86). Traditionnellement, les aspects diachroniques de la productivité ont été étudiés au
moyen de dictionnaires. Cependant, l'utilisation des dictionnaires révèle quelques problèmes
méthodologiques (Baayen 2009). Premièrement, la représentativité des échantillons est
inévitablement lacunaire pour les étapes plus lointaines dans l’histoire de la langue.
Deuxièmement, un mot peut avoir été en usage depuis longtemps avant d’être consigné au
dictionnaire. Troisièmement, les dictionnaires fournissent peu de contrôle sur la variation de
la productivité.
Actuellement, les données linguistiques présentées dans les corpus textuels sont considérées
comme sources essentielles dans l’application des mesures de la productivité morphologique.
Baayen (1991 : 803) considère qu’en comparaison aux dictionnaires, un grand corpus textuel
est très utile aux recherches sur la productivité morphologique des formes complexes
puisque : a) il offre toute l’information nécessaire sur la fréquence des mots ; b) il contient
des mots qui ne sont pas typiquement listés dans le dictionnaire ; c) au contraire du
dictionnaire, il ne contient pas de mots qui ne sont plus utilisés.
Ainsi, les grands corpus textuels tels que Frantext (le français général) et Beltext (le français
en Belgique) sont envisagés par plusieurs chercheurs en tant que sources de valeur dans les
recherches linguistiques sur le français. Par exemple, dans son œuvre sur les variations
sociolinguistiques dans la langue littéraire française du XVIIe siècle, Ayres-Bennett (2004 :
9) souligne que « The database known as Frantext has been particularly valuable for
99
researching usage ». L’importance du corpus textuel Frantext pour les explorations en
linguistique a aussi été notée par Hoch (1994) :
La réputation de la base de données textuelle Frantext n'est certes plus à faire. Sa renommée, de surcroît, ne se limite pas à la France, où elle a vu le jour, mais s'étend également à de nombreux pays étrangers – de la Suède au Japon, en passant par la Lituanie et le Canada –, auprès des spécialistes des domaines littéraire et linguistique aussi bien que des professionnels de la documentation. (Hoch 1994 : 122)
Toutefois, l’utilisation du corpus textuel a aussi ses limitations fonctionnelles. Parmi les
problèmes méthodologiques posés par l’évaluation de la productivité à partir des corpus
textuels, il faut mentionner les suivants : a) la taille des corpus ; b) la représentativité des
corpus conformément aux types de textes ; c) la fréquence des formes recensées dans les
corpus ; d) l’identification des formes recensées dans le corpus. Précisons ces problèmes tour
à tour.
a) Premièrement, la taille du corpus textuel utilisé doit être suffisamment grande. Selon
Baayen (1993 : 189), seulement un grand corpus peut assurer que les hapax sont
essentiellement des néologismes et que les formes de la langue sont représentatives pour une
période étudiée. Un corpus suffisamment grand doit compter au minimum des dizaines de
millions de mots.
En tenant compte du fait que la mesure de la productivité la plus utilisée actuellement est
basée sur les hapax, l’importance d’un grand corpus aussi été notée par Plag (2004) :
The size of the corpus is of crucial importance for this measure. If the corpus is too small, hapax legomena will tend to be well-known words of the language. With increasing corpus size, however, the proportion of neologisms among the hapax legomena increases, and it is precisely among the hapax legomena that the greatest number of neologisms appear. (Plag 2004 : 9)
Les hapax qui apparaissent dans un corpus donné sont de bons marqueurs de la productivité
du processus étudié (c’est-à-dire de leur aptitude à former des mots nouveaux) : pour que le
processus de composition soit considéré comme productif, il faut que la vitalité de ce
processus soit confirmé par l’existence de néologismes récents, et la capacité du processus à
créer de nouvelles structures dans l’avenir.
100
b) Deuxièmement, en ce qui concerne la représentativité du corpus textuel, il doit fournir un
échantillon assez typique de la langue étudiée, c’est-à-dire des usages linguistiques différents
incluant la langue littéraire, la langue familière, la langue spécialisée, etc. Comme exemple
de ce type de corpus, Baayen (1991 : 803) mentionne la base de données CELEX, qui compte
environ 65 millions de mots, et le corpus textuel Frantext avec plus de 170 millions de mots.
Cette dernière comporte plus de 4000 textes, dont 80 % sont des textes littéraires et 20 % des
textes techniques, représentant les principales disciplines scientifiques. La base de données
Gallica de la Bibliothèque nationale de France offre approximativement plus d’un million et
demi de documents numérisés, dont 408 190 sont en mode texte : 297 000 livres, 13 000
manuscrits, revues, journaux, etc. (environ 100 millions de mots). Ces œuvres représentent
des domaines divers liés à l'histoire, la littérature, les sciences, la philosophie, le droit,
l'économie, la science politique, etc. Ce type de corpus dresse un portrait général de la langue
en représentant les différents registres de langue (i.e. familier, soutenu, courant, etc.).
c) En outre, l’utilisation d’un grand corpus textuel est un critère nécessaire pour obtenir
de l’information fiable sur la fréquence des mots, et plus précisément sur la fréquence
relative des formes recensées. Selon Plag (1999 : 33), la productivité globale du processus
morphologique s’abaisse lorsqu’on observe des formes ayant une haute fréquence. Cette
corrélation ne peut toutefois être établie qu’à partir d’un corpus de grande taille.
d) Finalement, l’identification des formes recensées dans le corpus textuel représente
parfois des difficultés. Les mots composés présentent une difficulté particulière puisqu’ils ne
comportent pas de morphèmes ou de séquences orthographiques spécifiques (e.g. -age, -ion,
re- pour les dérivés) permettant de les identifier. Ils comportent au moins deux mots qui
peuvent former ou non un mot complexe. Et si le trait d’union permet d’identifier certains
composés (franc-tireur, rouge-gorge, coffre-fort, aide-comptable), il n’est pas toujours
présent dans ces structures complexes (portefeuille, chemin de fer, couteau à fromage,
assurance tous risques) et sert également à unir des mots dans des structure syntaxiques (e.g
vient-il). Un dépouillement manuel du corpus peut donc être nécessaire pour extraire les
formes en question, ce qui fut le cas pour ma recherche.
101
En résumé, l’exploitation d’un grand corpus est cruciale pour le travail sur la productivité
morphologique quand on utilise les mesures basées sur les hapax (Baayen 1992 ; Baayen et
Lieber 1991), la mesure de la fréquence relative de Hay (2003) et la mesure de la taille
catégorielle de la famille morphologique (Baayen et Hay 2002). Le recours au grand corpus
textuel est important tant pour le calcul du nombre d’occurrences de formes recensées, que
pour le calcul des membres de chaque famille morphologique.
4.3 Méthodologie Vu la nécessité d’effectuer une recherche sur un grand corpus représentatif, mon travail
repose sur trois sources de données. En premier lieu, le Dictionnaire de la langue française
de Littré (édition de 1877-1878) m’a servi pour créer la liste de noms composés qui ont été
analysés. En deuxième lieu, j’ai eu recours au plus grand corpus textuel Frantext pour
déterminer la fréquence des composés et de leurs familles morphologiques dans quatre sous-
corpus chronologiques (1606-1694 ; 1695-1798 ; 1799-1872 ; 1873-1920). Finalement, la
base de données Gallica a été exploitée dans une étude pilote sur les composés garde-x.
Pour mener mon étude, les étapes ci-dessous ont été suivies.
Étape 1 : Création de la liste de composés. Cette étape vise à établir mon propre corpus de
noms composés français. Premièrement, j’ai dépouillé manuellement la base de données
Gallica pour dresser un inventaire de composés garde-x/x-garde. Cette base de données a été
utilisée pour tester la méthodologie du travail. Deuxièmement, j’ai interrogé le Dictionnaire
de la langue française de Littré (1877-1878) pour former la liste des noms composés à trait
d'union dont la productivité morphologique sera évaluée. (cf. § 4.3.1).
Étape 2 : Choix des types et formes des composés qui seront mesurés. Cette étape consiste à
classifier des composés extraits par types (gabarits) selon leur structure interne : N-N, A-N,
N-A, N-de-N, Adv-N, Prép-N, etc., et par le statut régulier/irrégulier. De cette liste de
classement, certains types et certaines formes ont été éliminés aux fins de l’analyse (cf.
§ 4.3.2) ; seuls ont été retenus les composés N-N, A-N, N-A, N-de-N, incluant les composés
réguliers et irréguliers.
102
Étape 3 : Organisation et exploitation du corpus Frantext. L’objectif de cette étape est de
valider la fréquence d’occurrences des formes recensées dans la base de données Frantext.
La version catégorisée de la base intégrale du corpus a été utilisée pour rechercher les
occurrences des noms composés retenus et faire toutes les analyses statistiques nécessaires.
La fréquence d’occurrences des formes recensées a été calculée dans le corpus Frantext de
façon globale, et pour chacune des quatre périodes historiques (cf. § 4.3.3)37. Ces quatre
périodes ont été établies à partir de jalons importants dans l’histoire de la langue française :
a) 1606-1694 : La période du français classique est caractérisée par le déclin de l’importance
du latin et l’intérêt grandissant envers la langue française. C’est également l’époque de
l’apparition des premiers dictionnaires entièrement français (Dictionnaire de Richelet 1680,
Dictionnaire Universel de Furetière 1690, etc.) et l’ouverture de la Bibliothèque du Roi au
public (1692). La deuxième moitié du XVIIe siècle est marquée par une certaine renaissance
de l'orthographe ‘moderniste’ avec la création de l’Académie française en 1635 par le
cardinal Richelieu. Désormais, l’Académie devient le lieu où les règles de la langue écrite
officielle et savante sont imposées. Ainsi, c’est l’époque de stabilisation de l’orthographe
diversifiée des mots composés. Cette période est importante aux fins de ce présent travail
puisqu’elle marque l’apparition de plusieurs néologismes d’origine française en français.
b) 1695-1798 : C’est une période marquée par l’apparition du Dictionnaire de l'Académie
française (1695) et le développement de l'enseignement du français. Dans ses éditions de
1740, 1762 et 1798, l'Académie française modifie l'ancienne orthographe de milliers de mots
en mettant en place celle qui deviendra l’orthographe contemporaine. Par exemple, elle
supprime les consonnes muettes des mots comme bled (blé) ou crud (cru) et introduit un
système complet d'accentuation (i.e. accents aigus, graves, circonflexes). À cette époque, la
langue française devient langue diplomatique internationale et langue de l’État. Cette période
est également significative à cause de l’introduction de normes linguistiques et la création
supplémentaire de néologismes.
37
Toutes les données statistiques obtenues au cours de la recherche sont basées sur le corpus Frantext (les données d'octobre-novembre 2009).
103
c) 1799-1872 : La période du français moderne est marquée par l’établissement de la loi de
Guizot (1833) sur l’éducation publique primaire. C’est une époque liée à l’apparition de
dictionnaires importants comme celui de l'Académie française (1835), de Larousse (Grand
dictionnaire universel de 1865), du Dictionnaire de la langue française de Littré (1872).
Cette période est essentielle pour l’expansion du vocabulaire français et pour l’apparition
d’un grand nombre de néologismes dans les domaines tels que la science, la presse ou les
affaires, de même que plusieurs mots anglais introduits dans la langue française.
d) 1873-1920 : C’est la période du français contemporain, caractérisée par l’enrichissement
du vocabulaire, la réforme de l’orthographe, le surréalisme dans la littérature. De nouveaux
vocabulaires associés au sport, au cinéma, à l’économie et aux sciences ont été diffusés par
les médias. Bien que cette période soit significative pour mon travail – puisqu’elle marque
l’introduction d’un grand nombre de mots nouveaux liés aux technologies, sciences, art et
médias – elle est quand même sous-représentée dans mes données, à cause du décalage entre
la compilation des items lexicaux par Littré et la publication de son dictionnaire.
En effet, selon Pruvost (2003), Littré a terminé le recensement des formes de son dictionnaire
en 1830. La date finale de l’analyse morphologique (i.e. 1920) a été établie au début de mon
travail lors de l’étude-pilote sur les composés garde-x. Même si la date de publication du
Dictionnaire de Littré est 1872 (supplément apparu en 1877), cet ouvrage peut être considéré
comme une œuvre lexicographique dont l’influence dépasse la période de son apparition
(Mourlet 2003). L’impact du Dictionnaire de Littré sur les œuvres lexicographiques de son
époque est très fort. Premièrement, le choix de termes spécialisés liés au vocabulaire des
sciences, de la vie politique, etc. va au-delà de l’année 1830 (Mittérand 1968 : 109).
Deuxièmement, ce dictionnaire de la langue classique diffère considérablement des
dictionnaires de son temps par : « son relatif libéralisme dans l’enregistrement des formes,
son emploi systématique de la citation, aussi indispensable que la définition pour faire
comprendre le sens et les nuances divers d’un mot, et le souci de logique dans la distinction
et la disposition des sens » (Mitterand 1968 : 110). En ce qui concerne le vocabulaire du
Dictionnaire de Littré, les chercheurs soulignent « une acception encore vivante dans la
prose courante des contemporains de Littré » (Mittérand 1968 : 110). Ainsi, les faits
mentionnés ci-dessus amènent à considérer que le vocabulaire du Dictionnaire de Littré peut
104
en fait être utilisé dans l’étude sur la productivité des noms composés pour la période de
1873-1920.
Étapes 4 et 5 : Le niveau de productivité des types N-N, A-N, N-A et N-de-N a été examiné
en termes de trois mesures disponibles tant globalement que par période. Ainsi, j’ai recours à
la mesure de productivité au sens strict basée sur les hapax (Baayen 1992 ; Baayen et Lieber
1991), la mesure de la fréquence relative de Hay (2003) et la mesure de la taille catégorielle
de la famille morphologique (Baayen et Hay 2002). L’application des trois mesures
mentionnées ci-dessus a été effectuée dans le corpus textuel Frantext (cf. § 4.3.4). Pour
calculer la fréquence relative des formes recensées, j’ai envisagé quatre variantes possibles
de la base dans les mots composés (cf. § 4.3.5).
Étape 6 : Le changement du niveau de productivité des formes recensées a été analysé en
diachronie (cf. § 4.3.6).
4.3.1 Étape 1 : Création de la liste de composés
La première étape consiste à constituer une liste de composés. Contrairement aux affixes,
que l’on peut interroger directement dans un grand corpus textuel (e.g. mots en -eur, en
-able, en pré-), les noms composés ne comportent pas de constituants récurrents permettant
d’interroger directement le corpus. Il fallait donc créer au préalable une liste de noms
composés. Au départ, une liste de composés comportant un trait d’union a été établie en
interrogeant la base de données Gallica, choisie à cause de la possibilité d’extraction de mots
avec un trait d'union (ce qui est impossible à faire dans le corpus Frantext).
La base de données Gallica de la Bibliothèque nationale de France m’a servi essentiellement
à l’identification des noms composés à trait d’union parce que ce corpus n’est pas de taille
suffisante pour appliquer les mesures quantitatives retenues. Il est beaucoup plus petit
(environ 80 millions de mots au moment où la recherche a été lancée) que Frantext (plus de
170 millions de mots). Ainsi, les formes recensées doivent être mesurées plus tard dans un
grand corpus Frantext.
Puisque la première étape de collecte des données impliquait Gallica, c’est donc avec cette
base de données que l’étude pilote a été menée, visant à tester la méthodologie du travail.
105
L’étude pilote était limitée aux composés dont je connaissais l’un des constituants au départ,
c’est-à-dire les composés garde-x/x-garde. Le dépouillement manuel des 671 œuvres de
Gallica a démontré que cette base de données ne pouvait être retenue : elle exige trop de
temps pour fournir les résultats requis.
En conséquence, le Dictionnaire de la langue française d’Émile Littré (édition de 1877-
1878) a été utilisé pour constituer la deuxième liste des noms composés à trait d’union
analysés au cours de mon travail. J’ai principalement eu recours à cette source puisqu’elle est
assez représentative. Avec ses 78 423 entrées qui englobent la période du XVIe au début du
XIXe siècle, ce dictionnaire représente tous les termes usuels associés aux sciences, aux arts,
aux métiers et à la vie courante aussi bien que des citations tirées d’ouvrages littéraires
(Voltaire, Corneille, Montaigne, La Fontaine, etc.). Le Dictionnaire de la langue française
de Littré (première et seconde éditions publiées par Hachette entre 1863 et 1872, et entre
1873 et 1877 respectivement) contient cinq tomes avec un supplément, suivi d'un
dictionnaire étymologique des mots d'origine orientale. C’est un dictionnaire normatif qui
reflète le bon usage littéraire du XVIIe au XIXe siècle dont le lexique est caractérisé par
Dantier (2003) comme « la langue entre la lexicographie et la linguistique ». Littré décrit la
langue présentée dans son œuvre comme suit :
…toute langue vivante, et surtout toute langue appartenant à un grand peuple et à un grand développement de civilisation, présente trois termes : un usage contemporain qui est le propre de chaque période successive ; un archaïsme qui a été lui-même autrefois usage contemporain, et qui contient l'explication et la clef des choses subséquentes ; et, finalement, un néologisme qui, mal conduit, altère, bien conduit, développe la langue, et qui, lui aussi, sera un jour de l'archaïsme et que l'on consultera comme histoire et phase du langage. (Dantier 2003 : 7)
J’ai utilisé l’édition 1877-1878 de ce dictionnaire à cause de sa disponibilité sur CD-ROM.
Selon Goosse (1991) et Pruvost (2003, 2006), c'est au milieu des années 1820, peut-être
même 1830, que s'arrête le corpus de Littré. Pruvost (2003) suggère la date de 1830 :
[…] le Dictionnaire de la langue française reste un outil remarquable pour toute la littérature antérieure jusqu’à celle d’avant 1830, cette dernière date correspondant à la limite supérieure que s’était fixée Littré pour le dépouillement des ouvrages susceptibles de lui apporter des exemples cités. (Pruvost 2003 : 28)
106
Cependant, Mourlet (2003) montre que le dictionnaire de Littré est une œuvre
lexicographique dont l’impact doit être considéré au-delà de la période de son apparition :
Cependant, « l’œuvre lexicographique » de Littré ne se limite pas à la seconde moitié du XIX siècle. Elle se distingue aussi notoirement par ses effets durables auprès d’une partie du public qui en a maintenu la tradition. Il importe donc d’appréhender cette œuvre au-delà de la période au cours de laquelle elle est née, en l’examinant dans ce qu’elle a de pérenne. (Mourlet 2003 : 15)
Dans ma recherche, il reste toutefois un problème de représentativité de la liste des composés
tirés de Littré : dans le corpus Frantext, je peux seulement valider des composés qui figurent
dans le Littré. Ce dictionnaire exclut un certain nombre de termes techniques et scientifiques
de la quatrième période (1873-1920) ainsi que le vocabulaire des œuvres littéraires
contemporaines. En conséquence, il peut exister des mots composés dans Frantext pour la
période de 1830 à 1920 qui, parce qu’absents du Littré, ne sont pas pris en compte ici.
Toutefois, selon Goosse (1991), le vocabulaire du Littré est très représentatif en ce qui
concerne l’introduction des néologismes : « Littré est attentif au vocabulaire scientifique, au
vocabulaire technique, au vocabulaire concret… […] Littré ouvre largement ses colonnes
aux néologismes, aux termes provinciaux » (Goosse 1991 : 365).
Ainsi, à cause du grand nombre de néologismes présentés chez Littré, sa base de données, en
termes de mots composés, peut être considérée comme dépassant les frontières de la langue
du XIXe siècle. En travaillant sur son œuvre, Littré a déclaré décrire le français historique et
contemporain. Dans la préface du Supplément de son dictionnaire (1881), Littré fait la
confession : « J’ai fait un choix, essayant de n’admettre que les mots dont l’usage commence
à s’emparer » (Pruvost 2006 : 162).
En effet, la liste de composés tirés du Littré ne contient aucun mot formé après 1830.
Toutefois, en tenant compte des observations présentées ci-dessus, les trois mesures
disponibles ont été utilisées pour l’analyse d’une partie de la troisième période (1830-1872)
et de toute la quatrième période (1873-1920), qui est relativement courte.
Au cours de l’Étape 1, j’ai dépouillé manuellement le Dictionnaire de la langue française de
Littré (1877-1878) pour repérer tous les composés comportant un trait d’union afin d’établir
107
mon propre corpus de noms composés français (cf. § 4.3.1). Une liste de 1970 noms
composés à trait d’union a été établie (accroche-cœur, bec-cornu, coup-de-pied, bout-à-port,
etc.)38.
4.3.2 Étape 2 : Choix des types et formes des composés qui seront mesurés
Les composés qui sont étudiés dans mon travail sont organisés par types (gabarits) selon leur
structure interne (N-N, N-à-N, N-de-N, A-N, etc.) et, à l’intérieur de chaque type, classés par
ordre alphabétique.
De tous les composés tirés du Dictionnaire de Littré (un total de1970), n’ont été retenus que
ceux qui seraient potentiellement mesurés au cours de la recherche, soit 275 (177 réguliers et
98 irréguliers)39. La liste initiale de composés a été réduite de façon à éliminer les types
marginaux, peu représentatifs de la composition nominale en français ou présentant des
problèmes d’analyse qui auraient pu fausser les données. Premièrement, les types de
composés qui ne sont pas formés d’items lexicaux français ont été exclus, soit les emprunts
(e.g. aqua-toffana, horse-guard, etc.) et les composés savants (e.g. gastro-conjonctivite,
phréno-glottisme, etc.). Deuxièmement, les formes telles que mi-fruit ou post-consulat sont
considérées comme des composés par certains linguistes (Chung 2006 ; Assink et Sandra
2003), mais plutôt comme des mots préfixés par d’autres (Amiot 2004 ; Fradin 2003 ; Gross
1996). Je considère ces structures complexes comme des mots dérivés par préfixation.
Troisièmement, les composés V-N ont été exclus, et ce, pour plusieurs raisons. D’une part,
ces formes en français ont été amplement étudiées (cf. Villoing 2002). D’autre part, ces
structures sont difficiles à traiter puisqu’elles comportent un affixe zéro, ce qui rend difficile
l’identification de la base. En fait, ce genre de composés regroupe les types [V-N]N ou [N-
N]N. Ainsi, tous les composés garde-N n’ont pas la même structure : ils peuvent être analysés
soit comme des composés synthétiques [V-N]N, soit comme des composés primaires [N-N]N.
Les composés qui appartiennent à la seconde structure sont ceux dont le premier constituant
38 La liste complète des composés se trouve à l’Appendice 1 : Corpus Littré – liste des noms composés. 39 La liste des composés qui sont mesurés se trouve à Appendice 2 : Noms composés mesurés (Frantext). Les composés qui ne sont pas mesurés se trouvent à l’Appendice 3 : Noms composés non-mesurés (Littré).
108
peut être interprété comme le nom garde, existant dans le lexique indépendamment des noms
composés. Ce nom est masculin ou féminin et a une interprétation agentive, selon les
propriétés qu’il donne au composé dont il fait partie. Par contre, les composés qui
appartiennent à la première structure [V-N]N sont toujours masculins et ont une interprétation
instrumentale, selon les propriétés héritées de l’affixe-zéro (cf. chapitre 2.3.3). Roger (1998)
a montré qu’il existe de nombreux composés qui dénotent à la fois un humain et un objet. Par
exemple, les composés garde-côte et garde-meuble représentent deux types des composés
garde-x (Villoing 2002 : 268) :
(1) a. garde-côte : un « milicien chargé de la surveillance des côtes » (T.L.F.) garde-côte : un « navire de surveillance des côtes » (T.L.F.)
b. garde-meuble : un « officier responsable de l’entretien d’un garde-meuble » (T.L.F.) garde-meuble : un « bâtiment qui abrite le mobilier de l’État » (T.L.F.)
L’identification claire de la structure des composés garde-x ambigus exige des références au
contexte d’emploi pour chaque composé en question. Pour cette raison, toutes les formes
garde-x qui font partie de la liste de composés de Littré ont été exclues de l’analyse de la
productivité des noms composés français. Toutefois, de la liste de 60 composés garde-x/x-
garde issue de Gallica, 34 composés garde-x sont utilisés dans le cadre de l’étude pilote.
Finalement, les composés N-à-N, Adv-N, A-A, Dét-N, N-V et Prép-N ont aussi été éliminés
puisque leur fréquence d’occurrence est inférieure, ce qui les rend non productifs, à priori.
Les composés à plus de deux termes (e.g. non-plus-ultra, soupe-tout-seul, etc.) et le groupe
de composés que j’ai regroupés sous l’étiquette « autres » (e.g. mieux-disant, deux-quatre,
etc.) ont aussi été identifiés en tant que structures non régulières, à priori non productives, et
conséquemment éliminés. Ces composés représentent des locutions lexicalisées, c’est-à-dire
des formes dans lesquelles on peut reconnaître des suites de morphèmes autonomes, mais
dont la signification n’est pas compositionnelle.
Initialement, seulement les formes régulières (e.g. adapte-couleur, piste de danse, etc.)
avaient été retenues. Ce sont des structures qui sont sémantiquement transparentes,
compositionnelles, donc potentiellement décomposables. Plus tard, j’ai également décidé
109
d’appliquer les mesures de productivité aux irréguliers (e.g. reine-claude, huppe-col, double-
bec, etc.), à cause du petit nombre de composés réguliers (177) et aussi parce que ce type de
composés n’a jamais été étudié en termes de productivité morphologique. Les composés qui
ont été mesurés sont présentés dans le Tableau 4-1.
Tableau 4-1 Typologie des composés qui seront potentiellement mesurés (liste de Littré)
Structure du mot composé
Exemples Distribution #
Distribution %
N-N bêque-bois, chat-cervier 72 26 % A-N beau-frère, faux-saunier 137 50 % N-A bec-cornu, bouillon-blanc 39 14 %
N-de-N bec-de-cane, cou-de-pied 27 10 % Total 275 100 %
On voit que parmi les composés dont la productivité a été mesurée, les composés, A-N et
N-N constituent les formes les plus fréquentes (50 % et 26 % respectivement). Outre le
gabarit, l’étude sur la productivité des formes recensées est aussi réalisée selon les facteurs
suivants : la présence/absence de la tête morphologique (endocentriques vs exocentriques), la
position de la tête morphologique et l’aspect régulier/irrégulier.
4.3.3 Étape 3 : Organisation et exploitation du corpus FRANTEXT
Après avoir établi la liste et la typologie des noms composés à mesurer, j’ai validé la
fréquence d’occurrences de ces formes dans Frantext40. Cette base de données est un large
corpus informatisé composé de textes en français, créé initialement par le laboratoire ATILF
(Analyse et Traitement Informatique de la Langue Française) qui, à son tour, résulte de la
fusion entre l’Institut National de la Langue Française (INALF-CNRS) et le laboratoire
LANDISCO (Langue Discours Cognition-Université Nancy 2). Cette source contient plus de
4000 textes (plus de 170 millions mots), appartenant à des domaines différents tels que les
sciences, les arts, la littérature, les techniques, la politique et la philosophie, et couvrant onze
40 La base de données Frantext (http ://humanities.uchicago.edu/orgs/ARTFL/) fut élaborée en 1960 à partir d'un premier ensemble de textes pour apporter une documentation d'exemples au Trésor de la langue française. Elle comportait moins de mille œuvres des XIXe et XXe siècles sélectionnées à partir des bibliographies de manuels d'histoire littéraire. Cet ensemble s'est rapidement enrichi vers 1970 de textes scientifiques et techniques nécessaires à la rédaction du dictionnaire. Par la suite, le fonds s'est étendu de façon à couvrir les trois siècles précédents ainsi que la période suivante. Le corpus continue de s'étendre progressivement.
110
siècles (de 842 à 2010). Ce corpus est très représentatif puisqu’il reflète des niveaux et des
registres différents de la langue française.
Deux versions de Frantext sont proposées aux chercheurs. La version non catégorisée, ou
base intégrale, comporte environ 4036 textes avec plus de 170 millions d’occurrences
embrassant environ un millier d’auteurs. Ce corpus est composé à 80 % d’œuvres littéraires
et à 20 % d’œuvres scientifiques ou techniques. Il y est possible de choisir plusieurs auteurs,
toutes les œuvres d'un auteur, les périodes, etc., aussi bien que rechercher les occurrences de
formes linguistiques. Le logiciel d’interrogation permet des requêtes complexes portant sur
des formes graphiques ou sur des lemmes (toutes les formes d’un même substantif).
La version catégorisée est constituée d’un sous-ensemble de la base intégrale (1940 œuvres
en prose postérieures à 1829, environ 1200 textes étiquetés grammaticalement). Les textes
ont été catégorisés, ce qui signifie qu'ils ont été découpés en entités catégorisées : noms,
adjectif, adverbe, conjonction de coordination, participe présent, participe passé, pronom
personnel, etc. (27 catégories au total). Cette version offre des possibilités d’interrogation
élargies à des requêtes grammaticales. Ce corpus fait l’objet d’un codage grammatical selon
les parties du discours et il permet des requêtes portant sur les codes grammaticaux.
J’utilise la version non catégorisée de Frantext parce que la version catégorisée est limitée
aux textes postérieurs à 1829. La version non catégorisée de Frantext me permet de faire
toutes les analyses statistiques nécessaires à mon travail (le nombre d’occurrences, de bases,
de membres des familles morphologiques). Je peux rechercher les occurrences des formes
recensées aussi bien qu’étudier le voisinage d’un mot en question. Par exemple, en utilisant
la formule en (2) :
(2) ete(c = (etq etmgarde|etmgarde etq))
Je peux extraire des exemples des formes recensées pour les citer dans leur contexte
phrastique comme en (3) :
(3) Elle mit, comme pour se chauffer, un pied sur la barre de bronze qui surmontait le garde-cendre [...] (Balzac)
111
En effectuant des recherches dans Frantext, il est important de tenir compte des variations
graphiques des noms composés liées au changement diachronique (i.e. garde-corps vs garde-
de-corps, garde-du-corps). Ainsi, je considère les deux (ou trois) variantes graphiques du
même mot composé comme deux types différents (i.e. N-N vs N–de-N pour les composés
mentionnés ci-dessus). En ce qui concerne les formes garde-cendre et garde-cendres, je les
analyse comme un seul type V-N.
Parmi les désavantages de l’utilisation du corpus Frantext, il faut mentionner l’impossibilité
d’interroger par le trait d’union, ce qui a imposé la nécessité de la constitution préalable
d’une liste de composés à partir d’un dictionnaire, soit celui de Littré.
Le corpus Frantext présente les qualités nécessaires à l’application des mesures que j’ai
retenues. Premièrement, comptant plus de 170 millions de mots, ce corpus a une taille plus
que suffisante pour mesurer la fréquence des formes en question par période étudiée.
Deuxièmement, cette base de données me permet d’analyser la productivité morphologique
en diachronie. En utilisant ce corpus, je peux repérer les néologismes et déterminer
l’évolution du niveau de productivité des formes recensées dans le temps.
4.3.4 Étape 4 : Mesure de la productivité dans Frantext
L’évaluation de la productivité des noms composés dans Frantext a exigé de nombreuses
sous-étapes pour appliquer les trois mesures de productivité retenues.
La première mesure, celle basée sur les hapax (Baayen 1992 ; Baayen et Lieber 1991), est
représentée par la formule P = n1 / N. Cette mesure ne prend en considération que le nombre
d’hapax (n1) et le nombre total d’occurrences de la structure analysée (N). Ce calcul évalue la
productivité du gabarit (du type) des noms composés en démontrant le taux de croissance du
vocabulaire pour chaque période étudiée.
Le deuxième calcul évalue la fréquence relative .Cette formule a été élaborée par Hay (2003)
pour les mots dérivés comme frelative = fdérivé / fbase et je l’ai adaptée aux composés
comme suit : frelative = fcomposé / fbase. En utilisant cette mesure, j’ai évalué dans Frantext
le nombre total d’occurrences du composé, par exemple oiseau-mouche, et le nombre
d’occurrences de ces bases (i.e. oiseau et mouche). En appliquant la notion de la fréquence
112
relative aux noms composés, j’ai validé ce modèle dans le domaine de la composition
pour vérifier si la fréquence relative peut prédire le changement du niveau de productivité
morphologique des mots composés.
La troisième mesure, celle de la taille de la famille d’une catégorie morphologique de
Baayen et Hay (2002), a été appliquée pour définir une corrélation possible entre la
productivité et la taille de la famille morphologique des noms composés. La mesure de la
taille catégorielle de la famille morphologique se calcule en deux étapes. Par exemple, pour
mesurer la taille catégorielle de la famille morphologique du composé chou-fleur, j’ai
premièrement mesuré la taille de la famille morphologique de chaque constituant (base) de
ce composé dans Frantext. Donc, les familles morphologiques des constituants chou (chou-
blanc, coupe-chou, chouchou, chouchouter, chou-king, chou-palmiste, chou-rave, vert-chou)
et fleur (fleurir, fleurissement, fleurer, fleurette, fleuriste, fleuron, défleurir, refleurir), qui
incluent tous les dérivés et les composés formés à partir de ces bases (sauf les bases elles-
mêmes), ont été calculées par période. Ainsi, pour la première période, la famille
morphologique du constituant chou inclut deux membres (chouchou et chouchouter) alors
que celle du constituant fleur en inclut six (fleurir, fleurissement, fleurer, fleurette, fleuriste,
fleuron). En conséquence, la famille morphologique totale du composé chou-fleur pour la
première période comporte huit membres. Quant aux autres périodes, le nombre total de
membres de la famille morphologique du composé chou-fleur est distribué de la façon
suivante :
(4) a. 1695-1798 : 9 membres (chou = 2 membres ; fleur = 7 membres) b. 1799-1872 : 14 membres (chou = 7 membres ; fleur = 7 membres) c. 1873-1920 : 13 membres (chou = 4 membres ; fleur = 9 membres)
Deuxièmement, j’ai utilisé la formule logarithmique log (F1) + log (F2) + log (F3) etc. de
Baayen et Hay (2002) où F1, F2, F3 sont les tailles de la famille morphologique des
constituants. Ainsi, la taille catégorielle de la famille morphologique du composé chou-fleur
par période est calculée comme suit :
(5) a. 1606-1694 : log(2) + log(6) = 0.3010+0.7782 = 1.0792 = 1.08 b. 1695-1798 : log(2) + log(7) = 0.3010+0.8451 = 1.1461 = 1.15 c. 1799-1872 : log(7) + log(7) = 0.8451+0.8451 = 1.6902 = 1.69 d. 1873-1920 : log(4) + log(9) = 0.6021+0.9542 = 1.5563 = 1.56
113
La mesure de la taille catégorielle de la famille morphologique évalue la fréquence des
constituants du composé, aussi bien que la fréquence des membres de leurs familles
morphologiques. Étant donné que l’évaluation de la famille morphologique de chaque
constituant d’un mot composé exige énormément de temps, la mesure de la taille catégorielle
est appliquée dans ce travail aux formes régulières uniquement.
4.3.5 Étape 5 : ldentification de la base dans les mots composés
L’identification de la base est importante parce qu’elle est utilisée dans le calcul de la mesure
de la fréquence relative de Hay (2003) et la mesure de la taille catégorielle de la famille
morphologique de Baayen et Hay (2002).
Toutefois, comme le montre Fernández-Domínguez et al. (2007 : 50), l’évaluation de la
fréquence relative de Hay (2003) pose un problème lié à l’identification claire de la base.
Cette mesure peut être calculée de façons différentes où chaque variante de mesure rapporte
des résultats contrastés. Fernández-Domínguez et al. (2007 : 38) suggèrent que la fréquence
de la base des composés peut être mesurée selon trois variantes possibles :
a) en additionnant les fréquences des constituants séparés ;
b) en additionnant les fréquences des constituants séparés et en divisant la somme
par le nombre de constituants pour calculer la fréquence moyenne ;
c) en utilisant seulement la fréquence de la tête du composé.
Cependant, à mon avis, dans le calcul de la fréquence de la base du composé, il faut aussi
inclure une variante où la base est l’élément qui n’est pas la tête du composé (par analogie
avec les mots dérivés où la base n’est pas la tête du mot complexe).
En effet, la base morphologique est clairement identifiée dans les mots dérivés formés par
affixation (cf. 2.2.3). Ainsi, la base du mot dérivé est un morphème libre auquel s'attache un
affixe qui est un morphème lié. Le suffixe remplit généralement la fonction de tête en portant
les caractéristiques syntaxiques et sémantiques du mot.
114
Rappelons (cf. § 2.2.5) que, en dérivation, la base du mot affixé possède les caractéristiques
suivantes :
(6) a. la base est un morphème libre ; b. la base n'est pas la tête morphologique du mot affixé (dans la plupart des cas) ; c. dans le mot affixé, il y a seulement une base.
Par contre, en composition, la base n'est pas clairement identifiée (Bauer 1983, 2001 ;
Dressler 2006 ; Spenser 1991 ; Krott et al. 1999). Théoriquement, en prenant comme point de
départ les propriétés de la base dans les mots dérivés en (6), la base dans les composés peut
être identifiée de deux façons différentes (cf. 2.3.3). Par exemple, dans le composé belle-
sœur, la base morphologique est : a) soit le morphème libre qui n'est pas la tête du composé
(belle) ; b) soit tout morphème libre (belle et sœur).
Donc, en composition, la base peut être définie de plus d’une façon :
(7) a. la base du composé est un morphème libre (donc, tous les constituants du composé peuvent être des bases) ; b. la base du composé est le constituant qui n'est pas la tête du composé
De ce fait, en analysant la productivité des noms composés français, j’utilise quatre variantes
de mesures de la base pour évaluer la fréquence relative des formes recensées. J’ai recours
aux trois variantes proposées par Fernández-Domínguez et al. (2007, 2009) mentionnées ci-
dessus et j’ajoute une quatrième variante où la base du composé est le constituant qui n’est
pas la tête. De cette façon, la comparaison des résultats de chaque variante à ceux obtenus
par la mesure basée sur les hapax me permet d’identifier la base qui procure les meilleurs
résultats pour la mesure de la fréquence relative de Hay (2003).
4.3.6 Étape 6 : Étude diachronique des formes recensées
Comme l’a remarqué Trips (2009), il existe peu de travaux qui analysent la productivité
morphologique en fonction des changements diachroniques : « …almost all work done in
morphological productivity has made none or little reference to time, leaving aside changes
over time, i.e., the diachrony of the language » (Trips 2009 : 33). Néanmoins, pendant les
vingt dernières années, plusieurs corpus électroniques comme Frantext, Beltext, Gallica,
115
CELEX, Cobuild, etc. sont devenus disponibles et extrêmement utiles pour l'analyse
diachronique du niveau de productivité des processus morphologiques différents.
En ce qui concerne la productivité, deux aspects y sont activement impliqués : un aspect
synchronique et un aspect diachronique. Selon Aronoff (1980), la productivité d’une règle
morphologique donnée est une notion synchronique, mais la notion de probabilité réfère
inévitablement aux changements diachroniques.
At first glance, it seems more plausible to think of productivity in purely diachronic terms. According to this view one would say that rule A is more productive than Rule B if more words formed according to Rule A enter the language in the time between two given points T1 and T2. Thus, since productivity is computed by comparing points in the history of a language, it is a diachronic matter. (Aronoff 1980 : 71)
Bauer (1988) considère la productivité comme une notion synchronique : “…we can speak of
productivity in synchronic terms, or of changes in productivity in diachronic terms, but not of
productivity as such in diachronic terms” (Bauer 1988 : 61).
Dans mon travail, l’étude diachronique de la productivité des noms composés français
N-N, A-N, N-A et N-de-N est abordée en deux étapes. En premier lieu, la productivité des
formes recensées est analysée par période selon le type, la position de la tête morphologique
et l’aspect régulier/irrégulier. En deuxième lieu, l’évolution générale des formes recensées
est examinée tant globalement que par période séparée.
4.4 L’étude pilote : la productivité des composés garde-x Pour assurer le bon déroulement de la recherche, j’ai décidé premièrement d’effectuer une
étude pilote sur les noms composés garde-x. Cette étude vise à découvrir la corrélation
possible entre la productivité, la fréquence relative et la taille catégorielle de la famille
morphologique des composés garde-x. De plus, ce travail a été l’occasion de valider et de
raffiner mes choix méthodologiques.
4.4.1 Étapes préparatoires
Au commencement de l’étude pilote, j’ai suivi quelques étapes préparatoires.
116
Première étape. J’ai divisé la base de données Gallica selon les quatre sous-périodes
chronologiques (1606-1694 ; 1695-1798 ; 1799-1872 ; 1873-1920) que j’ai retenues pour
mon étude (cf. §4.3.). En travaillant dans Gallica, j’ai utilisé la fiche bibliographique de
chaque œuvre pour trouver sa date de publication/reproduction ainsi que d’autres
informations pertinentes.
Deuxième étape. Pour créer la liste préalable des composés garde-x/x-garde et établir la
typologie des formes recensées, j’ai interrogé chaque œuvre de Gallica par le trait d’union et
le mot garde41. Chaque œuvre a été dépouillée manuellement pour trouver toutes les
occurrences de la forme garde-x ou x-garde. Comme résultat de ce travail, une liste de 60
mots composés a été créée42 :
(8) garde-barrière, garde-côtes, arrière-garde, garde de santé, sauve-garde, etc.
La typologie des composés garde-x/x-garde dans le corpus Gallica est présentée dans le
Tableau 4-2.
Tableau 4-2 Typologie des noms composés garde-x/x-garde (liste de Gallica)
Structure du mot composé
Exemples Distribution #
Distribution %
N-N garde-temps, garde-sel, garde-notes 25 41.7 N-Prép-N garde de santé, homme de garde 16 26.6 % V-N sauve-garde, garde-main 12 20.0 % Prép-N avant-garde, contre-garde 4 6.6 % A-N bien-garde 1 1.7 % V-A garde-fou 1 1.7 % préfixe-N ex-garde 1 1.7 % Total 60 100 %
En analysant les données du tableau ci-dessus, on voit que pendant les quatre périodes
étudiées, les structures N-N, N-Prép-N et V-N étaient les plus fréquentes.
De la liste de composés garde-x/x-garde extraite de Gallica, n’ont été retenues que les
formes garde-x (34 formes), afin de tester les mesures sur un seul type de composition
41 Toutes les données ont été recueillies dans la base de données Gallica en avril-mai 2008. 42 La liste des composés garde-x/x-garde se trouve à l’Appendice 4 : Étude pilote – composés garde-x, Tableau 10.
117
(V-N). Dix-sept composés x-garde/x-de-garde ont été éliminés (arrière-garde, avant-garde,
chien-de-garde, homme de garde, sar-des-gardes, sauve-garde, etc.). Les composés garde-x
à plus de deux termes (neuf formes) ont aussi été exclus (i.e. garde de cavalerie, garde de
chasse, garde de mareschal, garde de santé, garde de police, garde de service, etc.).
Parmi les 34 formes retenues, deux composés présentent une variation dans leur
orthographe :
(9) a. garde-meuble vs gardemeuble b. garde-robe vs garderobe vs garderobbe vs garde-robbe
Toutes les formes ont été considérées comme variantes du même composé garde-meuble ou
garde-robe ; néanmoins, la fréquence d’occurrences de chaque variante a été évaluée
séparément dans Frantext.
Troisième étape. J’ai mesuré la fréquence d’occurrence des composés garde-x dans Gallica
et j’ai calculé le nombre total d’œuvres et de mots. Les données statistiques issues de Gallica
sont résumées dans le Tableau 4-343.
Tableau 4-3 La fréquence d’occurrences des composes garde-x dans Gallica
1606-1694 1695-1798 1799-1872 1873-1920 Total :
Composés 42 124 98 82 346
Œuvres 141 183 283 64 671
Mots 4 884 725 12 524 257 20 608 307 5 208 641 43 225 930
Les composés garde-x étaient plus fréquemment employés pendant la deuxième (1695-1798)
et la troisième (1799-1872) période (124 et 98 occurrences respectivement). Ces périodes se
caractérisent aussi par le plus grand nombre d’œuvres littéraires et le plus grand nombre total
de mots.
J’ai validé la fréquence d’occurrences des composés garde-x dans le plus grand corpus,
Frantext, comme le montre le Tableau 4-4.
43 Les données statistiques présentées dans le Tableau 4-3 ont été recueillies dans Gallica en mai 2008.
118
Tableau 4-4 La fréquence d’occurrences des composés garde-x dans le corpus Frantext44
1606-1694 1695-1798 1799-1872 1873-1920 Total :
Composés 75 430 491 320 1316
Œuvres 367 575 655 473 2070
Mots 17 303 466 34 393 102 40 823334 27 568 502 120 088 404
Comme dans le cas de la base de données Gallica, la fréquence des composés garde-x dans
Frantext est la plus élevée pendant la deuxième et la troisième périodes (430 et 491
occurrences respectivement), où l’on trouve également le plus grand nombre de mots.
4.4.2 La productivité des composés garde-x
Au cours de la quatrième étape, j’ai mesuré la productivité des composés garde-x selon la
mesure P basée sur les hapax et la mesure T de la taille catégorielle de la famille
morphologique.
4.4.2.1 La productivité selon la mesure des hapax
Au cours de cette étape de l’étude pilote, j’ai calculé la productivité morphologique des
composés garde-x en utilisant la mesure P basée sur les hapax (Baayen 1992 ; Baayen et
Lieber 1991) ; 25 hapax legomena (les formes qui apparaissent une fois seulement dans un
grand corpus) ont été repérés. En appliquant la formule de mesure de la productivité de
Baayen (cf. 4.3.4), j’ai calculé la productivité morphologique des noms composés garde-x
comme suit :
25 (10) P = — = 0.0190 1316
où 25 = le nombre total d’hapax de forme garde-x 1316 = le nombre total d’occurrences des composés garde-x
Le changement du taux de productivité des formes recensées a été aussi calculé pour chaque
44
Toutes les données sur les composés garde-x sont basées sur le corpus Frantext interrogé enmai 2009.
119
période, comme le montre le tableau suivant (où n1 = nombre d’hapax, N = nombre total
d’occurrences ; P = productivité morphologique au sens strict).
Tableau 4-5 Productivité des composés garde-x selon la mesure P
Période n1 N P
1606-1694 2 75 0.0267
1695-1798 8 430 0.0186
1799-1872 2 491 0.0041
1873-1920 13 320 0.0406
Moyenne 6.3 329 0.0191
La productivité morphologique des composés garde-x était la plus élevée pendant la
quatrième et la première période (P4 = 0.0406 et P1 = 0.0267 respectivement). Le niveau de
productivité assez élevé pendant la première période pourrait être expliqué par le fait qu’à
cette époque le latin avait commencé à perdre de son importance et la langue française avait
été largement introduite dans la vie quotidienne, notamment par le biais de nombreux
néologismes. Pour ce qui est de la quatrième période, le niveau élevé de productivité pourrait
être dû à l’introduction d’un grand nombre de néologismes associés à la technologie, la
science, les médias, etc. Par contre, la productivité des composés garde-x s’abaisse
considérablement pendant les années 1799-1872 (P3 = 0.0041).
4.4.2.2 La taille de la famille morphologique des composés garde-x
La taille catégorielle de la famille morphologique des composés garde-x a été mesurée en
deux étapes (cf. § 4.3.4). Premièrement, pour chacun des constituants du mot composé en
question, j’ai relevé tous les mots appartenant à la même famille morphologique. Par
exemple, pour le composé garde-chasse, j’ai trouvé tous les membres de la famille
morphologique associés à gard(e) et à chasse. Selon la définition de Schreuder et Baayen
(1997 : 118), la famille morphologique inclut tous les mots qui sont formés avec le mot de
base via la dérivation ou la composition, mais pas la flexion, en excluant la base elle-même.
Rappelons que dans les travaux linguistiques, il n'existe pas d’unanimité de points de vue sur
la notion de la base dans les mots composés (cf. 2.2.5). Ainsi, en suivant le modèle de Krott
120
et al. (1999) qui considèrent que chaque constituant d’un composé est une base (cf.2.2.5), j’ai
recours à la notion de ‘constituants’ plutôt que de ‘base’ dans mon calcul.
Ainsi, en interrogeant Frantext au moyen des formules en (11 et 13) j’ai pu relever tout mot
comportant la suite de lettres gard et chass précédée ou suivi d’autres lettres en termes de
chaque période étudiée.
(11) a. gard.* b. *.garde
Pour la période 1695-1798, la combinaison de la formule en (11a) et des options Single Term
and Phrase Search et Frequency by Title a généré une liste de 150 mots distincts
commençant par gard (12a) alors que la a formule en (11b) a généré une liste de 37 mots se
terminant par gard(e) (12b).
(12) a. gardafu | gardafuy | gardai | gardaient | gardeur | gardens | gardent | garder | gardeuse | gardettes | gardien | gardienne | etc.
b. algarde | angarde | bongarde | | egarde |regarde | rutgarde | etc.
En suivant les mêmes étapes pour le constituant chasse, les formules en (13a) et (13b) ont
généré respectivement des liste de 31 mots (14a) et de 103 mots (14b) comportant la base
chass(e).
(13) a. *.chasse b. chass.*
(14) a. abouchasse | approchasse | atachasse | attachasse | etc. b. chassarent | chassas | chasser | chasseuresse | chasseu | chasseur | chasseurs | etc.
Après avoir analysé les deux listes en (12) et (14), j’ai éliminé les mots correspondant
directement aux constituants (garde et chasse) et toutes les formes non-apparentées (non
dérivées ou composées à partir de cette base). Ainsi, toutes les formes flexionnelles et les
formes irrégulières comme entreregardent, gardent, mesgarde, gardens ou gardafuy ont été
supprimés puisqu’elles n’appartiennent pas à la même famille morphologique ou sont exclus
de calcul par définition (formes fléchies).
Ainsi, la liste définitive des membres de la famille des constituants garde et chasse est la
suivante :
121
(15) a. garder, gardeur, gardeuse, gardien, gardienne, garde-chasse b. chasser, chasseur, chasseresse
Alors, pour la deuxième période (1695-1798) le composé garde-chasse possède une famille
morphologique formée de 9 membres.
Toujours pour la deuxième période, j’ai calculé le nombre total de membres de la famille
morphologique ainsi que la taille moyenne de la famille pour chaque type de composé garde-
x par période (i.e. garde-chasse, garde-côtes, garde-fou, garde-manger, etc.). Le Tableau
4-645 montre les résultats généraux du calcul par période46.
Tableau 4-6 Taille de la famille morphologique des composes garde-x (Frantext)
1606-1694 1695-1798 1799-1872 1873-1920
Composés (types) 5 17 19 22
Taille de la famille (nombre) 34 160 219 248
Taille de la famille (moyenne) 6.8 9.4 11.5 11.3
Le tableau révèle une croissance du nombre moyen de la taille de la famille morphologique
au cours des quatre périodes étudiées, allant de 6.8 membres pour la première période à 11.5
pour la troisième période avec une très légère décroissance vers la quatrième période (11.3
membres).
Finalement, pour mesurer la taille catégorielle de la famille morphologique des composés
garde-x, j’ai utilisé la formule logarithmique de Baayen et Hay (2002) selon laquelle la taille
catégorielle de la famille du composé garde-x est calculée comme la somme des logarithmes
de la taille des familles des constituants qui sont membres de cette catégorie. Ainsi, pour la
première période (1606-1694), la taille catégorielle des composés garde-x (5 types) présentée
par les familles morphologiques des constituants formant les composés garde-côtes (F1 = 5),
garde-manger (F2 = 9), garde-marine (F3 = 7), garde-meuble (F4 = 8) et garde-robe (F5 = 5)
est calculée comme en (16), où F représente la taille cumulative de la famille morphologique
de chaque composé, formée à partir des familles morphologiques de ses constituants.
45 Les données statistiques du Tableau 4-6 ont été vérifiées dans le corpus Frantext en octobre 2011. 46 La liste complète des familles morphologiques des composés garde-x se trouve à l’Appendice 4 : Étude pilote – composés garde-x, Tableau 11.
122
(16) Période 1 (1606-1694) a. log (F1) + log (F2) + log (F3) + log (F4) + log (F5) b. log (5) + log (9) + log (7) + log (8) + log (5) = 0.6990+0.9542+0.8451+0.9031+0.6990 = 4.1004 = 4.10
En suivant le même modèle, la taille catégorielle des composés garde-x pour la deuxième
période (17 types) (i.e. garde-chasse (F1 = 11) ; garde-côtes (F2 = 10) ; garde-feu (F3 = 6) ;
garde-finage (F4 = 5), etc.) est calculée de la manière suivante :
(17) Période 2 (1695-1798) a. log(11)+ log(10)+ log(6)+ log(5)+ log(10)+ log(6)+ log(8)+ log(11)+ log(11)+ log(11)+ log(10)+ log(10)+ log(9)+ log(8)+ log(12)+ log(13)+ log(9) = b. 1.041+1+0.778+1.041+1+0.778+0.903+1.041+1.041+1.041+1+1+0.954+0.903 + 1.079+1.114+0.954 = 16.668 = 16.67
Finalement, le calcul pour la troisième période (19 types) et à la quatrième période (22 types)
amène aux résultats suivants).
(18) Période 3 (1799-1872) log(11)+log(8)+log(13)+log(12)+ etc. = 19.97
(19) Période 4 (1873-1920) log(11)+log(11)+log(8)+log(15)+etc. = 22.96
Les résultats obtenus en (16-19) suivent les mêmes tendances que les données statistiques du
Tableau 4-6. La taille moyenne catégorielle des composés garde-x augmente de la première
(T1 = 4.10) à la quatrième période (T4 = 22.96). La taille moyenne de la famille
morphologique de ce type augmente aussi progressivement de la première à la troisième
période (9.2 à 11.5 membres respectivement) en diminuant légèrement vers la quatrième
période (11.3). Quant au nombre total des composés garde-x, il accroît considérablement dès
la première à la quatrième période (46 vs 248 composés).
4.4.3 Identification des bases et fréquence relative
Au cours de la cinquième étape de l’étude pilote, j’ai mesuré la fréquence relative (FR) des
composés garde-x en utilisant la mesure de Hay (2003).
123
Rappelons qu’en composition, la fréquence de la base des composés peut être calculée selon
quatre variantes de mesures possibles (cf. 4.3.5). Trois des variantes ont été proposées par
Fernández-Domínguez et al. (2007 : 38) qui suggèrent que la fréquence de la base des
composés peut être mesurée : a) en additionnant les fréquences des constituants séparés ; b)
en calculant la fréquence moyenne des constituants ; c) en utilisant la fréquence de la tête du
composé. J’y ajoute une quatrième variante où la base retenue pour le calcul est le
constituant qui n’est pas la tête du composé
Pour l’étude pilote, seul le premier constituant (la tête) a été considéré pour servir de base. Il
faut noter toutefois que l’identité catégorielle de cette base est ambiguë ; nominale ou
verbale. L’évaluation de la fréquence relative des composés synthétiques, incluant les
composés garde-x, dépend nécessairement de la façon dont on identifie la base de ce type de
composés et du modèle théorique adopté. Actuellement, il existe trois candidats possibles
pour cette mesure, selon le caractère nominal/verbal de gard et selon position de l’affixe
zéro :
(20) a. Candidat 1 :[[gardeV-øN]N XN]N b. Candidat 2 :[[gardeV-XN]VP øN]N c. Candidat 3 :[[√garde]N/V XN]N
D’après la première variante en (20a), la base du composé garde-x est un nom déverbal,
gardeN. La suffixation-zéro est accomplie en premier, suivi par la composition (Lieber
2004). Pour mesurer, par période, toutes les occurrences de garde comme un nom déverbal
(candidat 1), je dois éliminer les variantes représentant des syntagmes verbaux (i.e. je garde,
il/elle/on garde).
Dans la deuxième variante en (20b), la base du composé garde-x est un syntagme verbal
(Lieber 1992). Dans ce modèle, la composition est effectuée à la première étape dans le VP ;
la dérivation à l’aide du suffixe zéro la suit. Pour mesurer toutes les occurrences de la base
comme candidat 2, je dois en premier lieu mesurer toutes les occurrences de la base gard-
(garde*), puis enlever les occurrences des lexèmes uniquement nominaux, soit : garderie,
gardeur, gardeuse, gardian, gardien, gardienne, gardiennage.
124
Le troisième candidat de la base en (20c) est lié aux modèles où les racines lexicales sont non
spécifiées pour la catégorie47. La base est donc la racine √gard-N/V, présente dans les formes
nominales (N) et verbales (V) (e.g. gardien, gardiennage, gardera, gardais, etc.). Ce modèle
a été proposé notamment par Namer (2003). Ainsi, pour mesurer toutes les occurrences de la
base selon le candidat 3, je dois, en premier lieu, mesurer toutes les occurrences de la base
gard- (garde*) et, en deuxième lieu, enlever les occurrences qui ne sont pas formées au
moyen de cette base (gardénia, gardon).
Ainsi, en travaillant avec le corpus Frantext je me heurte au problème d’identification de la
tête du mot composé (nom, verbe ou racine). Cette tâche, dans Frantext, peut seulement être
accomplie manuellement pour chaque œuvre analysée. Étant donné que selon le candidat 1
l’affixe zéro est difficile à identifier dans la base (i.e. je garde, il/elle/on garde vs la/le garde),
et que le candidat 3 inclut une racine non spécifiée pour la catégorie présentée dans les N et
V, j’ai décidé d’utiliser le candidat 3 comme la base des composés garde-x lors de l’étude-
pilote.
Pour calculer la fréquence relative des composés garde-x, j’ai calculé la fréquence
d’occurrence des composés garde-x et celle de leur base (√gard-N/V), comme le montre le
tableau suivant.
Tableau 4-7 Fréquence des composés garde-x et de leur base dans le corpus Frantext
Fréquence par période Fréquence totale
1606-1694 1695-1798 1799-1872 1873-1920
garde-x 75 430 491 320 1316
√gard-N/V 8 691 14 291 18 462 12 661 54 105
Mots 17 303 466 34 393 102 40 823 334 27 568 502 120 088 404
À partir de ces données, j’ai mesuré la fréquence relative totale des composés garde-x
comme suit : frelative = fcomposé / fbase (cf. § 4.3.4).
47 Dans certains modèles de Morphologie Distribuée (Halle and Marantz 1993), une catégorie lexicale est formée d’une racine sans spécification catégorielle qui se fusionne avec une tête qui assigne la catégorie syntaxique (Marantz 2001).
125
(21) FR = 1316/54105 = 0.0243
Dans les composés garde-x, la base √gard-N/V est notablement plus fréquente que la
structure garde-x, ce qui permet de conclure que les composés garde-x sont potentiellement
décomposables et productifs.
La fréquence relative des formes recensées selon les quatre périodes étudiées est présentée au
Tableau 4-8.
Tableau 4-8 Fréquence relative des composes garde-x par période
Fréquence par période
1606-1694 1695-1798 1799-1872 1873-1920
garde-x 75 430 491 320
FR √gard-N/V 0.009 0.030 0.027 0.025
Le niveau de fréquence relative des composés garde-x varie considérablement au cours des
quatre périodes analysées. Toutefois, on remarque que le niveau de fréquence relative le plus
bas (FR1 = 0.009) de la première période (1606-1694) est directement corrélé au nombre le
plus petit d’occurrences des composés garde-x (N1 = 75). Cette tendance est aussi clairement
présentée pendant la quatrième période où la croissance du niveau de FR (FR4 = 0.025) est
directement corrélée à l’augmentation de N (N4 = 320).
On remarque aussi que le taux de fréquence relative et le nombre d’occurrences des
composés garde-x au cours de la deuxième et la troisième période sont assez similaires.
4.5 Corrélation entre les trois mesures Le phénomène de la corrélation inverse entre la taille catégorielle de la famille
morphologique et le niveau de productivité a déjà été noté pour le processus d’affixation en
anglais. Baayen et Hay (2002 :1) ont montré qu’en dérivation, l’augmentation de la taille
catégorielle d’une famille morphologique correspond à la décroissance du niveau de la
productivité morphologique. Cette corrélation, existe-t-elle également pour les noms
composés ?
126
Pour dégager une corrélation possible, toutes les données statistiques obtenues pour les
composés garde-x sont récapitulées dans le Tableau 4-9 (où N = nombre d’occurrences ;
n1 = nombre d’hapax ; F = taille de la famille morphologique ; Fm = taille moyenne de la
famille morphologique ; P = productivité au sens strict ; T = taille catégorielle de la famille
morphologique ; FR = fréquence relative).
Tableau 4-9 Corrélation entre les trois mesures pour les composes garde-x
Mesure 1606-1694 1695-1798 1799-1872 1873-1920 Total Moyenne
N 75 430 491 320 1316 329
n1 2 8 2 13 25 6.3
F 34 160 219 248 661 165
Fm 6.8 9.4 11.5 11.3 39 9.8
P 0.027 0.019 0.004 0.041 0.091 0.023
T 4.10 16.67 19.97 22.96 63.70 15.93
FR 0.009 0.030 0.027 0.025 0.091 0.023
En premier lieu, la corrélation inverse entre la productivité morphologique P et la taille
catégorielle T de la famille morphologique des composés garde-x n’a pas été confirmée.
Ainsi, le niveau P le plus élevé (P4 = 0.041) ne correspond pas à la mesure T la plus basse
(T1 = 4.10) et le niveau P le plus bas (P3 = 0.004) ne correspond pas à la mesure T la plus
élevée (T4 = 22.96). En outre, on remarque une corrélation directe entre les mesures P et
T dans seulement 50 % de cas : cette tendance apparaît dans les années 1873-1920
(P4 = 0.041vs T4 = 22.96) et 1695-1798 (P2 = 0.019 vs T2 = 16.67).
En deuxième lieu, il existe une corrélation directe assez forte (75 %) entre la fréquence
d’occurrences, la taille de la famille morphologique et la taille catégorielle des composés
garde-x. Par exemple, la croissance de la fréquence d’occurrences des composés garde-x
(N1 = 75, N2 = 430 ; N3 = 491, etc.) correspond à l’augmentation du niveau de la taille
catégorielle de ces structures (T1 = 4.10 ; T2 = 16.67 ; T3 = 19.97 ; T4 = 22.96) et à la
famille morphologique la plus grande (F1 = 34, F2 = 160 ; F3 = 219, F4 = 248).
127
En ce qui concerne une corrélation possible entre les mesures FR et T, on constate une
corrélation directe dans seulement 50 % des cas, ce qui n’a aucune valeur significative.
Ainsi, le niveau FR le plus bas (FR1 = 0.009) correspond à la mesure T la plus petite
(T1 = 4.10) et la troisième mesure FR la plus basse (FR3 = 0.027) est corrélée à la troisième
mesure T la plus petite (T3 = 19.97).
Enfin, il n’existe pas de corrélation directe ou indirecte entre le niveau de productivité P et la
fréquence relative FR des formes recensées.
Donc, pour obtenir des résultats fiables en termes d’une corrélation possible entre les
mesures P et T d’un côté, et P et FR de l’autre, des recherches complémentaires sont
nécessaires, qui prennent en compte un plus large éventail de données. Les résultats de ce
travail plus vaste sont présentés au Chapitre 5.
4.6 Conclusion Dans ce chapitre, j’ai exploré plusieurs questions méthodologiques concernant l’organisation
et l’utilisation de différentes bases de données dans l’évaluation de la productivité
morphologique des noms composés.
Malgré le caractère relativement restreint de l’utilisation des dictionnaires dans la recherche
sur la productivité morphologique (cf. 4.2), j’ai utilisé le Dictionnaire de Littré pour créer
une liste préalable de formes recensées. Toutefois, parmi 1970 composés à trait d’union tirés
du Littré, seulement 275 composés ont été retenus pour être mesurés dans Frantext. Dans la
majorité des cas (177 composés, soit 64 %), il s’agit de formes régulières qui sont
sémantiquement transparentes et potentiellement décomposables (e.g. chat-cervier, piste de
danse, bout-à-port, bec-cornu, etc.). Ces composés appartiennent aux quatre types
structuraux (gabarits) suivants : N-N, A-N, N-A et N-de-N.
Un but important de ce chapitre était de présenter l’étude pilote que j’ai menée, visant à
tester la méthodologie et à vérifier les corrélations possibles entre les trois mesures de
productivité. L’utilisation du corpus textuel Frantext au cours de l’étude pilote a confirmé
l’adéquation de cette base de données et la faisabilité de tous les calculs nécessaires aux
mesures retenues. Ce corpus informatisé, avec plus de 4000 textes et 170 millions
128
d’occurrences, est très représentatif puisqu’il est formé de textes de types différents : œuvres
littéraires, historiques, politiques, philosophiques, scientifiques, etc.
Au cours de l’étude pilote, j’ai évalué la productivité des composés garde-x au moyen des
trois mesures quantitatives retenues : productivité au sens strict, la fréquence relative, la taille
catégorielle de la famille morphologique.
Dans le travail consacré à la productivité de l’affixe un- en anglais, Baayen et Hay (2002) ont
montré que l’augmentation de la taille de la famille catégorielle des dérivés formés avec cet
affixe correspond à l’abaissement du niveau de sa productivité. Toutefois, l’étude-pilote n’a
pas révélé cette tendance pour les composés français garde-x. La corrélation directe entre les
mesures P et T (i.e. les formes possédant le niveau de productivité P le plus élevé
correspondent à la mesure de la taille catégorielle T la plus grande) a été observé seulement
dans 50 % des cas, soit pour deux périodes sur quatre (1695-1798 et 1873-1920).
De même, les résultats de l’étude pilote ont démontré que, dans le cas des composés garde-x,
il n’existe pas de rapport entre le critère de la fréquence relative FR et la taille catégorielle T
de la famille morphologique. La corrélation directe entre ces mesures (i.e. le taux FR le plus
bas correspond à la mesure T la plus petite) a été constatée uniquement au cours des années
1606-1694 et 1799-1872, soit dans 50 % de cas analysés.
Enfin, la recherche concernant la corrélation entre les mesures FR et P a abouti à la
conclusion que, dans le cas des composés garde-x, aucun rapport direct ou indirect, n’a été
observé entre les mesures P et FR.
Cependant, l’étude pilote a découvert une corrélation positive (75 %) entre la fréquence
d’occurrences, la taille de la famille et la taille catégorielle de la famille morphologique des
formes recensées. La croissance d’occurrences des composés garde-x entraîne
l’augmentation du nombre de membres dans leur famille morphologique et, par conséquent,
le taux le plus élevé de la taille catégorielle des formes recensées.
En somme, trois mesures de productivité ont été examinées lors de l’étude pilote, quoique la
vraie corrélation entre ces mesures n’ait pas encore été révélée. Puisque le pourcentage des
cas de corrélation P-T d’un côté et P-FR de l’autre constitue seulement 50 %, les résultats
129
obtenus sont considérés comme inconcluants. Une des explications possibles du manque de
corrélation (inverse ou directe) stable peut être liée au nombre réduit de structures analysées
(34 composés). On peut donc penser que la recherche sur l’ensemble des composés révélera
des résultats plus probants.
Par ailleurs, l’étude pilote sur la productivité des composés garde-x a validé les choix
méthodologiques retenus. D’une part, de sa grande taille et ses fonctionnalités
d’interrogation, Frantext s’est révélé comme une base de données très adéquate. D’autre
part, les trois mesures de productivité sont également apparus comme opératoires (i.e. le
recueil de données, les calculs, les analyses) en permettant de raffiner la recherche sur la
productivité des formes recensées, en ce qui concerne le traitement des résultats obtenus.
Par conséquent, cette méthodologie a donc été appliquée à l’ensemble des composés retenus
(N-N, A-N, N-A et N-de-N) dans Frantext. Les résultats des calculs, la comparaison par
période et les corrélations entre les mesures sont présentés en détails au Chapitre 5.
130
CHAPITRE 5
L’analyse de la productivité des noms composés français
5.1 Introduction Dans le chapitre précédent, j’ai présenté la méthodologie nécessaire pour effectuer l’analyse
de la productivité des noms composés français à l’aide du corpus textuel Frantext. L’étude
pilote sur les composés garde-x a testé le choix des mesures d’évaluation et les différents
moyens d’exploitation du corpus. Ce travail a confirmé mes choix de méthodes de recherche
et de mesures utilisées.
Dans ce chapitre je présente les résultats obtenus : 177 noms composés réguliers et 98
composés irréguliers seront analysés pour découvrir une corrélation possible entre les
différentes mesures de productivité morphologique. Ces composés appartiennent aux quatre
types suivants : N-N, A-N, N-A et N-de-N.
Pour évaluer la productivité des structures en question, les trois mesures de productivité
présentées en 4.3.5 seront utilisées dans la recherche tant globalement que par période. De
plus, le changement du niveau de productivité des formes recensées sera évalué en fonction
de la position de la tête morphologique et du statut régulier/irrégulier des composés, qui à
son tour est basé sur leur transparence sémantique et leur compositionnalité. Ainsi, les
composés réguliers représentent les formes dont la signification est compositionnelle et dont
les propriétés sémantiques (et également syntaxiques) peuvent être déduites des propriétés de
leurs constituants (par exemple, un chou-fleur est une sorte de chou ressemblant à une fleur).
La majorité des composés endocentriques sont des structures régulières. Par contre, les
composés exocentriques sont envisagés comme structures régulières ou irrégulières selon la
possibilité d’inférer une tête logique.
Les résultats concernant la productivité des composés garde-x obtenus au cours de l’étude
pilote ont démontré que la corrélation entre la productivité et la taille catégorielle de la
131
famille morphologique des formes recensées n’a pas été confirmée. Le rapport direct entre
ces deux mesures a été observé dans seulement 50 % des cas, ce qui n’a aucune valeur
significative. En ce qui concerne le lien entre la productivité et la fréquence relative,
l’existence de la corrélation directe (ou indirecte) entre ces mesures n'a toujours pas été
confirmée dans le cas des composés garde-x.
Dans ce chapitre, je vise à vérifier les quatre hypothèses suivantes :
1. Le taux de productivité des composés N-N, A-N, N-A et N-de-N dépend de la
position de la tête morphologique et du statut régulier/irrégulier des composés. Les formes
les plus productives sont, généralement, les structures régulières et celles avec la tête
morphologique à gauche. Cette hypothèse découle de l’aspect qualitatif de productivité,
selon lequel les formes irrégulières ne forment pas de patrons productifs ; ainsi, elles ne sont
pas considérées comme productives et elles doivent être stockées dans la mémoire (Bauer
2001 : 147). Deuxièmement, la majorité des composés français possèdent la tête
morphologique à gauche.48 Les composés avec la tête à droite sont généralement considérés
comme peu nombreux et moins productifs que ceux dont la tête est à gauche, du moins en
synchronie (Gross 1996 : 31 ; Mathieu-Colas 1994 : 229 ; Brousseau et Nikiema 2001 : 347).
2. Le taux de productivité des composés N-N, A-N, N-A et N-de-N est lié à la structure
interne du composé : les types N-N et N-de-N sont les structures les plus productives en
synchronie (Brousseau et Nikiema 2001 : 347-348 ; Mathieu-Colas : 1994 : 229, 240)49.
3. Il existe une corrélation inverse entre la productivité et la taille catégorielle de la
famille morphologique des composés : la croissance de la taille catégorielle de la famille
morphologique correspond à la décroissance du taux de productivité du composé (Baayen et
Hay 2002 ; De Jong, Schreuder et Baayen 2000 ; Moscoso del Prado Martin al. 2004).
48
Tel que mentionné par Y. Bourque (Yves Bourque, communication personnelle, 7 octobre 2012), la majorité de composés N-N, N-à-N, N-de-N analysés dans sa thèse de doctorat (à paraitre : Vers une typologie de l'opacité sémantique des unités polylexicales) constituent des formes endocentriques avec la tête à gauche (1279 sur 1593 ou 80 %). 49
Le nombre de structures les plus fréquentes dans la base de données de Y. Bourque (2012) se distribue de la façon suivante : les composés N-N (4133) ; les composés N-A (3115) ; les composés N-de-N (2668) ; les composés A-N (744) ; les composés N-à-N (458). Voir http ://polylexical.com.
132
4. Le niveau de productivité des composés N-N, A-N, N-A et N-de-N est en relation
inverse à celui de sa fréquence relative : les mots composés dont la fréquence relative est
plus basse sont plus productifs que ceux dont la fréquence relative est plus élevée (Hay
2003 :151). Je cherche à vérifier si la notion de la fréquence relative proposée par Hay
(2003) pour les mots affixés, peut aussi être appliquée aux mots composés.
Finalement, je vise à répondre à la question suivante : la mesure de productivité P au sens
strict, est-elle suffisamment fiable comme seul moyen de calcul du taux de productivité des
noms composés ?
Ce chapitre est organisé de la façon suivante. La section 5.2 présente l’analyse de la
productivité morphologique des formes recensées selon la mesure P basée sur les hapax.
L’objet de la section 5.3 est d’évaluer la productivité des composés N-N, A-N, N-A et
N-de-N en termes de la taille de la famille morphologique. La section 5.4 est consacrée à
l’étude de la corrélation potentielle entre la productivité morphologique et la fréquence
relative des formes analysées. Dans la section 5.5, je discute les résultats obtenus selon ces
trois mesures de la productivité. La section 5.6 a pour objet de présenter l’étude diachronique
de la productivité des noms composés français du XVIIe jusqu’au début du XXe siècle. Enfin,
les résultats sont discutés globalement dans la conclusion (section 5.7).
5.2 Productivité basée sur les hapax Je commence l’analyse de la productivité des formes recensées par la mise en œuvre de la
mesure quantitative la plus utilisée actuellement, celle de la productivité P au sens strict de
Baayen (Baayen 1992 ; Baayen et Lieber 1991 ; Baayen et Renouf 1996). Rappelons que
cette mesure, basée sur la notion d’hapax legomenon, est notée de la façon suivante.
(1) P = n1 / N où P = la productivité ; n1 = le nombre d’hapax legomena (les formes qui apparaissent une fois seulement dans un grand corpus) ; N = le nombre total d’occurrences des formes recensées dans le corpus.
Ce calcul évalue la productivité du gabarit (du type) des noms composés en démontrant le
taux de croissance du vocabulaire.
133
Rappelons également que la recherche sur la productivité des composés N-N, A-N, N-A et
N-de-N est basée sur le corpus Frantext, dont la taille est suffisamment grande pour que cette
mesure quantitative puisse être appliquée (environ 4000 textes comptant plus de 170 millions
d’occurrences (cf. la section 4.3.4)). Étant donné que la recherche englobe une durée assez
longue (du XVIIe au début du XXe siècle), je prévois un abaissement de la valeur P dans les
formes recensées au fur et à mesure qu’on avance dans le temps puisque les hapax qui se
répètent dans les périodes historiques postérieures ne représentent plus de mots nouveaux. En
conséquence, seulement de vrais hapax seront pris en considération dans l’étude, c’est-à-dire,
les hapax qui apparaissent dans le corpus pour la première fois (et qui sont donc absents des
sous-corpus des périodes précédentes ; cf. 4.3).
5.2.1 Productivité des composés N-N
Parmi les 72 noms composés N-N, 54 formes sont régulières et 18 sont irrégulières. En
fonction de la position de la tête morphologique, 19 composés N-N endocentriques ont la tête
à gauche, alors que 30 ont la tête à droite. Les composés appositionnels constituent un petit
groupe de formes N-N régulières (cinq), soit :
(2) fille-mère, lord-lieutenant, roman-feuilleton, table-bureau, sud-ouest
La liste de composés N-N réguliers avec de vrais hapax est distribuée selon les quatre
périodes étudiées comme suit (où le constituant souligné est la tête morphologique).
- 1606-1694 : arrière-boutique, arrière-main, arrière-neveu, arrière-pensée, arrière-saison, croix-pile, volte-face.
- 1695-1798 : bien-fonds, chou-fleur, gomme-gutte, lord-lieutenant, rêve-creux, taupe-grillon.
- 1799-1872 : chou-rave, tiers-point.
- 1873-1920 : arrière-sens.
Les composés N-N irréguliers sont au nombre de 18. Les formes représentant de vrais hapax
dans ce type de composés sont réparties de la façon suivante.
- 1606-1694 : reine-claude, cache-cache.
134
- 1695-1798 : bout-dehors, côte-rôtie, mont-joie.
- 1799-1872 : huppe-col, patte-fiche, trique-madame.
- 1873-1920 : or-sol.
Les composés N-N qui ont été mesurés sont présentés dans le Tableau 5-150.
Tableau 5-1 Productivité des composés N-N selon la position de la tête Position de la
Position de la tête
1606-1694 1695-1798 1799-1872 1873-1920 P Total
N n1 P N n1 P N n1 P N n1 P
N-N réguliers (2944) Tête à gauche 5
2
2 0.0385 121 3 0.0248 443 1 0.0023 207 - 0.0073
Tête à droite 33
5 0.1515 312 2 0.0064 735 1 0.0014 535 1 0.0019 0.0056
Appositionnels 6 - - 167 1 0.0060 206 - - 127 - - 0.0020
Total réguliers
91
7 0.0770 600 6 0.0100 1384 2 0.0014 869 1 0.0012 0.0054
N-N irréguliers (404)
Exocentriquess irréguliers
55
2 0.0364 64 3 0.0469 196 3 0.0153 89 1 0.0112 0.0223
En analysant les données du tableau ci-dessus on voit que :
a) Parmi les composés N-N réguliers, les formes dont la tête est à gauche sont considérées
comme les plus productives à cause de leur rendement global (P total = 0.0073).
b) Les formes N-N avec la tête à droite sont considérablement plus productives pendant la
première période (P1 = 0.1515) ce qui est lié à la petite valeur de N (N = 33)51 et le nombre
assez élevé d’hapax (n1 = 5). Le taux de leur productivité s’abaisse considérablement à partir
de 1695.
c) Étant donné que les composés N-N appositionnels forment un petit groupe dont les hapax
n'apparaissant qu'une seule fois dans Frantext, la productivité de ce type de composés ne
peut pas être évaluée de façon fiable.
50 Dans les tableaux 5-1 à 5-6, les zones ombrées représentent le niveau de productivité le plus élevé pour chaque type de composé. Elles identifient donc la période où un type donné était le plus productif. 51 D’après Sigley (1997 : 219, cité dans Bauer 2001 :151), pour que le les propriétés de P soient mathématiquement significatives, le total des formes (N) doit, au minimum, être égal à 50. Donc, toutes les données où N<50 doivent être considérées avec prudence.
135
d) En général, on peut voir que les composés N-N réguliers possèdent le niveau de
productivité le plus élevé pendant la première période 1606-1694 (P1 = 0.0770). Le taux de
leur productivité diminue constamment de 1695 à 1920.
e) Les formes exocentriques irrégulières sont les plus productives tout au long des trois
périodes analysées, en montrant le taux le plus élevé au cours des années 1695-1798
(P2 = 0.0469).
Globalement, comme le montre le Tableau 5-1, la productivité des composés N-N dépend de
la position de la tête morphologique. Les composés avec la tête à gauche sont constamment
productifs lors des trois premières périodes analysées. Par contre, le niveau de productivité
des composés N-N endocentriques dont la tête est à droite est élevé seulement pendant les
années 1606-1694 (P1 = 0.1515). Toutefois, ce résultat ne semble pas être convaincant
puisque le nombre total de formes analysées est moins de 50 (N = 33). Par ailleurs, le petit
nombre d’occurrences de ce type est lié aux plusieurs hapax (cinq hapax sur 30 composés)
ressortis entre 1606 et 1694 (arrière-main, arrière-neveu, arrière-pensée, arrière-saison,
volte-face). À partir des années 1695-1798, la productivité de ce type de composés s’abaisse
fortement en devenant comparable à celle des composés appositionnels.
Pour ce qui est des formes régulières, la productivité des trois types de composés (avec la
tête à droite, à gauche, appositionnels) est très similaire pendant la période de 1873-1920
(voir le Graphique 5-1).
Graphique 5-1 Productivité des composés N-N réguliers selon la position de la tête
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
1606-1694 1695-1798 1799-1872 1873-1920
tête à gauche tête à droite appositionnels
136
En outre, lors des années 1606-1694, les composés N-N réguliers dont la tête est à droite sont
quatre fois plus productifs que ceux ayant la tête à gauche. Par contre, à partir des années
1695-1798, et surtout lors de la période 1799-1872, la productivité de ces deux types de
composés s’abaisse de façon considérable.
De plus, le Tableau 5-1 révèle la productivité la plus élevée des N-N réguliers au cours des
années 1606-1694 en comparaison aux périodes postérieures. Ce phénomène peut être
expliqué par le fait que la taille du corpus de la période 1606-1694 (17,303,466 mots) est
deux fois plus petite que celle des années 1695-1798 (34,393,102 mots) et 2.4 fois inférieure
à celle des années 1799-1872 (40, 823,334 mots).
On peut aussi bien voir que la productivité des composés N-N dépend de leur statut
régulier/irrégulier. Pendant la période 1606-1694, les composés réguliers sont deux fois plus
productifs que les composés irréguliers. Par contre, à partir de l’année 1695, leur productivité
s’abaisse énormément.
Ainsi, il apparaît que les chiffres du Tableau 5-1 fournissent des données fort inattendues :
globalement, la productivité des composés N-N exocentriques irréguliers (P = 0.0223) est 4.1
fois plus élevée que celle des composés N-N réguliers (P = 0.0054).
Le taux de productivité assez élevé des composés irréguliers est un résultat imprévu. Ce type
de composés (e.g. reine-claude, cache-cache) représente des structures non-décomposables
qui doivent être stockées dans le lexique. En fonction de l’aspect qualitatif de productivité,
les formes stockées ne sont pas associées à des patrons productifs puisqu’elles ne sont pas
décomposables (Baayen et Lieber 1991 : 808). Pour qu’un processus morphologique soit
productif, il doit être capable de former un nombre infini de dérivés de façon non-
intentionnelle. Autrement dit, ce processus doit être disponible comme un patron
morphologique productif pour former de nouveaux lexèmes n’existant pas auparavant et dont
le locuteur ignore l’existence. Bauer (2001 : 147) suggère que, par définition, les mots
formés par des patrons non-productifs doivent être lexicalisés avec une ou plusieurs
significations spécialisées. Selon Hay (2001 : 145), la productivité est un continuum qui
surgit comme une fonction des mots décomposés dans le lexique : plus un mot complexe est
représenté par des formes décomposables, plus il a des chances d’être productif.
137
Compte tenu de ce qui précède, le fait que le niveau élevé de productivité des composés
exocentriques irréguliers augmente même pendant la période 1695-1798 (P2 = 0.0469 vs
P1 = 0.0364) est paradoxal parce que ce type de composés représente des formes non-
décomposables qui ne forment pas de patrons morphologiques productifs. Ainsi, dans le cas
des composés exocentriques irréguliers, les résultats obtenus soulèvent la question de la
fiabilité de la mesure P au sens strict. Je reviendrai sur cette question dans la section 5.2.6.
Le changement du niveau de productivité des composés N-N selon l’axe régulier/ irrégulier
est récapitulé dans le Graphique 5-2.
Graphique 5-2 Productivité des composés N-N selon l’aspect régulier/irrégulier
00.010.020.030.04
0.050.060.070.080.09
1606-1694 1695-1798 1799-1872 1873-1920
réguliers irréguliers composés N-N (total)
5.2.2 Productivité des composés A-N
Passons maintenant à l’examen des composés A-N qui représentent le type le plus
nombreux : 137 composés dont 102 sont réguliers et 35 sont irréguliers. Parmi les 102
composés réguliers, 87 ont la tête à droite et 15 sont des exocentriques (i.e. claire-voie,
haute-taille, longue-langue).
La liste de composés A-N réguliers avec de vrais hapax (32) se présente comme suit (où le
constituant souligné est la tête morphologique).
- 1606-1694 : bel-outil, blanc-manger, claire-voie, courte-boule, courte-lettre, courte-pointe, courte-queue, demi-frère, double-canon, double-chaîne, haut-le-corps, haute-taille, mort-bois, mort-gage, sainte-nitouche.
138
- 1695-1798 : basse-étoffe, blanc-bois, demi-sœur, double-front, grosse-gorge, longue-langue.
- 1799-1872 : bas-justicier, bas-métier, blanc-manteau, court-côté, demi-autour, demi-bosse, faux-saunier, franc-funin, vide-poches.
- 1873-1920 : court-bâton, noir-museau.
Parmi les 35 composés A-N irréguliers, neuf sont de vrais hapax ; ils sont distribués de la
façon suivante entre les quatre périodes étudiées.
- 1606-1694 : bonne-vilaine, double-bec, gros-jean, petit-bouc, saint-gall.
- 1695-1798 : bonne-voglie, gros-colas.
- 1799-1872 : 0.
- 1873-1920 : dur-bec, toute-table.
Le taux de productivité des composés A-N réguliers et irréguliers varie d’une période à
l’autre. Ainsi, la productivité de ce type de composés est résumée dans le Tableau 5-2.
Tableau 5-2 Productivité des composés A-N réguliers et irréguliers selon la position de la tête morphologique
Position de la tete
1606-1694 1695-1798 1799-1872 1873-1920 P Total
tot N n1 P N n1 P N n1 P N n1 P
A-N réguliers (24696)
Tête à droite 2986 8 0.0027 6241 4 0.0006 8659 8 0.0009 6116 1 0.0002 0.0009
Exocentriques réguliers
7 7 1.0000 52 3 0.0577 360 4 0.0111 268 1 0.0037 0.0218
Total réguliers
2993 15 0.0050 6293 6 0.0010 9008 9 0.0010 6402 2 0.0003 0.0013
A-N irréguliers (4802)
Exocentriques irréguliers
860 5 0.0058 1110 2 0.0018 1932 0 - 900 2 0.0022 0.0019
Total exocentriques
867 12 0.0138 1162 5 0.0043 2292 4 0.0017 1168 3 0.0026 0.0044
Du tableau ci-dessus se dégagent les conclusions suivantes :
a) La productivité des composés A-N réguliers est très similaire à celle des composés
A-N irréguliers pendant les années 1606-1694 (P1 = 0.0050 vs P1 = 0.0058). À partir de la
139
période 1695-1798, le taux de productivité des composés irréguliers devient plus élevé que
celui des composés réguliers.
b) La productivité des composés A-N dépend de la position de la tête morphologique. En
comparaison aux composés A-N avec la tête à droite (P1 = 0.0027 ; P2 = 0.0006 ; P3 =
0.0009 ; P4 = 0.0002), les composés exocentriques réguliers sont considérablement plus
productifs (P1 = 1.0000 ; P2 = 0.0577 ; P3 = 0.0111 ; P4 = 0.0037) durant toutes les périodes
analysées. Cependant, le résultat P1 = 1.0000 doit être pris en considération prudemment. En
premier lieu, le nombre d’occurrences est moins de 50 (N = 7) (cf. Sigley § 5.2.1). En
deuxième lieu, comme le montre Baayen (1992 :143), le taux très élevé de productivité
présenté par un nombre assez bas d’occurrences doit être envisagé avec beaucoup de
précautions. Le problème consiste dans le fait que pour une petite valeur de N les
mathématiques sous-jacentes ne s'appliquent pas au calcul de la mesure P.
Ce phénomène a été aussi noté par Bauer (2001 : 150).52
c) Globalement, les A-N exocentriques réguliers (P = 0.0218) sont 11.5 fois plus productifs
que les exocentriques irréguliers (P = 0.0019).
d) Toutefois, la productivité totale des composés A-N irréguliers est légèrement plus élevée
que celle des A-N réguliers (P = 0.0019 vs P = 0.0013).
e) Entre 1606 et 1920, les composés A-N exocentriques (réguliers et irréguliers) sont plus
productifs que les composés dont la tête est à droite.
La productivité des composés A-N est présentée dans le Graphique 5-3, basé sur un axe
logarithmique pour mieux différencier les composés réguliers et irréguliers.
52
Bauer (2001 :151) attire l’attention sur le cas du suffixe -iana qui ressort une fois seulement (N = 1) dans le corpus Wellington (Victoriana) et dont n1 = 1. Théoriquement, ce suffixe doit être considéré comme 100 % productif. Néanmoins, Bauer indique que tous les cas où N = 1 doivent être examinés avec prudence : plus le nombre d’occurrences des formes recensées est petit, moins les résultats peuvent être considérés comme concluants.
140
Graphique 5-3 Productivité des composés A-N selon la position de la tête
0.0001
0.001
0.01
0.1
11606-1694 1695-1798 1799-1872 1873-1920
tête à droite exocentriques réguliers exocentriques irréguliers
Comme le montre le graphique ci-dessus, les composés A-N exocentriques réguliers sont
considérablement plus productifs que les A-N irréguliers et surtout les A-N avec la tête à
droite au cours des années 1606-1798. Par contre, lors de la période 1873-1920, la
productivité des A-N endocentriques diminue énormément lorsque le taux de productivité
des A-N exocentriques réguliers et irréguliers devient assez similaire.
Le changement du niveau de productivité des composés A-N selon l’aspect régulier/
irrégulier est récapitulé dans le Graphique 5-4.
Graphique 5-4 Productivité des composés A-N (réguliers vs irréguliers)
Le graphique ci-dessus indique que le niveau de productivité des composés A-N réguliers et
irréguliers était assez similaire pendant la première période (P1 = 0.0050 vs P1 = 0.0058).
Toutefois, entre 1695 et 1798, la productivité des A-N irréguliers est presque deux fois plus
141
élevée que celle des A-N réguliers (P2 = 0.0018 vs P2 = 0.0010) ; pour la période 1873-1920,
la productivité des composés irréguliers augmente considérablement (sept fois).
En général, le taux le plus élevé des composés A-N apparaît pendant la période 1606-1694
(P1 = 0.0052). À partir des années 1695-1798, leur productivité s’abaisse graduellement.
5.2.3 Productivité des composés N-A
Les composés N-A sont peu nombreux : 16 formes régulières et 23 formes irrégulières.
Parmi les composés N-A réguliers, 13 ont la tête à gauche et trois composés sont
exocentriques : bec-cornu, pic-vert, pied-bleu.
La liste de composés N-A réguliers avec de vrais hapax (7) est distribuée de la manière
suivante (où le constituant souligné est la tête morphologique).
- 1606-1694 : arc-boutant, acquit-patent, bec-cornu, porc-épic.
- 1695-1798 : criste-marine, pic-vert.
- 1799-1872 : pied-bleu.
- 1873-1920 : 0.
Le groupe de composés N-A irréguliers est plus grand que celui des réguliers : 23 formes au
total, dont sept formes se caractérisent par la présence de vrais hapax.
- 1606-1694 : bouillon-blanc, cul-bas, sang-gris, ver-coquin.
- 1695-1798 : bec-allongé, cou-jaune.
- 1799-1872 : 0.
- 1873-1920 : bec-courbe, bec-dur.
Le tableau ci-dessous présente le taux de productivité des composés N-A, qui varie de façon
considérable d’une période à l’autre.
142
Tableau 5-3 Productivité des composés N-A selon la position de la tête morphologique
Position de la tête
1606-1694 1695-1798 1799-1872 1873-1920 P total
N n1 P N n1 P N n1 P N n1 P
N-A réguliers (1855)
Tête à gauche 114 3 0.0263 393 1 0.0025 799 - - 540 - - 0.0022
Exocentriques réguliers
1 1 1.0000 2 1 0.5000 6 1 0.1667 - - - 0.3333
Total réguliers 115 4 0.0348 395 2 0.0051 805 1 0.0012 540 - - 0.0038 N-A irréguliers (2842)
Exocentriques irréguliers
107 4 0.0374 888 2 0.0023 1307 - - 540 2 0.0037 0.0028
Conformément à la position de la tête morphologique, la comparaison du niveau de
productivité des composés N-A montre que :
a) Pendant les trois premières périodes analysées, les composés exocentriques réguliers sont
plus productifs que les composés dont la tête est à gauche. Néanmoins, ces résultats sont à
interpréter avec précaution à cause du petit nombre d’occurrences pour ce type tout au long
des années 1606-1872 (N1 = 1 ; N2 = 2 ; N3 = 6). Si on met de côté les exocentriques
réguliers, il apparaît qu’au total, le niveau de productivité des N-A avec la tête à gauche et
des N-A irréguliers, est presque identique (P = 0.0022 vs P = 0.0028).
b) Le taux de productivité des composés N-A avec la tête à gauche ne peut pas être analysé
entre 1799 et 1920 pour cause de lacunes de données statistiques.
c) Comme dans le cas des composés A-N, le niveau de productivité des composés N-A
réguliers et celui des composés N-A irréguliers sont presque identiques pendant la période
1606-1694 (P1 = 0.0348 vs P1 = 0.0374). Entre 1695-1798, la productivité des composés
N-A réguliers diminue considérablement (P2 = 0.0051) ; néanmoins, ce type de composés
reste plus productif que celui des composés N-A irréguliers (P2 = 0.0023).
d) Contrairement au cas des composés N-N et A-N, où les formes irrégulières étaient plus
productives que les régulières, le taux de productivité des N-A réguliers (P = 0.0038) lors des
années 1606 et 1920 est plus élevé que celui des N-A irréguliers (P = 0.0028).
143
Le changement de la productivité est présenté dans le graphique suivant.
Graphique 5-5 Productivité des composés N-A selon la position de la tête morphologique
On voit que les N-A exocentriques réguliers sont considérablement plus productifs que les
autres types N-A. Les N-A avec la tête à gauche et les N-A exocentriques irréguliers ont une
productivité assez similaire pendant la première période (P1 = 0.0263 vs P1 = 0.0374) et
surtout, entre 1695 et 1798 (P2 = 0.0025 vs P2 = 0.0023). En outre, les N-A exocentriques
irréguliers montrent une la croissance de productivité dans les années 1873-1920.
L’évolution de la productivité des composés N-A selon le statut régulier/irrégulier est résumé
dans le Graphique 5-6 ; la représentation est basée sur un axe logarithmique pour mieux
distinguer les courbes de productivité des composés réguliers vs irréguliers.
Graphique 5-6 Productivité des composés N-A (réguliers vs irréguliers)
0.0001
0.001
0.01
0.1
11606-1694 1695-1798 1799-1872 1873-1920
réguliers irréguliers Total :
144
On peut voir que globalement, les composés N-A réguliers sont modérément plus productifs
que les N-A irréguliers (P = 0.0038 vs P = 0.0028). Toutefois, chaque type de composés
révèle des données lacunaires pour une période, ce qui rend les résultats obtenus difficiles à
interpréter.
5.2.4 Productivité des composés N-de-N
Les composés N-de-N sont peu nombreux : cinq formes régulières et 22 formes irrégulières.
En fonction de la tête morphologique, les composés N-de-N endocentriques dont la tête est à
gauche sont au nombre de trois : belle-de-jour, belle-de-nuit, mestre de camp. Seulement un
composé N-de-N dont la tête est à droite et un composé exocentrique régulier sont ressortis
dans Frantext : pou-de-soie ; cul-de-jatte.
Le petit groupe de composés réguliers avec de vrais hapax (au nombre de deux) est distribué
au cours des années 1604-1920 de la manière suivante :
- 1606-1694 : belle-de-jour.
- 1695-1798 : 0.
- 1799-1872 : pou-de-soie.
- 1873-1920 : 0.
Les vrais hapax dans les composés N-de-N irréguliers, au nombre de 10, sont les suivants :
- 1606-1694 : bec-de-cane, cou-de-pied, cul-de-sac, sang-de-dragon
- 1695-1798 : cul-de-poule
- 1799-1872 : bec-de-faucon, fleur-de-mai
- 1873-1920 : bec-de-cygne, bec-de-grue, bec-de-lézard
Les données statistiques générales pour les N-de-N sont récapitulées dans le Tableau 5-4.
145
Tableau 5-4 Productivité des composés N-de-N selon la position de la tête morphologique
Position de la tête
1606-1694 1695-1798 1799-1872 1873-1920 P total N n1 P N n1 P N n1 P N n1 P
N-de-N réguliers (170)
Tête à gauche 52 1 0.0192 101 0 - 9 0 - 2 0 - 0.0061
Tête à droite - - - - - - 1 1 1.0000 - - - 1.0000
Exocentriques réguliers
4 0 - - - - - - - 1 0 - -
Total réguliers 56 1 0.0180 101 0 - 10 1 0.1000 3 0 - 0.0118
N-de-N irréguliers (1627)
Exocentriques irréguliers
113 4 0.0354 234 1 0.0043 626 2 0.0032 654 3 0.0046 0.0061
Total exocentriques
117 4 0.0342 234 1 0.0043 626 2 0.0032 654 3 0.0046 0.0061
À partir des chiffres présentés ci-dessus, on peut avancer certains constats :
a) Dans l’ensemble, il n’y a pas suffisamment de données pour tirer des conclusions précises
concernant la productivité des composés N-de-N réguliers. Malgré le niveau de productivité
très élevé de ce type de composés pendant la période 1799-1872 (P3 = 1.0000), ces données
ne peuvent pas être considérées comme fiables à cause du nombre d’occurrences trop petit
(N = 1) (cf. § 5.2.2).
b) En ce qui concerne l’aspect régulier/irrégulier des exocentriques, les composés N-de-N
réguliers sont globalement deux fois plus productifs que les N-de-N irréguliers (P = 0.0061).
Néanmoins, il faut prendre en considération le fait que lors des années 1799-1872, il n’y a
qu’une seule occurrence dans les composés N-de-N avec la tête à droite.
c) Le fait que les composés irréguliers soient constamment productifs dès 1605 à 1920 est un
résultat inattendu qui est contradictoire à l’aspect qualitatif de la productivité (cf. 5.2.1).
d) Quant à la corrélation entre le niveau de productivité et la position de la tête
morphologique des composés N-de-N réguliers, aucune conclusion n’est possible en raison
des données lacunaires pour les composés réguliers.
146
Le graphique ci-dessous montre le rapport entre le niveau de productivité et le facteur
régulier/irrégulier des composés N-de-N. Il est basé sur un axe logarithmique pour mieux
distinguer les courbes de productivité des composés réguliers et irréguliers.
Graphique 5-7 Productivité des composés N-de-N selon l’aspect régulier/ irrégulier
0
0.02
0.04
0.06
0.08
0.1
0.12
1606-1694 1695-1798 1799-1872 1873-1920
réguliers irréguliers Total :
Conformément à la représentation ci-dessus, le taux de productivité le plus élevé est observé
dans les N-de-N réguliers entre 1799 et 1872. Cependant, pendant la première période, la
productivité des N-de-N réguliers est presque deux fois plus bas que celui des N-de-N
irréguliers. En même temps, rappelons que dans le cas des N-de-N réguliers, on observe les
lacunes de données statistiques entre les années 1695-1798 et 1873-1920. Compte tenu de
ces faits, il est impossible de déduire des conclusions fiables à partir des résultats obtenus
pour ce type de composés.
5.2.5 Facteurs corrélés à la productivité au sens strict
Dans les sections 5.2.1-5.2.4, j’ai présenté l’analyse du niveau de productivité des composés
N-N, A-N, N-A et N-de-N en utilisant la mesure P au sens strict basée sur la notion d’hapax
legomenon. À partir des résultats obtenus, j’ai abouti à la conclusion que le taux de
productivité morphologique dépend de facteurs différents, tels que la position de la tête
morphologique, l’aspect régulier/irrégulier et le type du composé. L’analyse détaillée de
cette corrélation sera discutée dans les sections 5.2.5.1-5.2.5.3.
147
5.2.5.1 Productivité et position de la tête morphologique
Les données sur la productivité des types N-N, A-N, N-A et N-de-N en fonction de la tête
morphologique sont résumées dans le Tableau 5-553.
Tableau 5-5 Productivité des composés N-N, A-N, N-A et N-de-N selon la position de la tête morphologique
Type 1606-1694 1695-1798 1799-1872 1873-1920 Total
P N n1 P N n1 P N n1 P N n1 P Tête à gauche (2833)
N-N 52 2 0.0385 121 3 0.0248 443 1 0.0023 207 -
N-A 114 3 0.0263 393 1 0.0025 799 - - 540 - -
N-de-N 52 1 0.0192 101 0 - 9 0 - 2 - -
Total 218 6 0.0275 615 4 0.0065 1251 1 0.0008 749 - 0.0039
Tête à droite (25 618)
N-N 33 5 0.1515 312 2 0.0064 735 1 0.0014 535 1 0.0019
A-N 2986 8 0.0027 6241 4 0.0006 8659 8 0.0009 6116 1 0.0002
N-de-N - - - - - - 1 1 1.0000 - - -
Total 3019 13 0.0043 6553 6 0.0009 9395 10 0.0011 6651 2 0.0003 0.0012
Exocentriques réguliers (701)
A-N 7 7 1.0000 52 3 0.0577 360 4 0.0111 268 1 0.0037
N-A 1 1 1.0000 2 1 0.5000 6 1 0.1667 - - -
N-de-N 4 0 - - - - - - - 1 0 -
Total 12 8 0.6667 54 4 0.0741 366 5 0.0137 269 1 0.0037 0.0257
Appositionnels (506)
N-N 6 - - 167 1 0.0060 206 - - 127 - -
Total 6 - - 167 1 0.0060 206 - - 127 - - 0.0020
Exocentriques irréguliers (9675)
N-N 55 2 0.0364 64 3 0.0469 196 3 0.0153 89 1 0.0112
A-N 860 5 0.0058 1110 2 0.0018 1932 0 - 900 2 0.0022
N-A 107 4 0.0374 888 2 0.0023 1307 - - 540 2 0.0037
N-de-N 113 4 0.0354 234 1 0.0043 626 2 0.0032 654 3 0.0046
Total 1135 15 0.0132 2296 8 0.0035 4061 5 0.0012 2183 8 0.0037 0.0037
53
Les zones ombrées représentent la valeur totale de P selon la position de la tête morphologique.
148
Généralement, en français, les composés endocentriques dont la tête est à gauche sont
considérés en synchronie comme les formes les plus productives (Brousseau 2001 : 347 ;
Gross 1996 : 31 ; Mathieu-Colas 1994 : 229). Toutefois, comme le montre le tableau ci-
dessus, les structures les plus productives sont les formes exocentriques régulières (voir les
sections ombrées). Le taux de productivité de ces formes est beaucoup plus élevé que celui
des composés avec la tête à gauche (6.6 fois), celui des composés avec la tête à droite (21.4
fois) et celui des composés appositionnels (12.9 fois). Il est intéressant de noter le déclin du
taux de productivité des composés réguliers exocentriques dans les années 1873-1920, se
soldant par un niveau de productivité similaire à celui des composés exocentriques irréguliers
(P4 = 0.0037).
Les composés dont la tête est à gauche constituent la deuxième structure la plus productive
(P = 0.0039). Toutefois, le taux de productivité de ces composés diminue progressivement
dans les années 1695-1872 (les données étant intéressantes pour la période 1873-1920).
Quant aux composés endocentriques avec la tête à droite, ils représentent les formes les
moins productives (P = 0.0012). Entre 1606 et 1798, le niveau de leur productivité diminue
rapidement suivi d’un petit épanouissement en 1799-1872 et d’un grand déclin en 1873-
1920.
Dans le cas des composés exocentriques irréguliers, dont le niveau de productivité est aussi
élevé (P = 0.0037), le nombre d’occurrences (N = 9675) et le nombre d’hapax (n1 = 36)
dépassent largement les chiffres moyens de ces indices observés dans les autres types de
composés, sauf les structures dont la tête est à droite. Rappelons qu’il s’agit là d’un résultat
paradoxal puisque les formes exocentriques irrégulières ne forment pas de patrons
morphologiques productifs (cf. 5.2.1) et elles doivent être lexicalisées avec des significations
spécialisées (Bauer 2001 :147). Toutefois, globalement, ce type de composés est sept fois
moins productif que les composés exocentriques réguliers.
Il faut également considérer le fait que l’analyse des composés N-N et A-N a révélé le taux le
plus élevé des formes irrégulières par rapport aux formes régulières (cf. Tableaux 5-1 et 5-2).
Selon les résultats obtenus, la proportion entre les valeurs n1 et N (n1/N) est plus basse dans
les structures irrégulières. Par exemple, dans les composés N-N, cette corrélation est
149
présentée de la manière suivante : formes régulières (16/ 2944) vs irrégulières (9/404) (ou
Prég. = 0.0054 vs Pirrég. = 0.0223). En ce qui concerne les composés A-N, la distribution entre
les valeurs n1 et N peut être résumée comme suit : réguliers (32/ 24696) vs
irréguliers (9/4802) (ou Prég. = 0.0013 vs Pirrég. = 0.0019). Par contre, la proportion entre n1 et
N dans les composés N-A réguliers et irréguliers ne diffère pas beaucoup ; réguliers (7/1855)
vs irréguliers (8/2842). En conséquence, il apparaît que les composés A-N réguliers sont plus
productifs que les A-N irréguliers (P = 0.0038 vs P = 0.0028). De plus, malgré le fait que les
N-de-N réguliers sont plus productifs que les N-de-N irréguliers (P = 0.0118 vs P = 0.0061),
ces résultats sont à interpréter avec précautions à cause des données fort lacunaires pour le
type N-de-N régulier.
Ainsi, le fait que les composés irréguliers se comportent bizarrement dans les types N-N et
A-N peut être lié aux facteurs suivants. En premier lieu, ce phénomène peut être expliqué par
certaines limites de l’utilisation de la mesure P qui dépend fortement des valeurs N et n1. En
deuxième lieu, cela peut être lié au nombre disproportionné de valeurs similaires des formes
régulières et irrégulières. Donc, la taille différente de chaque sous-corpus, en termes des
valeurs différentes entre N et n1, peut potentiellement contribuer à ce comportement.
Finalement, les composés appositionnels ne peuvent pas être analysés précisément à cause du
sévère manque de données pour les années 1606-1694, 1799-1872 et 1873-1920.
5.2.5.2 Productivité et type de composés
L’analyse fournit des données intéressantes sur la corrélation entre le taux de productivité et
la structure interne des formes recensées. Le Tableau 5-6 résume les résultats obtenus sur la
productivité des quatre types de composés54.
54
Les zones ombrées représentent le niveau de P le plus élevé pour chaque période.
150
Tableau 5-6 Productivité des composés N-N, A-N, N-A et N-de-N par type
Ppériode type de composés Moyenne N-N A-N N-A N-de-N
1606-1694 0.0616 0.0052 0.0360 0.0296 0.0331
1695-1798 0.0136 0.0011 0.0031 0.0030 0.0052
1799-1872 0.0032 0.0008 0.0005 0.0047 0.0023
1873-1920 0.0021 0.0005 0.0019 0.0046 0.0023
Moyenne 0.0201 0.0019 0.0104 0.0105 0.0107
En fonction de la productivité moyenne la structure N-N représente le type le plus productif
suivi par les composés N-A et A-N qui possèdent un taux de productivité 1.9 fois et 10.6 plus
bas que celui du type N-N. Par contre, la productivité moyenne des composés N-de-N doit
être interprétée avec précaution (cf. section 5.2.4).
En outre, la productivité des composés N-N reste la plus élevée lors de chaque étape
historique analysée. Bien que le niveau de productivité des composés N-de-N ait le plus
élevé entre les années 1799-1920 (P3 = 0.0047), cela ne reflète pas la situation réelle.
Rappelons que ces chiffres sont à interpréter prudemment à cause du petit nombre
d’occurrences pour ce type de composés (cf. section 5.2.4).
Le deuxième type le plus productif, est les N-A. Toutefois, en comparaison avec le type N-N,
le taux de productivité des composés N-A est 1.7 fois plus bas dans les années 1606-1694,
4.8 fois plus bas entre 1695 et 1798 et 6.4 fois plus bas lors des années 1799-1872. La
productivité des composés N-A dans les années 1873-1920 est similaire à celle du type N-N
(P4 = 0.0019 et P4 = 0.0021 respectivement).
Quant à la structure A-N, on voit que ce type de composés a connu une chute beaucoup plus
forte que celle des structures N-N et N-A. Le ralentissement de la productivité des composés
A-N est visible pendant toutes les périodes analysées.
Finalement, il est à noter que globalement, le taux de productivité moyenne des structures
recensées a été le plus élevé dans les années 1605-1694 (P1m = 0.0331). Ces chiffres baissent
151
considérablement entre 1695-1798 (6.4 fois). Toutefois, pendant les années 1799-1872 et
1873-1920, la productivité moyenne des composés N-N, A-N, N-A et N-de-N reste la même.
5.2.5.3 Productivité et aspect régulier/irrégulier des composés
Le troisième facteur corrélé au niveau de productivité est celui de l’aspect régulier/irrégulier
des formes recensées. En fait, il apparaît que l’utilisation de la mesure P au sens strict en
fonction de ce facteur révèle des données fort controversées. Le Tableau 5-7 résume les
résultats obtenus55.
Tableau 5-7 Productivité des composés N-N, A-N, N-A et N-de-N selon l’aspect régulier/irrégulier Type de composé
1606-1694 1695-1798 1799-1872 1873-1920 Total
P N n1 P N n1 P N n1 P N n1 P
Réguliers (29 665)
N-N 91 7 0.0770 600 6 0.0100 1384 2 0.0014 869 1 0.0012
A-N 2993 15 0.0050 6293 6 0.0010 9008 9 0.0010 6402 2 0.0003
N-A 115 4 0.0348 395 2 0.0051 805 1 0.0012 540 - -
N-de-N 56 1 0.0180 101 0 - 10 1 0.1000 3 - -
Total réguliers
3255 27 0.0083 7389 14 0.0019 11207 13 0.0012 7814 3 0.0004 0.0019
Irréguliers (9675)
N-N 55 2 0.0364 64 3 0.0469 196 3 0.0153 89 1 0.0112
A-N 860 5 0.0058 1110 2 0.0018 1932 0 - 900 2 0.0022
N-A 107 4 0.0374 888 2 0.0023 1307 - - 540 2 0.0037
N-de-N 113 4 0.0354 234 1 0.0043 626 2 0.0032 654 3 0.0046
Total irréguliers
1135 15 0.0132 2296 8 0.0035 4061 5 0.0012 2183 8 0.0037 0.0037
Globalement, les composés irréguliers sont presque deux fois plus productifs que les
composés réguliers. Ce fait a été observé pendant trois périodes sur quatre, excluant les
années 1799-1872 où le taux de productivité de composés réguliers et irréguliers est
identique (P3 = 0.0012).
55
Les zones ombrées représentent la valeur totale de P pour les composés réguliers et irréguliers.
152
En ce qui concerne le type de composés, les formes irrégulières sont considérablement plus
productives pour les types N-N (trois périodes) et A-N (1873-1920). On observe l’absence de
cette tendance dans le cas du type N-N en 1606-1695 (P1 = 0.0770) ; du type N-A en 1695-
1798 (P2 = 0.0051) et du type N-de-N en 1799-1872 (P3 = 0.1000).
Compte tenu du fait que les composés irréguliers sont des formes indécomposables qui ne
créent pas de patrons productifs (Bauer 2001 : 147 ; Hay 2001 : 145 ; Baayen et Lieber
1991 : 808) et à partir des résultats obtenus pour les types N-N et A-N (cf. § 5.2.1-5.2.2),
force est de conclure que la mesure P ne peut pas être retenue comme seul outil d’évaluation
du niveau de productivité. Je reviendrai sur cet aspect dans la section 5.5.
5.2.6 Sommaire
Dans les sections 5.2-5.4, j’ai analysé la productivité P des composés en fonction de trois
facteurs : position de la tête morphologique, type de composés et aspect régulier/irrégulier.
Les composés exocentriques réguliers sont les structures les plus productives (P = 0.0257)
(cf. section 5.2.5.1), suivis par les endocentriques avec la tête à gauche (P = 0.0039).
Néanmoins, le taux de productivité des exocentriques irréguliers (P = 0.0037) doit être
interprété avec précaution dû au fait que ces structures, à priori, ne forment pas de patrons
productifs. Les composés appositionnels (P = 0.0020) et les composés avec la tête à droite
(P = 0.0012) ont été identifiés comme les formes les moins productives.
Les composés N-N représentent le type le plus productif indépendamment de la période
analysée (cf. Tableau 5-6), suivis par les N-A et les A-N. Par contre, le taux élevé de
productivité des N-de-N ne peut pas être considéré comme fiable à cause du nombre réduit
d’occurrences et d’hapax. Ce groupe de composés est trop petit (cinq structures régulières et
22 irrégulières) pour établir une corrélation en fonction du type de composés et la position de
la tête morphologique.
Finalement, l’analyse révèle des résultats fortement controversés pour les types N-N et
A-N : il y apparaît que les composés irréguliers sont plus productifs que les composés
réguliers. Ces résultats s’opposent à l’aspect qualitatif de productivité, selon lequel
seulement les formes régulières sont décomposables et aptes à former des patrons productifs
153
(Bauer 2001 : 147 ; Hay 2001 : 145 ; Baayen et Lieber 1991 : 808 ) (cf. section 5.2.1). Ainsi,
soit l’emploi de la mesure P au sens strict montre certaines limites du calcul de la
productivité, soit l’inégalité de la taille de quatre sous-corpus influence les résultats obtenus.
En ce qui concerne la mesure P, la productivité élevée des N-N et A-N irréguliers peut être
expliquée par le nombre d’occurrences assez bas des formes irrégulières relativement à celles
régulières. Ainsi, le nombre d’occurrences des N-N irréguliers dans Frantext est presque 10
fois plus bas que celui des réguliers : N-N irréguliers (N2 = 64 ; N3 = 196 ; N4 = 89) vs N-N
réguliers (N2 = 600 ; N3 = 1384 ; N4 = 869). On observe la même tendance dans le cas des
composés A-N au cours des années 1873-1920 : A-N irréguliers (N4 = 900) vs A-N réguliers
(N4 = 6402). Ainsi, la basse valeur de N en conjonction avec un nombre d’hapax assez
comparable pour les N-N (périodes 2-4 réguliers : n1 = 6 ; n1 = 2 ; n1 = 1 vs irréguliers :
n1 = 3 ; n1 = 3 ; n1 = 1) et les A-N (période 4 réguliers : n1 = 2 vs irréguliers : n1 = 2) peut
contribuer à une valeur de P considérablement plus élevée pour les N-N et A-N irréguliers.
L’étude de ces résultats sera reprise dans la section 5.5.
5.3 Productivité basée sur la taille de la famille morphologique
Dans cette section, l’étude de la productivité est basée sur la mesure de la taille de la famille
morphologique développée pour les formes affixées par Baayen et Hay (2002).
Si cette mesure fonctionne également avec les composés, on s’attend à trouver la corrélation
inverse suivante : la croissance de la taille catégorielle de la famille morphologique est liée à
la diminution du niveau de productivité des noms composés.
Rappelons que cette mesure se calcule en deux étapes : premièrement, on mesure la taille de
la famille morphologique de la forme recensée (tous les dérivés et les composés formés à
partir des mots-bases) ; deuxièmement, on utilise la formule logarithmique log (F1)+log
(F2)+log (F3) etc. où F1, F2, F3, sont les tailles de la famille morphologique des mots-bases.
Le calcul a été effectué de la façon suivante, illustrée par le composé N-N chou-fleur.
Premièrement, en interrogeant Frantext au moyen des formules *.chou.* et *.fleur.*, j’ai
dégagé tous les membres de la famille morphologique du constituant chou (chouchou,
154
chouchouter, chou-blanc, chou-king, chou-palmiste, chou-rave, coupe-chou, vert-chou) et du
constituant fleur (fleurir, fleuri, fleurissement, fleurer, fleurette, fleuriste, fleuron, défleurir,
refleurir) par période. Conséquemment, la taille de la famille morphologique du composé
chou-fleur se répartit de la façon suivante : 1606-1694 (huit membres) ; 1695-1798 (neuf
membres) ; 1799-1872 (14 membres) ; 1873-1920 (13 membres).
Au cours de la deuxième étape, la taille catégorielle de la famille morphologique du composé
chou-fleur est calculée comme la somme des logarithmes des tailles de famille des bases
chou et fleur. Ainsi, la taille catégorielle (T) du composé chou-fleur est évaluée comme suit :
(3) log (F8) + log (F9) + log (F14) + log (F13) = 0.903+0.954+1.146+1.114 = 4.12 où F représente la taille de la famille morphologique du composé par période.
La mesure de la taille catégorielle d’une famille morphologique effectuée en deux étapes
demande énormément de temps. C’est pourquoi seuls les composés réguliers seront analysés
en utilisant cette mesure.
Les données statistiques concernant les valeurs T et P des formes recensées sont résumées
dans le Tableau 5-856.
Tableau 5-8 Corrélation entre la taille catégorielle et la productivité des composés N-N, A-N, N-A et N-de-N
Période N-N A-N N-A N-de-N Moyenne
T P T P T P T P Tm Pm
1606- 1694
43.78 0.0770 79.73 0.0050 13.19 0.0348 3.32 0.0180 35.01 0.0337
1695- 1798
52.22 0.0100 97.60 0.0009 15.57 0.0051 2.28 - 41.92 0.0053
1799- 1872
62.35 0.0014 119.77 0.0010 17.13 0.0012 3.08 0.1000 50.58 0.0259
1873- 1920
63.59 0.0012 111.54 0.0003 17.59 - 3.80 - 49.13 0.0008
Moyenne 55.49 0.0224 102.16 0.0018 15.87 0.0137 3.12 0.0590
56
Les zones ombrées représentent les corrélations inverses les plus marquées (le niveau le plus bas de la taille catégorielle vs le niveau le plus élevé de productivité) pour tous les types de composés.
155
En ce qui concerne la première période, le taux de productivité le plus élevé correspond à la
taille catégorielle la plus basse dans la majorité des cas (voir les zones ombrées). Ce
phénomène est clairement présenté dans les types N-N et N-A57. Ainsi, dans le type N-N, la
croissance de la taille catégorielle de la famille morphologique diminue progressivement le
coefficient de leur productivité. Le Graphique 5-8 illustre la relation entre les deux mesures P
et T dans les composés N-N.
Graphique 5-8 Corrélation entre la taille catégorielle et la productivité des composés N-N58
010203040506070
1606-1694 1695-1798 1799-1872 1873-19200
0.02
0.04
0.06
0.08
0.1
T P
La même tendance a été observée dans le type N-A : la corrélation inverse est observée
pendant les trois premières périodes (T1 = 13.19 vs P1 = 0.0348 ; T2 = 15.57 vs
P2 = 0.0051 ; T3 = 17.13 vs P3 = 0.0012), soit celles pour lesquelles les données sont
suffisantes. La corrélation pour les composés N-A est récapitulée dans le Graphique 5-9.
57 Si les résultats révèlent que quand la valeur T augmente, la valeur P s’abaisse, on ne peut pas établir le pourcentage spécifique de changement de ces valeurs (i.e. si les mesures P et T subissent le même niveau du changement). 58 Étant donné qu’il existe une grande différence numérique entre les valeurs T et P (i.e. T4 = 63.59 vs P4 = 0.0012), les Graphiques 5.9-5.11 incluent deux échelles différentes : celle à gauche sert à représenter la valeur T, alors que celle à droite représente la valeur P.
156
Graphique 5-9 Corrélation entre la taille catégorielle et la productivité des composés N-A
0
5
10
15
20
1606-1694 1695-1798 1799-1872 1873-192000.0050.010.0150.020.0250.030.0350.04
T P
Pour les composés A-N, le patron de la corrélation inverse n’est pas parfait (voir les chiffres
en caractères gras du Tableau 5-11). Le rapport inverse entre les mesures T et P est observé
dans les années 1606-1694 (P1 = 0.0050 vs T1 = 79.73) et 1873-1920 (P4 = 0.0003 vs
T4 = 111.54), mais pas pour la période 1799-1872 (P3 = 0.0010 vs T3 = 119.77). La
représentation schématique de la corrélation est présentée dans le Graphique 5-10.
Graphique 5-10 Corrélation entre la taille catégorielle et la productivité des composés A-N
020406080100120140
1606-1694 1695-1798 1799-1872 1873-192000.0010.0020.0030.0040.0050.006
T P
En fait, il apparaît que cette anomalie est la seule exception au parton inverse entre les
mesures P et T. Dans le cas des composés N-de-N, la mesure de productivité P est en relation
inverse à la taille catégorielle T où le niveau le plus bas de la taille catégorielle est corrélé au
niveau le plus haut de productivité (P3 = 0.1000 vs T3 = 3.08 et P1 = 0.0180 vs T1 = 3.32)
(voir les zones ombrées du Tableau 5-11). Néanmoins, il faut prendre en considération le fait
que la mesure P n’est pas disponible pour deux des quatre périodes.
157
En résumé, sauf pour les A-N (1799-1872), le patron de la corrélation inverse a été observé
dans toutes les structures analysées : la taille catégorielle la plus élevée correspond au taux
de productivité la plus basse.
Le rapport entre la taille catégorielle de la famille morphologique et la productivité des
formes recensées peut aussi être examiné en fonction de la position de la tête morphologique.
Les résultats de cette analyse sont résumés dans le Tableau 5-959.
Tableau 5-9 Corrélation entre la taille catégorielle et la productivité des composés réguliers selon la position de la tête morphologique Période Tête à gauche Tête à droite Exocentriques Appositionnels
T P T P T P T P Composés N-N
1606-1694 13.37 0.0385 27.89 0.1515 2.53 - 1695-1798 15.76 0.0248 33.28 0.0064 3.18 0.0060 1799-1872 18.30 0.0023 40.14 0.0014 3.91 - 1873-1920 18.98 - 40.49 0.0008 4.12 -
Moyenne 16.60 0.0219 35.45 0.0400 3.44 0.0060 Composés A-N
1606-1694 70.59 0.0027 9.14 1.0000 1695-1798 85.72 0.0006 11.88 0.0577 1799-1872 104.00 0.0009 15.78 0.0111 1873-1920 98.72 0.0002 12.82 0.0037
Moyenne 89.76 0.0011 12.41 0.2681 Composés N-A
1606-1694 10.68 0.0263 2.52 1.0000 1695-1798 12.69 0.0025 2.89 0.5000 1799-1872 13.62 - 3.51 0.1667 1873-1920 13.94 - 3.66 -
Moyenne 12.73 0.0144 3.15 0.5556 Composés N-de-N
1606-1694 2.28 0.0192 - - 1.04 - 1695-1798 2.28 - - - - - 1799-1872 2.38 - 0.70 1.0000 - - 1873-1920 2.42 - - - 1.38 -
Moyenne 2.34 0.0192 0.70 1.0000 1.21 -
59
Les zones ombrées représentent les corrélations inverses les plus marquées (le niveau le plus bas de la taille catégorielle vs le niveau le plus haut de productivité) pour tous les types de composés selon la position de la tête morphologique.
158
Concernant les composés N-N réguliers tant avec la tête à gauche qu’à droite, la taille
catégorielle de la famille morphologique la plus petite correspond au niveau de productivité
le plus grand. Par contre, les composés A-N réguliers ne suivent pas toujours la même
tendance ; la taille catégorielle la plus élevée des formes avec la tête à droite ne coïncide pas
avec le niveau de productivité le plus bas (voir les chiffres en caractères gras). Ce
phénomène est aussi remarqué dans les composés A-N exocentriques réguliers.
Quant aux composés N-A, la corrélation inverse est observée dans les N-A avec la tête à
gauche et les N-A exocentriques, une observation à prendre avec réserve dû au manque de
données entre 1799 et 1920. Les lacunes sont encore plus importantes pour les N-de-N
réguliers et les appositionnels.
Enfin, le patron inverse entre les mesures P et T est clairement présenté dans les structures
ayant la tête à gauche (trois types de composés sur trois). En ce qui concerne les structures
avec la tête à droite, on y observe une seule exception : le type A-N pendant la période 1799-
1872. Quant aux exocentriques réguliers, la corrélation inverse est observée dans les types
A-N et N-A.
En conclusion, les résultats montrent que globalement, même si la corrélation n’est pas
toujours parfaite, l’abaissement de la taille catégorielle de la famille morphologique élève le
niveau de productivité des formes recensées, indépendamment du type de composé et de la
position de la tête morphologique.
5.4 Productivité et fréquence relative Pour mesurer la fréquence relative des composés N-N, A-N, N-A et N-de-N j’ai recours à la
mesure de Hay (2003) (cf. section 4.3.5) adaptée aux noms composés comme suit :
(4) frelative = fcomposé / fbase.
L’analyse quantitative de la fréquence relative des noms composés français est basée sur
quatre variantes de la base (cf. section 4.3.3) :
a) B1 = la fréquence de la base est la fréquence du constituant qui est la tête ;
159
b) B2 = la fréquence de la base est la fréquence du constituant qui n’est pas la tête ;
c) B3 = la fréquence de la base est la somme des fréquences des constituants ;
d) B4 = la fréquence de la base est la moyenne des fréquences des constituants.
Quant au taux de la fréquence relative, il sera calculé en suivant le modèle suivant :
(5) a. FR1 = fcomposé / fbase où B1 = tête b. FR2 = fcomposé / fbase où B2 = non-tête c. FR3 = fcomposé / fbase où B3 = B1+ B2 d. FR4 = fcomposé / fbase où B4 = (B1+ B2) divisé par 2
Ainsi, la mise à l’épreuve des quatre variantes de la mesure FR mentionnées ci-dessus
permettra de préciser, en comparaison aux autres mesures, la notion de la base qui donne les
meilleurs résultats pour la mesure FR dans les noms composés. Tel que mentionné dans la
section 4.3.5, chaque constituant du mot composé a été considéré comme la base.
Néanmoins, il faut noter que la notion de la base est uniquement importante en dérivation, où
les mots dérivés sont formés lorsqu’un élément de la classe ouverte (i.e. la base) est combiné
à une catégorie de classe fermée (i.e. l’affixe). Comme les constituants du composé font
partie d’une classe ouverte d’éléments morphologiques, la référence à la base en composition
n’a pas vraiment de statut théorique.
Rappelons que l’étude pilote sur la fréquence relative des composés garde-x n’a pas
confirmé la corrélation entre la fréquence relative et la productivité (cf. § 4.5). Néanmoins,
en tenant pour acquis la découverte de Hay (2003 : 151), je voudrais tester la présence de
cette corrélation en composition en utilisant un corpus plus grand. Ma prédiction est la
suivante : le niveau de productivité des composés N-N, A-N, N-A et N-de-N est en relation
inverse à celui de la fréquence relative.
5.4.1 Fréquence relative des composés N-N
L’étude de 72 composés N-N (54 réguliers et 18 irréguliers) révèle qu’environ 90 % des
formes recensées (65 composés) sont moins fréquentes que leurs bases, indépendamment de
la variante FR utilisée. Ces résultats permettent de considérer ces structures comme
décomposables et potentiellement productives. Cependant, pour sept composés (10 %), la
160
mesure FR2 est égale à 1.0000 lorsqu’on choisit la base B2, soit le constituant non-tête du mot
composé. La liste de ces composés est la suivante :
(6) a. agnus-castus (1695-1798) b. bien-disance (1606-1694)
c. chou-rave (1873-1920) d. épine-vinette (1695-1798 ; 1873-1920) e. gomme-gutte (1695-1798 ; 1799-1872 ; 1873-1920)
f. loup-cervier (1799-1872 ; 1873-1920) g. loup-garou (1606-1694 ; 1695-1798)
Parmi les formes en (6), six sont des structures endocentriques, dont cinq ont la tête
morphologique à gauche ; un composé a la tête à droite (bien-disance) et un autre est un
exocentrique irrégulier (agnus-castus). Les composés N-N appositionnels ne font pas partie
de ce groupe.
Le nombre total d’occurrences de la mesure FR (FR1, FR2, FR3 et FR4) dans le type N-N est
de 728, dont 556 sont réguliers et 172 irréguliers. Ainsi, le pourcentage de la mesure
FR2 = 1.0000 est assez petit : 1.6 % (12 cas sur 728).
Dans le Tableau 5-10, je compare les résultats obtenus pour la mesure FR selon les quatre
variantes disponibles (FR1, FR2, FR3, FR4) et l’aspect régulier/irrégulier des composés.
Puisque la taille catégorielle (T) a seulement été calculée pour les composés réguliers,
l’analyse de la corrélation entre les mesures FR, P et T est possible seulement pour les
composés N-N réguliers60.
60
Dans les Tableaux 5-10 à 5-13, les zones ombrées représentent les corrélations inverses les plus marquées entre le niveau le plus bas de la taille catégorielle (T), le niveau le plus bas de la fréquence relative (FR1, FR2, FR3, FR4) et le niveau le plus élevé de la productivité P par période.
161
Tableau 5-10 Fréquence relative moyenne, productivité et taille catégorielle des composés N-N
Mesure
Composés réguliers Composés irréguliers 1606-1694
1695-1798
1799-1872
1873-1920
1606-1694
1695-1798
1799-1872
1873-1920
FR1 0.0349 0.0455 0.0427 0.0296 0.0363 0.0253 0.0360 0.0267 FR2 0.2501 0.2268 0.1506 0.1855 0.1004 0.1812 0.0958 0.0305 FR3 0.0099 0.0188 0.0129 0.0118 0.0189 0.0210 0.0198 0.0133 FR4 0.0199 0.0376 0.0257 0.0218 0.0378 0.0420 0.0396 0.0265
P 0.0770 0.0100 0.0014 0.0012 0.0364 0.0469 0.0204 0.0112 T 43.78 52.22 62.35 63.59
Pour les composés N-N réguliers, le niveau de productivité le plus élevé (P1 = 0.0770)
correspond à la fréquence relative la plus basse si on considère la mesure FR3 = 0.0099 et la
taille catégorielle de la famille morphologique la plus basse (T1 = 43.78). En tenant compte
du fait qu’elle se base sur la somme des fréquences des deux constituants, la mesure FR3 sera
toujours plus basse que FR1, FR2 et FR4.
Afin que la mesure FR3 coïncide parfaitement avec la corrélation inverse de Hay (2003 :151)
en composition, cette corrélation devrait suivre le schéma suivant pour les composés N-N
réguliers :
(7) a. FR3 période 1→P1 (0.0099 vs 0.0770) → FR3 le plus petit correspond au P le plus grand. b. FR3 période 4→P2 (0.0118 vs 0.0100) → le deuxième FR3 le plus petit correspond au deuxième P le plus grand.
c. FR3 période 3→P3 (0.0129 vs 0.0014) → le troisième FR3 le plus petit correspond au troisième P le plus grand.
d. FR3 période 2→P4 (0.0188 vs 0.0012) → FR3 le plus grand correspond au P le plus petit.
Les chiffres du Tableau 5-10 illustrent clairement que la corrélation n’est pas parfaite :
seulement deux des quatre périodes correspondent au schéma en (7) : 1606-1694 (7a) et
1799-1872 (7c). La mesure FR4 présente les mêmes résultats que la mesure FR3, soit un
résultat attendu parce que FR4 est la moyenne basée sur la mesure FR3 (le total des bases B1
162
et B2). En ce qui concerne la mesure FR1, le patron en question apparaît seulement pendant la
troisième période 1799-1872 (FR3 = 0.0427 vs P3 = 0.0014). Quant à la mesure FR2, elle ne
présente aucune corrélation inverse.
Pour les composés N-N irréguliers, le taux de productivité le plus grand (P2 = 0.0469) est
celui de la deuxième période et la fréquence relative la plus petite (FR3 = 0.0133) est celle de
la quatrième : il n’y a donc pas de corrélation inverse générale. Néanmoins, la corrélation
inverse pour la mesure FR3 et donc, pour FR4, coïncide pour la première période et la
troisième.
Il ressort également que, dans le groupe de composés N-N irréguliers, la corrélation inverse
apparaît dans la mesure FR1 durant la deuxième période (FR1 = 0.0253 vs P2 = 0.0469) et la
troisième (FR1 = 0.0360 vs P3 = 0.0204). En revanche, il apparaît que dans la mesure FR2, la
corrélation inverse n’est pas présente parmi les composés N-N irréguliers.
En résumé, les résultats obtenus indiquent que, pour le type N-N, les meilleures variantes de
mesure sont FR3 et, en conséquence, FR4. Les mesures FR3 et FR4 apparaissent au total dans
huit cas sur onze (quatre cas réguliers ; quatre cas irréguliers) dont quatre correspondent à la
mesure FR3 et quatre à la mesure FR4. Le Graphique 5-11 récapitule la corrélation entre la
mesure de la fréquence relative FR3 et la productivité P des composés N-N réguliers et
irréguliers.
Graphique 5-11 Corrélation entre la mesure FR3 et la productivité P des composés N-N
163
Les périodes où l’on observe la corrélation inverse entre les mesures FR et P sont : 1606-
1694 (quatre fois), 1799-1872 (six fois) et 1695-1798 (une fois). Dans le groupe de composés
N-N, le patron de la corrélation inverse n’apparaît jamais pendant la quatrième période 1873-
1920.
Dans le groupe des composés réguliers, j’ai aussi comparé la mesure FR en fonction de la
taille catégorielle. Étant donné que l’accroissement de la taille catégorielle de la famille
morphologique et l’accroissement de la fréquence relative sont chacun liés à l’abaissement
du niveau de productivité, la fréquence relative et la taille catégorielle doivent être corrélées
positivement. Ainsi, puisque les mesures T et P sont en corrélation inverse parfaite pour les
composés réguliers, les corrélations directes entre les mesures FR et T doivent être
présentées dans les mêmes cas que les corrélations inverses entres les mesures FR et P (i.e.
sur un total de cinq, deux cas correspondent à la mesure FR3, deux cas à la mesure F4 et un
cas à la mesure FR1). Le schéma de cette corrélation positive est résumé en (8) :
(8) a. FR3 période 1 → T1 (0.0099 vs 43.78) b. FR4 période 1 → T1 (0.0199 vs 43.78) c. FR3 période 3 → T3 (0.0129 vs 63.59) d. FR4 période 3 → T3 (0.0257 vs 63.59) e. FR1 période 3 → T3 (0.0427 vs 63.59)
Comme le montrent les données ci-dessus, le patron de la corrélation directe est présent
pendant deux périodes seulement : la troisième (60 % ou trois cas sur cinq) et la première
(40 % ou deux cas sur cinq).
Enfin, la comparaison des résultats obtenus sur la fréquence relative des composés N-N au
total et des N-N réguliers et irréguliers pris séparément, aboutit aux conclusions suivantes.
Dans le groupe général de composés N-N, la corrélation inverse entre FR et P a été observé
dans 11 cas sur 32 possibles (34 %). Parmi ces 11 corrélations (100 %), quatre cas (36 %)
correspondent à la mesure FR3 ; quatre autres cas (36 %) à la mesure FR4 et trois cas (28 %)
à la mesure FR1. Dans le groupe de composés N-N réguliers, le patron inverse est présent
dans cinq cas (31 %) sur seize possibles (100 %), dont deux cas (40 %) sont corrélés à la
mesure F3, deux cas (40 %) à la mesure F4 et un cas (20 %) à la mesure F1. En ce qui
concerne les N-N irréguliers, la corrélation inverse est observée dans six cas sur 16 (38 %) ;
164
où deux cas correspondent à chacune des mesures FR3, FR4 et FR1. Ainsi, l’on pourrait
penser que, pour les composés N-N, les meilleures variantes pour calculer la mesure FR sont
les mesures FR3 et FR4.
Étant donné que les mesures FR3 et FR4 sont les plus fiables, les deux variantes de la base qui
peuvent être utilisées pour calculer la fréquence relative des composés N-N sont : a) B3 = la
fréquence de la base est la somme des fréquences des constituants ; b) B4 = la fréquence de la
base est la moyenne des fréquences des constituants.
Finalement, je peux constater que pour les composés N-N, l’hypothèse avancée en 5.1,
concernant une corrélation inverse entre les mesures P et FR, n’a été pas confirmée. Ainsi, le
patron inverse n’est pas toujours présenté comme un facteur constant : par exemple, dans le
groupe des composés réguliers, il n’apparaît pas du tout pendant la deuxième (1695-1798) et
la quatrième (1873-1920) période, soit deux périodes sur quatre (50 %).
5.4.2 Fréquence relative des composés A-N
Les composés A-N constituent le groupe le plus grand. Parmi les 137 formes recensées (102
régulières et 35 irrégulières), 133 composés (97 %) sont moins fréquents que leurs bases
indépendamment de la mesure FR utilisée, ce qui permet de les envisager comme
décomposables et potentiellement productifs. Pour quatre composés (3 %), la valeur de la
mesure FR = 1.000 (trois cas de FR1 et un cas de FR2) où la fréquence de la base et celle du
composé sont les mêmes. La liste de ces composés, qui inclut la période où ils apparaissent,
est présentée en (9).
(9) a. faux-saunage (FR1 → 1695-1798) b. franc-tireur (FR1 → 1873-1920) c. sainte-nitouche (FR1 → 1695-1798 ; FR2 →1799-1872) d. bonne-voglie (FR2 → 1695-1798)
Le nombre total d’occurrences de la mesure FR dans le type A-N est de 876 cas (548
réguliers et 328 irréguliers). Donc, la mesure FR = 1.0000 constitue seulement 0.6 % du total
des composés A-N.
Le Tableau 5-11 compare les résultats obtenus pour les mesures FR (quatre variantes
disponibles), P et T selon l’aspect régulier/irrégulier.
165
Tableau 5-11 Fréquence relative moyenne, productivité et la taille catégorielle des composés A-N
Mesure
Composés réguliers Composés irréguliers 1606-1694
1695-1798
1799-1872
1873-1920
1606-1694
1695-1798
1799-1872
1873-1920
FR1 0.0338 0.0831 0.0752 0.0802 0.0112 0.0114 0.0063 0.0042 FR2 0.0311 0.0241 0.0191 0.0231 0.0850 0.1554 0.0638 0.0613 FR3 0.0063 0.0065 0.0069 0.0078 0.0080 0.0051 0.0044 0.0036 FR4 0.0123 0.0127 0.0137 0.0157 0.0162 0.0101 0.0087 0.0072
P 0.0050 0.0009 0.0010 0.0003 0.0058 0.0018 - 0.0022 T 79.73 97.60 119.77 111.54
Premièrement, dans les composés A-N réguliers, le niveau de productivité le plus élevé
(P1 = 0.0050) correspond à la fréquence relative la plus basse FR3 = 0.0063 et la taille
catégorielle de la famille morphologique la plus petite (T1 = 79.73). Par contre, dans les
composés A-N irréguliers, cette tendance générale n’est pas présente.
Afin que la mesure FR3 coïncide parfaitement avec la corrélation inverse de Hay (2003 :151)
en composition, cette corrélation devrait suivre le schéma suivant pour les composés A-N
réguliers :
(10) a. FR3 période 1→P1 (0.0063 vs0.0050) → FR3 le plus petit correspond au P le plus grand.
b. FR3 période 2→P3 (0.0065 vs 0.0010) → le deuxième FR3 le plus petit correspond au deuxième P le plus grand.
c. FR3 période 3→P2 0.0069 vs 0.0009) → le troisième FR3 le plus petit correspond au troisième P le plus grand.
d. FR3 période 4→P4 (0.0078 vs 0.0003) → FR3 le plus grand correspond au P le plus petit.
Telle qu’indiquée au Tableau 5-11, seulement deux des quatre périodes correspondent au
schéma en (10), tant pour FR3 que FR4 qui en est dérivée : 1606-1694 (10a : période 1) et
1873-1920 (10d : période 4).
En ce qui concerne la mesure FR1, le patron inverse apparaît pendant la première période
1606-1694 (FR1 = 0.0338 vs P1 = 0.0050) et la troisième 1799-1872 (FR1 = 0.0427 vs
166
P3 = 0.0014). Quant à la mesure FR2, la corrélation inverse est présente dans les années
1695-1798 (FR2 = 0.0241 vs P2 = 0.0009).
Pour les composés A-N irréguliers, le taux de productivité le plus grand (P1 = 00.0058) est
celui de la première période et la fréquence relative la plus petite (FR3 = 0.0036) est celle de
la quatrième : il n’y a donc pas de corrélation inverse générale. Néanmoins, la corrélation
inverse pour la mesure FR3 (et FR4) coïncide avec la deuxième période 1695-1798
(FR3 = 0.0051 vs P2 = 0.0018). Quant aux mesures FR1 et FR2, le patron de la corrélation
inverse n’est pas présent parmi les composés A-N irréguliers.
En bref, les périodes où l’on observe la corrélation inverse entre les mesures FR et P sont :
1606-1694 (trois fois : A-N réguliers), 1695-1798 (5 fois : deux cas A-N réguliers ; 3 cas
A-N irréguliers) et 1873-1920 (deux fois : A-N réguliers). Dans le groupe des A-N réguliers,
le patron inverse apparait dans chaque période sauf la troisième (1799-1872). Par contre,
dans les A-N irréguliers, il n’y a qu’une seule période (1695-1798) où cette tendance est
visible.
Pour ce qui est du rapport entre FR et T, la corrélation directe entre FR et T est distribuée de
la manière suivante :
(11) a. FR3 période 1 → T1 (0.0063 vs 79.73) b. FR4 période 1 → T1 (0.0123 vs 79.73)
c. FR1 période 1 → T1 (0.0338 vs 79.73) d. FR2 période 2 → T2 (0.0241 vs 97.60) e. FR3 période 4 → T4 (0.0078 vs 111.54) f. FR4 période 4 → T4 (0.0157 vs 111.54)
On voit que le niveau le plus bas de FR correspond à celui le plus petit de T si on considère
les variantes FR3 et FR4. Cette corrélation apparait durant la première période (50 % ou trois
cas sur six) et la quatrième (33 % ou deux cas sur six).
Finalement, les chiffres du Tableau 5-14 permettent de conclure que, globalement, la
corrélation inverse entre les mesures FR et P dans les A-N réguliers et irréguliers est observé
dans 10 cas sur 28 possibles ce qui constitue 36 % (rappelons que dans les A-N irréguliers,
les données sur P ne sont pas disponibles pour la troisième période). Parmi les dix
167
corrélations ressorties (100 %), quatre cas (40 %) correspondent à la mesure FR3 ; quatre cas
(40 %) à la mesure FR4 et deux cas (20 %) à la mesure FR1.
Par ailleurs, si on analyse la corrélation inverse dans les deux groupes (réguliers et
irréguliers) séparément, on remarque aussi une dominance des mesures FR3 et FR4. Ainsi,
dans les A-N réguliers, le patron inverse est présent dans sept cas sur seize possibles (44 %),
dont six cas (86 %) coïncident avec les mesure F3, et F4 et un cas avec la mesure FR1 (14 %).
En tenant compte de ces nombres, on peut constater que les meilleures variantes de la mesure
FR pour les composés A-N sont celles FR3 et FR4.
Le Graphique 5-12 fait la synthèse des observations ci-dessus.
Graphique 5-12 Corrélation entre la mesure FR3 et la productivité P des composés A-N réguliers et irréguliers
En résumé, je peux constater que l’hypothèse concernant une corrélation inverse entre les
mesures P et FR avancée en 5.1, n’a pas reçu de forte confirmation dans les composés A-N :
36 % des cas marqués dans le groupe général (réguliers et irréguliers) et 44 % dans le groupe
des composés réguliers. De plus, il est à noter que le patron inverse n’est pas un facteur
constant : dans le groupe de composés réguliers il apparaît dans chaque période analysée sauf
la troisième (1799-1872), alors que dans les A-N irréguliers il n’apparaît que dans une seule
période (1695-1798).
168
5.4.3 Fréquence relative des composés N-A
L’analyse du type N-A a été basée sur 39 composés (16 réguliers et 23 irréguliers) dont 35
composés (90 %) sont moins fréquents que leurs bases indépendamment de la variante FR
utilisée. Ainsi, ils peuvent être envisagés comme décomposables et potentiellement
productifs. Quatre composés (10 %), ont une fréquence relative égale à 1.000 :
(12) a. arc-boutant (1606-1695 ; 1695-1798 ; 1799-1872) b. acquit-patent (1695-1798) c. criste-marine (1799-1872 ; 1873-1920) d. pie-grièche (1695-1798 ; 1873-1920)
L’examen des exemples en (12) montre que toutes ces structures sont des formes
endocentriques. Deux composés (acquit-patent, criste-marine) sont corrélés à la mesure FR1
et deux autres à la mesure FR2 (arc-boutant, pie-grièche). Toutefois, dans les composés N-A,
le phénomène de FR = 1.000 est assez rare. Sur 456 cas (196 réguliers et 260 irréguliers), le
nombre d'occurrences de FR = 1.000 constitue seulement 0.9 % (4 cas sur 456). Dans les
N-A irréguliers, cette tendance n’est pas observée. Le Tableau 5-12 compare les résultats
obtenus entre les mesure FR, P et T en termes de l’aspect régulier/irrégulier.
Tableau 5-12 Fréquence relative moyenne, taille catégorielle et productivité des composés N-A
Mesure
Composés réguliers Composés irréguliers 1606-1694
1695-1798
1799-1872
1873-1920
1606-1694
1695-1798
1799-1872
1873-1920
FR1 0.0435 0.1469 0.1894 0.2238 0.0112 0.0140 0.0162 0.0141 FR2 0.2138 0.2939 0.3111 0.3366 0.0163 0.0460 0.0321 0.0264 FR3 0.0119 0.0141 0.0345 0.0241 0.0021 0.0084 0.0083 0.0060 FR4 0.0238 0.0283 0.0689 0.0481 0.0042 0.0169 0.0167 0.0119
P 0.0348 0.0051 0.0012 - 0.0374 0.0023 - 0.0037 T 13.19 15.57 17.13 17.59
Dans les N-A réguliers, le taux de productivité le plus élevé (P1 = 0.0348) correspond à la
fréquence relative la plus basse si on considère la mesure FR3 = 0.0119 et à la taille
catégorielle de la famille morphologique la plus petite (T1 = 13.19).
Pour présenter une corrélation inverse parfaite, FR3 devrait suivre le schéma suivant :
169
(13) a. FR3 période 1→ P1 (0.0119 vs 0.0348) → FR3 le plus petit correspond au P le plus grand. b. FR3 période 2→ P2 (0.0141vs 0.0051) → le deuxième FR3 le plus petit correspond au deuxième P le plus grand. c. FR3 période 3→ P3 (0.0345 vs 0.0012) → FR3 le plus grand correspond au P
le plus petit.
Les données du Tableau 5-12 révèlent qu’en fait, le patron de la corrélation inverse
fonctionne parfaitement pour les N-A réguliers si on considère la mesure FR3. La mesure
FR4 présente évidemment les mêmes résultats que la mesure FR3. En ce qui concerne les
mesures FR1 et FR2, le patron inverse apparaît pendant la première et la deuxième période.
Pour les N-A irréguliers, le taux de productivité le plus grand (P1 = 0.0374) est celui de la
première période, où la fréquence relative est la plus petite (FR3 = 0.0021) ; donc, la
corrélation inverse générale y est visible. Le patron inverse pour la mesure FR3 (et FR4) est
aussi présent pendant la deuxième période 1695-1798 (FR3 = 0.0084 vs P2 = 0.0023) et la
quatrième 1873-1920 (FR3 = 0.0060 vs P4 = 0.0037). Quant à la mesure FR2, la corrélation
inverse est constatable pendant les mêmes périodes. Par contre, la mesure FR1 est en relation
inverse à la mesure P seulement pendant la première période (FR1 = 0.0112vs P1 = 0.0374).
En résumé, les résultats obtenus indiquent que, pour le type N-A, les meilleures variantes de
la mesure FR sont FR3 et FR4. Les mesures F3 et F4 apparaissent au total dans 12 cas sur 20
(six cas réguliers ; six cas irréguliers) dont six cas correspondent à la mesure FR3 et six cas à
la mesure FR4. Le Graphique 5-13 récapitule cette corrélation pour les composés N-A.
Graphique 5-13 Corrélation entre la mesure FR3 et la productivité P des composés N-A réguliers et irréguliers
170
On voit que la corrélation inverse dans les composés N-A apparaît dans chaque période
étudiée : 1606-1694 (huit fois), 1695-2798 (sept fois), 1799-1872 (deux fois) ; 1873-1920
(trois fois). Toutefois, dans les N-A réguliers, le patron inverse entre FR et P n’apparaît pas
pendant la quatrième période ; dans les N-A irréguliers, il n’est pas visible pendant la
troisième période.
Finalement, dans le groupe des N-A réguliers, j’ai déduit les cas où la mesure FR est en
relation directe à la mesure T. Les données en (14) ci-dessous révèlent que la corrélation
directe entre FR et T est parfaite si on considère les variantes FR1 et FR2 (huit cas sur huit),
mais non significative avec FR3 et FR4, puisqu’on l’observe dans 50 % de cas (quatre cas sur
huit).
(14) a. FR1 période 1 → T1 (0.0435 vs 13.19) b. FR1 période 2 → T2 (0.1469 vs 15.57) c. FR1 période 3 → T3 (0.1894 vs 17.13) d. FR1 période 4 → T4 (0.2238 vs 17.59) e FR2 période 1 → T1 (0.2138 vs 13.19) f. FR2 période 2 → T2 (0.2939 vs 15.57) g. FR2 période 3 → T3 (0.3111 vs 17.13) h. FR2 période 4 → T4 (0.3366 vs 17.59) i. FR3 période 1 → T1 (0.0119 vs 13.19) j. FR3 période 2 → T2 (0.0141 vs 15.57) k. FR4 période 1 → T1 (0.0238 vs 13.19) l. FR4 période 2 → T2 (0.0283 vs 15.57)
Enfin, la corrélation inverse entre FR et P a été observée dans 20 cas sur 24 possibles ce qui
constitue 83 % malgré des données lacunaires pour P. Parmi les 20 corrélations ressorties
(100 %), six cas (30 %) correspondent à la mesure FR3 ; six cas (30 %) à FR4, cinq cas
(25 %) à FR2 et trois cas (15 %) à FR1. Ces résultats semblent révéler que les meilleures
variantes de la mesure FR pour les composés N-A sont encore une fois FR3 et FR4.
Il est intéressant de remarquer que la répartition des mesures FR dans les N-A réguliers et
irréguliers est similaire : le patron inverse est présenté dans dix cas sur douze possibles.
En tenant compte des données présentées ci-dessus, je peux constater que pour les composés
N-A, l’hypothèse, avancée en 5.1, concernant une corrélation inverse entre les mesures P et
FR a généralement été confirmée. Ainsi, la probabilité d’apparition de la corrélation inverse
171
entre les mesures FR et P dans les composés N-A est plus élevé (83 %) en comparaison aux
composés N-N (34 %) et A-N (36 %).
5.4.4 Fréquence relative des composés N-de-N
Les composés N-de-N constituent le groupe le plus petit (27 composés) dont cinq formes
sont régulières et 22 irrégulières. Le nombre total d’occurrences de la mesure FR dans le type
N-de-N est de 232 cas (44 réguliers et 188 irréguliers). Un composé régulier mestre de camp
possède le même niveau de fréquence que sa base (FR1 = 1.000) pendant la période 1873-
1920. Ainsi, la mesure FR1 = 1.0000 constitue seulement 0.4 % du nombre total des N-de-N.
La majorité absolue des composés N-de-N (99.6 %) sont moins fréquents que leurs bases,
indépendamment de la variante FR utilisée, ce qui permet de les considérer comme
potentiellement décomposables et productifs.
Le Tableau 5-13 montre les résultats généraux du calcul de différentes mesures de
productivité pour ce type de composés.
Tableau 5-13 Fréquence relative moyenne, taille catégorielle et productivité des composés N-de-N
Mesure
Composés réguliers Composés irréguliers 1606-1694
1695-1798
1799-1872
1873-1920
1606-1694
1695-1798
1799-1872
1873-1920
FR1 0.4031 0.4331 0.0975 0.3493 0.0082 0.0175 0.0092 0.0096 FR2 0.0168 0.0252 0.0061 0.0018 0.0457 0.1206 0.0435 0.0820 FR3 0.0159 0.0230 0.0015 0.0017 0.0047 0.0077 0.0044 0.0052 FR4 0.0319 0.0461 0.0030 0.0033 0.0094 0.0153 0.0088 0.0103
P 0.018 - 0.1000 - 0.0354 0.0043 0.0032 0.0046 T 3.32 2.28 3.08 3.80
Pour les N-de-N réguliers, le taux de productivité le plus élevé (P3 = 0.1000) correspond à la
fréquence relative la plus basse FR3 = 0.0015 (et FR4 = 0.0030). Quant à la mesure FR1, le
patron inverse coïncide aussi avec la troisième période 1799-1872 (FR1 = 0.0975 vs
P3 = 0.1000) alors que dans le cas de la mesure FR2, la corrélation inverse n’est pas
présente. En général, à cause de données lacunaires liées à la mesure P pour la deuxième
172
période (1695-1798) et la quatrième (1873-1920), il est difficile de dégager une corrélation
fiable entre les mesures FR et P pour ce type de composés.
Quant aux composés N-de-N irréguliers, le taux de productivité le plus grand (P1 = 0.0354)
de la première période correspond à la fréquence relative la plus petite (FR3 = 0.0044) de la
troisième : il n’y a donc pas de corrélation inverse générale. Afin que la mesure FR3 coïncide
parfaitement avec une corrélation inverse, elle devrait suivre le schéma :
(15) a. FR3 période 3→P1 (0.0044 vs 0.0354) → FR3 le plus petit correspond au P le plus grand. b. FR3 période 1→P4 (0.0047 vs 0.0046) → le deuxième FR3 le plus petit correspond au deuxième P le plus grand.
c. FR3 période 4→P2 (0.0052 vs 0.0043) → le troisième FR3 le plus petit correspond au troisième P le plus grand
d. FR3 période 2→P3 (0.0077 vs 0.0032) → FR3 le plus grand correspond au P le plus petit.
Dans les N-de-N irréguliers, la corrélation inverse entre FR et P n’apparaît pas dans les
mesures FR3 et FR4. Néanmoins, la corrélation inverse pour la mesure FR1, coïncide avec la
première période (FR1 = 0.0082 vs P1 = 0.0354). En fait, c’est le seul cas de corrélation
visible dans les N-de-N irréguliers. Ainsi, il apparaît que le patron de corrélation inverse est
complètement absent dans les mesures FR2, FR3 et FR4.
Le Graphique 5-14 récapitule la corrélation entre la mesure FR (FR1, FR2, FR3, FR4) et P
dans les composés N-de-N.
Graphique 5-14 Corrélation entre les mesures FR et la productivité P des composés N-de-N réguliers et irréguliers
173
Les périodes où l’on observe clairement la corrélation inverse entre les mesures FR et P
sont : 1799-1872 (3 cas) dans les N-de-N réguliers et 1606-1694 (un cas) dans les N-de-N
irréguliers. Par conséquent, la probabilité d’apparition du patron inverse dans les composés
N-de-N est de 17 % (quatre cas sur vingt-quatre cas possibles). Parmi quatre corrélations
marquées, un cas correspond à la mesure FR3 (les N-de-N réguliers), un cas à la mesure
FR4 (les N-de-N réguliers) et deux cas à la mesure FR1 (un cas régulier et un cas irrégulier).
Ainsi, vis-à-vis des résultats obtenus, il est difficile de déduire la meilleure variante FR pour
ce type de composés.
Quant à l’hypothèse de la corrélation inverse entre les mesures P et FR, elle ne peut pas être
confirmée ou rejetée pour cause de données lacunaires liées à la mesure P. Toutefois, il est
quand même possible de faire une analyse comparative entre les mesures FR et T pour les
N-de-N réguliers. Les résultats de cette étude sont résumés en (16) de la façon suivante :
(16) a. FR1 période 1 → T1 (0.4031 vs 3.32) b. FR2 période 3 → T3 (0.0061 vs 3.08) c. FR2 période 1 → T1 (0.0168 vs 3.32) d. FR3 période 1 → T1 (0.0159 vs 3.32) e. FR4 période 1 → T1 (0.0319 vs 3.32)
La corrélation directe entre FR et T apparaît dans cinq cas sur huit (63 %) dont deux
correspondent à la mesure FR2. Quant aux mesures FR1, FR3 et FR4, seulement un cas de
corrélation directe entre FR et T y est observé. Il faut noter que dans les N-de-N, ce
phénomène est réalisé généralement durant la première période (quatre cas sur cinq).
5.4.5 Sommaire
Dans la section 5.4, j’ai examiné une corrélation possible entre la fréquence relative (FR), la
productivité (P) et la taille catégorielle (T) de la famille morphologique des composés N-N,
A-N, N-A et N-de-N. La recherche a révélé que la majorité des formes recensées (94.2 %)
sont moins fréquents que leurs bases. Donc, selon l’aspect qualitatif de productivité, ces
formes sont décomposables et associées à des patrons productifs (Bauer 2001 ; Hay 2001 ;
Baayen et Lieber 1991).
Pour déterminer la meilleure variante de la mesure FR, 108 combinaisons entre FR et P
(N-N : 32 cas ; A-N : 28 cas ; N-A : 24 cas ; N-de-N : 24 cas) ont été analysées au moyen des
174
quatre variantes de FR retenues (FR1, FR2, FR3, FR4). Globalement, les mesures FR3 et FR4
correspondent mieux à la corrélation attendue, où la fréquence relative la plus basse
correspond au taux de productivité le plus élevé.
En effet, la corrélation inverse avec les mesures FR3 et FR4 a été observée pour 73 % des
composés N-N (huit cas sur onze dont quatre cas sont réguliers et quatre cas irréguliers),
80 % des A-N (huit cas sur dix dont six cas sont réguliers et deux cas irréguliers) et 60 % des
N-A (12 cas sur 20, soit six pour chaque type). Toutefois, pour les composés N-de-N, la
corrélation inverse entre les mesures FR et P ne peut pas être évaluée de façon fiable pour
cause de données lacunaires de P. Néanmoins, dans ce type de composés, la corrélation
inverse entre FR et P est observée dans quatre cas (trois cas réguliers, un cas irrégulier) dont
deux cas correspondent aux mesures FR3 et FR4. Ainsi, les mesures FR3 et FR4 constituent
67 % de tous les cas marqués de la corrélation inverse (30 cas sur 45). La variante FR1 a été
remarquée dans 10 cas sur 45 (22 %), dont six cas sont réguliers et quatre sont irréguliers.
Quant à la mesure FR2, elle apparait dans 5 cas sur 45 ou 11 % (deux réguliers et trois
irréguliers). Au total, la corrélation inverse entre les mesures FR et P a été constatée dans
42 % des cas analysés (45 cas sur 108).
En général, la chance d’apparition de la corrélation inverse entre les mesures FR et P (y
inclus toutes variantes de FR) est assez élevée dans les composés N-A (83 %). Néanmoins, à
l’opposé de ce qu’on observe en dérivation, l’hypothèse de la présence de cette corrélation
n’a pas été confirmée dans les composés N-N et A-N (34 % et 36 % respectivement). Quant
aux composés N-de-N, ce phénomène ne peut pas être évalué à cause de données lacunaires
liées à la mesure P.
La corrélation inverse entre FR et P fonctionne mieux pendant la première période (36 % ou
16 cas sur 45), la deuxième (29 % ou 13 cas sur 45) et la troisième (24 % ou 11 cas sur 45),
étant très basse pour la quatrième période (11 % ou 5 cas sur 45).
L’étude sur la fréquence relative a aussi révélé l’existence de la corrélation directe entre la
mesure de la fréquence relative (FR) et la taille catégorielle (T) de la famille morphologique.
Ce phénomène est surtout observé dans les composés N-A (75 % ou 12 cas sur 16).
Toutefois, la corrélation directe entre FR et T apparaît rarement dans les composés A-N
175
(38 % ou six cas sur seize), N-N et N-de-N (31 % ou cinq cas sur seize dans chaque
type). Quant aux périodes, ce type de corrélation est observée surtout lors des années 1606-
1694 (46 % ou 13 cas sur 28). Pendant les autres périodes analysées, la corrélation directe
entre FR et T apparaît plutôt rarement : 1799-1872 (21 % ou 6 cas sur 28) ; 1695-1798 (18 %
ou 5 cas sur 28) et 1873-1920 (14 % ou 4 cas sur 28).
En somme, je peux constater que les corrélations FR-P et FR-T sont surtout observées au
cours des années 1606-1694 (36 % et 46 % respectivement). Par contre, la probabilité
d’apparition de ces corrélations lors de la quatrième période est assez basse (11 % et 14 %
respectivement).
Finalement, j’ai aussi relevé un petit groupe de 16 composés dont la fréquence relative est
égale à 1.000. Cette valeur de FR apparaît si on calcule la variante FR1 (0.3 % ; 7 emplois sur
un total de 2292) et FR2 (0.9 % ; 20 emplois sur un total de 2292). Il est à noter que ce
phénomène est présent dans chaque types de composés en constituant 5.8 % du nombre total
des structures analysées (16 composés sur 275). Étant donné le très petit pourcentage (1 %)
de ces composés, ils ne seront pas analysés dans mon travail. D’ailleurs, dans son étude
consacrée à la fréquence relative, Hay (2003 :105) traite les formes ayant la fréquence
relative égal à 1.000 comme données non fiables, et par conséquent, les élimine.
5.5 Discussion Dans les sections 5.2-5.4, la productivité des formes recensées a été examinée en fonction de
trois facteurs différents : la position de la tête morphologique, l’aspect régulier/irrégulier et le
type de composé.
L’étude a révélé l’importance du critère de la position de la tête morphologique lié à la
productivité. Étant donné qu’en français moderne les composés avec la tête à gauche sont
généralement considérés comme les plus productifs en synchronie (Brousseau 2001 ; Gross
1996 ; Mathieu-Colas 1994), certains résultats obtenus sont imprévus. D’un point de vue
global, il apparaît que les structures les plus productives sont les composés exocentriques
réguliers (P = 0.0257), suivis des formes dont la tête est à gauche (P = 0.0039). Le taux de
productivité des exocentriques réguliers est 6.6 fois plus élevé que celui des composés ayant
176
la tête à gauche et 21 fois plus élevé que celui des formes avec la tête à droite (P = 0.0012).
Bien que la productivité des formes appositionnelles (P = 0.0020) est plus élevée que celle
des composés avec la tête à droite, ces chiffres sont à interpréter avec précaution à cause des
lacunes persistantes des données pour les trois périodes.
Par ailleurs, le groupe de composés exocentriques inclut deux types de structures (cf. section
5.1). Le premier est formé des exocentriques réguliers dont le taux de productivité est le plus
élevé (P = 0.0257). Le deuxième groupe inclut les exocentriques irréguliers dont le niveau de
productivité (P = 0.0037) est inférieur à celui des formes avec la tête à gauche (P = 0.0039)
et surtout à celui des exocentriques réguliers (<7 fois). Ainsi, au regard de ces résultats, la
première hypothèse avancée en 5.1 disant que ‘Les structures avec la tête morphologique à
gauche et les structures régulières sont les formes les plus productives’ a été partiellement
confirmée.
La haute productivité des exocentriques réguliers peut être expliquée par le fait que le
nombre d’occurrences de ce type dans le corpus Frantext est assez bas (N = 701) en
comparaison aux autres structures (i.e. tête à gauche = 2833 ; tête à droite = 25 618 ;
exocentriques irréguliers = 9675). Donc, le diviseur N dans la formule n1/N utilisée pour
calculer la productivité P, est beaucoup plus petit pour ce type de composés, ce qui aboutit à
une valeur de P fortement élevée. Le Tableau 5-14 résume la distribution des valeurs N, n1 et
P dans les composés analysés.
Tableau 5-14 Productivité, fréquence d’occurrences et le nombre d’hapax selon la position de la tête morphologique dans tous les composés
Position de la tête morphologique
N n1 P
Tête à gauche 2833 11 0.0039
Tête à droite 25 618 31 0.0012
Exocentriques réguliers 701 18 0.0257
Exocentriques irréguliers 9675 36 0.0037
Appositionnels 506 1 0.0020
Dans sa récente étude sur la productivité, Bauer (2008 : 71) avance l’idée que dans certaines
langues, la formation des composés exocentriques réguliers peut être envisagée comme
177
procédé productif. Il suggère qu’en français, le processus de formation de ce type de
composés peut être productif 61. Ainsi, au regard de la productivité élevée des exocentriques
réguliers, les résultats obtenus confirment l’hypothèse de Bauer (2008).
En ce qui concerne l’aspect régulier/irrégulier, l’étude a abouti aux résultats prévus. Le
niveau de productivité le plus élevé a été observé dans les formes régulières. Les
exocentriques réguliers sont les structures les plus productifs (P = 0.0257), suivis par les
formes avec tête à gauche (P = 0.0039), les exocentriques irréguliers (P = 0.0037), les
appositionnels (P = 0.0020) et les formes avec la tête à droite (P = 0.0012).
Toutefois, la productivité élevée des exocentriques irréguliers (or-sol, toute-table, coup de
barre, etc.) est plutôt inattendue. Comme cela a été discuté dans plusieurs travaux théoriques
(Bauer 2001, 2008 ; Hay 2003 : 72 ; Jackendoff 1975 ; Lyons 1977 : 546 ; Plag 1999 : 37),
les formes irrégulières ne forment pas de patrons productifs ; il n’existe aucune règle de
formation de mots à partir de laquelle ces mots pourraient avoir été créés. Les résultats
obtenus peuvent en partie être expliqués par le fait que le nombre d’hapax (n1 = 36)
comparativement au nombre d’occurrences (9675) dans ce type de composés est
considérablement plus élevé que celui des autres types analysés (cf. Tableau 5-14).
Le fait que la mesure P au sens strict ne peut pas être considérée comme un outil
complètement fiable lorsqu’utilisée seule peut être illustré au moyen du Graphique 5-15, qui
montre la distribution de la valeur N. Rappelons que l'indice P dépend de deux valeurs : le
nombre total d'occurrences N et le nombre d’hapax n1. Plus grand est le nombre
d'occurrences N, plus petite est la valeur de P.
61 Bauer indique que malgré l’existence de différents patrons de formation (rouge-gorge, gratte-ciel, pour-boire, savoir-faire), les composés exocentriques français sont de genre masculin, en dépit du fait que le nom ‘gorge’, par exemple, est de genre féminin. Ces observations amènent à considérer que le genre des composés exocentriques en français provient de sa structure. (Bauer 2008 : 71)
178
Graphique 5-15 Distribution de la valeur N dans les composés N-N, A-N, N-A et N-de-N selon l’aspect régulier/irrégulier
Dans tous les composés réguliers (sauf le type N-de-N), le nombre d'occurrences N est trois
fois plus élevé que celui dans les composés irréguliers (29 665 vs 9675) alors que le nombre
d’hapax n1 ne diffère pas beaucoup (57 vs 36). Ainsi, l’inéquation significative dans la valeur
N des composés réguliers et irréguliers peut contribuer au résultat incohérent où la
productivité des composés irréguliers (P = 0.0037) est plus élevée que celle des réguliers
(P = 0.0019) (cf. Tableau 5-7).
Ainsi, les données du Graphique 5-15 et celles des Tableaux 5-7 et 5-14 indiquent que
l'indice P dépend non seulement de la taille du corpus utilisé, mais aussi du nombre de
structures analysées qui doit être relativement similaire dans le cas d'une étude comparée de
différents types de composés. Donc, le nombre inégal de structures examinées pour chaque
type de composés peut également amener à des résultats non fiables.
La deuxième hypothèse énoncée en 5.1 concerne la corrélation entre le taux de productivité
et à la structure interne du composé. J’ai prédit que les types N-N et N-de-N seraient les
structures les plus productives. Les résultats obtenus appuient cette hypothèse : le processus
de composition est plus productif dans les structures N-N (P = 0.0201) (e.g. chou-fleur,
arrière-pensée) indépendamment de la période analysée. Quant aux composés N-de-N (e.g.
belle-de-jour, pou-de-soie), bien que leur productivité soit assez élevée (P = 0.0105), ces
résultats sont certainement à interpréter avec précaution à cause des nombreuses lacunes de
179
données. Par ailleurs, le taux de productivité de ce type de composés est similaire à celui des
N-A (P = 0.0104).
Il semble aussi pertinent d’analyser la distribution des hapax parmi les types analysés. Les
données statistiques sur la répartition de vrais hapax, le type de composés et l’aspect
régulier/irrégulier sont récapitulées dans le Tableau 5-15.
Tableau 5-15 Distribution des formes avec de vrais hapax selon le type de composés
Type de composé
1606-1694 1695-1798 1799-1872 1873-1920 Total
Composés réguliers (56) N-N 7 6 2 1 16 A-N 15 6 9 2 32 N-A 4 2 1 - 7 N-de-N 1 - 1 - 2
Composés irréguliers (36) N-N 2 3 3 1 9 A-N 5 2 - 2 9 N-A 4 2 - 2 8 N-de-N 4 1 2 3 10
On voit que le nombre d’hapax le plus élevé apparaît dans le type A-N (41 cas, 44 %), suivi
par les composés N-N (25 cas, 27 %). Par contre, ce nombre est beaucoup plus bas dans les
composés N-A (15 cas, 16 %) et les N-de-N (12 cas, 13 %). Au total, entre 1606-1920 (275
composés), 92 composés (33 %) ont été ressortis comme de vrais hapax dont la majorité
(61 %) sont des formes régulières (56 cas) ; les irréguliers y constituent 39 % (36 formes).
Ceci soutient une des idées liées à l’aspect qualitatif de la productivité, selon lequel les
formes régulières sont aptes à former des patrons productifs (Bauer 2001 : 147). En
conséquence, l’hypothèse #1 selon laquelle les structures régulières sont les formes les plus
productives reçoit une confirmation plus solide.
L’étude a aussi révélé la présence de composés dont le taux de productivité est égal à 1.000
(43 formes sur 92 représentant de vrais hapax). La plupart de ces composés (40 % ou 17 cas)
apparaissent pendant la période 1606-1694 dans le type N-A (arc-A, acquit-A, bec-A, porc-A,
bouillon-A, cul-A, ver-A) et A-N (bel-N, claire-N, saint-N, double-N, gros-N). Entre 1695 et
1798, le nombre de composés avec P = 1.000 diminue légèrement (35 % ou 15 cas) ; le type
180
le plus représentatif (neuf cas) est celui N-N (bien-N, chou-N, gomme-N, lord-N, rêve-N,
taupe-N, bout-N, côte-N, mont-N). Vers les années 1799-1872, les formes 100 % productives
deviennent plus rares (21 % ou neuf cas) ; les composés qui y apparaissent le plus souvent
sont les N-N (tiers-N, huppe-N, patte-N, trique-N). Pendant la période 1873-1920, les
composés possédant P = 1.0000 sont presque disparus.
En dépit de la présence des formes semblant être 100 % productives, ce phénomène soulève
beaucoup de discussions dans les travaux théoriques consacrés à la productivité
morphologique (Aronoff et Fudeman 2005 ; Bauer 2001, 2003, 2005 ; Štekauer et
Lieber 2005). La plupart des linguistes pensent qu’il n’existe pas de processus de formation
de mot complètement productifs ou non-productifs ; quelques processus sont plus productifs
que d’autres62.
Bauer (2003 : 72) suggère que théoriquement, il est possible de parler de productivité totale
si le processus morphologique en question peut être utilisé chaque fois sans exception quand
les conditions de l’input ont été atteintes. Autrement dit, le patron morphologique est
complètement productif seulement dans les cas où il peut être appliqué à chaque base
appropriée respectant des restrictions spécifiques de types différents (Bauer 2003 : 83).
Ainsi, le problème soulevé par la notion de productivité totale concerne essentiellement les
bases qui peuvent être utilisées dans un processus morphologique. En dérivation, la
productivité morphologique est vue comme la productivité des affixes qui remplissent
généralement la fonction de tête et qui sélectionnent la base pour satisfaire une gamme de
restrictions phonétiques, morphologiques, sémantiques, etc. Seules les bases qui respectent
ces contraintes peuvent fonctionner comme bases potentielles pour un processus
morphologique dérivationnel particulier (Bauer 2001 : 139).63 Par ailleurs, en dérivation, le
nombre de bases qui répondent aux contraintes spécifiques est limité. Par contre, en
62 Aronoff, Fudeman (2005 : 231) indiquent que “… productivity is not absolute. Morphological processes do not fall into two neat categories, productive and unproductive. They are best seen as being spread out along a scale, with some more productive than others. This is a view of the majority of scholars”. (voir aussi Bauer 2001 : 126) 63 Toutefois, Bauer (2003 : 83) indique qu’il est extrêmement difficile de déterminer toutes les bases disponibles autant que toutes les contraintes concernant leurs applications.
181
composition, il n’y a pas de restrictions sur les bases puisque la tête ne sous-catégorise pas
un élément non-tête et elle ne le sélectionne pas.
Conséquemment, les formes mentionnées ci-dessus ne peuvent pas être considérées comme
100 % productives pour plusieurs raisons. En premier lieu, la notion de base n’est pas
clairement déterminée en composition. En deuxième lieu, selon la majorité des linguistes, la
productivité ne peut pas être déterminée de façon absolue; certains processus sont plus ou
moins productifs que les autres (Aronoff et Fudeman 2005 : 231).
Ainsi, l’utilisation de la mesure P au sens strict révèle encore une fois des faiblesses. Il est
possible que selon cette mesure, les composés ayant été évalués comme complètement
productifs, ne possèdent pas réellement de niveau de productivité égal à 100 %.
Dans l’hypothèse #3, j’ai prédit que la croissance de la taille catégorielle de la famille
morphologique diminue le niveau de productivité des composés analysés. Globalement, les
résultats de l’étude ont appuyé cette prédiction. Dans la majorité de types (N-N, N-A,
N-de-N), le taux de productivité le plus élevé coïncide avec la taille catégorielle la plus basse
indépendamment de la période analysée. La seule exception est liée au cas des composés
A-N pendant la période 1799-1872 où il y a d’une part, la croissance du niveau de
productivité (P3 = 0.0010) ; et de l’autre, l’augmentation de la taille catégorielle de la famille
morphologique (T3 = 119.77). Cette exception peut être expliquée par les faits suivants.
Premièrement, la différence entre les valeurs de P pour les périodes 1695-1798 et 1799-1872
est minimale (P2 = 0.0009 vs P3 = 0.0010). Deuxièmement, le nombre d’occurrences des
exocentriques réguliers dans les A-N entre 1695 et 1798 est considérablement plus bas que
celui de la période 1799-1872 (52 vs 360). De plus, le nombre total d’occurrences des A-N
réguliers entre 1695-1798 est 1.4 fois plus bas que celui de la période 1799-1872 (N2 = 6293
vs N3 = 9008). Ainsi, l’application de la mesure P dans le cas des composés A-N semble
présenter ses limites encore une fois.
Cependant, bien que la corrélation inverse ait été observée dans les composés N-de-N, ce
résultat doit être interprété avec précaution. En premier lieu, l’analyse complète de la
corrélation entre les mesures P et T n’est pas possible à cause de lacunes de données
statistiques liées à la mesure P. En deuxième lieu, le groupe de composés N-de-N réguliers
182
est trop petit (cinq composés) pour que les données obtenues soient fiables (rappelons que
seulement les composés réguliers ont été analysés en fonction de la taille catégorielle de leur
famille morphologique).
En somme, on peut conclure qu’il existe une corrélation inverse entre le niveau de
productivité et la taille catégorielle de la famille morphologique dans le domaine de
composition en français, même si cette corrélation n’est pas parfaite (N-N = 100 % ;
A-N = 75 % N-A = 100 % ; N-de-N = 100 %). Alors, l’hypothèse #3 se voit donc confirmée,
renforçant ainsi la fiabilité générale de la mesure P.
Il ressort de la présente étude qu’en dépit du fait que dans les recherches précédentes le rôle
de la taille de la famille morphologique n’a été pas toujours examiné dans le contexte de la
productivité morphologique, cette mesure doit être prise en compte. D'ailleurs, la mesure de
la taille catégorielle de la famille morphologique peut être considérée comme un facteur utile
complémentaire à la mesure quantitative P au sens strict. Elle peut être particulièrement utile
lorsque la valeur de P est absente (pas d’hapax). C'est le cas des composés N-de-N où on
observe les données lacunaires de P pour les périodes 1695-1798 et 1873-1920.
Enfin, la troisième mesure utilisée dans l’évaluation de la productivité des formes recensées
est celui de la fréquence relative introduite par Hay (2003). Selon la quatrième hypothèse
avancée dans la section 5.1, le taux de productivité des composés N-N, A-N, N-A et N-de-N
est inverse à celui de la fréquence relative : les composés avec une fréquence relative plus
basse sont plus productifs que ceux dont la fréquence relative est plus élevée.
L’étude a révélé une faible présence d’une corrélation inverse entre les mesures FR et P
(42 % ou 45 cas sur 108). Il apparaît également que les mesures FR3 et FR4 constituent 67 %
de tous les cas marqués de la corrélation inverse (30 cas sur 45), dont chaque variante
représente 33.5 %. Il est relativement rare de trouver un exemple de patron inverse dans les
variantes FR1 (22 % ; 10 cas) et FR2 (11 % ; 5 fois). Par conséquent, les mesures FR3 (la
somme des fréquences des constituants d’un mot composé) et FR4 (la moyenne des
fréquences des constituants) peuvent être considérées comme les mesures les plus fiables
pour le calcul de la fréquence relative des composés N-N, A-N, N-A et N-de-N. Étant donné
183
que la mesure FR4 est un dérivé de la mesure FR3, la mesure FR3 est envisagée comme la
meilleure variante pour évaluer la fréquence relative en composition.
Les résultats obtenus montrent que la corrélation inverse entre P et FR3 n’est pas parfaite :
pour les composés N-N (réguliers et irréguliers) elle apparaît dans deux périodes sur quatre :
1606-1694 et 1799-1872 (cf. 5.4.1). En ce qui concerne les A-N, le patron de la corrélation
inverse coïncide avec les années 1606-1694, 1695-1798 et 1873-1920 pour les A-N
réguliers ; toutefois, pour les A-N irréguliers, il est observé uniquement pendant la deuxième
période (1695-1798) (cf. 5.4.2). Quant aux composés N-A, la corrélation inverse entre P et
FR3 fonctionne parfaitement pour les N-A réguliers ; pour les N-A irréguliers, elle apparaît
pendant la deuxième période (1695-1798) et la quatrième (1873-1920) (cf. 5.4.3).
Finalement, vis-à-vis des composés N-de-N, la corrélation entre P et FR3 apparaît seulement
entre 1799 et 1872 pour les N-de-N réguliers, alors que dans les N-de-N irréguliers il n’y a
pas de corrélation inverse entre FR3 et P (cf. 5.4.4). Ainsi, compte tenu de 27 cas possibles de
corrélation inverse, la mesure F3 apparait dans 15 cas ou 56 % : le plus souvent dans les
années 1695-1798 et 1799-1872 (cinq cas respectivement) et 1606-1694 (quatre cas) ; elle est
rarement observée entre 1872 et 1920 (un cas). En outre, on voit que la corrélation entre P et
FR3 fonctionne beaucoup mieux avec les composés réguliers (10 cas ou 67 %), alors que
dans les irréguliers ce phénomène est moins marqué (5 cas ou 33 %).
Donc, à l’opposé de ce qu’on observe en dérivation, la corrélation inverse entre FR et P n’est
pas explicitement présente en composition (le pourcentage des cas confirmés de FR3 est
moins de 60 %). Par suite, la mesure de la fréquence relative ne peut pas être considérée
comme un facteur complètement fiable dans l’évaluation du niveau de productivité des noms
composés ; le critère FR3 sert plutôt à établir la présence de la productivité (i.e. la
décomposition du composé), mais il ne démontre pas son degré. Ainsi, l’hypothèse #4
concernant la corrélation inverse entre le taux de la fréquence relative FR et la productivité P
n’a pas été confirmée pour les composés N-N, A-N, N-A et N-de-N en français.
Par ailleurs, du fait que la mesure FR3 est ressortie dans l’étude comme la meilleure variante
de la fréquence relative, découle l’idée d'identifier plus clairement la notion de la base en
composition (cf. § 2.2.5 ; § 4.3.5). Rappelons que dans les travaux théoriques contemporains
184
(Bauer 1983, 2001 ; Dressler 2006 ; Spenser 1991 ; Krott et all. 1999), la base dans les mots
composés n’est pas définie d’une manière explicite. Théoriquement, la base peut être
identifiée de deux façons différentes : soit le morphème libre qui n'est pas la tête du
composé, soit tout morphème libre (tous les constituants du composé peuvent être des bases).
Vu que la mesure FR3 correspond à la somme des fréquences des constituants d’un mot
composé, je suggère qu’en composition chaque constituant du mot composé peut être
considéré comme base, du moins aux fins d’analyses quantitatives de la productivité.
Finalement, dans mon travail, j’essayais de fournir une réponse à la question suivante : la
mesure P au sens strict, est-elle suffisamment fiable comme un seul moyen de calcul de la
productivité des noms composés ?
En tenant compte des données obtenues dans les sections 5.2-5.4, je suis parvenue à la
conclusion suivante. La mesure de productivité P au sens strict ne peut pas être envisagée
comme étant suffisamment fiable en tant qu’unique méthode d’évaluation de la productivité
en composition. Cette conclusion est basée sur les résultats suivants de l’étude : a) les
composés exocentriques réguliers se révèlent comme les structures plus productives que les
endocentriques ; b) selon l’aspect régulier/irrégulier des composés, les formes irrégulières
sont souvent plus productives que les formes régulières. Ainsi, on peut conclure qu’il existe
certaines limites dans l’utilisation de la mesure P ; par conséquent, elle ne peut pas être
considérée comme un seul moyen dans l’évaluation du taux de productivité en composition.
Néanmoins, utilisée en combinaison avec la mesure T de la taille catégorielle de la famille
morphologique, la mesure P peut offrir des résultats assez fiables dans le calcul de la
productivité des mots composés. Rappelons que la recherche a révélé une corrélation inverse
presque parfaite entre P et T sauf un cas pour les composés A-N. En conséquence, quand la
corrélation entre P et T est visible, la mesure P peut être bien appliquée.
D’ailleurs, le fait que l’utilisation de la mesure P amène parfois à des résultats paradoxaux
suggère quelques réflexions importantes. En premier lieu, les données obtenues peuvent être
liées à la taille du corpus analysé. Bien que le corpus Frantext a une taille plus que suffisante
(plus de 170 millions de mots), la taille de chaque sous-corpus analysé diffère
considérablement d’une période à l’autre (1606-1694 = 17 303 466 mots ; 1695-
185
1798 = 34 393 102 mots ; 1799-1872 = 40 823334 ; 1873-1920 = 27 568 502 mots). Ainsi,
alors que les corpus de la deuxième et de la troisième période sont assez comparables, celle
de la première période est considérablement plus petite (2 fois < deuxième période ; 2.4 fois
< troisième période ; 1.6 fois < troisième période). Pourtant, concernant la présence des
hapax, la première période est la période la plus fructueuse (42 hapax ou 45 % du nombre
total d’hapax enregistrés). Théoriquement, la quantité d’hapax doit diminuer vers la fin de la
recherche (ce qui a été confirmé dans la présente étude) ; néanmoins, la question de la
compatibilité de la taille des sous-corpus analysés semble être un facteur important dans
l’application de la mesure P.
Le deuxième facteur pouvant influencer les résultats innatendus peut être lié à la liste de
composés analysés. Bien que la liste de 530 composés N-N, A-N, N-A et N-de-N créée à
partir du Dictionnaire de Littré initialement soit assez représentative, n’ont été retenus que
275 composés (177 réguliers et 98 irréguliers). La réduction de 48 % du corpus initial était
liée à l’absence de plusieurs formes de la liste de Littré dans Frantext. Ainsi, il est possible
que la liste de Littré ne soit pas complètement représentative pour les années 1606-1920. En
conséquence, il peut arriver qu’il existe des composés qui n’ont pas été dépouillés. Par
exemple, le phénomène de productivité élevé des composés exocentriques irréguliers
pourrait être expliqué par le fait que les composés réguliers ne soient pas suffisamment
représentés sur la liste de Littré.
Outre cela, la dernière période (1873-1920) comporte possiblement des néologismes qui
n’apparaissent pas du tout dans la recherche. Le dictionnaire de Littré (édition de 1877-1878)
reflète un état de la langue française classique et du bon usage littéraire entre le XVIIe et le
XIXe siècle, jusqu’aux les années 1830. Ainsi, il reste un problème de représentativité dans la
liste de composés de Littré : pour la période de 1830 à 1920 il peut exister des composés
dans Frantext qui, parce qu’absents du Littré, n’étaient pas pris en compte dans la recherche.
Cela pourrait influencer certains résultats liés à la corrélation entre les mesures FR et P d’un
côté et les mesures FR et T de l’autre. Par exemple, les lacunes de données de P liées à la
troisième période (1799-1872) pourraient avoir un effet sur la corrélation entre FR et P dans
le cas des composés A-N. En ce qui concerne la quatrième période (1873-1920), la
186
corrélation entre FR et P pourrait être différente dans le cas des composés N-A réguliers et
N-de-N réguliers.
5.6 La productivité en diachronie Dans cette section, je présente une étude diachronique sur l’évolution de la productivité des
composés français N-N, A-N, N-A et N-de-N qui sera abordée en trois étapes. Dans un
premier temps, la productivité des formes recensées sera analysée par période selon le type et
la position de la tête morphologique (section 5.6.1). Ensuite, l’évolution générale des
composés N-N, A-N, N-A et N-de-N sera examinée (section 5.6.2). Dans la section 5.6.3,
j’analyserai les combinaisons lexicales qui apparaissent de façon récurrente au cours des
quatre périodes analysées (arrière-N, bien-N, colin-N, bas-N, beau-N, bec-de-N, etc.). Enfin,
je terminerai cette section par une brève conclusion.
Pour évaluer l’évolution de la productivité des composés N-N, A-N, N-A et N-de-N, j’aurai
recours à la mesure de productivité P au sens strict. En ce qui concerne les formes N-de-N,
j’utiliserai aussi la mesure de la taille catégorielle T de la famille morphologique à cause de
données fort lacunaires de P pour ce type de composés. La mesure T me servira d'un outil
additionnel pour garantir la fiabilité des résultats sur la productivité de ce type par période.
Par contre, le critère FR n’a pas été retenu dû au fait que la corrélation inverse entre FR et P
n’a pas été confirmée (42 %) au cours de ma recherche (cf.§ 5.5).
5.6.1 Évolution de la productivité par types et position de la tête
L’évolution de chaque type de composés sera examinée selon la position de la tête
morphologique et l’aspect régulier/irrégulier.
5.6.1.1 Les composés N-N par période
L’évolution générale de la productivité du type N-N (réguliers et irréguliers), selon la mesure
de productivité morphologique P au sens strict, est résumée dans le Tableau 5-1664.
64
Dans les Tableaux 5-18 à 5-21, les zones ombrées représentent le niveau de productivité le plus élevé pour chaque type de composés. Elles identifient donc la période où un type donné était le plus productif.
187
Tableau 5-16 Productivité P des composés N-N par période Composés 1606-1694 1695-1798 1799-1872 1873-1920
Réguliers 0.0770 0.0100 0.0014 0.0012
Irréguliers 0.0364 0.0469 0.0153 0.0112
Total 0.0616 0.0136 0.0032 0.0021
Les composés N-N réguliers sont les plus productifs entre 1606 et 1694 (voir les zones
ombrées). À partir des années 1695, le taux de leur productivité diminue considérablement
par rapport à la première période (P2 = < 7.7 fois ; P3 = <55 fois ; P4 = < 64 fois). Par
contre, dans les composés N-N irréguliers, le taux de productivité le plus élevé est observé
lors de la deuxième période 1695-1798. Entre 1606 et 1694, ce type de composés est
légèrement moins productif (P1 = < 1.2 fois). Le changement du taux de productivité des
N-N irréguliers entre 1799 et 1920 n’est pas tellement significatif par rapport à la période la
plus productive (P3 = <3 fois ; P4 = < 4 fois). Le Graphique 5-16 récapitule l’évolution
globale de la productivité P des composés N-N réguliers et irréguliers selon la position de la
tête morphologique.
Graphique 5-16 Évolution globale des composés N-N (réguliers et irréguliers) selon la position de la tête morphologique
Pendant la première période (1606-1694), les formes N-N dont la tête est à droite (arrière-
main, arrière-neveu, bien-fonds, tiers-point, etc.) possèdent le niveau de productivité le plus
élevé (P1 = 0.1515). Les composés N-N avec la tête à gauche (croix-pile, chou-fleur, rêve-
creux) sont considérablement moins productifs (P1 = < 4 fois) à cette époque. Aucun hapax
188
n’apparaît pas dans les N-N appositionnels (fille-mère, lord-lieutenant, roman-feuilleton,
etc.). Enfin, il est intéressant de noter que le taux de productivité des N-N exocentriques
irréguliers (reine-claude, côte-rôtie, huppe-col, etc.) est similaire à celui des N-N dont la tête
est à gauche (P1 = 0.0364 vs P1 = 0.0385).
Entre 1695 et 1799, les N-N exocentriques irréguliers deviennent les formes les plus
productives (P2 = 0.0469) suivies par les formes dont la tête est à gauche (P2 = = < 2 fois).
Par contre, le taux de productivité des N-N avec la tête à droite diminue beaucoup (P2 = < 7
fois). La productivité des N-N appositionnels est similaire à celle des N-N avec la tête à
droite et elle s’abaisse par rapport aux exocentriques irréguliers (P2 = < 7.8 fois).
La période 1799-1872 se caractérise par une diminution du niveau de productivité pour
toutes les structures N-N analysées. Toutefois, les N-N exocentriques irréguliers restent les
formes les plus productives (P3 = 0.0153). Le taux de productivité des N-N avec la tête à
gauche et surtout avec la tête à droite subit une régression visible (P3 = = < 6.7 fois vs P3 =
< 11 fois). Quant aux N-N appositionnels, des hapax n’y font pas partie entre 1799 et 1920.
Finalement, dans les années 1873-1920, seulement les N-N avec la tête à droite et les N-N
exocentriques irréguliers se révèlent productifs ; néanmoins, leur niveau de productivité est
plutôt bas.
5.6.1.2 Les composés A-N par période
Le changement de la productivité des composés A-N (réguliers et irréguliers) en
diachronique selon la mesure de productivité P est récapitulé dans le Tableau 5-17.
Tableau 5-17 Productivité P des composés A-N par période
Composés 1606-1694 1695-1798 1799-1872 1873-1920
Réguliers 0.0050 0.0010 0.0010 0.0003
Irréguliers 0.0058 0.0018 - 0.0022
La productivité la plus élevée des A-N réguliers a été enregistrée pendant la première période
(voir les zones ombrées). Elle s’abaisse considérablement durant les années 1695-1872
(P2<5 fois et P3 = <5 fois), et surtout au cours des années 1873-1920 (P4 = <17 fois).
189
En ce qui concerne les A-N irréguliers, le taux de productivité le plus élevé est aussi observé
pendant la première période 1606-1694 (voir les zones ombrées). Au cours des années 1695-
1798, leur productivité s’abaisse par rapport à la première période (P2 = = <3 fois) en
augmentant un peu pendant la quatrième période (P4 = >1.2 fois). Aucun hapax n’apparaît
dans ce type de composés entre 1799-1872.
L’évolution diachronique des composés A-N selon la position de la tête morphologique est
résumée dans le Graphique 5-17.
Graphique 5-17 Évolution globale des composés A-N (réguliers et irréguliers) selon la position de la tête morphologique
Les séries de courbes ci-dessus révèlent quelques phénomènes intéressants concernant
l’évolution des composés A-N. Premièrement, le niveau de productivité le plus élevé a été
observé dans les formes exocentriques régulières tout au long des années 1606-1920. En fait,
il apparaît qu’entre 1606 et 1694, le taux de productivité P des composés clair-N (claire-
voie), courte-N (courte-boule, courte-pointe, courte-queue), haut-N (haute-taille), saint-N
(sainte-nitouche) était égal à 1.0000. Deuxièmement, le taux de productivité des A-N est
notablement plus bas par rapport aux A-N exocentriques réguliers (P1 = <37 fois ; P2 = <96
fois ; P3 = <12 fois ; P4 = <19 fois). Pour les A-N exocentriques irréguliers, leur niveau de
productivité est nettement plus élevé que celui des A-N endocentriques (P1 = >2.1 fois ;
P2 = >3 fois ; P4 = >11) ; néanmoins, il est plus bas que celui des exocentriques réguliers.
190
5.6.1.3 Les composés N-A par période
Comme dans le cas des composés N-N et A-N, l’étude diachronique de l’évolution de la
productivité du type N-A est réalisée selon l’aspect régulier/irrégulier et la position de la tête
morphologique. Les données statistiques de cette étude sont résumées dans le tableau ci-
dessous et le graphique 5-18.
Tableau 5-18 Productivité P des composés N-A par période
Composés 1606-1694 1695-1798 1799-1872 1873-1920
Réguliers 0.0348 0.0051 0.0012 -
Irréguliers 0.0374 0.0023 - 0.0037
On peut voir que lors des années 1606-1694, le taux de productivité des N-A réguliers et
celui des irréguliers sont assez similaires (P1 = 0.0348 vs P1 = 0.0374) où chaque type
représente le taux le plus élevé (voir les zones ombrées). Par contre, les années 1695-1798
(P2 = <7 fois) et surtout, les années 1799-1872 (P3 = <29 fois) sont caractérisées par la chute
considérable de la productivité des N-A réguliers. Par ailleurs, l’absence des hapax parmi les
N-A réguliers durant la quatrième période (1873-1920), indique que ce type de composés
n’est pas productif. Il apparaît également que le taux de productivité des N-A irréguliers
diminue beaucoup entre 1695-1798 (P2 = <16 fois). Toutefois, il augmente encore une fois
vers la quatrième période par rapport aux années 1695-1798 (P4 = >1.6 fois).
Le Graphique 5-18 récapitule l’évolution diachronique des composés N-A en termes de la
position de la tête morphologique.
Graphique 5-18 Évolution des composés N-A réguliers et irréguliers selon la position de la tête morphologique
191
Comme le montre le graphique ci-dessus, les N-A exocentriques réguliers (bec-cornu, pic-
vert, pied-bleu, etc.) sont beaucoup plus productifs que les formes endocentriques tout au
long des années 1606-1872. Toutefois, leur taux de productivité, égal à 1.000, durant les
années 1606-1695, est à interpréter avec précaution (cf § 5.5).
Il apparaît également que, relativement aux N-A exocentriques réguliers, les N-A
endocentriques sont considérablement moins productifs (P1 = <38 fois ; P2 = <200 fois).
Pour la troisième et la quatrième période on voit une grande insuffisance de données
statistiques pour le type N-A avec la tête à gauche. Le taux de productivité des exocentriques
irréguliers est similaire à celui des N-A avec la tête à gauche ; cependant il reste
considérablement plus bas que celui des exocentriques réguliers (P1 = <3 fois ; P2 = <217
fois). Ainsi, en dépit du nombre élevé d’occurrences du type N-A endocentrique entre 1799
et 1920, on n’y trouve pas d’hapax. Ce fait permet de conclure que la productivité des N-A
endocentriques à cette époque est assez basse.
5.6.1.4 Les composés N-de-N par période
Le dernier groupe de composés à analyser est le type N-de-N (belle-de-jour, belle-de-nuit,
mestre de camp, etc.). Étant donné que ce groupe est assez petit (27), et que plusieurs
données manquent, je compare les valeurs de P et T pour ce groupe. Rappelons que la valeur
T a été calculée uniquement pour les formes régulières. Le Tableau 5-19 résume les données
de cette étude (où N = le nombre total d’occurrences ; n1 = nombre d’hapax ; P =
productivité morphologique au sens strict ; T = taille catégorielle de la famille
morphologique).
Tableau 5-19 Productivité des composés N-de-N réguliers par période (mesures P, T)
Période N n1 P T 1606-1694 56 1 0.0180 3.32 1695-1798 101 - - 2.28 1799-1872 10 1 0.1000 3.08 1873-1920 3 - - 3.80
Contrairement à ce qu’on a observé précédemment dans les types N-N, A-N et N-A, le taux
de productivité des N-de-N réguliers est le plus élevé pendant la troisième période (voir les
192
zones ombrées). Toutefois, ce résultat est à interpréter avec précaution à cause du petit
nombre d’occurrences (N = 10). Entre 1606 et 1694, le niveau de productivité des composés
N-de-N est considérablement plus bas en comparaison avec la période 1799-1872 la plus
fructueuse (P1 = <6 fois). Aucun hapax n’apparaît dans ce type de composés pendant la
deuxième (1695-1798) et la quatrième (1873-1920) période.
En ce qui concerne la mesure T, les résultats obtenus varient légèrement d’une période à
l’autre pour ce type de composés. Il apparaît que la taille catégorielle T de la famille
morphologique la plus petite coïncide avec la deuxième période ; elle augmente un peu dans
les années 1799-1872 (T3 = >1.4 fois), 1606-1694 (T1 = >1.5 fois) et 1873-1920 (T4 = >1.7
fois).
Pour examiner l’évolution des composés N-de-N réguliers et irréguliers, je recours à
l’analyse comparative de la valeur P selon la position de la tête morphologique. Les résultats
de cette étude sont récapitulés dans le Graphique 5-19.
Graphique 5-19 Évolution des composés N-de-N réguliers et irréguliers selon la position de la tête morphologique
La seule structure qui possède un taux de productivité assez élevé est le type N-de-N avec la
tête à droite. Néanmoins, ce résultat ne peut pas être considéré comme fiable à cause du petit
nombre d’occurrences (N = 1) et d’hapax (n1 = 1). En outre, cette structure n’apparaît que
durant une seule période dans Frantext (1799-1872). Le seul type qui apparaît dans Frantext
au cours des quatre périodes est les N-de-N exocentriques irréguliers dont le taux de
productivité le plus élevé est noté entre 1606 et 1694. Leur productivité diminue de façon
193
considérable au cours des années 1799-1872 (P3 = <11 fois), en restant presque identique
pendant la deuxième et la quatrième période.
Les composés N-de-N avec la tête à gauche apparaissent dans Frantext uniquement pendant
la première période, en révélant un taux de productivité plus bas que celui des N-de-N
exocentriques irréguliers (P1 = <1.8 fois). En tenant compte des résultats présentés ci-dessus,
je peux conclure qu’il est impossible de faire une analyse fiable de l’évolution des composés
N-de-N réguliers en termes de la position de la tête morphologique.
5.6.2 Évolution globale de la productivité des composés
Dans cette section, la mesure P est utilisée pour déterminer les types et les structures les plus
productives d’une manière globale.
Premièrement, l’évolution générale de la productivité des composés N-N, A-N, N-A et
N-de-N (réguliers et irréguliers) est examinée tout au long des années 1606-1920. Les
résultats sont résumés dans le Tableau 5-2065 (où P = productivité au sens strict ;
Pélevée = changement du niveau de productivité par rapport à la valeur de P la plus élevée ;
Ppér. = changement du niveau de productivité par rapport à la valeur de P de la période
précédente).
Tableau 5-20 Évolution globale de la productivité des composés (mesure P) Période N-N A-N N-A N-de-N
P Pélevée Ppér. P Pélevée Ppér. P Pélevée Ppér. P Pélevé. Ppér. 1606-1694 0.0616 0.0052 0.0360 0.0296
1695-1798 0.0136 0.0011 0.0031 0.0030
-78 % -78 % -79 % -79 % -91 % -91 % -90 % -90 %
1799-1872 0.0032 0.0008 0.0005 0.0047
-95 % -76 % -85 % -27 % -99 % -84 % -84 % +57 %
1873-1920 0.0021 0.0005 0.0019 0.0046
-97 % -34 % -90 % -38 % -95 % +280 % -85 % -2 %
Moyenne 0.0201 0.0019 0.0104 0.0105
65
Dans les tableaux 5-19 à 5-21, les zones ombrées représentent le niveau de productivité le plus élevé pour chaque type de composés. Elles identifient donc la période où un type donné était le plus productif.
194
La période 1606-1694 est la période la plus fructueuse pour le processus de composition en
français (voir les zones ombrées). À partir des années 1695-1798, le taux de productivité
subit une baisse allant de 78 % à 91 % pour tous les types recensés. Vers 1873-1920, le
déclin le plus considérable a été constaté dans les types N-N (-97 %) et N-A (-95 %), et ce
par rapport à la première période qui est la plus fructueuse.
En outre, le taux de productivité le plus élevé a été observé dans les structures N-N tout au
long des deux premières périodes. Par ailleurs, le niveau moyen de productivité des
composés N-N (Pm = 0.0201) reste aussi le plus élevé entre 1606 et 1920 ; suivi par les
valeurs presque identiques des composés N-de-N (Pm = 0.0105) et N-A (Pm = 0.0104). Le
taux moyen de productivité des composés A-N est considérablement plus bas.
À partir des années 1799-1872, le type N-de-N devient le type le plus productif
(P3 = 0.0047 ; P4 = 0.0046). Toutefois, ces résultats sont à interpréter avec précaution parce
que ce groupe de composés est assez petit (cinq réguliers et 22 irréguliers), avec un nombre
d’occurrences notablement faible, et que les données sont très lacunaires (cf. 5.6.1.4).
En général, l’évolution globale de la productivité des quatre types recensés a été distribuée
de la façon suivante au cours des quatre périodes analysées.
Durant les années 1606-1694, le taux de productivité le plus élevé est observé dans le type
N-N suivi par les N-A et les N-de-N dont la productivité est assez similaire (voir les zones
ombrées). Le type A-N possède le niveau de productivité le plus bas (P = 0.0052).
Entre 1695 et 1789, les composés N-N restent les structures les plus productives, tandis que
le niveau de productivité des autres types est notablement plus bas. Toutefois, en
comparaison avec la première période la plus fructueuse le taux de productivité des N-N
s’abaisse fortement (-78 %). L’évolution de la productivité des N-A et des N-de-N est
presque identique (P2 = 0.0031 vs P2 = 0.0030). Cependant, la diminution du taux de leur
productivité par rapport à la première période est énorme (P2 = -91 % et P2 = -90 %
respectivement). Le type le moins productif au cours des années 1695 et 1789 est le type
A-N (P = 0.0011). Par contre, l’abaissement du taux de sa productivité est moins marqué
(-79 %) que celui des types N-A et N-de-N.
195
Les années 1799-1872 se caractérisent par un abaissement considérable de la productivité des
types N-A et N-N (P3 = -99 % et P3 = -95 % respectivement) vis-à-vis de la période la plus
féconde. Cet abaissement n’est cependant pas aussi important que celui de la période
précédente (N-A→ -84 % ; N-N→ -76 %) ; période pendant laquelle le taux de productivité
des composés N-de-N augmente (P3→ +57 %). Les composés A-N restent toujours peu
productifs ; toutefois le niveau de leur productivité est légèrement plus élevé (P = 0.0008)
que celui des N-A (P = 0.0005). En comparaison avec les autres formes recensées, le type
A-N subit le déclin de productivité le plus faible (-27 %) entre 1799 et 1872.
Finalement, au cours de la dernière période (1873-1920), les composés N-de-N restent le
type le plus productif (P = 0.0046). Toutefois, ces résultats sont à interpréter avec précaution
à cause de plusieurs lacunes de données statistiques. Relativement à la première période la
plus fructueuse, la productivité du type N-de-N régresse de 85 %. Néanmoins, en
comparaison avec la période précédente, l’abaissement du taux de productivité de ce type est
assez faible (-2 %).
Il ressort également du Tableau 5-20 que durant les années 1873-1920, la productivité des
composés N-N et N-A est plus de deux fois inférieure à celle du type N-de-N. Par rapport à
la période précédente, la productivité du type N-N diminue de 34 %, alors que celle du type
N-A augmente énormément (+280 %). Il faut noter que c’est le cas de croissance le plus
élevé de P parmi les formes recensées. Il s’avère que le type le moins productif au cours des
années 1873-1920 est le type A-N (P = 0.0005) dont le taux de productivité est neuf fois plus
bas que celui des composés N-de-N.
En bref, la période 1606-1694 est la plus productive pour le processus de composition en
français, car c’est pendant cette période-là que le taux de productivité de tous les types de
composés est le plus élevé ; on voit bien la forte chute de productivité pour tous les types
analysés entre 1695 et 1920. Toutefois, le type N-N est celui qui est globalement le plus
productif.
En outre, j’ai également évalué la productivité des formes régulières et irrégulières
séparément pour définir le type et la structure les plus productifs par période. Le Tableau
196
5-21 fait la synthèse de l’évolution des composés réguliers N-N, A-N et N-A, le type
N-de-N étant exclu à cause de données lacunaires pour P.
Tableau 5-21 Évolution de la productivité des composés réguliers N-N, A-N, N-A (mesure P)
Période N-N A-N N-A
P Pélevée Ppér. P Pélevée Ppér. P Pélevée Ppér.
1606-1694 0.0770 0.0050 0.0348
1695-1798 0.0100 0.0009 0.0051
-87 % -87 % -82 % -82 % -85 % -85 % 1799-1872 0.0014 0.0010 0.0012
-97 % -86 % -80 % +11 % -97 % -76 % 1873-1920 0.0012 0.0003
-98 % -14 % -94 % -70 %
Moyenne 0.0224
0.0018 0.0137
En premier lieu, on voit que la période 1606-1994 est la période la plus productive pour le
processus de composition régulière (voir les zones ombrées). Par contre, entre les années
1695-1798, le niveau de productivité les trois types recensés diminue entre 82 % et 87 %. La
chute la plus forte par rapport à la première période (la plus productive) a été observée dans
les N-N (-98 %) entre 1873 et 1920 et les N-A (-97 %) durant les années 1799 et 1872.
En deuxième lieu, il apparaît que le taux moyen de productivité des N-N réguliers
(Pm = 0.0224) est plus élevé ; celui des N-A réguliers est légèrement plus bas (Pm<1.6 fois),
alors que celui des A-N réguliers est considérablement inférieur (Pm<12 fois) à celui des
N-N réguliers.
Enfin, en dépit de l’abaissement progressif du niveau de productivité des types N-N et
N-A entre1799-1872, la productivité des A-N réguliers a modérément augmenté (Ppér.>
+11 %) durant la même période ; en fait, c’est la seule exception par rapport à la dégression
générale de P dans les types analysés.
Finalement, au cours de la dernière période (1873-1920), seuls deux types de composés
peuvent être évalués, soit N-N et A-N ; le type N-N régulier étant le plus productif des deux.
Ces deux types subissent une chute considérable du taux de productivité par rapport à la
197
première période, étant la plus fructueuse (P4 = <-98 % et P4 = <-94 % respectivement).
Toutefois, en comparaison avec la période précédente, l’abaissement du niveau de
productivité dans les N-N régulier est plus faible (-14 %), relativement aux A-N réguliers
dont la chute de productivité est plus considérable (-70 %).
Ainsi, en termes de la composition régulière en français, la période 1606-1694 est la période
la plus productive pour les trois types analysés, où le type N-N représente la structure la plus
productive.
Les données statistiques sur l’évolution de la productivité des composés irréguliers N-N,
A-N, N-A et N-de-N sont résumées dans le Tableau 5-22.
Tableau 5-22 Évolution de la productivité des composés irréguliers N-N, A-N, N-A, N-de-N (mesure P) Période N-N A-N N-A N-de-N
P Pélevée Ppér. P Pélevée Ppér. P Pélevée Ppér. P Pélevée Ppér.
1606- 1694
0.0364 0.0058 0.0374 0.0354
1695- 1798
0.0469 0.0018 0.0023 0.0043
+29 % +29 % -69 % -69 % -94 % -94 % -88 % -88 %
1799- 1872
0.0153 - - 0.0032
-58 % -67 % -91 % -26 %
1873- 1920
0.0112 0.0022 0.0037 0.0046
-69 % -27 % -62 % +22 % -90 % +61 % -87 % +44 %
Moyenne 0.0275
0.0033
0.0145 0.0119
On voit que la majorité des types irréguliers (A-N ; N-A ; N-de-N) sont les plus productifs
pendant la première période analysée (voir les zones ombrées). Dans ce groupe de composés,
la chute la plus considérable de la productivité par rapport à la première période la plus
fructueuse a été observée dans les années 1695-1798, surtout dans les N-A (-94 %) et les
N-de-N irréguliers (-88 %). Par contre, le niveau de productivité des N-N irréguliers
augmente (+29 %) au cours de la même période. Contrairement aux N-N réguliers dont le
taux de productivité est le plus élevé durant les années 1606-1695, le type N-N irrégulier est
le plus productif entre 1695 et 1798 (voir les zones ombrées).
En fonction de la productivité moyenne, les N-N irréguliers représentent le type le plus
productif (Pm = 0.0275) suivi par les N-A et les N-de-N irréguliers qui possèdent un taux de
198
productivité 1.9 fois et 2.3 fois plus bas que celui du type N-N irrégulier. La productivité
moyenne des A-N irréguliers est fortement plus basse (Pm<8.3 fois) en comparaison avec
celle des N-N irréguliers.
En dépit de l’abaissement progressif du niveau de productivité des types A-N et N-A
irréguliers entre 1695 et 1798, et des N-de-N irréguliers dans les années 1695-1872, on
constate une croissance considérable de leur productivité durant la quatrième période 1873-
1920 : A-N (P4 = +22 %), N-A (P4 = +61 %) et N-de-N (P4 = +44 %). Par contre, dans le
type N-N irrégulier, on observe une chute de 27 % du taux de productivité au cours de la
même période.
Ainsi, en ce qui concerne les composés irréguliers, il semble que la période 1606-1694 est la
période la plus productive pour la majorité des types analysés, sauf les N-N irréguliers dont
le niveau de productivité est le plus élevé dans les années 1695-1798. Entre 1873 et 1920,
après une phase de déclin, le taux de productivité de trois types irréguliers (A-N ; N-A et
N-de-N) augmente encore une fois.
En général, l’ordre décroissant du niveau de productivité dans les types N-N, A-N et N-A
(réguliers et irréguliers) se distribue de façon différente au cours de quatre périodes
analysées sauf les années 1695-1798 en (17b) et (18b) où le type N-N étant le plus productif
des trois. Par contre, les composés A-N représentent le type le moins productif lors de quatre
périodes analysées. Cependant, la distribution des types réguliers et irréguliers ne peut pas
être analysée au complet à cause de lacunes de données statistiques entre 1799-1872 et 1873-
1920.
(17) Distribution du niveau de productivité dans les types réguliers : a. 1606-1694 : N-N, N-A, A-N
b. 1695-1798 : N-N, N-A, A-N c. 1799-1872 : N-N, N-A, A-N d. 1873-1920 : N-N, A-N (18) Distribution du niveau de productivité dans les types irréguliers :
a. 1606-1694 : N-A, N-N, (N-de-N), A-N, b. 1695-1798 : N-N, (N-de-N), N-A, A-N c. 1799-1872 : N-N, (N-de-N) d. 1873-1920 : N-N, (N-de-N), N-A, A-N
199
L’évolution globale de la productivité des formes recensées régulières et irrégulières a aussi
été analysée en fonction de la position de la tête morphologique (Tableau 5-23). Les
composés appositionnels ont été éliminés de cette étude à cause de données fort lacunaires de
P pour la majorité de périodes (trois sur quatre).
Tableau 5-23 Évolution globale des composés N-N, A-N, N-A, N-de-N réguliers et irréguliers selon la position de la tête morphologique (mesure P)
Période Tête à gauche Tête à droite Exocentriques réguliers Exocentriques irréguliers
P Pélevée Ppér. P Pélevée Ppér. P Pélevée Ppér. P Pélevé. Ppér.
1606- 1694
0.0275 0.0043 0.6667 0.0132
1695- 1798
0.0065 0.0009 0.0741 0.0035
-76 % -76 % -79 % -79 % -89 % -89 % -73 % -73 %
1799- 1872
0.0008 0.0011 0.0137 0.0012
-97 % -88 % -74 % +22 % -98 % -82 % -91 % -66 %
1873- 1920
- 0.0003 0.0037 0.0037
-93 % -73 % -99 % -73 % -72 % +208 %
Moyenne 0.0116 0.0017 0.1896 0.0054
Conformément à la position de la tête morphologique, la période 1606-1694 est la période la
plus productive pour le processus de composition en français (voir les zones ombrées). Par
ailleurs, l’étude a révélé le taux élevé des composés exocentriques réguliers lors des quatre
périodes analysées en comparaison avec les autres structures analysées dont la productivité
reste considérablement basse. Il apparaît également que la deuxième structure la plus
productive est celle dont la tête est à gauche, suivie étonnamment par les exocentriques
irréguliers.
En général, entre les années 1695-1920, le taux de productivité de toutes les structures
recensées diminue entre 66 % et 99 %. Toutefois, il y a deux exceptions : pendant la période
1799-1872, la productivité des composés avec la tête à droite augmente modérément
(P3 = +22 %) ; alors que celle des exocentriques irréguliers grandit considérablement
(P4 = +208 %) dans les années 1873-1920 par rapport aux périodes précédentes. Vers 1873-
1920, le déclin le plus considérable du niveau de productivité, par rapport à la première
période, a été constaté dans les exocentriques réguliers (P4 = <99 %) et les composés avec la
tête à droite (P4 = < 93 %).
200
Globalement, l’évolution de la productivité des types N-N, A-N, N-A et N-de-N réguliers et
irréguliers a été répartie de la manière suivante selon la position de la tête morphologique.
Entre 1606 et 1694, on voit la dominance des exocentriques réguliers dont le taux de
productivité est considérablement plus élevé que celui des endocentriques avec la tête à
gauche (P1 = <24 fois), et surtout des structures dont la tête est à droite (P1 = <155 fois).
En ce qui concerne la période 1695-1798, la productivité des exocentriques réguliers reste
supérieure à celle des autres structures. Le taux de productivité des endocentriques avec la
tête à gauche (P2 = <11 fois) et surtout celui des structures avec la tête à droite est
notamment plus bas (P2 = <82 fois). Toutefois, il apparaît que la chute la plus marquée du
niveau de productivité est observée dans les exocentriques réguliers (P2 = <-89 %) ; dans les
autres structures, l’abaissement du taux de la productivité, par rapport à la première période,
est assez similaire (entre 73 % et 79 %).
Les années 1799-1872 se caractérisent par l’abaissement considérable du taux de
productivité de toutes les structures, surtout des exocentriques réguliers (P3 = <98 %), des
composés avec la tête à gauche (P3 = <97 %) et des exocentriques irréguliers (P3 = <91 %).
Par contre, la productivité des composés avec la tête à droite augmente (P3 = >22 %)
relativement à la période précédente. En somme, les exocentriques réguliers restent les
structures les plus productives ; la productivité des endocentriques avec la tête à gauche,
celle des endocentriques avec la tête à droite et des exocentriques irréguliers sont très
similaires (P3 = 0.0008 ; P3 = 0.0011 ; P3 = 0.0012 respectivement).
Finalement, au cours de la dernière période (1873-1920), seulement trois structures
apparaissent dans Frantext. Le taux de productivité des exocentriques réguliers et celui des
exocentriques irréguliers est identique (P3 = 0.0037), alors que la productivité des
endocentriques avec la tête à droite est considérablement plus basse (P4 = <12 fois). En
général, cette période se caractérise par la décroissance significative du niveau de
productivité de toutes les structures face à la première période fructueuse (entre -72 % et
-93 %) et par l’imposante croissance du taux de productivité des exocentriques irréguliers par
rapport à la période précédente (P4 = >208 %).
201
Ces résultats sont assez imprévus parce qu’en français moderne, les composés
endocentriques, particulièrement ceux avec la tête est à gauche, sont généralement
considérées comme les plus productifs en opposition aux formes exocentriques (Brousseau
2001 ; Gross 1996 ; Mathieu-Colas 1994). Alors, on peut supposer que les exocentriques
irréguliers subissent une évolution massive au cours des années 1873-1920. De cette façon,
les résultats obtenus confirment de façon empirique l’hypothèse de Bauer (2008), selon
laquelle les composés exocentriques peuvent être envisagés comme des formations
productives en français.
Finalement, le bilan général de l’évolution de la productivité des formes recensées (tous
types inclus) est récapitulé dans le Tableau 5-24 (où les zones ombrées représentent les
périodes les plus productives).
Tableau 5-24 Évolution globale de la productivité des composés N-N, A-N, N-A, N-de-N de 1606 à 1920 Période N n1 P Pélevée Ppér.
1606-1694 4390 42 0.0096
1695-1798 9685 22 0.0023
+121 % -48 % -76 % -76 % 1799-1872 15 268 18 0.0012
+58 % -18 % -88 % -48 % 1873-1920 9997 11 0.0011
-35 % -39 % -89 % -8 %
Le tableau ci-dessus révèle que la période 1606-1694 est dominante au regard de la
productivité du processus de composition en français. À partir des années 1695-1798, la
productivité général du processus de composition baisse considérablement (P2 = <-76 %) ;
alors que la chute la plus marquée est observée pendant la troisième période 1799-1872
(P3 = < -88 %) et la quatrième (P3 = < -89 %).
Par ailleurs, par rapport à la période précédente, on voit l’abaissement du taux de
productivité le plus visible entre 1695-1798 (P2 = < -76 %) ; cette tendance est plus modérée
202
lors des années 1799-1872 (P3 = < -48 %). Finalement, entre 1873 et 1920, le
développement du processus de composition se stabilise en comparaison avec la période
précédente (P4 = <-8 %).
En ce qui concerne la distribution des hapax, leur nombre diminue progressivement entre la
première période la plus fructueuse (n1 = 42) et les années 1799-1872 (n1 = 18) ; la
décroissance la plus considérable du nombre d’hapax est observée pendant la quatrième
période (n1 = 11 ou -89 %). Toutefois, il faut noter que le nombre élevé d’hapax pendant la
première période peut être expliqué par le facteur suivant: tous les hapax révélés au cours de
cette période sont traités comme de vrais hapax. Par contre, dans les trois périodes suivantes,
les formes n’apparaissant qu’une seule fois sont traités comme de vrais hapax seulement s’il
s’agit de leur première occurrence. Les hapax des périodes subséquentes qui figuraient dans
le corpus de la première période (comme hapax ou non) ont été éliminés des calculs,
réduisant ainsi le nombre de n1.
5.6.3 Combinaisons lexicales les plus courantes
Parmi les 275 composés analysés, plusieurs combinaisons lexicales apparaissent de façon
récurrente dans Frantext, soit pendant trois ou quatre périodes. Ainsi, les composés N-N
présentent huit combinaisons récurrentes, alors que le type A-N en inclut 18 :
(19) Combinaisons N-N (8) a. Périodes 1-4 : arrière-N ; bien-N ; colin-N ; loup-N ; reine-N
b. Périodes 2-4 : chat-N ; chef-N ; chou-N
(20) Combinaisons A-N (18)
a. Périodes 1-4 : bas-N ; beau-N ; blanc-N ; bon-N ; court-N ; demi-N ; double-N ; grand-N ; gros-N ; haut-N ; mort-N ; petit-N ; saint-N ; tout-N b. Périodes 2-4 : dur-N ; faux-N ; franc-N ; vide-N
L’examen des composés N-A révèle six combinaisons récurrentes :
(21) Combinaisons N-A (6) a. Périodes 1-4 : bec-A ; fer-A ; pied-A ; sang-A ; terre-A
b. Périodes 1, 3, 4 : cul-A
Finalement, les combinaisons récurrentes du type N-de-N se présentent comme suit :
203
(22) Combinaisons N-de-N (8) a. Périodes 1-4 : bec-de-N ; cou-de-N ; cul-de-N ; eau-de-N ; mestre-de-N
b. Périodes 2-4 : belle-de-N ; gorge-de-N c. Périodes 1, 2, 4 : haut-de-N
Les exemples en (19) - (22) montrent que le type A-N contient le plus grand nombre de
combinaisons lexicales récurrentes, dont 14 apparaissent durant quatre périodes et quatre
autres ressortent dans trois périodes.
La réapparition des combinaisons lexicales dans les types N-N (8), N-de-N (8) et surtout
N-A (6) est beaucoup plus faible. La distribution des combinaisons les plus courantes, tous
types confondus, est résumée dans le Tableau 5-25 (où les formes en gras représentent de
vrais hapax).
Tableau 5-25 Distribution des combinaisons lexicales les plus courantes
Nombre de récurrences
Combinaisons lexicales (exemples) 1606-1694
1695-1798
1799-1872
1873-1920
22 arrière-N (arrière-bouche, arrière-boutique, arrière-main, arrière-chœur,)
x x x x
16 bas-N (bas-fond, bas-latin, bas-métier, bas-ventre)
x x x x
13 beau-N (beau-chasseur, belle-de-jour, bel-esprit)
x x x x
12 demi-N (demi-brigade ; demi-dame ; demi-frère)
x x x x
11 bec-de-N (bec-de-cane ; bec-de-cigogne ; bec-de-cygne)
x x x x
10 bon-N (bon-air ; bon-tour ; bonne-vilaine) x x x x
9 court-N (court-bouillon ; courte-lettre) x x x x
8 saint-N (saint-augustin ; saint-gall ; sainte-barbe)
x x x x
7 bec-A (bec-allongé ; bec-cornu ; bec-dur) x x x x
7 double-N (double-bec; double-chaîne ; double-main)
x x x x
6 franc-N (franc-fief ; franc-maçon ; franc-tireur)
x x x
6 petit-N (petit-bouc ; petit-fils ; petit-fond) x x x x
6 tout-N (tout-ensemble ; toute-bonté ; toute-table)
x x x x
5 blanc-N (blanc-bec ; blanc-bois ; blanc-manteau)
x x x x
204
Nombre de récurrences
Combinaisons lexicales (exemples) 1606-1694
1695-1798
1799-1872
1873-1920
5 haut-N (haut-fond ; haute-bonté ; haute-tail x x x x 4 cul-de-N (cul-de-lampe, cul-de-jatte, cul-de
poule, cul-de-sac) x x x x
4 grand-N (grand-compte ; grand-croix ; grand-oncle)
x x x x
4 gros-N (gros-bec ; gros-colas ; gros-jean ; grosse-gorge)
x x x x
3 faux-N (faux-saunage ; faux-monnayeur ; faux-saunier
x x x
3 mort-N (mort-bois, mort-gage morte-saison)
x x x x
3 pied-A (pied-bleu ; pied-droit ; pied-fort) x x x x
3 vide-N (vide-bouteille ; vide-gousset ; vide-poches)
x x X
2 belle-de-N (belle-de-jour, belle-de-nuit) x x x
2 bien-N (bien-disance, bien-fonds) x x x x
2 chat-N (chat-cervier, chat-tigre) x x x
2 chef-N (chef-lieu, chefs-plaids x x x
2 chou-N (chou-fleur, chou-rave) x x x
2 cou-de-N (coup de pied, coup de poing) x x x x
2 colin-N (colin-maillard, colin-tampon) x x x x
2 cul-A (cul-bas, cul-blanc) x x x
2 dur-N (dur-bec, dur-mère) x x x
2 loup-N (loup-cervier, loup-garou) x x x X
2 sang-A (sang-froid, sang-gris) x x x X
2 terre-A (terre-plein) x x x x
1 eau-de-N (eau-de-vie) x x x x
1 fer-A (fer-blanc) x x x x
1 gorge-de-N (gorge-de-pigeon) x x x
1 haut-de-N (haut-de-chausses) x x x
1 mestre-de-N (mestre de camp) x x x x
1 reine-N (reine-claude) x x x x
On voit que la majorité de combinaisons lexicales récurrentes (31 sur 40) apparaissent dans
chaque période étudiée ; neuf combinaisons sont observées dans trois périodes sur quatre
205
(franc-N, faux-N, vide-N, belle-de-N, chat-N, chef-N, chou-N, dur-N, gorge-de-N). Sauf les
composés cul-A et haut-de-N, ces combinaisons lexicales ne se révèlent pas entre 1606-1694.
D'ailleurs, la plupart de ces combinaisons sont formées de constituants de haute fréquence
(e.g. arrière-bouche → arrière (N = 3512), bouche (N = 5353) ; bas-fond → bas
(N = 13 553), fond (N = 14 749) ; beau-fils → beau (N = 15 003), fils (N = 14 668) ; petit-
enfant → petit (N = 20 466), enfant (N = 12 248) ; bec-pointu → bec (N = 728), pointu
(N = 224 ; etc.).
En outre, la majorité (24 sur 40) de ces combinaisons lexicales inclut un adjectif comme
premier/deuxième élément de leur structure (i.e. bas-fond, beau-chasseur, court-bouillon,
sainte-barbe, fer-blanc, dur-bec, etc.).
Finalement, la plupart des combinaisons lexicales récurrentes appartiennent à de grandes
familles morphologiques (e.g. blanc-manger a 26 membres ; bas-justicier a 21 membres,
etc.).
Chaque membre supplémentaire d'une famille morphologique contribue à l’augmentation de
la taille catégorielle de leur famille morphologique. Donc, comme le montre la recherche, les
formes appartenant aux grandes familles morphologiques possèdent la taille catégorielle la
plus élevée, ce qui contribue à leur niveau de productivité plus bas. En conséquence, dans
plusieurs combinaisons lexicales récurrentes les hapax n’apparaissent pas. D'ailleurs, les
formes avec de vrais hapax constituent 45 % de toutes les combinaisons lexicales récurrentes
(18 sur 40).
Par contre, les composés formés avec des constituants de basse fréquence (e.g. acquit-patent,
taupe-grillon, volte-face, bec-cornu, ver-coquin, etc.) apparaissent seulement pendant une ou
deux périodes dans Frantext. Ces combinaisons lexicales forment les familles
morphologiques plus petites, alors, leur niveau de productivité est plus élevé.
5.6.4 Sommaire
L’étude de l’évolution diachronique de la productivité des composés N-N, A-N, N-A et
N-de-N révèle la dominance de la période 1606-1694 vis-à-vis du taux élevé de
206
productivité ; ce phénomène est observable indépendamment du type de composés ou la
position de la tête morphologique. En ce qui concerne les années 1695-1798, toutes les
formes recensées ont subi une chute considérable de la productivité, soit entre 78 % et 91 %.
Lors des années 1799-1872, la productivité des types N-N, A-N, N-A, N-de-N connaît un
autre affaiblissement de 48 %. Finalement, au cours de la période 1873-1920, le
développement du processus de composition se stabilise en démontrant un petit déclin (<-
8 %).
En ce qui concerne la structure interne des formes recensées, il apparaît que les composés
N-N représentent le type le plus productif tout au long des années 1606-1920, suivi par les
N-A et les A-N. Par contre, le taux élevé de productivité des composés N-de-N réguliers,
envisagées en général parmi les plus productifs (Brousseau 2001 : 347 ; Gross 1996 : 31),
doit être considéré en précaution à cause de données fort lacunaires de la mesure P (i.e. le
manque de données pour les périodes 1695-1798 et 1873-1920).
Par ailleurs, au regard de la position de la tête morphologique, les résultats obtenus révèlent
la productivité élevée des composés exocentriques réguliers étant la structure la plus
productive lors de quatre périodes analysées. Ils sont suivis par les structures dont la tête est
à gauche et les exocentriques irréguliers. Les composés avec la tête à droite et, surtout, les
appositionnels représentent les structures les moins productives. Entre 1695-1920, le niveau
de productivité de toutes les structures diminue d'un taux allant de 66 % à 99 %. Outre cela,
deux résultats imprévus apparaissent au cours de l’étude. En premier lieu, la productivité des
composés avec la tête à droite, par rapport aux périodes précédentes, augmente modérément
pendant la troisième période (+22 %). En deuxième lieu, les exocentriques irréguliers
révèlent une augmentation de productivité considérable pendant la quatrième période 1873-
1920 (P4 = +208 %).
Finalement, l’analyse des combinaisons lexicales récurrentes met en évidence le fait que la
majorité de ces combinaisons lexicales sont formées d’éléments de haute fréquence, qui sont
associés à des familles morphologiques assez grandes. Dans la plupart de ces combinaisons,
un des constituants est représenté par un adjectif.
207
5.7 Conclusion Dans ce chapitre, la productivité morphologique des composés français N-N, A-N, N-A et
N-de-N a été examinée en fonction de trois facteurs différents, soit le type de composés
(structure), la position de la tête morphologique et l’aspect régulier/irrégulier. L’utilisation de
trois mesures de productivité (P, T et FR) a permis de raffiner les résultats de la recherche et
de clarifier les méthodes quantitatives qui peuvent être utilisées pour l’évaluation de la
productivité en composition, de façon générale comme pour le français en particulier.
Quatre hypothèses ont été traitées dans ce chapitre. La première vise à vérifier si le taux de
productivité dépend de la position de la tête morphologique et du statut régulier/irrégulier des
composés. Je m’attendais à ce que les structures avec la tête à gauche et les structures
régulières soient les formes les plus productives, comme c’est le cas en français
contemporain en syncronie (Brousseau et Nikiema 2001 ; Gross 1996 ; Mathieu-Colas 1994).
Par contre, les résultats obtenus montrent que ce sont les composés exocentriques réguliers
qui représentent la structure la plus productive ; ils sont suivis par les structures dont la tête
est à gauche et les exocentriques irréguliers. Les formes avec la tête à droite et les
appositionnels sont les structures les moins productives. En ce qui concerne l’aspect
régulier/irrégulier, l’étude révèle des résultats prévus : le taux de productivité le plus élevé a
été observé dans les formes régulières parmi lesquelles les exocentriques réguliers sont les
plus productifs suivis par les endocentriques avec la tête à gauche. Donc, la productivité
élevée des composés exocentriques réguliers confirme l’hypothèse de Bauer (2008), selon
laquelle ces structures peuvent être envisagées comme des formations productives en
français. Ainsi, l’hypothèse #1 a été partiellement confirmée.
La deuxième hypothèse, liée à la structure interne des formes recensées, prédit que les types
N-N et N-de-N sont les structures les plus productives. Cette hypothèse a été confirmée par
les résultats obtenus qui ont mis en évidence le taux élevé de productivité de la structure
N-N, indépendamment de la période analysée. Le deuxième type le plus productif est le type
N-A, suivi par les A-N. Quant aux composés N-de-N, la productivité élevée de ce type est à
interpréter avec précaution. D’une part, l’étude a révélé les données fort lacunaires de P pour
ce type de composés (pour deux périodes sur quatre). D’autre part, le nombre total des
composés N-de-N est assez réduit (27).
208
En ce qui concerne la troisième hypothèse, j’ai cherché à vérifier une corrélation inverse
entre la productivité et la taille catégorielle de la famille morphologique : la croissance de la
taille catégorielle de la famille morphologique devait correspondre à un taux de productivité
plus bas. Globalement, cette hypothèse a été confirmée : dans trois types sur quatre (N-N,
N-A, N-de-N) le taux de productivité le plus élevé coïncide avec la taille catégorielle la plus
basse, indépendamment de la période analysée. La seule exception est liée au cas des
composés A-N dans les années 1799-1872.
La quatrième hypothèse vise à établir une corrélation possible entre la fréquence relative FR
et le niveau de productivité P. En me basant sur l’hypothèse de Hay (2003) en dérivation, j’ai
prédit que les mots composés dont la fréquence relative est plus basse sont plus productifs
que ceux dont la fréquence relative est plus élevée. Toutefois, les données de l’étude
indiquent que cette tendance n’est pas confirmée en composition française (le pourcentage
total des cas attestés est de 42 %). Il apparaît également que les mesures FR3 et FR4
constituent 67 % de tous les cas marqués de la corrélation inverse. Étant donné que la mesure
FR4 est un dérivé de la mesure FR3, j’ai suggéré de considérer la mesure FR3 comme la
meilleure variante pour le calcul de la fréquence relative dans les composés français. Le
travail révèle en effet que la corrélation inverse entre les mesures P et FR3 est apparemment
plus marquée pour les composés réguliers (67 %) que pour les irréguliers (33 %). Ce résultat
est donc cohérent avec les données obtenues pour la mesure T calculée uniquement pour les
formes régulières et qui montrent clairement l’existence de la corrélation inverse presque
parfaite entre P et T. Toutefois, l’hypothèse #4 concernant une corrélation possible entre les
mesures FR et P n’a pas été confirmée pour le processus de composition en français puisque
le pourcentage de cas confirmés pour la mesure FR3 est moins de 60 %.
En tenant compte du fait que la mesure FR3 a été définie comme le meilleur moyen de
mesurer la fréquence relative des composés, il est possible d'identifier plus clairement la base
en composition (Bauer 1983, 2001 ; Dressler 2006 ; Spenser 1991 ; Krott et all. 1999) (cf.
§ 2.2.5 ; § 4.3.5). Comme la mesure FR3 correspond à la somme des fréquences des
constituants du mot composé, il semble qu’en composition chaque constituant du mot
composé peut être considéré comme base, du moins aux fins d’analyses quantitatives de la
productivité.
209
Une des questions à laquelle j’ai essayé de répondre dans ma recherche était la suivante : la
mesure P au sens strict, est-elle suffisamment fiable comme seul moyen de calcul du taux de
productivité des noms composés ? Les résultats obtenus révèlent que la mesure P utilisée en
combinaison avec la mesure de la taille catégorielle T de la famille morphologique offre des
résultats assez fiables pour l’évaluation de la productivité en composition. D'ailleurs, la
corrélation inverse entre P et T est presque parfaite mis à part un cas dans les composés A-N.
Ainsi, quand la corrélation entre P et T est visible, la mesure P peut être appliquée avec
confiance. Toutefois, la productivité élevée des composés exocentriques irréguliers soulève
des questions concernant l’utilisation de la mesure P au sens strict. D’un coté, selon la notion
qualitative de productivité (Bauer 2001 ; Hay 2001 ; Baayen et Lieber 1991), les composés
irréguliers sont envisagés comme des formes indécomposables qui ne forment pas de patrons
productifs ; ils doivent être stockées dans la mémoire. Par contre, l’étude a montré que selon
la mesure P, les composés irréguliers sont productifs.
D’ailleurs, l’application de la mesure P avec la mesure T révèle une corrélation inverse
presque parfaite. Pour expliquer ce paradoxe, deux hypothèses peuvent être envisagées : soit
la mesure P et la mesure T ne sont pas valides, soit le statut de certains composés irréguliers
doit être reconsidéré. Si on accepte l’idée de l’invalidité des mesures P et T, le phénomène de
la corrélation inverse obtenue dans le présent travail et dans le travail antérieur de Baayen et
Hay (2002) reste inexpliqué. La corrélation apparaît alors comme une coïncidence qui se
répète systématiquement, ce qui est improbable. La deuxième hypothèse semble être plus
plausible : il est possible que certains composés irréguliers puissent être réanalysés comme
réguliers. Pour conclure, je pense que la mesure P est une mesure solide qui fournit de bons
résultats dans le domaine de la productivité en composition, particulièrement lorsqu’elle est
utilisée en conjonction avec d’autres mesures qui permettent d’en confirmer les résultats.
L’étude de l’évolution de la productivité des formes recensées en diachronie révèle la
période 1606-1694 comme la période la plus productive pour le processus de composition en
français. Rappelons qu’à cette époque, en France, le latin avait commencé à perdre de son
importance et la langue française avait été largement introduite dans la vie quotidienne par
l’intermédiaire de plusieurs néologismes. L’invention de l’imprimerie favorise aussi
l’utilisation du français: « …les imprimeurs et les auteurs cherchent désormais à atteindre la
210
clientèle la plus vaste possible » (Burney 1962 : 12). C’est une époque de la création des
écoles françaises et de la correspondance française entre les étrangers (Burney 1962 : 13). La
langue française s’impose également en Europe (en Angleterre, en Allemagne, en Pologne,
aux Pays-Bas, etc.). Cette période se caractérise aussi par la création de l'Académie française
(1635) et l’apparition des premiers dictionnaires entièrement français (Dictionnaire de
Richelet 1680, Dictionnaire Universel de Furetière 1690, etc.). Vers la fin du XVIIe siècle,
l'orthographe française s'unifie sous l'influence des différentes autorités, des dictionnaires, et
des imprimeurs. Beaucoup de mots composés français ont été créés à cette époque-là en
France ; le grand nombre d’hapax dans le corpus Frantext reflète ce phénomène.
À partir des années 1695-1798, toutes les formes recensées ont subi une chute considérable
du niveau de productivité, variant entre 78 % et 91 %. Par ailleurs, du point de vue de la
langue, c’est une période marquée par l’apparition de la première édition du Dictionnaire de
l'Académie française (1694) ; le développement de l'enseignement du français et la création
les normes linguistiques présentées par l'Académie française. Celle-ci a modifié plusieurs
milliers de mots dans ses éditions de 1740, 1762 et 1798 en abandonnant ‘l'ancienne
orthographe’ et mettant en place celle qui est devenue l’orthographe contemporaine. Le
XVIIIe siècle « a vu les plus grands triomphes de la langue des rois » (Burney 1962 : 14) en
Russie, en Allemagne et en Italie. Dans sa dissertation l’Universalité de la langue française,
Rivarol (1784 ; cité dans Burney 1962 : 17) indique : « … la langue française c’est la langue
humaine…» Pendant cette période, le français reçoit le statut de langue diplomatique
internationale.
Durant les années 1799-1872, la productivité du processus de composition des types N-N,
A-N, N-A, N-de-N connaît un autre affaiblissement de 48 %. Malgré le déclin dans la
productivité des formes recensées, les années 1799-1872 représentent une période
d’épanouissement du vocabulaire français et l’apparition d’un grand nombre de néologismes.
Cette époque se caractérise par l’apparition de la sixième édition du dictionnaire de
l'Académie française (1835), du Grand dictionnaire universel de Larousse (1865) et du
Dictionnaire de la langue française de Littré (1872). La Révolution de 1789 et Le Premier
Empire (1804-1814) font apparaître des classes moyennes et populaires qui se prononcent
contre la ‘langue des rois’. Néanmoins, « Au XIXe siècle, la langue française, dans l’usage
211
des lettres et du bon gout, du droit, de la diplomatie et des traités internationaux maintient
‘l’ordre du monde’ » (Blancpain et Reboullet 1976 : 94). À cette époque, beaucoup de mots
composés ont été créés dans les domaines de la science, de la presse et des affaires.
Enfin, pendant la période 1873-1920, le développement du processus de composition se
stabilise en démontrant un petit déclin (P4 = <-8 %) par rapport à la période précédente.
C’est la période du français contemporain, caractérisée par l’unité linguistique de la France,
l’enrichissement du vocabulaire et la réforme de l’orthographe. Toutefois, au commencement
du XXe siècle, dans les échanges commerciaux, techniques et scientifiques, on voit
l’influence de l’anglais. Ainsi, cette époque est significative dans l’histoire de la langue
française dû à l’introduction d’un grand nombre de mots nouveaux liés aux médias, aux
technologies, aux sciences, etc. dans le domaine de mots composés.
Finalement, l’examen des combinaisons lexicales récurrentes montre que la majorité de ces
formes apparaissent dans chaque période étudiée. En général, elles sont formées à partir de
constituants de haute fréquence qui sont associés à des familles morphologiques de bonne
taille. Dans la plupart de ces combinaisons lexicales, un des constituants du mot composé est
représenté par un adjectif.
Dans la section suivante (Conclusion générale), je présenterai une synthèse des résultats de
mon travail, les difficultés rencontrées et les questions qui demeurent en suspens.
212
CHAPITRE 6
Conclusion
En guise de conclusion, je propose une synthèse des résultats obtenus au cours de la
recherche en discutant les problèmes rencontrés, les découvertes intéressantes, les questions
qui restent en suspens et les perspectives de recherche.
6.1 La productivité morphologique en composition Dans ce travail, j’ai étudié la productivité des noms composés en français selon l’approche
quantitative développée dans Baayen (1992, 1993), Baayen et Hay (2002) ; Baayen et Lieber
(1991), Baayen et Renouf (1996), Krott et al. (1999) et les travaux ultérieurs.
Le phénomène de la productivité morphologique est assez bien étudié en dérivation, surtout
en ce qui concerne l’anglais (Aronoff 1976 ; Baayen 1992, 2001 ; Bauer 1988, 2001, 2003 ;
Hay 2003 ; Plag 1999 ; Baayen et Hay 2002 ; Cowie et Dalton-Puffer 2002). Quelques
recherches ont également été effectuées sur la productivité des affixes en français,
notamment Corbin (1975, 1987), Dal (2003), Namer (2003), Grabar et al. (2006). Toutefois,
la productivité en composition est un domaine de recherche très peu exploré (Bauer 2008 ;
Estopà 2009 ; Fernandez-Dominguez 2007, 2009), surtout en français.
Dans le Chapitre 3, j’ai présenté la description de différentes théories de la productivité
morphologique qui existent actuellement. En général, la notion de productivité
morphologique peut être abordée sous un angle qualitatif ou quantitatif. D’un point de vue
qualitatif, la productivité est vue comme la capacité des règles morphologiques à former de
nouveaux lexèmes à partir de la disponibilité du processus morphologique (Bauer 2001 ; Dal
et al. 2008). Quant à l’aspect quantitatif, plusieurs méthodes à base de corpus ont été
proposées pour mesurer des aspects différents de la productivité (Baayen 1992, 1993 ;
Baayen et Hay 2002 ; Baayen et Lieber 1991 ; Baayen et Renouf 1996 ; Krott et al.1999).
213
En dérivation, la productivité morphologique est envisagée comme la capacité d’un affixe à
se joindre à des bases différentes visant à satisfaire une gamme de restrictions phonétiques,
morphologiques, sémantiques et syntaxiques. Par contraste, en composition, la sélection de la
base n’est pas reconnue comme étant importante, alors, il n’y a pas de restrictions sur les
bases ; la tête ne sous-catégorise pas un élément non-tête et elle ne le sélectionne pas.
Conséquemment, la productivité morphologique en composition est considérée plutôt comme
l’aptitude d’un type (gabarit) à créer de nouvelles unités lexicales.
Dans le Chapitre 4 j’ai présenté trois modèles quantitatifs qui ont été retenus pour mesurer
les différents aspects de la productivité des composés N-N, A-N, N-A et N-de-N dans un
grand corpus textuel. La première mesure utilisée est celle de la productivité P au sens strict
représentée par la formule P = n1/N. Elle est basée sur la notion d’hapax legomenon, soit une
forme qui n’apparaît qu’une fois dans un grand corpus (Baayen 1992, 1993, 2008 ; Baayen et
Lieber 1991 ; Baayen et Renouf 1996). Cette mesure appelée ‘indice de productivité’ prend
en considération le rapport entre le nombre d’hapax et le nombre total d’occurrences : plus
grand est le nombre d’hapax, plus productif est considéré le processus de composition. Ainsi,
le nombre d’hapax correspond à la probabilité de rencontrer de nouveaux types de lexèmes
qui n’ont pas été enregistrés dans les échantillons précédemment analysés (Baayen 1993).
La deuxième mesure est celle de la fréquence relative (Hay 2003), élaborée pour les mots
composés comme frelative = fcomposé / fbase. Cette mesure est basée sur le rapport entre la
fréquence du composé et la fréquence de ses constituants (les bases) : un niveau moins élevé
de FR indique que le composé représente une structure décomposable et potentiellement
productive (selon l’analogie avec la dérivation). En outre, utilisée en conjonction avec la
mesure P, la fréquence relative sert à raffiner l’interprétation des résultats obtenus et à
déduire la meilleure variante de FR pour les formes recensées. D’ailleurs, la mesure FR a
seulement été appliquée au processus de composition dans le travail de Fernandez-
Dominguez (2009) sur la productivité des composés N-N en anglais, qui s’est soldée par des
résultats peu concluants.
Enfin, la troisième mesure utilisée n’a jamais été appliquée à l’évaluation de la productivité
en composition ; c’est celle de la taille catégorielle T de la famille morphologique proposée
214
dans Baayen et Hay (2002) en dérivation. Elle considère la somme des tailles de la famille
morphologique des mots affixés formés avec un affixe particulier. Baayen et Hay (2002)
montrent en effet que l’augmentation de la taille de la famille catégorielle de l’affixe un- est
corrélée à l’abaissement du niveau de productivité morphologique des dérivés formés avec
cet affixe. Cette approche adaptée pour le calcul de la productivité en composition me permet
de mieux évaluer la productivité des formes recensées, en offrant une mesure supplémentaire
dont les résultats peuvent être comparés avec ceux obtenus pour les mesures P et FR.
6.2 Méthodes et corpus Pour mener à bien ma recherche sur la productivité en diachronie, j’ai choisi de travailler sur
un grand corpus textuel Frantext qui m’a permis de repérer un grand nombre de noms
composés et d’effectuer tous les calculs nécessaires à l’aide des mesures quantitatives
retenues.
6.2.1 Facteurs d’identification des mots composés en français
Dans le Chapitre 2, j’ai examiné quelques traits caractéristiques des mots composés français
qui ont été retenus pour la recherche. En premier lieu, pour différencier les formes recensées
des syntagmes nominaux (après-soinN vs soin après traitementSN) et des expressions
idiomatiques (mange-disqueN vs manger ses mots), j’ai eu recours au critère de l’atomicité
syntaxique proposé dans Di Sciullo et Williams (1987) et développé dans Brousseau et
Nikiema (2001). Selon ce critère, les constituants du mot composé ne peuvent pas être
conjoints, remplacés par une anaphore ou être modifiés.
En deuxième lieu, étant donné que la productivité des composés a été examinée en termes de
la position de la tête morphologique, j’ai utilisé le critère de l’hyponymie (Brousseau et
Nikiema 2001 ; Rainer et Varela 1992) pour identifier la tête des formes recensées.
Conformément à ce critère, la tête du mot composé est un hyperonyme du mot et le composé
est un hyponyme de sa tête. En outre, pour déterminer les formes exocentriques régulières,
j’ai fait appel à la notion de transparence/opacité sémantique en composition d’après laquelle
la tête logique de ce type de composés se trouve à l'extérieur du composé (e.g. blanc-
manteau est un religieux qui porte des vêtements blancs).
215
La productivité des formes recensées a été examinée en termes de leur structure interne et de
leur aspect régulier/irrégulier. Ainsi, deux groupes de composés ont été étudiés. Le premier
est formé de composés primaires dont la structure est sémantiquement transparente et
compositionnelle (chat-tigre, bel-outil, mestre de camp) et de composés exocentriques
réguliers dont la tête morphologique externe peut être inférée (claire-voie, blanc-manteau).
Le deuxième groupe inclut des exocentriques irréguliers dont la signification ne peut pas être
générée à partir des propriétés sémantiques et syntaxiques de leurs constituants (e.g. reine-
claude est une sorte de prune).
Finalement, l’identification de la base dans les formes recensées s’est avérée essentielle au
cours du travail puisque deux des trois mesures statistiques retenues devaient calculer la
fréquence de la base. Le Chapitre 2 expose la problématique de l’identification de la base en
composition qui n’est pas clairement définie dans les travaux récents en linguistique. Dans le
Chapitre 4, j’ai proposé d’explorer deux variantes possibles : l’une où la base est le
morphème libre qui n’est pas la tête du composé (par analogie avec les formes affixées) et
l’autre où tous les morphèmes libres sont considérés comme des bases.
6.2.2 Corpus et choix méthodologiques
Dans le Chapitre 4, j’ai décrit quelques procédures préparatoires de ma recherche. D’abord, à
l’étape initiale, j’ai créé une liste préliminaire de 1970 composés à trait d’union formée à
partir du Dictionnaire de la langue française de Littré (1877-1878). Ensuite, cette liste a été
réduite à 275 composés (177 réguliers et 98 irréguliers) de façon à éliminer les types
marginaux, peu représentatifs ou présentant des problèmes d’analyse, soit les emprunts
(aqua-toffana, horse-guard, etc.), les composés savants (gastro-conjonctivite, phréno-
glottisme, etc.), les mots dérivés par préfixation (mi-fruit, post-consulat, etc.), les composés à
plus de deux termes (e.g. non-plus-ultra, soupe-tout-seul, etc.), les composés V-N (porte-
plume, essuie-mains, etc.) et les composés peu courants (N-à-N, Adv-N, A-A, Dét-N, N-V,
Prép-N). Enfin, la liste définitive a regroupé quatre types de composés soumis aux
différentes mesures : N-N, A-N, N-A et N-de-N.
Pour valider la fréquence des formes recensées, j’ai eu recours à un grand corpus textuel
Frantext (plus de 170 millions de mots) dont 80 % sont des textes littéraires et 20 % sont des
216
textes techniques. Nous avons vu au Chapitre 4 que l’utilisation d’un corpus de grande taille
comme Frantext est cruciale pour appliquer les mesures quantitatives retenues. De plus, cette
base de données est très représentative puisqu’elle reflète des niveaux et des registres
différents de la langue française.
La fréquence d’occurrences des formes recensées a été calculée dans le corpus Frantext tant
de façon globale que pour les quatre périodes historiques établies à partir de jalons
importants dans l’histoire de la langue française (1606-1694 ; 1695-1798 ; 1799-1872 ; 1873-
1920). Le niveau de productivité des types N-N, A-N, N-A et N-de-N a été examiné en
termes de trois mesures retenues (P, T, FR).
Dans cette thèse j’ai soulevé la question d’une corrélation possible entre les différentes
mesures de productivité, soit P et T d’un côté, et P et FR de l’autre. Concernant les mesures
P et T, cette idée découle d'une nouvelle approche quantitative basée sur la taille de la famille
morphologique proposée précédemment en dérivation dans Baayen et Hay (2002), Moscoso
del Prado Martin et al. (2004), De Jong, Schreuder et Baayen (2000). Rappelons que selon
Baayen et Hay (2002), l’augmentation de la taille de la famille catégorielle de l’affixe un- est
corrélée à l’abaissement du niveau de productivité morphologique des dérivés formés avec
cet affixe. Quant au lien entre les mesures P et FR, il provient de l’hypothèse de Hay (2003)
en dérivation qui suggère que la fréquence relative plus basse entre le dérivé et sa base est un
indice de la décomposition du mot dérivé et de sa productivité morphologique plus élevée.
Pour vérifier les corrélations possibles entre les trois mesures de productivité retenues, j’ai
mené une étude-pilote basée sur 34 composés garde-x extraits de la base de données Gallica
(cf. le Chapitre 4).
En premier lieu, l’étude-pilote n’a pas révélé de corrélation entre la productivité P et la taille
catégorielle T de la famille morphologique pour ce type de composés. Le rapport direct entre
les mesures P et T (i.e. les formes possédant le niveau de productivité P le plus élevé
correspondent à la mesure de la taille catégorielle T la plus grande), a seulement été observé
dans 50 % des cas, soit pour deux périodes sur quatre (1695-1798 et 1873-1920).
217
En deuxième lieu, contrairement aux résultats de Hay (2003) obtenus en dérivation, aucun
rapport, direct ou indirect, entre les mesures P et FR n’a été observé dans les composés
garde-x. De la même manière la recherche n’a pas révélé de lien significatif entre la mesure
T et le critère FR pour ce type de composés. Ainsi, la corrélation directe entre ces mesures
(i.e. le taux FR le plus faible correspond à la mesure T la plus petite) a été observée au cours
des années 1606-1694 et 1799-1872, soit dans 50% de cas analysés.
Par conséquent, l’étude-pilote a soulevé la question suivante : est-ce qu’il existe une
corrélation possible entre les différentes mesures de productivité en composition ? J’ai
suggéré que les résultats peu concluants de l’étude-pilote peuvent s’expliquer soit par le
nombre réduit de formes analysées (34) soit par le fait qu’un seul sous-type de composés ait
été examiné.
6.2.3 Problèmes rencontrés
Parmi les problèmes rencontrés au cours de mon travail, l’identification de la base a
représenté une difficulté majeure.
Rappelons que contrairement à la dérivation où la notion de la base est établie d’une manière
claire comme un morphème libre qui, dans la plupart des cas, n'est pas la tête morphologique
du mot affixé, il n’existe pas de consensus sur ce qui constitue une base en composition.
Théoriquement, en prenant comme point de départ les propriétés de la base dans les mots
dérivés, la base en composition peut être identifiée de deux façons différentes : soit le
morphème libre qui n'est pas la tête du composé, soit tout morphème libre. En conséquence,
j’ai décidé de tester toutes les variantes de bases disponibles dans le calcul de la fréquence
relative, pour finalement retenir la variante FR3.
En fait, comme on l’a vu au Chapitre 5, il s’est avéré difficile de déduire un rapport fiable
entre les mesures FR et P. Même si le critère FR peut être pertinent pour évaluer la
productivité en composition selon Hay (2003) (cité dans Fernandez-Dominguez 2009 :142),
l’interprétation des résultats statistiques est très peu documentée et peu étudiée. En fait, à
l’exception du présent travail, le facteur FR n’a été utilisé qu’une seule fois dans l’étude de la
productivité des composés N-N en anglais (Fernandez-Dominguez 2009 :145). Son
218
application a révélé des résultats contradictoires : les composés formés au moyen des
prédicats HAVE et MAKE, considérés généralement comme productifs, sont ressortis parmi
les moins productifs.
Ce problème est en partie lié au fait que les deux mesures s’appliquent à des objets
différents : dans le présent travail, la mesure P a été évaluée par types (i.e. il était impossible
de mesurer la productivité de chaque forme recensée séparément à cause du nombre trop
petit d’hapax observés). Par contre, le critère FR a été d’abord évalué pour chaque composé
particulier (e.g. chou-fleur), puis les valeurs moyennes de FR ont été comparées avec les
mesures P (i.e. la fréquence relative moyenne du type N-N a été comparée avec son niveau
de P par période). En outre, contrairement à la dérivation, où la fréquence de la base est
souvent plus basse que celle du dérivé, dans la majorité des formes recensées (96.2 %) les
bases sont plus fréquentes que le mot composé ; dans 5.8 % des cas, la fréquence des bases et
celle du mot composé sont égales. Aucun cas où la fréquence des bases est inférieure à celle
du composé n’a été observé. Ainsi, la différence concernant le ratio entre la fréquence de la
base et celle du mot complexe en dérivation et composition peut expliquer l’absence de
corrélation inverse entre les mesures FR et P dans les composés analysés.
En conséquence, étant donné qu’en composition la productivité P de chaque forme ne peut
pas être évaluée isolément, et que plusieurs sous-types sont formés d’une seule forme (i.e.
croix-N ; épine-N ; claire-N ; rond-N ; arc-N ; eau-de-N ; etc.), il n’y avait pas de meilleure
façon de procéder pour établir les corrélations possibles entre les mesures FR et P.
Finalement, au regard des difficultés d’analyse du niveau de productivité des formes
recensées, il faut mentionner le cas du type N-de-N. En premier lieu, ce groupe de composés
était peu fréquent dans le corpus (cinq formes régulières et 22 formes irrégulières), ce qui
suggère à priori que les résultats obtenus doivent être considérés avec prudence, voir même
ignorés. Selon Sigley (1997), pour que les propriétés de P soient mathématiquement
significatives, le total des formes analysées doit être minimalement au nombre de 50. En
deuxième lieu, il apparaît que les données liées à la mesure P pour les composés N-de-N
réguliers sont assez lacunaires (i.e. le manque de données pour deux périodes sur quatre), ce
qui a rendu difficile l’examen de la corrélation entre P et T d’un côté, et P et FR de l’autre.
219
En outre, la majorité des composés N-de-N étaient irréguliers, donc considérés non-
productifs selon la notion qualitative de productivité (Bauer 2001).
Parmi les autres cas où N est inférieur à 50 il faut mentionner surtout les composés qui
apparaissent dans les années 1606-1694 : les N-N avec la tête à droite (N1 = 33) ; les A-N
exocentriques réguliers (N1 = 7), les N-A exocentriques réguliers (N1 = 1) et les
appositionnels (N1 = 6).
Le problème soulevé par un nombre de composés dont N est inférieur à 50 tient à la formule
P = n1/N. Le dénominateur N correspond au nombre total d’occurrences des formes
recensées ; donc, si N est inférieur à 50, il est possible que le taux de productivité de ces
formes soit surestimé à cause du nombre faible d’occurrences. Notons également que dans
deux cas sur trois où on observe le manque de la corrélation inverse entre les mesures P et T,
le nombre d’occurrences N est inférieur à 50.
Ainsi, je suggère que tous les cas où la valeur N est inférieure à 50 ne doivent pas être pris en
compte pour le calcul de la mesure P. En fait, Gaeta et Ricca (2003 : 95-99) proposent une
approche à corpus variable (cité aussi dans Dal et al. 2008 : 1527) selon laquelle on mesure
la productivité des formes recensées en utilisant de sous-corpus dont le nombre
d’occurrences est comparable pour chaque procédé morphologique étudié (ce qui en fait est
difficile à réaliser).
En outre, je pense que les données fort lacunaires de la mesure P dans le cas des N-de-N
réguliers (i.e. le manque de données pour les périodes 1695-1798 et 1873-1920) peuvent
également fausser les résultats. Les mesures pour les N-de-N ne devraient pas non plus être
pris en considération.
6.3 Résultats Pour analyser le rôle de différents facteurs dans la productivité des formes recensées (i.e. la
position de la tête morphologique, le statut régulier/irrégulier, la structure interne, la taille de
la famille morphologique) et établir les corrélations possibles entre les trois mesures de
productivité retenues (i.e. P, T, FR), quatre hypothèses ont été avancées au chapitre 5.
220
6.3.1 Les hypothèses
La première hypothèse concerne le lien entre la productivité des composés, leur statut
régulier/irrégulier et la position de la tête morphologique. Selon cette hypothèse, les
composés avec la tête à gauche et les composés réguliers sont les formes les plus
productives. Cette hypothèse est liée à l’aspect qualitatif de productivité, selon lequel les
formes irrégulières ne forment pas de patrons productifs et elles doivent être stockées dans la
mémoire (Bauer 2001). En outre, en synchronie, la plupart de composés français ont la tête
morphologique à gauche et ils sont généralement considérés comme ayant la plus forte
productivité que ceux dont la tête est à droite (Gross 1996 ; Mathieu-Colas 1994 ; Brousseau
et Nikiema 2001).
En fait, il est apparu que l’hypothèse #1 a été confirmée partiellement. L’étude a révélé que
contrairement au concept qualitatif de productivité, les exocentriques réguliers (i.e. des
formes moins transparentes que les endocentriques) sont les structures les plus productives.
Le taux de productivité de ce type de composés est considérablement plus élevé que celui des
endocentriques: 6.6 fois plus haut que celui des endocentriques avec la tête à gauche66 et 21
fois plus haut que celui des endocentriques avec la tête à droite. Les appositionnels
représentent les formes les moins productives. Ces résultats inattendus confirment
l’hypothèse de Bauer (2008) selon laquelle, les composés exocentriques réguliers en français
peuvent être productifs (cf. 5.5). Toutefois, rappelons que les données obtenues sont à
interpréter avec une certaine précaution. En effet, le nombre d’occurrences des exocentriques
réguliers A-N et N-A est souvent inférieur à 50 (i.e. les A-N (1606-1694) ; les N-A (1606-
1694, 1695-1798, 1799-1872). Finalement, la productivité élevée des exocentriques réguliers
peut être expliquée par leur nombre d’occurrences assez bas (N = 701) dans Frantext en
comparaison avec d’autres types de composés : 2833 composés avec la tête à gauche, 25 618
composés avec la tête à droite et 9675 exocentriques irréguliers. Ainsi, l’indice de N
particulièrement bas a pu contribuer à une valeur de P exagérément élevée pour ce type de
composés.
66 Par contre, dans la base de données de Bourque (2012), le nombre d’unités polylexicales endocentriques avec la tête à gauche constitue 80% (voir http ://polylexical.com).
221
Quant à l’aspect régulier/irrégulier, j’ai établi que les formes régulières sont plus productives
que les formes irrégulières dans les composés analysés, tel que prédit par l’hypothèse #1.
Ainsi, ces résultats confirment la notion qualitative de la productivité, selon laquelle les
formes régulières forment des patrons productifs.
La deuxième hypothèse porte sur le lien entre la productivité des mots composés et leur
structure interne. Selon cette hypothèse, les types N-N et N-de-N sont les structures les plus
productives. Cette hypothèse provient des travaux de Mathieu-Colas (1994), Brousseau et
Nikiema (2001) et Bourque (2012)67 qui considèrent ces structures comme les plus
productives en synchronie. J’ai montré que l’hypothèse #2 a été appuyée partiellement par
les résultats de l’étude. Le type N-N est effectivement le type le plus productif
indépendamment de la période analysée, mais les données lacunaires ne permettent pas de
statuer sur les N-de-N réguliers.
La troisième hypothèse prédit une corrélation inverse entre la productivité et la taille
catégorielle de la famille morphologique : le taux de productivité le plus élevée coïncide avec
la taille catégorielle la plus basse. Cette hypothèse découle des travaux de Baayen et Hay
(2002), De Jong, Schreuder et Baayen (2000), Moscoso del Prado Martin et al. (2004). À
l’examen, il est apparu que l’hypothèse # 3 a été confirmée globalement : 12 cas sur 13, soit
92% (trois des 16 cas n’ont pas de valeur pour P) et même à 100 % pour trois types sur
quatre. La seule exception est le type A-N pour la période 1799-1872, où la croissance du
niveau de productivité (P3 = 0.0010) coïncide avec l’augmentation de la taille catégorielle de
la famille morphologique (T3 = 119.77). L’application des deux mesures de productivité (P
et T) a permis de raffiner les résultats obtenus, chaque mesure confirmant l’autre, pour les
cas où le nombre d’occurrences N est inférieur à 50.
Enfin, la quatrième hypothèse visait à établir une corrélation possible entre P et FR. J’ai
prédit que les composés dont la fréquence relative est plus basse sont plus productifs que
ceux dont la fréquence relative est plus élevée (par analogie avec la dérivation). Cette
67 Le nombre de ces structures dans la base de données de Y. Bourque (2012) se distribue de la façon suivante : 4133 N-N et 2668 N-de-N sur un total de 10,471 mots composésa (voir http ://polylexical.com).
222
hypothèse n’a pas été confirmée dans cette étude. Les résultats montrent que la meilleure
variante pour le calcul de la fréquence relative en composition est la mesure FR3 (i.e. la
somme des fréquences des deux constituants) qui apparait dans 56 % de cas possibles de
corrélation inverse entre P et FR. En outre, la corrélation entre P et FR3 est plus présente
(67 %) pour les composés réguliers que pour les irréguliers. D’une part, ce résultat coïncide
bien avec la notion qualitative de productivité (Bauer 2001 ; Hay 2001 ; Baayen et Lieber
1991) selon laquelle seulement les formes régulières (i.e. les formes décomposables) peuvent
former des patrons productifs. D’autre part, ce résultat correspond de façon cohérente à celui
obtenu pour la mesure T qui a révélé la présence de la corrélation inverse presque parfaite
entre P et T pour les composés réguliers. Donc, en dépit du fait que l’hypothèse #4
concernant une corrélation entre FR et P ne soit pas confirmée en composition (i.e. le
pourcentage de cas marqués pour la mesure FR3 est moins de 60 %), les données obtenues
permettent d’offrir une réponse à la question de l’identification de la base en composition
(Bauer 1983, 2001 ; Dressler 2006 ; Spenser 1991 ; Krott et all. 1999) (cf. § 2.2.5 ; § 4.3.5).
Étant donné que la corrélation entre P et FR3 est plus marquée pour les composés réguliers
(67%) et que la recherche a révélé la présence de la corrélation inverse presque parfaite
(92%) entre P et T pour le même type de composés, je suggère qu’en composition chaque
constituant du mot composé doit être considéré aux fins du calcul de la fréquence relative.68
Toutefois, le critère FR3 sert plutôt à établir la présence de la productivité (i.e. la
décomposition du composé) qu’à évaluer son degré.
La question centrale de cette thèse est celle de la fiabilité de la mesure de productivité P au
sens strict. En fait, cette mesure a beaucoup été critiquée en termes de taille et de
représentativité du corpus utilisé (Bauer 2001), de disponibilité du processus morphologique
analysé (Bauer 2001), de représentativité des formes analysées (van Marle 1992) et du choix
même des hapax (Dal 2003) comme correspondant à des néologismes (et non pas des mots
rares). Ainsi, la recherche visait à répondre à la question suivante : la mesure P au sens strict
68 Toutefois, la notion de la base est uniquement importante en dérivation, où les mots dérivés sont formés d’un élément de la classe ouverte (i.e. la base) combiné à une catégorie de classe fermée (i.e. l’affixe). Les constituants du composé font partie d’une classe ouverte d’éléments morphologiques ; donc, la référence à la base en composition n’a pas vraiment de statut théorique.
223
est-elle suffisamment fiable comme seul moyen de calcul de la productivité en composition?
Compte tenu de quelques résultats imprévus (i.e. la productivité élevée des composés
exocentriques irréguliers, la productivité élevée des composés dont le nombre d’occurrences
est inférieur à 50), je suggère la réponse suivante à cette question : en composition, il est
risqué d’utiliser P comme seule mesure d’évaluation de la productivité. Cette mesure doit
être complétée, confirmée par au moins une autre mesure, au moins dans les cas où les
nombres en présence ne sont pas assez élevés.
Ce problème se pose lorsque le nombre d’occurrences est inférieur à 50. Il est apparu que
dans tous les cas où le nombre d’occurrences de formes recensées est inférieur à 50, le
niveau de productivité P est trop élevé. C'est le cas, par exemple, des composés N-N avec la
tête à droite (N1 = 33 vs P1 = 0.1515) ; des exocentriques réguliers A-N (N1 = 7 vs
P1 = 1.0000) ; des exocentriques réguliers N-A (N1 = 1 vs P1 = 1.0000 ; N2 = 2 vs
P2 = 0.5000 ; N3 = 6 vs P3 = 0.1667) et des composés N-de-N avec la tête à droite (N1 = 1
vs P3 = 1.0000). Toutefois, d’après Sigley (1997), toutes les données où N est inférieur à 50
doivent être considérées avec prudence. Donc, dans les cas mentionnés ci-dessus, il est
crucial d’avoir une autre mesure, soit la mesure T, pour garantir des résultats fiables.
D’ailleurs, comme le travail l’a montré, la mesure P utilisée conjointement avec la mesure T
augmente la fiabilité des résultats de l’étude (i.e. la corrélation inverse entre P et T est
presque parfaite sauf un cas dans les composés A-N au cours de la période 1799-1872). Par
conséquent, une proposition clé qui découle de la présente étude est la suivante : quand la
corrélation entre P et T est visible, la mesure P peut être utilisée avec confiance, même si le
nombre d’occurrences est relativement bas. Donc, la réponse à la question centrale de cette
thèse est que la mesure P fonctionne adéquatement pour évaluer la productivité des mots
composés en français.
Il semble que la raison pour laquelle la mesure T fonctionne presque parfaitement avec la
mesure P est que le concept sémantique d’une famille morphologique (i.e. mesure T)
coïncide très bien avec la notion qualitative de productivité (cf.3.1). Ainsi, chaque
constituant du composé contribue à l’activation des autres membres de sa famille
morphologique dans le lexique. Par ailleurs, chaque nouveau mot formé avec le mot de base
224
(constituant) via la dérivation ou la composition contribue au traitement lexical du composé
(i.e. sa décomposition) et au niveau de sa productivité globale. Par conséquent, la capacité
des règles morphologiques à former de nouveaux lexèmes (i.e. patrons productifs) est liée
aux différentes représentations des membres d'une famille morphologique. Néanmoins, dans
le présent travail, seulement les composés réguliers ont été évalués par rapport à la
corrélation entre la productivité P et la taille catégorielle T de la famille morphologique.
Donc, pour conclure sur la productivité des irréguliers, il faudrait comparer leurs mesures P
et T. Étant donné que la mesure T est liée à l’aspect qualitatif de productivité, je suggère
qu’il n’y aura pas de corrélation inverse entre les mesures P et T : l’augmentation de la taille
de la famille catégorielle ne coïncidera pas avec l’abaissement de productivité du composé.
Cette question doit certainement être étudiée davantage.
Par ailleurs, la corrélation inverse associée au critère de la fréquence relative FR n’a pas été
confirmée en composition. Je propose que ce phénomène puisse être expliqué par les faits
suivants. En premier lieu, la mesure FR est plutôt basée sur l’aspect quantitatif de
productivité (i.e. le quotient entre la fréquence du dérivé et celle de sa base). En deuxième
lieu, contrairement à la dérivation où la fréquence de la base est généralement moins élevée
que celle d’un mot affixé, en composition, la fréquence de la base dépasse celle du mot
composé. En outre, la productivité des mots affixés est envisagée comme l’aptitude d’un
affixe à s’attacher à des bases différentes dont la sélection est limitée par certaines
restrictions phonétiques, morphologiques, sémantiques et syntaxiques. Par contre, en
composition, ces restrictions n’existent pas ; la tête ne sous-catégorise pas un élément non-
tête et elle ne le sélectionne pas. Conséquemment, la productivité des mots composés dépend
plutôt de la capacité du patron (type) productif de créer de nouvelles unités lexicales.
Ainsi, le fait que dans le présent travail le facteur FR ne fonctionne ni pour les formes
régulières ni irrégulières et que l’application de la mesure FR dans le travail de Fernández-
Domínguez (2009) aboutit à des résultats inconcluants, permet de tirer la conclusion
suivante : le statut de FR est différent en composition et en dérivation. Bien qu’en dérivation
le facteur FR sert à mesurer le taux de productivité des affixes dérivationnels, en
composition, la mesure FR peut être envisagée plutôt comme un critère permettant de
225
percevoir la différenciation entre les formes potentiellement productives (i.e. décomposables)
et les formes non-productives, lexicalisées (i.e. non-décomposables).
En guise de conclusion, je suggère que la mesure T est cruciale pour renforcer la mesure P,
mais que le critère FR ne joue pas un grand rôle dans l’évaluation du taux de productivité en
composition.
6.3.2 Étude diachronique des composés
Dans le Chapitre 5, j’ai montré que le processus de composition en français était le plus
productif au cours des années 1606-1694, indépendamment du type de composés ou de la
position de la tête morphologique. Plusieurs néologismes ont été créés à cette époque-là en
France ; le grand nombre d’hapax dans le corpus Frantext reflète ce phénomène. Pourtant, le
nombre élevé d’hapax au XVIIe siècle est en quelque manière exagéré : cela est dû au fait
que tous les hapax de cette période ont été traités comme de vrais hapax, ce qui n’est pas le
cas pour les autres périodes. Par ailleurs, les années 1695-1798 étaient aussi assez favorables
pour la langue française (i.e. l’apparition du Dictionnaire de l'Académie française (1694) ; la
création de normes linguistiques par l'Académie française), néanmoins, toutes les formes
recensées ont subi une chute considérable de productivité, variant entre 78 % et 91 %. Quant
à la période 1799-1872, la productivité des noms composés y connaît un autre
affaiblissement de 48 % malgré l’épanouissement du vocabulaire français dans les domaines
de la science, de la presse et des affaires. Finalement, la période 1873-1920 se caractérise par
une stabilisation: en comparaison avec la période précédente, le niveau de productivité
s’abaisse très légèrement (-8 %). Néanmoins, vu que le vocabulaire présenté dans le
dictionnaire de Littré est limité par l’année 1830, la quatrième période est certainement sous-
représentée par rapport à l’occurrence des néologismes.
Quant à la structure interne des formes recensées, le type N-N apparaît comme le type le plus
productif tout au long des années 1606-1920, suivi par les composés N-A et A-N. En
revanche, les données sur la productivité des composés N-de-N n’ont pas permis de
confirmer leur statut productif (Bourque 2012; Brousseau 2001 ; Gross 1996) de façon fiable
à cause de données fort lacunaires pour la mesure P et un nombre réduit (27) de formes
analysées.
226
En ce qui concerne la position de la tête morphologique, l’étude a révélé la productivité
élevée des composés exocentriques réguliers tout au cours de quatre périodes analysées, un
résultat qui a de quoi surprendre. Globalement, le taux de productivité de toutes les structures
recensées diminue progressivement entre 66 % et 99 % au cours des années 1695-1920.
Néanmoins, des résultats imprévus ont également été observés. En premier lieu, la période
1799-1872 se caractérise par la modification la plus marquée du niveau de productivité des
composés avec la tête à gauche. Cette structure généralement considérée comme étant la plus
productive en synchronie (Mathieu-Colas 1994 ; Brousseau et Nikiema 2001) se révèle la
deuxième plus productive dans les années 1606-1798. Elle subit une baisse considérable de
productivité (-88 %) dans les années 1799-1872, devenant la structure la moins productive.
En outre, la productivité des exocentriques irréguliers augmente énormément (+208 %) au
cours des années 1873-1920.
Quant à la productivité élevée des exocentriques réguliers, elle peut être expliquée par
l’hypothèse de Bauer (2008) selon laquelle ces structures peuvent être envisagées comme des
formations productives en français. Par contre, leur fréquence d’occurrences assez basse tout
au cours de quatre périodes analysées doit nous inciter à la prudence dans l’interprétation des
résultats. Par ailleurs, le changement considérable dans la productivité des endocentriques
avec la tête à gauche pendant la troisième période est un résultat imprévu. D’une part, la
troisième période se caractérise par un nombre assez élevé d’occurrences (i.e. N = 1251) et le
nombre réduit d’hapax, ce qui résulte se solde par une productivité réduite. D’autre part, je
suggère que le décalage considérable de la productivité des endocentriques avec la tête à
gauche dans les années 1799-1872 est possiblement causé par un changement diachronique
dans la structure interne des patrons productifs (i.e. des endocentriques vers des
exocentriques).
Finalement, la productivité élevée des exocentriques irréguliers, surtout pendant la quatrième
période, soulève quelques questions importantes. Premièrement, selon la notion qualitative
de productivité (Bauer 2001 ; Hay 2001 ; Baayen et Lieber 1991), les exocentriques
irréguliers sont considérés comme des formes opaques (indécomposables) qui ne forment pas
de patrons productifs. En outre, ces structures sont à priori envisagées comme non-
productives en synchronie (Brousseau 2001 ; Gross 1996 ; Mathieu-Colas 1994). De plus,
227
selon la théorie du stockage exhaustif de Butterworth (1983), les formes irrégulières
lexicalisées sont stockées dans la mémoire et elles sont reconnues de façon globale.
Il semble important, surtout en ce qui concerne l’étude diachronique, de niveler la taille des
corpus à l’intérieur des types de composés différents (i.e. réguliers vs irréguliers) en prenant
en compte leur nombre d’occurrences N. En fait, l’étude a révélé que le nombre total de
composés réguliers (N=29 665) est 3 fois plus élevé que celui des irréguliers (N=9675) (cf.
5.2.5.3). Ce phénomène est surtout observé pour les N-N et A-N irréguliers dont le nombre
d’occurrences dans Frantext est respectivement sept fois (404 vs 2944) et cinq fois (4802 vs
24 696) plus bas que celui des réguliers. Conséquemment, la basse valeur générale de N et
l’absence de grande différence entre le nombre d’hapax pour les réguliers (n1=57) et
irréguliers (n1=36) peuvent expliquer une valeur de P exagérée pour les composés irréguliers.
Enfin, les résultats pour la quatrième période, où les néologismes sont clairement sous-
représentés (vu que le vocabulaire du Littré est limité par l’année 1830), ne représentent
certainement pas le taux réel de productivité des exocentriques irréguliers à cette époque-là.
Quant aux combinaisons lexicales récurrentes parmi les formes recensées, j’ai montré que
ces structures sont généralement formées avec des constituants de haute fréquence qui sont
associés avec de grandes familles morphologiques. Dans la plupart de ces combinaisons, un
des constituants est un adjectif. La majorité de combinaisons lexicales récurrentes (31 sur 40)
ressort dans chaque période étudiée. Neuf combinaisons (franc-N, faux-N, vide-N, belle-de-
N, chat-N, chef-N, chou-N, dur-N, gorge-de-N) sont observées pendant trois périodes
successives (1695-1798 ; 1799-1872 ; 1873-1920). Les combinaisons lexicales récurrentes
apparaissent plus rarement dans les années 1606-1694 (i.e. la période dont la taille du corpus
est la plus petite). La suggestion suivante découle de ces résultats : du point de vue
quantitatif, il est important non seulement de considérer la taille du corpus de départ, mais
également de garder la cohérence et l’uniformisation quantitatives des sous-corpus utilisés.
Pour conclure, l’étude diachronique m’a permis de raffiner le statut d’hapax en distinguant
les vrais hapax (i.e. des néologismes potentiels) des faux hapax (i.e. des mots rares).
Conséquemment, l’étude diachronique a contribué à la fiabilité de la mesure P en éliminant,
228
pour trois des quatre périodes, le problème des mots rares, un problème soulevé par (Dal
2003).
6.4 Questions et futures pistes de recherche À l’issue de ce travail, quelques questions restent en suspens et ouvrent des pistes pour les
recherches futures.
Une perspective qui mérite d'être explorée concerne l’application de la mesure de
productivité P selon un nombre spécifique de structures analysées. Il découle de ce travail
que l’indice P dépend fortement de la taille des sous-corpus utilisés et, potentiellement, du
nombre de formes examinées. D’ailleurs, il est apparu que les composés N-de-N envisagés
préalablement comme des structures assez productives, du moins en synchronie, représentent
le type le moins productif. Il suit de mon analyse que ces résultats peuvent potentiellement
être liés au nombre assez petit de structures analysées dans ce type de composés (i.e. il est
trois fois plus petit que celui des N-N et cinq fois inférieur à celui des A-N).
Conséquemment, il est possible que ces données puissent être différentes si le nombre de
composés N-de-N était relativement similaire à celui des autres structures analysées. Donc, la
question liée au nombre de structures dans chaque type analysé doit être explorée davantage.
En outre, il serait intéressant de pouvoir examiner le rôle de la taille de sous-corpus dans le
calcul de la productivité des formes recensées. En effet, les tailles des sous-corpus ne sont
pas homogènes : 1606-1694 = 17 303 466 mots ; 1695-1798 = 34 393 102 mots ; 1799-1872
= 40 823 334 mots ; 1873-1920 = 27 568 502 mots. La première et la quatrième période
représentent un nombre de mots inférieur aux autres. Le nombre élevé d’hapax (n1 = 42)
pendant la première période peut être lié au fait que tous les hapax de cette période ont été
traités comme de vrais hapax. Pour la quatrième période (n1 = 11), le nombre de
néologismes recensés est certainement inférieur à ce que le corpus contient réellement vu que
seuls les mots du Littré (limités par l’année 1830) ont été retenus. Alors, une étude sur la
productivité des composés N-N, A-N, N-A et N-de-N en utilisant des sous-corpus de tailles
comparables pourrait être considérée comme un autre pôle d’investigation de la recherche
future.
229
Le corpus textuel Frantext est formé principalement de textes littéraires (80%), alors que les
composés productifs représentent généralement des formations lexicales quotidiennes. Il
serait intéressant de comparer les résultats obtenus à ceux qui proviennent d’un corpus du
français journalistique. Toutefois, ce type de corpus n’existe pas pour les périodes antérieures
à 1920. Les deux corpus du français journalistique les plus utilisés actuellement sont: Le
Corpus Chambers-Rostand du français journalistique (environ 1 million mots) qui inclut des
articles parus en 2002-2003 dans les journaux Le Monde, L'Humanité, La Dépêche du Midi
et un corpus du journal Le Monde (plus de 25 millions mots) constitué des articles parus en
1995. Du point de vue de la recherche future, l’utilisation de deux types de corpus
comparables (littéraire et journalistique) (à partir du XXe siècle) est souhaitable, car cela
permettrait d’explorer l’influence de la langue littéraire et de la langue journalistiques sur la
l’usage de néologismes en composition française.
La productivité élevée des exocentriques réguliers doit être explorée davantage dans la
recherche future. Il est possible que certains composés exocentriques soient réanalysés
comme endocentriques (Scalise, Fábregas et Forza 2009 ; Scalise et Fábregas 2010). Selon
Scalise et al. (2009), pour que le composé soit défini comme endocentrique il suffit, qu’une
seule propriété soit transmise de la tête au composé. Conséquemment, ils proposent qu’il
existe trois types de composés exocentriques basés sur les propriétés catégorielles,
sémantiques et morphologiques de la tête (i.e. les composés catégoriellement exocentriques,
morphologiquement exocentriques et sémantiquement exocentriques). Scalise et al. (2009),
suggérèrent que l’aspect sémantico-exocentrique est indépendant des deux autres types
Compte tenu des limites de cette étude, je n'ai pas analysé les composés exocentriques selon
l’approche de Scalise et al. (2009), Scalise et Fábregas (2010). Cependant, cette approche
concernant la définition des composés exocentriques mérite certainement de pouvoir être
explorée dans les recherches futures. Il me semblerait intéressant, dans l'avenir, d’appliquer
cette méthode pour une réanalyse possible de certaines formes exocentriques.
Le niveau de productivité des composés N-N réguliers avec la tête à droite lors des années
1606-1694 a été un résultat inattendu. Il se peut que les composés français aient subi un
changement diachronique dans leur structure interne (de la tête à droite vers la tête à gauche)
dans les années 1695-1798. Étant donné que la période 1695-1798 englobe plus de cent ans,
230
il est souhaitable de déterminer plus précisément le moment quand ce changement
diachronique s’est passé au XVIIIe siècle. Il me semblerait intéressant, dans l'avenir,
d'explorer la productivité des composés N-N avec la tête à droite par rapport aux années
antérieures (1500-1605) et pendant les différentes décennies du XVIIIe siècle. Cette question
est sans doute à garder pour les recherches futures.
En outre, la question reste encore ouverte de savoir si la différence entre la productivité des
composés N-A (plus productifs) et des A-N (moins productifs) peut être lié aux propriétés
syntaxiques des syntagmes nominaux équivalents. La majorité de composés A-N sont formés
à partir d’une liste restreinte d’adjectifs qui sont les modifieurs employés en position pré-
nominal dans la syntaxe (i.e. petit, grand, court, haut, etc.). Certaines de ces formes
représentent des composés listés (bel-outil, basse-cour, petit pain, haut-parleur, etc.). Par
contre, la plupart des adjectifs dans le type N-A (coffre-fort, comédie musicale, terre-plein,
etc.) s’emploient toujours en position postnominale en syntaxe et ils ne font pas partie de la
liste restreinte d’adjectifs.
De plus, parmi les combinaisons lexicales les plus courantes, le nombre de combinaisons
lexicales N-A (6) est de trois fois inférieur à celui des combinaisons A-N (18). Ainsi, les
composés formés avec des adjectifs de basse fréquence (i.e. arc-boutant, aigue-marine, bec-
courbe, etc.) forment des familles morphologiques plus petites; conséquemment, leur niveau
de productivité est plus élevé. Enfin, l’absence de restriction selon la position dans la syntaxe
combinée à la basse fréquence de la majorité des adjectifs dans les structures N-A contribue
potentiellement au niveau de productivité plus élevé pour ce type de composés en
comparaison avec le type A-N.
L’analyse de la corrélation entre les mesures P et T proposée dans cette thèse a abordé
uniquement les composés réguliers. Il serait intéressant d’appliquer les mesures P et T aux
composés irréguliers et de comparer les résultats avec les données obtenues pour les
composés réguliers.
En conclusion, rappellons que le phénomène de la productivité est très peu étudié en
composition. J’espère avoir apporté une contribution significative à l’étude des mots
composés en français, à l’évolution diachronique de leur productivité, ainsi qu’à l’utilisation
231
de différentes méthodes statistiques pour mesurer la productivité morphologique en
composition. D’ailleurs, la richesse et la diversité de données présentées en annexe
pourraient constituer une bonne piste de recherche pour une étude approfondie de la
productivité des composés français qui n’ont pas été inclus dans ce travail.
232
Références bibliographiques Amiot, Dany. 2005. Between Compounding and Derivation : Elements of Word Formation
Corresponding to Prepositions. Dans Morphology and its Demarcations : Selected Papers from the 11th Morphology Meeting, Vienna, February 2004, sous la direction de Wolfgang U. Dressler, Dieter Kastofsky et Franz Rainer, 183-196. Amsterdam : John Benjamins.
Amiot, Dany et Georgette Dal. 2008. La composition néoclassique en français et ordre des constituants. Dans La composition dans les langues, sous la direction d'Amiot Dany, 89-113. Arras : Artois Presses Université.
Anshen, Frank et Mark Aronoff. 1989. Morphological Productivity, Word Frequency and the Oxford English Dictionary. Dans Language Change and Variation, sous la direction de Ralph Fasold et Deborah Schriffin, 197-202. Amsterdam/Philadelphie : John Benjamins.
Anshen, Frank et Mark Aronoff. 1998. Morphology and the Lexicon : Lexicalization and Productivity. Dans The Handbook of Morphology, sous la direction de Andrew Spenser et Arnold Zwicky, 237-247. Oxford : Blackwell.
Anscombre, Jean-Claude. 1990. Pourquoi un moulin à vent n’est pas un ventilateur. Langue Française 86 : 103-125.
Arnaud, Pierre J. L. 2003. Les composés timbre-poste. Lyon : Presses Universitaires de Lyon.
Aronoff, Mark. 1976. Word Formation in Generative Grammar. Cambridge, MA : The MIT Press.
Aronoff, Mark. 1980. The Relevance of Productivity in a Synchronic Theory of Word Formation. Dans Historical Morphology, sous la direction de Fisiak Jacek, 71-83. La Haye : Mouton.
Aronoff, Mark. 1983. Potential Words, Actual Words, Productivity and Frequency. Dans Proceedings of the 13th International Congress of Linguistics, sous la direction de Hattori Shiro et Inoue Kazuko, 163-171. Tokyo : The Linguistic Society of Japan.
Aronoff, Mark et Kirsten Fudeman. 2005. What is Morphology? Oxford : Blackwell.
Assink, Egbert et Sandra Dominiek. 2003. Reading Complex Words : Cross-Language Studies. New York : Kluwer/Plenum.
Ayres-Bennett, Wendy. 2004. Sociolinguistic Variation in Seventeenth-Century France : Methodology and Case Studies. Cambridge : Cambridge University Press.
Baayen, Harald R. 1992. Quantitative Aspects of Morphological Productivity. Dans Yearbook of Morphology, sous la direction de Geert Booij et Jaap van Marle, 109-149. Dordrecht : Kluwer.
Baayen, Harald R. 1993. On Frequency, Transparency and Productivity. Dans Yearbook of Morphology, sous la direction de Geert Booij et Jaap van Marle, 181-208. Dordrecht : Kluwer.
233
Baayen, Harald R. 1994. Productivity in Language Production. Language and Cognitive Processes 9 : 447-469.
Baayen, Harald R. 2005. Data Mining at the Intersection of Psychology and Linguistics. Dans Twenty-First Century Psycholinguistics : Four Cornerstones, sous la direction de Anne Cutler, 69-83. Hillsdale, NJ : Erlbaum.
Baayen, Harald R. 2009. Corpus Linguistics in Morphology : Morphological Productivity. Dans Corpus Linguistics : An International Handbook, sous la direction de Anke Lüdeling et Merja Kytö, 900-919. Berlin : Mouton De Gruyter.
Baayen, Harald R. et Jennifer Hay. 2002. Affix Productivity and Base Productivity. Communication présentée au Morphological Productivity Seminar, ESSE 6, Strasbourg.
Baayen, Harald R. et Rochelle Lieber. 1991. Productivity and English Derivation : A Corpus-Based Study. Linguistics 29 : 801-43.
Baayen, Harald R. et Antoinette Renouf. 1996. Chronicling the Times : Productive Lexical Innovations in an English Newspaper. Language 72 : 69-96.
Baayen, Harald R. et Robert Schreuder. 1999. War and Peace : Morphemes and Full Forms in a Noninteractive Activation Parallel Dual-Route Model. Brain and Language 68 : 27-32.
Bauer, Laurie. 1978. The Grammar of Nominal Compounding. Odense : Odense University press.
Bauer, Laurie. 1979. On the Need for Pragmatics in the Study of Nominal Compounding. Journal of Pragmatics 3 : 45-50.
Bauer, Laurie. 1983. English Word-Formation. Cambridge : Cambridge University Press.
Bauer, Laurie. 1998. When is a Sequence of Noun + Noun a Compound in English? English Language and Linguistics 2 : 65-86.
Bauer, Laurie. 2001. Morphological Productivity. Cambridge : Cambridge University Press. Bauer, Laurie. 2003. Introducing Linguistic Morphology. 2e édition. Washington, D.C. :
Georgetown University Press. Bauer, Laurie. 2003a. The Productivity of (Non-)Productive Morphology. Rivista di
Linguistica 15 : 7-16. Bauer, Laurie. 2005. The Borderline Between Derivation and Compounding. Dans
Morphology and its Demarcations : Selected Papers from the 11th Morphology Meeting, Vienna, February 2004, sous la direction de Wolfgang U. Dressler, Dieter Kastofsky et Franz Rainer, 97-108. Amsterdam : John Benjamins.
Bauer, Laurie. 2008. Exocentric Compounds. Morphology 18 : 51-74.
Bauer, Laurie. 2009. Typology of Compounds. Dans The Oxford Handbook of Compounding, sous la direction de Rochelle Lieber et Pavol Štekauer, 343-356. Oxford : Oxford University Press.
Bauer, Laurie et Antoinette Renouf. 2001. A Corpus-Based Study of Compounding in English. Journal of English Linguistics 29 : 101-123.
234
Beard, Robert. 1995. Lexeme-Morpheme Base Morphology : A General Theory of Inflection and Word. Albany : State University of New York Press.
Béchade, Hervé. 1992. Phonétique et morphologie du français moderne et contemporain. Paris : Presses Universitaires de France.
Benczes, Reka. 2006. Creative Compounding in English : The Semantics of Metaphorical and Metonymical Noun-Noun Combinations. Amsterdam : John Benjamins.
Benveniste, Émile. 1974. Problèmes de linguistique générale II. Paris : Gallimard. Bernet, Charles et Gisèle Kahn. 2010. Frantext 4, base catégorisée, entités grammaticales :
aide au chercheur. École normale supérieure de Lyon. http ://cid.ens-lyon.fr/aide/ac_article.asp?fic = frantext_categentites.asp
Berry-Rogghe, Godelieve. 1973. The Computation of Collocations and their Relevance in Lexical Studies. Dans The Computer and Literary Studies, sous la direction d’Adam Jack Aitken et Neil Hamilton-Smith, 103-112. Édimbourg : Edinburgh University Press.
Bertram, Raymond, Robert Schreuder et Harald R. Baayen. 2000. The Balance of Storage and Computation in Morphological Processing : The Role of Word Formation Type, Affixal Homonymy and Productivity. Journal of Experimental Psychology : Learning, Memory, and Cognition 26 : 489-511.
Bien, Heidrun, Willem J. M. Levelt et Harald R. Baayen. 2005. Frequency Effects in Compound Production. Dans Proceedings of the National Academy of Sciences of USA 102(49) : 17876-17881. http ://www.pnas.org/content/102/49/17876.full
Blancpain, Marc et André Reboullet. 1976. Une langue : le français aujourd’hui dans le monde. Paris : Hachette.
Booij, Geert. 1992. Compounding in Dutch. Rivista di Linguistica 4 : 37-59. Booij, Geert. 2005. Compounding and Derivation : Evidence for Construction Morphology.
Dans Morphology and Its Demarcations : Selected Papers from the 11th Morphology Meeting, Vienna, February 2004, sous la direction de Wolfgang U. Dressler, Dieter Kastovsky, Oskar. E. Pfeiffer et Franz Rainer, 97-132. Amsterdam : John Benjamins.
Booij, Geert, Christian Lehman et Joachim Mugdan. 2000. Morphology : An International Handbook on Inflection and Word-Formation. Vol. 1. Berlin/New York : Walter de Gruyter.
Brousseau, Anne-Marie. 1989. Les noms composés en haïtien : pour une définition intrinsèque de tête morphologique. Revue québécoise de linguistique 18 : 11-39.
Brousseau, Anne-Marie. 2011. Mesure de la productivité morphologique des créoles : au-delà des méthodes quantitatives. Canadian Journal of Linguistics/Revue canadienne de linguistique 56 : 61-86.
Brousseau, Anne-Marie et Emmanuel Nikiema. 2001. Phonologie et morphologie du français. Montréal : Fides.
Burney, Pierre. 1962. Les langues internationales. Paris : Presses Universitaires de France.
Butterworth, Brian. 1983. Lexical Representation. Dans Language Production II, sous la direction de Brian Butterworth, 257-294. New York : Academic Press.
235
Chialant, Doriana et Alfonso Caramazza. 1995. Where is Morphology and How is it Processed? Dans Morphological Aspects of Language Processing, sous la direction de Laurie Beth Feldman, 55-78. Hillsdale : Lawrence Erlbaum Associates.
Chomsky, Noam. 1970. Remarks on Nominalization. Dans Readings in English transformational grammar, sous la direction de Roderick A. Jacobs et Peter S. Rosenbaum, 184-221. Waltham, MA : Ginn.
Chomsky, Noam. 1986. Knowledge of Language : Its Nature, Origin, and Use. New York : Praeger.
Chung, Karen Steffen. 2006. Mandarin Compound Verbs. Taipei : Crane. Corbin, Danielle. 1975. La notion de néologisme et ses rapports avec l’enseignement du
lexique. Bulletin de recherche sur l’enseignement du français 4 : 41-57. Corbin, Danielle. 1987. Morphologie dérivationnelle et structuration du lexique. 2 vol.
Tübingen : Max Niemeyer Verlag. Corbin, Danielle. 1991. La morphologie lexicale : bilan et perspectives. Travaux de
linguistique. Revue Internationale de Linguistique Française 23 : 33-56. Corbin, Danielle. 1992. Hypothèses sur les frontières de la composition nominale. Cahiers de
grammaire 17 : 26-55. Corbin, Danielle et Martine Temple. 1994. Le monde des mots et des sens construits :
catégories sémantiques, catégories référentielles. Cahiers de lexicologie 65 : 213-236. Cowie, Claire et Christiane Dalton-Puffer. 2002. Diachronic Word-Formation Over Time :
Theoretical and Methodological Considerations. Dans A Changing World of Words : Studies in English Historical Lexicography, Lexicology and Semantics, sous la direction de Javier E. Díaz Vera, 410-437. Amsterdam : Rodopi.
Dal, Georgette. 2003. Productivité morphologique : définitions et notions connexes. Langue française 140 : 3-23.
Dal Georgette, Bernard Fradin, Natalia Grabar, Stéphanie Lignon, Fiammetta Namer, Clément Plancq, Pierre Zweigenbaum et Yvon François. 2008. Quelques préalables au calcul de la productivité des règles constructionnelles et premiers résultats. Dans Actes du Congrès mondial de linguistique française, sous la direction de Jacques Durand, Benoît Habert et Bernard Laks, 1513-1526. Paris : Institut de Linguistique Française.
Dalton-Puffer, Christiane. 1996. The French Influence on Middle English Morphology : A Corpus-Based Study of Derivation. Berlin : Mouton de Gruyter.
Dantier, Bernard. 2003. La langue entre lexicographie et linguistique : introduction à la préface au Dictionnaire de la langue française d’Émile Littré. http ://classiques.uqac.ca/contemporains/dantier_bernard/Intro_a_Littre/texte_intro_a_littre.html
Darmesteter, Arsène. 1875. Traité de la formation des mots composés dans la langue française comparée aux autres langues romanes et au latin. Paris : Librairie Honoré Champion.
236
De Jong, Nivja, Laurie Feldman, Robert Schreuder, Matthew Pastizzo et Harald R. Baayen. 2002. The Processing and Representation of Dutch and English Compounds : Peripheral Morphological and Central Orthographic Effects. Brain and Language 81 : 555-567.
De Jong, Nivja, Robert Schreuder et Harald R. Baayen. 2000. The Morphological Family Size Effect and Morphology. Language and Cognitive Processes 15 : 329-365.
Di Sciullo, Anne Marie. 1990. Formal Relations and Argument Structure. Dans Contemporary Morphology, sous la direction de Wolfgang U. Dressler, Hans C. Luschutzky, Oskar E. Pfeiffer et John R. Rennison, 61-68. Berlin/New York : Mouton de Gruyter.
Di Sciullo, Anne Marie. 2005. Decomposing Compounds. SKASE Journal of Theoretical Linguistics 2 : 14-33.
Di Sciullo, Anne Marie et Edwin Williams. 1987. On the Definition of Word. Cambridge, MA : The MIT Press.
Dressler, Wolfgang U. 2006. Compound Types. Dans The Representation and Processing of Compound Words, sous la direction de Gary Libben et Gonia Jarema, 23-44. Oxford : Oxford University Press.
Dressler, Wolfgang U. et Maria Ladanyi. 2000. Productivity in Word Formation : A Morphological Approach. Acta Linguistica Hungarica 47 : 103-144.
Dubois, Jean et Mathée Giacomo. 2002. Dictionnaire de linguistique. Paris : Larousse-Bordas.
Eloy, Jean-Michel. 2007. Collateral Languages and Digital Corpus. Dans Corpus-Based Perspectives in Linguistics, sous la direction de Yuji Kawaguchi, Toshihiro Takagaki et Nobuo Tomimori, 115-130. Amsterdam : John Benjamins.
Estopà, Rosa. 2009. Les composés populaires de la langue catalane : étude diachronique de la néologie. Meta : journal des traducteurs /Meta : Translators' Journal 54 : 551-565.
Fabb, Nigel. 1984. Syntactic Affixation. Thèse de doctorat, Massachusetts Institute of Technology.
Fabb, Nigel. 1998. Compounding. Dans Handbook of Morphology, sous la direction de Andrew Spencer et Arnold Zwicky, 66-83. Malden, MA : Blackwell.
Fabb, Nigel. 2005. Sentence Structure. Londres : Routledge.
Fabre, Cécile et Pascal Sébillot. 1994. Interprétation sémantique des composés nominaux anglais et français sans constituant déverbal. Dans Proceedings of the Workshop on Compound Nouns : Multilingual Aspects of Nominal Composition, sous la direction de Pierrette Bouillon et Dominique Estival, 108-124. ISSCO, Université de Genève.
Fernández-Domínguez, Jesús. 2006. A Corpus-Based Study of Morphological Productivity Measurements in Present-Day English Word-Formation. Mémoire de maîtrise. Université de Jaén, Espagne.
Fernández-Domínguez, Jesús. 2009. Productivity in English Word-Formation : An Approach to N+N Compounding. Berne : Peter Lang.
237
Fernández-Domínguez, Jesús, Ana Díaz-Negrillo et Pavol Štekauer. 2007. How is Low Morphological Productivity Measured? Atlantis, Revista de la Asociación Española de Estudios Anglo-Norteamericanos 29: 29-54.
Frauenfelder, Uli et Robert Schreuder. 1992. Constraining Psycholinguistics Models of Morphological Processing and Representation : The Role of Productivity. Dans Yearbook of Morphology, sous la direction de Geert Booij et Jaap van Marle, 165-185. Dordrecht : Kluwer.
Frege, Gottlob. 1892. On Sense and Reference. Dans Translations from the Philosophical Writings of Gottlob Frege, sous la direction de Peter Thomas Geach et Max Black, 25-50. Oxford : Blackwell.
Gaeta, Livio et Davide Ricca. 2003. Italian Prefixes and Productivity : A Quantitative Approach. Acta Linguistica Hungarica 50 : 93-112.
Goosse, André. 1991. Mélanges de grammaire et de lexicologie françaises, 357- 366. Louvain-la-Neuve : Peeters.
Grabar, Natalia, Georgette Dal, Bernard Fradin, Nabil Hathout, Stéphanie Lignon, Fiammetta Namer, Clément Plancq, Delphine Tribout, François Yvon et Pierre Zweigenbaum. 2006. Productivité quantitative de la suffixation par -able dans un corpus journalistique du français. Lexicometria : Actes de JADT 2006 : 473-486. http ://lexicometrica.univ-paris3.fr/jadt/jadt2006/tocJADT2006.htm
Grevisse, Maurice. 1969. Le bon usage. Grammaire française avec des remarques sur la langue française d'aujourd'hui. 9e édition. Gembloux : Duculot.
Gross, Gaston. 1988. Degré de figement des noms composés. Langage 90 : 57-72.
Gross, Gaston. 1990. Définition des noms composés dans un lexique-grammaire. Langue Française 87 : 84-90.
Gross, Gaston. 1996. Les Expressions figées en français : noms composés et autres locutions. Paris : Ophrys.
Guilbert, Louis. 1973. Théorie du néologisme. Cahiers de l’Association Internationale des Études françaises 25 : 9-29.
Habert, Benoît. 2001. Autour de la constitution des corpus. Dans Linguistique sur corpus : études et réflexions, sous la direction de Mireille Bilger, 11-58. Perpignan : Presses Universitaires de Perpignan.
Habert, Benoît, Adeline Nazarenko et André Salem. 1997. Les linguistiques de corpus. Paris : Arman Colin.
Hale, Kenneth et Jay S. Keyser. 2002. Prolegomenon to a Theory of Argument Structure. Cambridge, MA : The MIT Press.
Halle, Morris et Alec Marantz. 1993. Distributed Morphology and the Pieces of Inflection. Dans The View from Building 20, sous la direction de Kenneth Hale and Samuel Jay Keyser, 111-176. Cambridge : The MIT Press.
Hay, Jennifer. 2001. Lexical Frequency in Morphology : Is Everything Relative? Linguistics 39 : 1041-1070.
238
Hay, Jennifer. 2003. Causes and Consequences of Word Structure. New York : Routledge. Hay, Jennifer et Harald R. Baayen. 2002. Parsing and Productivity. Dans Yearbook of
Morphology, sous la direction de Geert Booij et Jaap van Marle, 203-235. Dordrecht : Kluwer.
Hay, Jennifer et Harald R. Baayen. 2003. Phonotactics, Parsing and Productivity. Revista di Linguistica 15 : 99-130.
Hoch, Philippe. 1994. Frantext, autour d'une base de données textuelles, témoignages d'utilisateurs et voies nouvelles. Le Bulletin des bibliothèques de France 1 : 122-124.
van Jaarsveld, Henk, Riet Coolen et Robert Schreuder. 1994. The Role of Analogy in the Interpretation of Novel Compounds. Journal of Psycholinguistic Research 23 : 111-137.
Jackendoff, Ray. 1975. Morphological and Semantic Regularities in the Lexicon. Language 51 : 639-671.
Jespersen, Otto. 1942. A Modern English Grammar on Historical Principles. Vol. 6. Londres : Allen et Unwin.
Kastovsky, Dieter. 1986. The Problem of Productivity in Word Formation. Linguistics : An Interdisciplinary Journal of the Language Sciences 24 : 585-600.
Kavka, Stanislav. 2009. Compounding and Idiomatology. Dans The Oxford Handbook of Compounding, sous la direction de Rochelle Lieber et Pavol Štekauer, 26-47. Oxford : Oxford University Press.
Kayne, Richard. 1994. The Antisymmetry of Syntax. Cambridge, MA : The MIT Press.
Kiparsky, Paul. 1982. Lexical Phonology and Morphology. Dans Linguistics in the Morning Calm, Selected papers from SICOL-1981, sous la direction de la Linguistic Society of Korea, 3-91. Séoul : Hanshin.
Krott, Andrea, Robert Schreuder et Harald R. Baayen. 1999. Complex Words in Complex Words. Linguistics 37 : 905-926.
Leech, Geoffrey. 1974. Semantics :The Study of Meaning. Harmondsworth : Penguin Books.
Lees, Robert B. 1960. The Grammar of English Nominalizations. La Haye : Mouton de Gruyter.
Lehmann, Alise et Françoise Martin-Berthet. 2008. Introduction à la lexicologie : sémantique et morphologie. 3e édition. Paris : Armand Colin.
Levi, Judith. 1978. The Syntax and Semantics of Complex Nominals. New York : Academic Press.
Libben, Gary. 1998. Semantic Transparency in the Processing of Compounds : Consequences for Representation, Processing, and Impairment. Brain and Language 61 : 30-44.
Libben, Gary. 2005. Everything is Psycholinguistics : Material and Methodological Considerations in the Study of Compound Processing. Canadian Journal of Linguistics/ Revue canadienne de linguistique 50 : 267-283.
239
Libben, Gary. 2006. Why Study Compounds : An Overview of the Issues. Dans The Representation and Processing of Compound Words, sous la direction de Gary Libben and Gonia Jarema, 1-21. Oxford : Oxford University Press.
Lieber, Rochelle. 1992. Deconstructing Morphology : Word Formation in Syntactic Theory. Chicago/Londres : The University of Chicago Press.
Lieber, Rochelle. 2004. Morphology and Lexical Semantics. Cambridge : Cambrige University Press.
Lieber, Rochelle. 2009. A Lexical Semantic Approach to Compounding. Dans The Oxford Handbook of Compounding, sous la direction de Rochelle Lieber et Pavol Štekauer, 78-104. Oxford : Oxford University Press.
Lüdeling, Anke et Nivja de Jong. 2002. German Particle Verbs and Word Formation. Dans Explorations in Verb-Particle Constructions, sous la direction de Nicole Dehé et Ray Jackendoff, 315-333. Berlin : Mouton der Gruyter.
Lyons, John. 1977. Semantics. Vol. 2. Cambridge : Cambridge University Press.
McQueen, James et Anne Cutler. 1998. Morphology in Word Recognition. Dans The Handbook of Morphology, sous la direction de Andrew Spencer et Arnold Zwicky, 406-427. Oxford : Blackwell.
van Marle, Jaap. 1992. The Relationship Bertween Morphological Productivity and Frequency : A Comment on Baayen’s Performance-Oriented Conception of Morphological Productivity. Dans Yearbook of Morphology, sous la direction de Geert Booij et Jaap Van Marle, 151-163. Dordrecht : Kluwer.
Marantz, Alec. 2001. Words. Ms., 1-29. Cambridge, MA : The MIT Press.
Martinet, André. 1967. Syntagme et synthème. Paris : Presses Universitaires de France. Martinet, André. 1985. Syntaxe générale. Paris : Armand Colin.
Mathieu-Colas, Michel. 1994. Les mots à trait d’union. Paris : Didier Erudition. Mathieu-Colas, Michel. 1995. Un dictionnaire électronique des mots à trait d'union. Langue
française 108 : 76-85. Mathieu-Colas, Michel. 2010. Flexion des noms à trait d'union, HAL de Université de Paris
13. http ://hal-univ-paris13.archives-ouvertes.fr/hal-00486060/fr/ Meunier, Louis-Francis. 1875. Les composés qui contiennent un verbe à un mode personnel
en français, en italien et en espagnol. Paris : Imprimerie nationale. Miller, George A. 1978. Semantic Relations among Words. Dans Linguistic Theory and
Psychological Reality, sous la direction de Morris Halle, Joan Bresnan et George A. Miller, 60-118. Cambridge, MA : The MIT Press.
Miller, George, A. 1999. On Knowing a Word. Annual Review of Psychology 50 : 1-19. Mitterand, Henri. 1968. Les mots français. Paris : Presses Universitaires de France.
Moro, Andrea. 2000. Dynamic Antisymmetry. Cambridge, MA : The MIT Press.
240
Moscoso del Prado Martín, Fermín, Raymond Bertram, Tuomo Häikiö, Robert Schreuder et Harald R. Baayen. 2004. Morphological Family Size in a Morphologically Rich Language : The Case of Finnish Compared With Dutch and Hebrew. Journal of Experimental Psychology : Learning, Memory, and Cognition 30 : 1271-1278.
Moscoso del Prado Martín, Fermín, Avital Deutsch, Ram Frost, Robert Schreuder, Nivja De Jong et Harald R. Baayen. 2005. Changing Places : A Cross-Language Perspective on Frequency and Family Size in Dutch and Hebrew. Journal of Memory and Language 53 : 496-512.
Mourlet, Michel. 2003. Littré au XXIe siècle : le colloque du bicentenaire. Clichy-la-Garenne : France-Univers.
Namer, Fiammetta. 2003. Productivité morphologique, représentativité et complexité de la base : le systême MoQuête. Dans Langue Française : la productivité morphologique en questions et en expérimentations, sous la direction de Georgette Dal, 79-101. Paris : Larousse.
Plag, Ingo. 1999. Morphological Productivity : Structural Constraints in English Derivation. Berlin/New York : Mouton de Gruyter.
Plag, Ingo. 2004. Productivity. Dans Encyclopedia of Language and Linguistics. 2e édition, sous la direction de Keith Brown, 121-128. Amsterdam : Elsevier.
Pruvost, Jean. 2003. Les néologismes. Paris : Presses Universitaires de France. Pruvost, Jean. 2006. Les dictionnaires français : outils d'une langue et d'une culture. Paris :
Ophrys. Pustylnikov, Olga et Karina Schneider-Wiejowski. 2009. Measuring Morphological
Productivity. Dans Studies in Quantitative Linguistics 5 : Issues in Quantitative Linguistics, sous la direction de Reinhard Köhler, 106-125.
Pylkkanen, Liina, Sophie Feintuch, Emily Hopkins et Alec Marantz. 2004. Neural Correlates of the Effects of Morphological Family Frequency and Family Size : An MEG Study. Cognition 91 : B35-B45.
Rainer, Franz et Soledad Varela. 1992. Compounding in Spanish. Rivista di Linguistica 4 : 117-142.
Riegel, Martin. 1988. Les séquences composées N1-N2 : une catégorie floue. Studia Romanica Posnaniensia 13 : 129-138.
Riegel, Martin. 1991. Ces noms dits composés, arguments et critères. Studia Romanica Posnaniensia 16 : 148-161.
Roeper, Thomas. 1988. Compound Syntax and Head Movement. Dans Yearbook of Morphology, sous la direction de Geert Booij et Jaap van Marle, 187-228. Dordrecht : Foris.
Roeper, Thomas. 1999. Leftward Movement in Morphology. MIT Working papers in Linguistics 34 : 35-66. Cambridge, MA : Massachusetts Institute of Technology.
Roeper, Thomas et Muffy E.A. Siegel. 1978. A Lexical Transformation for Verbal Compounds. Linguistic Inquiry 9 : 197-260.
241
Roger, Coralie. 1998. Les mots composés à élément initial garde-. Mémoire de maîtrise, Université Paris X.
Savary, Agata. 2000. Recensement et description des mots composés : méthodes et applications. Thèse de doctorat, Université de Marne-la-Vallée.
Scalise, Sergio et Antonietta Bisetto. 2009. The Classification of Compounds. Dans The Oxford Handbook of Compounding, sous la direction de Rochelle Lieber et Pavol Štekauer, 49-82. Oxford : Oxford University Press.
Scalise Sergio et Antonio Fábregas. 2010. The Head in Compounding. Dans Cross-Disciplinary Issues in Compounding, sous la direction de Sergio Scalise et Irene Vogel, 109-126. Amsterdam/Philadelphie : John Benjamins.
Scalise Sergio, Antonio Fábregas et Francesca Forza. 2009. Exocentricity in compounding. Gengo Kenkyu 135: 49-84.
Schreuder, Robert et Harald R. Baayen. 1997. How Complex Simple Words Can Be. Journal of Memory and Language 37 : 118-139.
Selkirk, Elizabeth. 1982. The Syntax of Words. Cambridge, MA : The MIT Press. Spencer, Andrew. 1991. Morphological Theory : An Introduction to Word Structure in
Generative Grammar. Cambridge, MA : Wiley-Blackwell. Štekauer, Pavol. 2000. English Word-Formation : A History of Research (1960-1995).
Tübingen : Gunter Narr Verlag. Taft, Marcus. 1979. Recognition of Affixed Words and the Word Frequency Effect. Memory
and Cognition 7 : 263-272. Tognini-Bonelli, Elena. 2004. Corpus Linguistics at Work. Amsterdam : John Benjamins.
Trips, Carola. 2009. Lexical Semantics and Diachronic Morphology : The Development of -hood, -dom and -ship in the History of English. Tübingen : Niemeyer.
Villoing, Florence. 2002. Les mots composés [VN]N/A du français : réflexions épistémologiques et propositions d’analyse. Thèse de doctorat, Université Paris X-Nanterre.
Williams, Geoffrey. 2005. La linguistique de corpus. Rennes : Presses Universitaires de Rennes.
Zwanenburg, Wiecher. 1990. Argument Structure in Derivation and Compounding. Recherches de linguistique française et romane d’Utrecht 9 : 37-42.
Zwanenburg, Wiecher. 1992. Compounding in French. Rivista di linguistica 4 : 221-240.
Corpus Frantext : University of Chicago. ARTFL Project. http://artfl-project.uchicago.edu
Gallica : Bibliothèque Nationale de France. http ://gallica.bnf.fr
242
Ouvrages lexicographiques Dictionnaire Le Littré. CD-ROM. Paris : Redon, 2003.
Imbs, Paul, dir. 1971-94. Trésor de la langue française : Dictionnaire de la langue du XIXe et du XXe siècle (1789-1960). 16 vol. Paris : Centre national de la recherche scientifique.
Littré, Émile. 1972. Dictionnaire de la langue française. 7 vol. Paris : Gallimard/Hachette.
243
Appendice 1 Corpus Littré – liste des noms composés
Composés V-N (615 formes) abat-faim, abat-foin, abat-jour, abat-sons, abat-vent, abat-voix, accroche-coeur, accroche-plats, appui-main, arrache-sonde, arrête-boeuf, assemble-nuages, attache-bossette, attrape-lourdaud, attrape-minon, attrape-mouche, attrape-niais, attrape-nigaud, attrape-parterre, attrape-vilain, baille-blé, borde-plats, bouche-trou, boute-charge, boute-feu, boute-hache, boute-hors, boute-lof, boute-selle, brise-cou, brise-glace, brise-image, brise-lames, brise-lunette, brise-mur, brise-os, brise-pierre, brise-raison, brise-scellé, brise-tout, brise-vent, brûle-amorce, brûle-bout, brûle-gueule, brûle-maison, brûle-parfum, brûle-queue, cache-cou, cache-entrée, cache-folie, cache-lumière, cache-marée, cache-museau, cache-nez, cache-peigne, cache-pot, cache-poussière, cache-tampon, casse-aiguille, casse-bouteille, casse-bras, casse-cou, casse-croûte, casse-cul, casse-fil, casse-lunette, casse-motte, casse-museau, casse-noisette, casse-noix, casse-noyaux, casse-pierre, casse-poitrine, casse-pot, casse-tête, casse-vessie, chasse-bondieu, chasse-bosse, chasse-carrée, chasse-chien, chasse-coquin, chasse-cousin, chasse-crapaud, chasse-diable, chasse-ennui, chasse-goupille, chasse-gueux, chasse-marée, chasse-mouche, chasse-mulet, chasse-neige, chasse-noix, chasse-partie, chasse-pierres, chasse-poignée, chasse-pointe, chasse-punaise, chasse-rage, chasse-rivet, chasse-rondelle, chasse-roue, chasse-vase, chauche-branche, chauche-poule, chauffe-assiettes, chauffe-chemise, chauffe-cire, chauffe-linge, chauffe-lit, chauffe-pieds, chausse-pied, chausse-trape, cherche-fiche, cherche-pointe, claque-oreille, cligne-musette, cloche-pied, compte-fils, compte-gouttes, compte-pas, conforte-main, couche-point, coule-sang, coupe-ballot, coupe-bourgeon, coupe-bourse, coupe-cercle, coupe-choux, coupe-cors, coupe-cul, coupe-faucille, coupe-foin, coupe-gazon, coupe-gorge, coupe-jarret, coupe-lande, coupe-légumes, coupe-paille, coupe-pâte, coupe-queue, coupe-racines, coupe-séve, coupe-tête, couvre-chef, couvre-face, couvre-feu, couvre-giberne, couvre-joint, couvre-lit, couvre-lumière, couvre-pied, couvre-plat, couvre-platine, crève-chassis, crève-chien, crève-cœur, crève-vessie, croque-abeilles, croque-lardon, croque-mitaine, croque-mort, croque-moutons, croque-noisette, croque-note, croque-sol, cure-dent, cure-feu, cure-langue, cure-môle, cure-oreille, cure-pied, dompte-venin,
emporte-pièce, enfle-bœuf, essuie-main, étrangle-chien, étrangle-loup, ferme-bourse, ferme-circuit, fesse-cahier, fesse-maille, fesse-mathieu, fesse-pinte, fouille-merde, frappe-main, frappe-plaque, fripe-lippe, fripe-sauce, gagne-denier, gagne-pain, gâte-bois, gâte-enfant, gâte-maison, gâte-ménage, gâte-métier, gâte-papier, gâte-pâte, gâte-sauce, gobe-dieu, gobe-goujons, gobe-moucherie, gobe-moucherons, gobe-mouches, gobe-mouton, gratte-boësse, gratte-cul, gratte-menton, gratte-paille, gratte-papier, griche-dents, grippe-argent, grippe-chair, grippe-coquin, grippe-fromage, grippe-sou, guide-âne, guide-main,
244
hache-écorce, hache-légumes, hale-boulines, hale-breu, hale-croc, hausse-col, hausse-pied, hausse-queue, hume-vent,
lave-main, lève-gazon, lève-nez, lever-dieu, mâche-bouchons, mâche-dru, mâche-laurier, monte-charge, monte-courroie,monte-jus, monte-ressort, moque-dieu, noie-chien,
pare-feu, passe-appareil, passe-avant,passe-balle, passe-buse, passe-campane, passe-canal, passe-carreau, passe-cheval, passe-cicéron, passe-colère, passe-corde, passe-cordon, passe-droit, passe-fleur, passe-folle, passe-garde, passe-lacet, passe-lit, passe-marinière, passe-méteil, passe-montagne, passe-mur, passe-musc, passe-muscat, passe-parole, passe-passe, passe-peintre, passe-perle, passe-pied, passe-pierre, passe-poil, passe-pomme, passe-port, passe-rose, passe-rosée, passe-satin, passe-soie, passe-temps, passe-velours, passe-violet, passe-vogue, passe-volant, perce-chaussée, perce-crâne, perce-feuille, perce-forêt, perce-langue, perce-lettre, perce-meule, perce-muraille, perce-neige, perce-oreille, perce-pierre, perce-pot, perce-roche, perce-ronde, perce-terre, pèse-acide, pèse-esprit, pèse-lait, pèse-lettres, pèse-liqueur, pèse-moût, pèse-nitre, pèse-sel, pèse-sirop, pèse-vin, pince-balle, pince-lisière, pince-maille, pique-assiette, pique-bœuf, pique-bois, pique-broc, pique-feu, pique-mine, pique-mouche, pique-nique, pique-notes, pique-pouille, pique-véron, pisse-chien, pisse-froid, pisse-sang, pisse-vinaigre, pleure-misère, pleure-pain, ploye-ressort, porte-affiche, porte-aigle, porte-aiguille, porte-aiguillon, porte-allume, porte-allumettes, porte-amarre, porte-arquebuse, porte-assiette, porte-aune, porte-baguette, porte-baïonnette, porte-balance, porte-balle, porte-barres, porte-battant, porte-bec, porte-bobéche, porte-bonheur, porte-bonnet, porte-bossoir, porte-bouchoir, porte-bougie, porte-bouquet, porte-bourdon, porte-bourse, porte-bouteilles, porte-broche, porte-carabine, porte-cartes, porte-caustique, porte-chaîne, porte-chaise, porte-chandelier, porte-chapeau, porte-charbon, porte-cierge, porte-cigare, porte-clapet, porte-clefs, porte-col, porte-collier, porte-cordeau, porte-coton, porte-couteau, porte-crête, porte-croix, porte-crosse, porte-cure-dent, porte-dais, porte-dieu, porte-drapeau, porte-écuelle, porte-enseigne, porte-épée, porte-éperon, porte-éponge, porte-étendard, porte-étriers, porte-étrivières, porte-fenêtre, porte-fer, porte-feu, porte-flambeau, porte-foret, porte-fort, porte-giberne, porte-glaive, porte-graine, porte-guidon, porte-hache, porte-haillons, porte-haubans, porte-huile, porte-lacs, porte-lame, porte-lance, porte-lettres, porte-liqueurs, porte-lof, porte-loupe, porte-lyre, porte-maillot, porte-malheur, porte-manchon, porte-masse, porte-mèche, porte-mesure, porte-miroirs, porte-montre, porte-montre, porte-mouchettes, porte-mousqueton, porte-nitrate, porte-nœud, porte-objet, porte-original, porte-page, porte-pièce, porte-pierre, porte-plume, porte-plumet, porte-pompon, porte-queue, porte-rame, porte-râteau, porte-respect, porte-scie, porte-singe, porte-soie, porte-sonde, porte-sonnette, porte-suif, porte-tapisserie, porte-tarière, porte-tolets, porte-trait, porte-vent, porte-verge, porte-vis, porte-voix, porte-crayon, pousse-broche, pousse-café, pousse-cailloux, pousse-cambrure, pousse-cul, pousse-fiche, pousse-goupille, pousse-navette, pousse-pied, pousse-pointe, presse-artère, presse-citrons, presse-étoffe, prie-dieu,
rabat-eau, rabat-joie, racle-denier, rallie-papier, ramasse-miettes, ratisse-caisse, relève-gravure, relève-moustache, relève-quartier, remue-ménage, remue-queue, réveille-matin, rince-bouche, rogne-cul, rogne-pied, rompt-pierre, ronge-bois, ronge-maille,
245
saute-bouchon, saute-mouton, saute-ruisseau, sauve-l’honneur, sauve-rabans, sauve-vie, serre-bois, serre-bosse, serre-bras, serre-ciseaux, serre-cou, serre-feu, serre-file, serre-fine, serre-frein, serre-gouttière, serre-malice, serre-nez, serre-nœud, serre-papiers, serre-pédicule, serre-point, serre-tête, songe-creux, songe-malice, souffre-bonheur, souffre-douleur,
taille-crayon, taille-mèche, taille-mer, taille-plume, taille-pré, tâte-poule, tâte-vin, tire-balle, tire-barbe, tire-bonde, tire-bord, tire-botte, tire-bouchon, tire-boucler, tire-bourre, tire-bouton, tire-braise, tire-cartouche, tire-cendre, tire-clou, tire-d’aile, tire-dent, tire-fausset, tire-feu, tire-filet, tire-fond, tire-fusée, tire-gargousse, tire-goret, tire-laine, tire-laisse, tire-langue, tire-larigot, tire-ligne, tire-lisse, tire-lopin, tire-moelle, tire-paille, tire-pavé, tire-pièce, tire-pied, tire-plomb, tire-poil, tire-point, tire-sac, tire-séve, tire-sou, tire-terre, tire-teston, tire-tête, tire-veille, tire-verge, titre-planche, torche-cul, torche-fer, torche-nez, torche-pertuis, torche-pin, torche-pinceautorche-pot, tord-nez, tourne-case, tourne-feuille, tourne-fil, tourne-gants, tourne-motte, tourne-oreille, tourne-pierres, tourne-soc, tourne-vent, trace-bouche, trace-roulis, trace-vague, traîne-buisson, traîne-charrue, traîne-malheur, traîne-potence, traîne-rapière, tranche-gazon, tranche-montagne, tranche-papier, tranche-tête, tremble-terre, trompe-cheval, trompe-conscience, trompe-l’œil, trompe-la-mort, trompe-valet, trotte-chemin, trouble-fête, trouble-ménage, trousse-barre, trousse-galant, trousse-pète, trousse-pied, trousse-queue, trousse-traits, tue-brebis, tue-chien, tue-loup, tue-mouche, tue-teignes, tue-tête, tue-vent.
Composés P-N (430 formes)
à-coup, à-propos, après-coup, après-dîné, après-dînée, après-dîner, après-midi, après-soupée, avant-bouche, avant-bras, avant-brise, avant-cale, avant-coeur, avant-corps, avant-cour, avant-coureur, avant-courrier, avant-courrière, avant-creuset, avant-duc, avant-fossé, avant-garde, avant-glacis, avant-goût, avant-jeu, avant-lait, avant-main, avant-mur, avant-part, avant-pêche, avant-pied, avant-poignet, avant-port, avant-poste, avant-projet, avant-propos, avant-quart, avant-règne, avant-scène, avant-terrasse, avant-terre, avant-toit, avant-train, avant-veille, co-sujet, contre-accusation, contre-allée, contre-amiral, contre-amour, contre-appel, contre-approches, contre-arc, contre-archet, contre-arêtier, contre-assemblée, contre-attaque, contre-aube, contre-augment, contre-aveu, contre-avis, contre-bande, contre-basse, contre-bassier, contre-bassiste, contre-basson, contre-batterie, contre-biseau, contre-bittes, contre-bordée, contre-bourgeon, contre-boutant, contre-bretêche, contre-caniveau, contre-carre, contre-cart, contre-caution, contre-change, contre-charge, contre-châssis, contre-chevron, contre-civadière, contre-clavette, contre-clef, contre-coeur, contre-cornière, contre-coup, contre-coupe, contre-courant, contre-courbe, contre-course, contre-critique, contre-dame, contre-déclaration, contre-défense, contre-dégagement, contre-dénonciation, contre-digue, contre-écaille, contre-écart, contre-échange, contre-écorage, contre-édit, contre-effort, contre-émail, contre-empoise, contre-empreinte, contre-enquête, contre-entreprise, contre-épaulette, contre-épreuve, contre-espalier, contre-estampe, contre-étambot, contre-étrave, contre-expertise, contre-extension, contre-fanon, contre-fasce, contre-fendis, contre-fenêtre, contre-fente, contre-feu, contre-fiche, contre-fil, contre-fin, contre-finesse, contre-foc, contre-forces, contre-fort, contre-fracture, contre-frasagecontre-fruit, contre-fugue, contre-garde, contre-gatte, contre-hachure, contre-hâtier, contre-heurtoir, contre-hus, contre-indication, contre-institution, contre-jambage, contre-jet, contre-jour, contre-jumelles, contre-lames, contre-
246
latte, contre-lattoir, contre-lettre, contre-ligne, contre-ligue, contre-maille, contre-maître, contre-mandat, contre-manoeuvre, contre-marc, contre-marche, contre-marque, contre-marqueur, contre-mine, contre-mineur, contre-mission, contre-mot, contre-motif, contre-moulage, contre-moule, contre-mur, contre-ongle, contre-opération, contre-opposition, contre-ordre, contre-ouverture, contre-paroi, contre-partie, contre-pas, contre-pente, contre-pétition, contre-pied, contre-planche, contre-poids, contre-poil, contre-poinçon, contre-point, contre-pointe, contre-pointiste, contre-poison, contre-police, contre-porte, contre-poseur, contre-position, contre-potence, contre-pouce, contre-pression, contre-programme, contre-projet, contre-promesse, contre-propos, contre-proposition, contre-protestation, contre-puits, contre-quille, contre-raison, contre-retable, contre-revers, contre-révolution, contre-rivure, contre-ronde, contre-ruse, contre-saison, contre-salut, contre-sangle, contre-sanglon, contre-sens, contre-signal, contre-signataire, contre-signeur, contre-sol, contre-sommation, contre-sommier, contre-son, contre-sortie, contre-stimulation, contre-sujet, contre-sûreté, contre-table, contre-taille, contre-tasseau, contre-temps, contre-tenant, contre-terrasse, contre-timbrage, contre-timbre, contre-trahison, contre-trame, contre-tranchée, contre-vapeur, contre-vengeance, contre-verge, contre-vérité, contre-visite, contre-volte, contre-vue,
en-dessous, en-dessus, en-tête, entre-bâillement, entre-bande, entre-bat, entre-cent, entre-choquement, entre-colonne, entre-côte, entre-coupe, entre-cours, entre-croisement, entre-cuisse, entre-fesses, entre-fesson, entre-festoiement, entre-feuille, entre-filets, entre-ligne, entre-maillade, entre-mangerie, entre-modillon, entre-nerf, entre-noeud, entre-parleur, entre-plant, entre-pont, entre-rail, entre-sabords, entre-sol, entre-suite, entre-temps, entre-trave, entre-voie,
hors-fonds, hors-ligne, outre-passe,
par-dessus, rez-mur,
sans-coeur, sans-culotte, sans-culotterie, sans-culottide, sans-culottisme, sans-dent, sans-façon, sans-fleur, sans-gêne, sans-peau, sans-souci, sauf-conduit, sous-acétate, sous-affrétement, sous-affréteur, sous-âge, sous-aide, sous-ambassade, sous-amendement, sous-arbrisseau, sous-argousin, sous-arrondissement, sous-aumônier, sous-azoture, sous-bail, sous-bailleur, sous-bande, sous-barbe, sous-bibliothécaire, sous-bief, sous-bois, sous-bourgeon, sous-brigadier, sous-camérier, sous-cap, sous-cape, sous-carbonate, sous-chantre, sous-chapelain, sous-chargé, sous-chaussure, sous-chef, sous-chevron, sous-chlorure, sous-classe, sous-collet, sous-comite, sous-commis, sous-commissaire, sous-commission, sous-comptoir, sous-couche, sous-cuisse, sous-dataire, sous-détail, sous-diaconat, sous-diacre, sous-directeur, sous-dominante, sous-doublis, sous-doyen, sous-économe, sous-égalisage, sous-égalisoir, sous-élément, sous-entente, sous-enveloppe, sous-espèce, sous-établi, sous-étage, sous-face, sous-faîte, sous-ferme, sous-fermier, sous-fief, sous-garde, sous-genre, sous-gorge, sous-gouvernante, sous-gouverneur, sous-gueule, sous-hyponitrite, sous-inféodation, sous-intendance, sous-intendant, sous-introducteur, sous-jupe, sous-lieutenance, sous-lieutenant, sous-locataire, sous-location, sous-main, sous-maître, sous-médecin, sous-médiante, sous-membre, sous-mentonnière, sous-ministre, sous-molécule, sous-moucheur, sous-nappe, sous-nitrure, sous-noix, sous-normale, sous-oeil, sous-officier, sous-ordre, sous-phosphate, sous-pied, sous-portier, sous-poutre, sous-précepteur, sous-préfecture, sous-
247
préfet, sous-preneur, sous-pression, sous-prieur, sous-principal, sous-promoteur, sous-prote, sous-quartier, sous-race, sous-répartition, sous-résine, sous-rive, sous-roi, sous-roitelet, sous-sacristain, sous-secrétaire, sous-secrétariat, sous-sel, sous-signature, sous-sol, sous-système, sous-tangente, sous-tendante, sous-tirot, sous-titre, sous-traitant, sous-traité, sous-tyran, sous-vassal, sous-vente, sous-ventrière, sous-verge, sous-vicaire, sous-vicariat, sur-andouiller.
Composés N-N (229 formes)
agnus-castus, ante-bois, aqua-tinta, arc-doubleau, arrière-alliance, arrière-ban, arrière-bec, arrière-bouche, arrière-boutique, arrière-cabinet, arrière-cadet, arrière-caution, arrière-chambre, arrière-change, arrière-charte, arrière-choeur, arrière-corps, arrière-cour, arrière-faix, arrière-fente, arrière-fermier, arrière-fief, arrière-fleur, arrière-foin, arrière-froidure, arrière-garant, arrière-garde, arrière-goût, arrière-graisse, arrière-main, arrière-molaire, arrière-narines, arrière-neveu, arrière-nièce, arrière-panage, arrière-pensée, arrière-plan, arrière-point, arrière-radier, arrière-rang, arrière-saison, arrière-sens, arrière-train, arrière-vassal, arrière-vassalité, arrière-vieillesse, arrière-voussure, aube-vigne,
baille-blé, bateau-boeuf, bat-filière, battant-l’oeil, batte-lessive, batte-mare, batte-plate, batte-queue, bec-fin, belle-dame, belle-fille, belle-fleur, belle-mère, belle-pucelle, belle-soeur, bêque-bois, bèque-fleur, bien-disance, bien-fonds, bouille-abaisse, bout-dehors, cache-cache, caillot-rosat, cerf-volant, chape-chute, charme-houblon, chat-cervier, chat-rochier, chat-tigre, chef-lieu, chef-magistrat, chefs-plaids, chiche-face, chien-loup, chiffre-taxe, choche-pierre, choche-poule, chou-chou, chou-fleur, chou-pille, chou-rave, christe-marine, colin-maillard, colin-tampon, coq-héron, côte-rôtie, crête-marine, cric-crac, cri-cri, croix-pile, criste-marine, cuisse-madame,
demi-aigrette, demi-air, demi-amazone, demi-anglaise, demi-aune, demi-autour, demi-bain, demi-bande, demi-bastion, demi-battoir, demi-bau, demi-bosse, demi-botte, demi-brigade, demi-case, demi-ceint, demi-ceintier, demi-cercle, demi-chaîne, demi-clef, demi-course, demi-dame, demi-fortune, demi-frère, demi-lit, demi-lune, demi-monde, demi-moulinet, demi-soeur, demi-soldier, épine-vinette, épuise-volante, extracto-résine,
faim-calle, faim-valle, fibre-cellule, fibro-cartilage, fibro-chondrite, fille-mère, fin-or, fleur-feuille, force-vivier, fourmi-lion, franc-alleu, franc-bord, franc-fief, franc-funin, franc-maçon, franc-maçonnerie, franc-quartier, franc-tillac, franc-tireur, gage-mort, gastro-bronchite, gastro-colite, gomme-gutte, gorge-fouille,
hale-breu, huppe-col, livret-police, lord-lieutenance, lord-lieutenant, loup-cerve, loup-cervier, loup-garou, loup-loup, main-levée, malle-poste, marche-palier, menthe-coq, menu-pensée, mont-joie, mouille-bouche, nacro-culture, naque-mouche, natu-majorité, nègres-cartes, nerf-férure, noix-chandelle,
oiseau-cloche, omphalo-phlébite, orang-outang, or-sol,
248
pal-fer, palma-christi, palpe-mâchoire, patte-fiche, piano-forte, pie-mère, plante-éponge, plui-plui, poing-clos, pont-levis, potron-jaquet, prône-misère,
quartier-maître, quartier-mestre, rat-baillet, reine-claude, reine-marguerite, rêve-creux, roman-feuilleton, rond-point, rose-croix, semper-virens, sénatus-consulte, sud-ouest,
table-bureau, taupe-grillon, taureau-cerf, teint-vin, terre-noix, terret-bourret, tierce-rime, tiers-point, tiers-poteau, tissu-éponge, titan-cotte, toc-feu, tonne-mètre, touille-boeuf, tou-tou, trachée-artère, trique-balle, trique-madame, vache-biche, veau-laq, ver-coquin, volte-face.
Composés A-N (199 formes) arc-boutant,
bas-bord, bas-feuillet, bas-fond, bas-grec, bas-justicier, bas-latin, bas-mât, bas-métier, bas-relief, basse-cour, basse-courier, basse-étoffe, basse-fosse, basse-lisse, basse-lissier, basse-marche, basse-taille, basse-vergue, basse-voile, bas-siége, bas-ventre, beau-chasseur, beau-fils, beau-frais, beau-frère, beau-père, bel-esprit, bel-outil, blanc-aune, blanc-bec, blanc-bois, blanc-bourgeois, blanc-cul, blanc-étoc, blanche-coiffe, blanche-queue, blanche-raie, blanc-manger, blanc-pendard, blanc-ployant, blanc-rhasis, blancs-manteaux, blanc-tapis, bleu-manteau, bon-air, bon-chrétien, bon-fieux, bonne-dame, bonne-encontre, bonne-ente, bonne-grâce, bonne-main, bonne-vilaine, bonne-voglie, bon-quart, bon-tour,
chaude-chasse, chauve-souris, chiche-face, claire-étoffe, clair-obscuriste, claire-soudure, claire-voie, court-bandage, court-bâton, court-bouillon, court-bouton, court-côté, court-cureau, courte-botte, courte-boule, courte-épée, courte-épine, courte-graisse, courte-haleine, courte-lettre, courte-paume, courte-pointe, courte-pointier, courte-queue, court-tour,
double-aubier, double-bec, double-bécassine, double-bouche, double-bulbe, double-canon, double-chaîne, double-chaloupe, double-feuille, double-front, double-macreuse, double-main, doux-ballon, dur-bec, dure-mère, dure-peau, électro-puncture, extrême-onction,
faux-marcher, faux-monnayeur, faux-saunage, faux-saunier, franche-mulle, franc-taupin, gauche-fer, grand-chambrier, grand-compte, grand-croix, grand-oncle, grand-père, grise-bonne, gris-farinier, gris-pendart, gros-bec, gros-colas, gros-jean, gros-miaulard, gros-pinson, grosse-gorge,
haute-bonté, haute-taille, haut-fond, haut-le-coeur, haut-le-corps, haute-lissier, libre-échangiste, long-grain, longue-épine, longue-langue,
menu-vair, métallo-thérapie, micro-organisme, mort-bois, mort-chien, morte-eau, morts-flats, mort-gage, morte-paye, mort-plain, morte-saison, mort-terrain,
néo-catholicisme, néo-christianisme, néo-platonisme, noir-museau, notre-dame,
249
petit-bouc, petite-fille, petite-olonne, petit-fils, petit-fond, petit-gris, petits-enfants, petit-venise, plate-bande, plate-face, plate-forme, plate-longe,
quasi-contrat, quasi-délit, quasi-légitimité, quasi-restauration, rouge-aile, rouge-queue, rousse-tête,
sage-femme, saint-aubinet, saint-augustin, saint-cyrien, sainte-anne, sainte-barbe, sainte-nitouche, saint-gall, saint-germain, saint-leu, saint-simonisme, surdi-mutité,
toute-bonté, toute-épice, tout-ensemble, toute-présence, toute-puissance, toute-saine, toute-science, toute-table, tragi-comédie,
vert-monnier, vide-bouteille, vide-citrons, vide-gousset, vide-poches, vide-pomme, vide-pommier, vieux-catholique, vif-argent.
Composés N-A (72 formes) acquit-patent, aigue-marine, arrière-pointeuse,
bec-allongé, bec-cornu, bec-courbe, bec-dur, bec-ouvert, bec-plat, bec-pointu, becque-cornu, bec-rond, bec-tranchant, bouillon-blanc, bout-perdu, bout-rimé, bout-saigneux, branc-ursine, branche-ursine, branle-bas, caméra-lucida, carême-prenant, chasse-fleurée, chat-brûlé, chauffe-double, coffre-fort, cou-jaune, criste-marine, cul-bas, cul-blanc, cul-rouge, cul-rousselet, cul-rousset, demi-coupé, demi-double,
fer-blanc, fer-chaud, foi-mentie, fourche-fière, franc-réal, gagne-petit, garde-bourgeoise,
hale-bas, jean-le-blanc,
lait-battu, main-forte, main-militaire, marie-galante, martin-sec, martin-sucré, mont-dore, mont-joli,
patte-pelu, pic-vert, pied-bleu, pied-droit, pied-fort, pie-grièche, plat-allemand, pont-neuf, porc-épic, procès-verbal,
rêve-creux, risque-tout, roux-vieux, sang-froid, sang-gris, souris-chauve,
terre-neuve, terre-neuvier, terre-plein.
Composés garde-N (51 formes)
garde-barrière, garde-boeuf, garde-bois, garde-bonnet, garde-boutique, garde-bras, garde-cendre, garde-chaîne, garde-charrue, garde-chasse, garde-chiourme, garde-collet, garde-corde, garde-corps, garde-côte, garde-crotte, garde-étalon, garde-feu, garde-filet, garde-fou, garde-fourneau, garde-frasier, garde-grève, garde-ligne, garde-magasin, garde-main, garde-malade, garde-manche, garde-manger, garde-marge, garde-marteau, garde-ménagerie, garde-meuble, garde-nappe, garde-noble, garde-note, garde-pêche, garde-platine, garde-port, garde-
250
robe, garde-robier,garde-rôle, garde-sacs, garde-salle, garde-scel, garde-scellés, garde-temps, garde-vaisselle, garde-vente, garde-verges, garde-vue.
Composés N-de-N (49 formes) bec-d’âne, bec-d’argent, bec-d’oie, bec-d’oiseau, bec-de-cane, bec-de-canon, bec-de-cigogne, bec-de-cire, bec-de-corbeau, bec-de-corbin, bec-de-crosse, bec-de-cygne, bec-de-faucon, bec-de-grue, bec-de-hache, bec-de-héron, bec-de-lézard, bec-de-lièvre, bec-de-perroquet, bec-de-pigeon, bec-de-vautour, belle-de-jour, belle-de-nuit, belle-d’onze-heures, belle-d’un-jour, bris-d’huis, chef-d’oeuvre, cou-de-pied, coup de poing, crête-de-coq, cul-de-four, cul-de-jatte, cul-de-lampe, cul-de-pot, cul-de-poule, cul-de-sac, eau-de-vie, fleur-de-mai, gorge-de-pigeon, haut-de-chausses, main-d'oeuvre, mestre de camp, noyé-d’eau, pain-d’épicier, patte-d’oie, pied-d’étape, pou-de-soie, salve-d’honneur, sang-de-dragon.
Composés Adv-N (36 formes)
moins-value, non-activité, non-âge, non-combattant, non-conciliation, non-conformisme, non-conformiste, non-conformité, non-couleur, non-délicatesse, non-existence, non-intervention, non-jouissance, non-lieu, non-mitoyenneté, non-noble, non-payement, non-pensant, non-permanence, non-présence, non-prix, non-résidence, non-réussite, non-sens, non-succès, non-toxicité, non-usage, non-valeur, non-vente, non-viabilité, non-vue, nord-est, plus-pétition, plus-value, sus-pied, tôt-fait.
Composés A-A (30 formes) blanc-poudré, blanc-signé, blanc-soudant, bon-plein, chassé-croisé, chasse déchassé, chaud-froid, clair-obscur, court-vite, douce-amère, doux-vert, faux-fuyant, fort-vêtu, franc-saure, grand-beau, gras-double, gras-fondu, gris-gris, gros-argentin, gros-bis, gros-blanc, gros-noir, mort-plain, petit-gris, quasi-faux, roux-vieux, sourd-muet, tout-blanc, tout-venu, toute-bonne.
Composés Nombre-N (28 formes)
cent-suisses, deux-dents, deux-ponts, huit-pieds, mille-canton, mille-feuille, mille-fleurs, mille-graines, mille-pertuis, mille-pieds, mille-points, quarante-langues, quatre-cornes, quatre-nations, quatre-oeil, quatre-pieds, quatre-quint, quatre-temps, sept-oeil, six-blancs, six-clefs, six-doigts, trois-épines, trois-étoiles, trois-mâts, trois-pieds, trois-ponts, trois-quarts.
Composés N-V (11 formes)
adieu-va, bien-être, bien-faire, bien-mourir, faire-valoir, mal-être, renvoi-instruire, savoir-faire, savoir-vivre, tarton-raire, velci-aller.
Composés Adv-A (9 formes) bien-disant, bien-tenant, bien-tenue, mal-jugé, non-noble, non-tolérant, plus-payé, trop-bu, trop-plein.
Composés V-A (7 formes)
boit-tout, brûle-tout, chante-clair, couvre-vite, mange-tout, passe-bleu, revenant-bon.
251
Composés Npropre-N (7 formes) bégler-bec, marie-salope, martin-bâton, martin-chasseur, martin-pêcheur, martin-sire, robert-macaire.
Composés N-à-N (6 formes)
bout-à-port, bric-à-brac, hale-à-bord, pied-à-terre, touche-à-tout, valet-à-patin.
Composés A-V (6 formes)
beau-partir, beau-revoir, blanc-seing, noir-ployant, tout-venant, vu-arriver.
Composés V-Nombre (2 formes)
chassez-huit, passe-dix.
252
Appendice 2 Noms composés mesurés (Frantext)
Tableau 1 Frantext : fréquence des composés N-N (réguliers) composé 1606-1694 1695-1798 1799-1872 1873-1920
1. arrière-ban 2 37 16 12
2. arrière-bouche - - 30 -
3. arrière-boutique 1 7 81 50
4. arrière-cabinet - 18 1 1
5. arrière-chambre - - 3 3
6. arrière-choeur - - 4 -
7. arrière-cour - 8 26 2
8. arrière-faix - - 6 2
9. arrière-fief - 9 - -
10. arrière-garde 13 66 182 49
11. arrière-goût - - 21 16
12. arrière-main 1 1 1 -
13. arrière-molaire - - 2 -
14. arrière-narines - - 10 -
15. arrière-neveu 1 2 4 1
16. arrière-pensée 1 3 158 122
17. arrière-plan - - 4 30
18. arrière-saison 1 3 19 29
19. arrière-sens - - - 1
20. arrière-train - - 9 19
21. arrière-vassal - 4 1 1
22. arrière-vieillesse - - 2 -
23. bien-disance 4 - - -
24. bien-fonds - 1 12 3
25. chape-chute 2 - 7 1
253
composé 1606-1694 1695-1798 1799-1872 1873-1920
26. chat-cervier - 2 - -
27. chat-tigre - - 13 4
28. chef-lieu - 75 134 128
29. chefs-plaids - - 2 -
30. chien-loup 3 2 10 2
31. chou-fleur - 1 1 9
32. chou-rave - - 1 1
33. coq-héron - - 13 1
34. croix-pile 1 - - -
35. épine-vinette - 4 4 6
36. fille-mère - 4 4 9
37. fourmi-lion - 4 2 10
38. gomme-gutte - 1 2 6
39. lord-lieutenant - 1 - 1
40. loup-cervier 5 5 33 3
41. loup-garou 21 20 18 15
42. main-levée 8 19 23 31
43. malle-poste - - 66 16
44. pont-levis 11 39 99 31
45. reine-marguerite 9 21 15 25
46. rêve-creux - 1 - 2
47. roman-feuilleton - - 8 8
48. sénatus-consulte - 56 33 24
49. sud-ouest 6 162 192 87
50. table-bureau - - 2 22
51. taupe-grillon - 1 - -
52. tiers-point - - 1 4
53. trachée-artère - 16 74 1
54. volte-face 1 7 35 81
254
Tableau 2 Frantext : fréquence des composés N-N (irréguliers) composé 1606-1694 1695-1798 1799-1872 1873-1920
1. agnus-castus - 3 2 -
2. bec-fin - - 4 -
3. bout-dehors - 1 3 2
4. cache-cache 1 3 16 35
5. colin-maillard 5 40 19 6
6. colin-tampon - - 2 1
7. côte-rôtie - 1 3 1
8. fin-or 17 8 3 2
9. huppe-col - - 1
10. mont-joie - 1 1 -
11. or-sol - - - 1
12. outre-passe 2 - 2 -
13. patte-fiche - - 1 -
14. quartier-maître - 4 116 14
15. reine-claude 1 2 4 5
16. rose-croix 29 1 16 22
17. semper-virens - - 2 -
18. trique-madame - - 1 -
255
Tableau 3 Frantext : fréquence des composés A-N (réguliers
composé 1606-1694 1695-1798 1799-1872 1873-1920
1. bas-fond - 8 24 10
2. bas-justicier - - 1 -
3. bas-latin - - 4 2
4. bas-mât - - 5 -
5. bas-métier - - 1 3
6. bas-relief 3 39 118 54
7. bas-ventre 4 39 90 24
8. basse-cour 29 92 105 130
9. basse-étoffe - 1 - -
10. basse-fosse 2 16 21 21
11. basse-marche - 2 - 3
12. basse-vergue - - 2 -
13. beau-chasseur 5 10 10 1
14. beau-fils 33 37 28 16
15. beau-frais - - 2 1
16. beau-frère 88 404 467 305
17. beau-père 84 437 588 255
18. bel-esprit 311 418 137 34
19. bel-outil 1 - - -
20. belle-dame 147 158 157 56
21. belle-fille 294 287 287 241
22. belle-fleur 20 33 31 15
23. belle-mère 62 554 556 283
24. belle-soeur 85 318 318 169
25. blanc-bois - 1 - -
26. blanc-manger 1 7 2 1
27. blanc-manteau - - 1 2
256
composé 1606-1694 1695-1798 1799-1872 1873-1920
28. bon-air 46 101 91 43
29. bon-chrétien 10 74 26 26
30. bon-quart 7 17 29 15
31. bon-tour 18 19 27 23
32. bonne-dame 41 108 92 78
33. bonne-encontre - 2 - -
34. bonne-grâce 94 325 237 158
35. chauve-souris 17 31 150 61
36. claire-voie 1 6 66 53
37. court-bâton - - - 1
38. court-bouillon - 37 3 5
39. court-côté - - 1 -
40. courte-boule 1 - - -
41. courte-épée - 5 4 -
42. courte-haleine 8 2 - 2
43. courte-lettre 1 3 5 7
44. courte-pointe 1 6 13 4
45. courte-queue 1 2 6 1
46. demi-aune 4 2 5 -
47. demi-autour - - 1 -
48. demi-bosse - - 1 -
49. demi-brigade - 147 57 1
50. demi-cercle 12 60 103 77
51. demi-dame - - - 2
52. demi-fortune - 2 13 1
53. demi-frère 1 - 2 -
54. demi-lune 7 15 25 15
55. demi-monde - - 7 32
56. demi-soeur - 1 1 6
257
composé 1606-1694 1695-1798 1799-1872 1873-1920
57. double-canon 1 - 1 -
58. double-chaîne 1 3 9 5
59. double-feuille - - 2 -
60. double-front 2 1 2 -
61. double-macreuse - - 4 -
62. extrême-onction 14 36 51 32
63. faux-monnayeur - - 8 4
64. faux-saunage - 4 - -
65. faux-saunier - - 1 -
66. franc-alleu - 3 3 -
67. franc-fief - 6 3 1
68. franc-funin - - 1 -
69. franc-maçon - 7 15 46
70. franc-maçonnerie - 6 55 45
71. franc-tireur - - - 8
72. grand-oncle 10 39 104 40
73. grand-père 44 422 893 765
74. grosse-gorge - 1 1 -
75. haut-fond - 3 3 1
76. haut-le-corps 1 7 28 25
77. haute-taille 1 10 112 116
78. libre-échangiste - - 3 13
79. longue-langue - 1 3 -
80. menu-vair - - 6 3
81. mort-bois 1 - - -
82. mort-gage 1 - - -
83. morte-saison - - 7 15
84. noir-museau - - - 1
85. notre-dame 94 297 859 659
258
composé 1606-1694 1695-1798 1799-1872 1873-1920
86. petit-fils 116 605 373 233
87. petit-fond 2 3 2 4
88. petits-enfants 52 98 504 424
89. petite-fille 98 503 1131 1017
90. rond-point - - 62 42
91. sage-femme 29 48 44 111
92. saint-leu - 18 60 5
93. sainte-mitouche - 2 - -
94. sainte-nitouche 1 1 6 17
95. tout-ensemble 775 387 286 142
96. toute-bonté 14 10 15 8
97. toute-présence - - 15 5
98. toute-puissance 180 313 255 236
99. toute-science 16 27 91 93
100. tragi-comédie 18 9 22 9
101. vide-poches - - 1 2
102. vif-argent 83 34 53 23
259
Tableau 4 Frantext : fréquence des composés A-N (irréguliers)
composé 1606-1694 1695-1798 1799-1872 1873-1920
1. bas-bord - 3 - 1
2. basse-lisse - - 2 -
3. basse-taille 3 6 30 4
4. belle-pucelle 3 - - -
5. blanc-bec - 14 17 14
6. blanc-tapis - - 2 1
7. bleu-manteau - - 2 -
8. bonne-main 40 22 7 6
9. bonne-vilaine 1 - - -
10. bonne-voglie - 1 - -
11. chiche-face 1 1 - -
12. double-bec 1 - - -
13. double-main - 17 1 -
14. dur-bec - - - 1
15. dure-mère - 6 43 -
16. grand-compte - - 14 27
17. grand-croix 3 - 5 4
18. gros-bec - 2 5 2
19. gros-colas - 1 - -
20. gros-jean 1 13 25 12
21. haut-le-coeur - - 3 20
22. haute-bonté 5 1 1 2
23. longue-épine - 15 1 -
24. mort-dieu 8 6 20 4
25. petit-bouc 1
26. petit-gris 6 10 9 2
27. rouge-queue - - 6 -
260
composé 1606-1694 1695-1798 1799-1872 1873-1920
28. saint-augustin 417 394 406 243
29. saint-augustin 417 394 406 243
30. saint-gall 1 11 23 24
31. saint-germain 354 517 1218 409
32. sainte-anne 15 68 65 80
33. sainte-barbe - - 25 40
34. toute-table - - - 1
35. vide-bouteille - 2 - 1
36. vide-gousset - - 2 2
261
Tableau 5 Frantext : fréquence des composés N-A (réguliers)
composé 1606-1694 1695-1798 1799-1872 1873-1920
1. arc-boutant 1 6 15 10
2. acquit-patent 1 1 - -
3. aigue-marine - - 12 6
4. bec-cornu 1 1 - -
5. bout-rimé 4 4 8 -
6. branle-bas - 3 12 29
7. coffre-fort 7 80 49 48
8. criste-marine - 1 2 1
9. fer-blanc 16 29 123 83
10. pic-vert - 1 5 -
11. pie-grièche - 5 9 2
12. pied-bleu - - 1 -
13. pont-neuf 70 108 172 64
14. porc-épic 1 7 92 16
15. terre-plein 2 11 20 34
16. procès-verbal 12 138 285 247
262
Tableau 6 Frantext : fréquence des composés N-A (irréguliers)
composé 1606-1694 1695-1798 1799-1872 1873-1920
1. 4 bec-allongé - 1 - 1
2. 6 bec-courbe - - - 1
3. 7 bec-dur - - - 1
4. 8 bec-ouvert - 2 4 12
5. 9 bec-pointu - - 6 4
6. 1 bec-tranchant - 2 3 -
7. 1 bord-opposé 2 11 27 1
8. 1 bouillon-blanc 1 3 4 4
9. 1 carême-prenant 8 7 5 4
10. cerf-volant - 31 26 18
11. 1 cou-jaune - 1 - -
12. 2 cul-bas 1 - - -
13. 2 cul-blanc - - 2 2
14. 2 fer-chaud 10 27 22 16
15. 2 main-forte 42 46 67 51
16. mont-dore 2 1 6 14
17. pied-droit 8 27 37 44
18. pied-fort 4 5 4 1
19. risque-tout - 12 5 13
20. sang-froid 25 666 1002 311
21. sang-gris 1 - - -
22. terre-neuve 2 46 86 41
23. ver-coquin 1 - 1 1
263
Tableau 7 Frantext : fréquence des composés N-de-N (réguliers)
Nom composé Périodes
1606-1694 1695-1798 1799-1872 1873-1920
1. belle-de-jour 1 - - -
2. belle-de-nuit - 25 2 1
3. cul-de-jatte 4 - - 1
4. mestre de camp 51 76 7 1
5. pou-de-soie - - 1 -
264
Tableau 8 Frantext : fréquence des composés N-de-N (irréguliers)
composé 1606-1694 1695-1798 1799-1872 1873-1920
1. bec-d’âne 3 - 3 -
2. bec-de-cane 1 - 3 2
3. bec-de-cigogne - - - 2
4. bec-de-corbeau - - - 2
5. bec-de-corbin - 8 1 11
6. bec-de-cygne - - - 1
7. bec-de-faucon - - 1 1
8. bec-de-grue - - - 1
9. bec-de-lézard - - - 1
10. bec-de-perroquet - - 3 2
11. bec-de-vautour - - 5 3
12. cou-de-pied 1 - - 1
13. coup de poing 16 41 158 215
14. crête-de-coq - - 3 4
15. cul-de-lampe 3 - - -
16. cul-de-poule - 1 1 11
17. cul-de-sac 1 7 - -
18. eau-de-vie 85 173 433 388
19. fleur-de-mai - - 1 2
20. gorge-de-pigeon - 2 14 6
21. haut-de-chausses 2 1 - 1
22. sang-de-dragon 1 1 - -
265
APPENDICE 3 Noms composés non-mesurés (Littré)
Composés V-N, P-N, Adv-N, Nombre-N
Voir l'Appendice 1 pour les listes de ces quatre types de compossés.
Composés EMPRUNTS (10 formes)
alto-basso, aqua-toffana, arrow-root, bégler-beg, horse-guard, nam-nam, porc-épic, tac-tac, tohu-bohu, ylang-ylang.
Composés SAVANTS (29 formes) aqua-tinta, électro-puncture, gastro-conjonctivite, gastro-encéphalite, gastro-hépatite, incito-motricité, inter-ars, métallo-thérapie, micro-organisme, mylo-glosse, nacro-culture, néo-catholicisme, néo-christianisme, néo-platonisme, nihil-album, omphalo-phlébite, orang-outang, palma-christi, palmi-phalangiens, phréno-glottisme, proto-médecin, proto-médicat, quasi-contrat, quasi-délit, quasi-légitimité, quasi-restauration, semen-contra, surdi-mutité, vade-mecum.
Composés Préfixe-N (63 formes)
anti-bois, mi-fruit, mi-laine, mi-partition,
non-noble, post-consulat, pré-succession, pseudo-cobalt, pseudo-continuité, pseudo-cristal, pseudo-croup, pseudo-émeraude, pseudo-malachite, pseudo-médecin, pseudo-membrane, pseudo-périptère, pseudo-platane, pseudo-saphir, pseudo-science,
semi-animiste, semi-arianisme, semi-arien, semi-brève, semi-colon, semi-pite, semi-preuve, semi-ton, semi-voyelle, servo-moteur,
thermo-baromètre, thermo-cautère, thermo-diffusion, thermo-électricité, thermo-lampe, ultra-libéralisme,
ultra-royalisme, ultra-royaliste, vice-amiral, vice-amirauté, vice-bailli, vice-camérier, vice-cardinal, vice-chancelier, vice-consul, vice-consulat, vice-dieu, vice-empereur, vice-gérance, vice-gérant, vice-gérent, vice-légat, vice-légation, vice-préfet, vice-présidence, vice-président, vice-procureur, vice-recteur, vice-reine, vice-roi, vice-royauté, vice-sénéchal.
Composés à PLUS DE DEUX TERMES (81 formes)
à-bon-compte, acquit-à-caution, arc-en-ciel, arc-en-terre, arrière-demi-file, arrière-petit-fils, arrière-petits-enfants, auto-da-fé, avale-tout-cru, avant-chemin-couvert, avoir-du-poids,
266
bat-à-bourre, bec-en-ciseaux, bec-en-fourreau, bec-en-scie, belle-à-voir, belle-d’onze-heures, belle-petite-fille, bernard-l’hermite, boute-en-courroie, boute-en-train, boute-tout-cuire, bric-à-brac, chat-en-jambes, chie-en-lit, coq-à-l’âne, croc-en-jambe,
doux-aux-guêpes, eau-de-vie,
faux-du-corps, fouille-au-pot, grosse-de-fonte,
haut-à-bas, haut-à-haut, haut-de-chausses, hors-d’œuvre, in-cent-vingt-huit, in-cent-vingt-huit, in-quatre-vingt-seize,
jean-de-gand, jean-de-janten, jean-le-blanc, laisse-tout-faire,
meurt-de-faim, meurt-de-soi, mille-au-godet, monte-au-ciel, non-plus-ultra, nord-nord-est, nord-nord-ouest,
paille-en-queue, pare-à-faux, passe-tout-grain, pent-à-col, perd-sa-queue, pet-en-gueule, pet-en-l’air, porte-cure-dent,
ramasse-ton-bras, rez-de-chaussée, riquet à la houpe, riz-pain-sel, saute-à-l’œil, saute-en-barque, saute-en-bas, sauve-qui-peut, sept-en-gueule, sept-et-le-va, soupe-tout-seul, tâte-au-pot, tiers-sur-taux, tourne-à-gauche, tout-ou-rien,
va-de-pied, va-et-vient, va-te-laver, vade-in-pace, vade-in-pace, vaque-à-tout, venez-y-voir, vert-de-gris.
Composés AUTRES (38 formes) La fréquence d’occurrence de chaque forme dans ce groupe de composés est inférieure à 10. Le Tableau 9 présente ces formes et les raisons de leur exclusion.
267
Tableau 9 Corpus Littré : noms composés AUTRES
nom composé structure interne raison de l'exclusion
1. cailleu-tassart N-N composé latin francisé (constituants inexistants en isolation)
2. cri-cri N-N onomatopée
3. cric-crac N-N onomatopée
4. tiou-tiou N-N onomatopée
5. bon-henri A-Npropre nom propre
6. dame-aubert N-Npropre nom propre
7. dame-jeanne N-Npropre nom propre
8. pêche-bernard N-Npropre nom propre
9. pêche-martin N-Npropre nom propre
10. chasse-avant V-P structure incluant une catégorie mineure (préposition)
11. chasse-derrière V-P structure incluant une catégorie mineure (préposition)
12. frappe-devant V-P structure incluant une catégorie mineure (préposition)
13. hale-avant V-P structure incluant une catégorie mineure (préposition)
14. va-devant V-P structure incluant une catégorie mineure (préposition)
15. haute-contre A-P structure incluant une catégorie mineure (préposition)
16. hale-dedans V-Adv structure incluant une catégorie mineure (adverbe)
17. hale-dehors V-Adv structure incluant une catégorie mineure (adverbe)
18. passe-partout V-Adv structure incluant une catégorie mineure (adverbe)
19. passe-debout V-Adv structure incluant une catégorie mineure (adverbe)
20. va-outre V-Adv structure incluant une catégorie mineure (adverbe)
268
nom composé structure interne raison de l'exclusion 21. va-outre V-Adv structure incluant une catégorie
mineure (adverbe)
22. mieux-disant Adv-V structure incluant une catégorie mineure (adverbe)
23. mieux-être Adv-V structure incluant une catégorie mineure (adverbe)
24. non-recevoir Adv-V structure incluant une catégorie mineure (adverbe)
25. rendez-vous V-Pron structure incluant une catégorie mineure (pronom)
26. vas-tu V-Pron structure incluant une catégorie mineure (pronom)
27. chassé-huit V-Nombre structure incluant une catégorie mineure (nombre)
28. deux-quatre Nombre-Nombre structure incluant deux catégories mineures (nombre)
29. trois-six Nombre-Nombre structure incluant deux catégories mineures (nombre)
30. entre-deux P-Nombre structure incluant deux catégories mineures (préposition et nombre)
31. tré-sept Adv-Nombre structure incluant deux catégories mineures (adverbe et nombre)
32. non-moi Adv-Pron structure incluant deux catégories mineures (adverbe et pronom)
33. semper-virens Adv-N forme latine (formée de semper, ‘toujours’ et virens ‘qui est vert’)
34. veni-mecum V-Pron-P forme latine (formée de veni ‘viens’, me ‘je’ et cum, ‘avec’)
35. velci-aller V-Pron-V forme réduite de syntagme (vois-le-ci-aller)
36. chassez-déchassez V-V type de composé dont la fréquence est trop basse
37. laissez-passer V-V type de composé dont la fréquence est trop basse
38. voir-venir V-V type de composé dont la fréquence est trop basse
269
APPENDICE 4 Étude pilote – composés garde-x
Tableau 10 Composés garde-x/x-garde (corpus Gallica)
mot composé structure interne
1. arrière-garde N-N
2. avantgarde P-N
3. avant-garde P-N
4. bien-garde A-N
5. cent-garde N-N
6. chien-de-garde N-de-N
7. chien de garde N-de-N
8. contre-garde P-N
9. contregarde P-N
10. corps de garde N-de-N
11. donnée-de-garde N-de-N
12. ex-garde Préf-N
13. garde-barrière N-N
14. garde-cendre N-N
15. garde champêtre N-N
16. garde-chasse N-N
17. garde-chiourme N-N
18. garde-côtes N-N
19. garde de cavalerie N-de-N
20. garde de chasse N-de-N
21. garde de mareschal N-de-N
22. garde de santé N-de-N
23. garde de police N-de-N
24. garde de service N-de-N
270
mot composé structure interne
25. garde-des-sceaux N-de-N
26. garde-du-corps N-de-N
27. garde du corps N-de-N
28. garde-feu N-N
29. garde-forestier N-N
30. garde-fou N-A
31. garde-général N-N
32. garde-infante N-N
33. garde-jambes N-N
34. garde-magasin N-N
35. garde-main N-N
36. garde-malade N-N
37. garde-manger N-N
38. gardes-marine N-N
39. garde-meuble N-N
40. gardemeuble N-N
41. garde-noble N-A
42. garde-notes N-N
43. garde-pêche N-N
44. garde-pipe N-N
45. garderobbe N-N
46. garde-robbe N-N
47. garderobe N-N
48. garde-robe N-N
49. garde-sac N-N
50. garde-sel N-N
51. garde-finage N-N
52. garde-pompes N-N
53. garde-temps N-N
271
mot composé structure interne
54. garde-voie N-N
55. garde-vue N-N
56. homme de garde N-de-N
57. point de gardes N-de-N
58. sar-des-gardes N-de-N
59. sauvegarde V-N
60. sauve-garde V-N
272
Tableau 11 Familles morphologiques des composés garde-x (Frantext)
mot composé nombre de membres de famille par période
1606-1694 1695-1798 1799-1872 1873-1920
garde garderie x gardeur x x x gardeuse x x x gardian x gardien x x x x gardienne x x x x gardiennage x x garde-barrière x barre x barrer x barrage x barreur x garde-cendre x x cendrier x x cendré x x cendreux x x garde champêtre x x champ x x garde-chasse x x x chasseur x x x chasseresse x x x chasseur x x chasseuse x x chasser x x x pourchasser x x x rechasser x chasse-neige x x chasse-clous x garde-côtes x x x coté x x x coter x x x cotiser x x cotisation x x cotisant x x garde-feu x x x enfeu x pique-feu x garde-finage x
273
mot composé nombre de membres de famille par période
1606-1694 1695-1798 1799-1872 1873-1920
garde-forestier x x forêt x x garde-fou x x x fol x x x folle x x x folie x x x folichon x x folâtre x x follement x x x affoler x x x folle-blanche x x garde-général x x généralement x x généralité x x généraliser x x généralisation x x généralisable x généralisateur x x garde-infante x infant x infantile x infantilisme x garde-jambes x jambage x jambon x jambière x enjamber x garde-magasin x x x magasiner x magasinier x magasinage x x x garde-main x x maintenir x x maintien x x mainlevée x x garde-malade x x x maladie x x x maladif x x x maladive x x x maladivement x x garde-manger x x x x mangeable x x x x
274
mot composé nombre de membres de famille par période
1606-1694 1695-1798 1799-1872 1873-1920
mangeoire x x x x mangeur x x x x mangerie x x x x remanger x x blanc-manger x x x x mange-tout x x x x gardes-marine x x x marin x x x marinier x x x marinière x x x marina x x sous-marin x x loup-marin x x x garde-meuble x x x x ameublir x x x ameublissement x x immeuble x x x x ameublement x x x x démeubler x x x x meubler x x x x remeubler x x x x essuie-meubles x garde-noble x x x noblement x x x noblesse x x x anoblir x x x anoblissement x x x ennoblir x x x ennoblisseur garde-notes x x noter x x notation x x annoter x annotation x x notaire x x notamment x x garde-pêche x pêcher x pêcheur x repêcher x pêcherie x martin-pêcheur x
275
mot composé nombre de membres de famille par période
1606-1694 1695-1798 1799-1872 1873-1920
garde-pipe x pipette x pipeau x garde-pompes x pomper x pompant x pompeux x repomper x garde-robe x x x x enrober x x x x rober x x robin x x x x garde-sac x sachet x sacoche x saccage x saccager x cul-de-sac x garde-sel x salé x salant x saleur x saler x salière x saloir x dessaler x garde-temps x x temporaire x x contretemps x x printemps x x printanier x x longtemps x x temporel x x entre-temps x x passe-temps x x garde-voie x avoyer x voyer x voirie x contre-voie x garde-vue x x x voir x x x
276
mot composé nombre de membres de famille par période
1606-1694 1695-1798 1799-1872 1873-1920
entrevoir x x x revoir x x x voyance x x x voyeur x x x longue-vue x x x passe-vue x x x