la productivité des noms composés en français...je suis très reconnaissante aux professeurs...

La productivité des noms composés en français du XVIIe au début du XXe siècle

by

Elena Voskovskaia

A thesis submitted in conformity with the requirements for the degree of Doctor of Philosophy

Graduate Department of French University of Toronto

© Copyright by Elena Voskovskaia 2013

ii

La productivité des noms composés en français

du XVIIe au début du XXe siècle

Elena Voskovskaia

Doctor of Philosophy Graduate Department of French

University of Toronto

2013

Résumé

La présente thèse est une étude approfondie de la productivité des noms composés français

N-N, A-N, N-A et N-de-N du XVIIe au début du XXe siècle. La productivité morphologique

des mots composés demeure un domaine très peu exploré, surtout en français. Les études

antérieures sur la dérivation utilisent principalement la mesure de productivité basée sur les

hapax, soulevant la question de savoir si l’application d’une seule méthode est suffisamment

fiable pour évaluer la productivité en composition. Dans cette thèse, la productivité des

composés est calculée au moyen de trois mesures différentes : la mesure P basée sur les

hapax (Baayen et Lieber 1991; Baayen 1992), la taille catégorielle de la famille

morphologique (Baayen et Hay 2002) et la fréquence relative (Hay 2003). En outre, la

productivité est analysée en tenant compte de la position de la tête morphologique et l’aspect

régulier/irrégulier du composé. Je cherche à vérifier quatre hypothèses : 1) les composés

réguliers sont plus productifs que les irréguliers ; 2) les N-N et N-de-N sont les types les plus

productifs ; 3) il existe une corrélation inverse entre la productivité P et la fréquence

relative ; 4) il existe une corrélation inverse entre la productivité P et la taille catégorielle de

la famille morphologique. Les hypothèses #1 et #4 sont confirmées par les résultats obtenus :

iii

les formes régulières exocentriques sont les plus productives et le taux de productivité le plus

élevée coïncide avec la taille catégorielle la plus basse. L’hypothèse #2 a été appuyée

partiellement à cause de données lacunaires pour le type N-de-N. Toutefois, la corrélation

inverse entre la productivité et la fréquence relative n’est pas confirmée en composition. La

thèse a apporté plusieurs contributions : l’étude diachronique de productivité en composition,

l’utilisation de différentes méthodes statistiques et un corpus original de composés français

qui comporte 15 types différents.

iv

DÉDICACE

À mon fils Aleksandr.

v

Remerciements

Tout d’abord, je suis particulièrement honorée que la professeure Angela Ralli ait accepté

d'être évaluatrice externe et de faire partie du jury de ma thèse. Je suis immensément

reconnaissante à Angela Ralli de son regard d’experte sur mon manuscrit et de ses

commentaires pertinents.

Je voudrais remercier le professeur Janis Langins d’avoir accepté de présider le jury de ma

thèse.

J’adresse mes sincères remerciements à Anne-Marie Brousseau, ma directrice de thèse, avec

qui j’ai eu le privilège de pouvoir discuter de ma recherche et de partager mes réflexions

scientifiques tout au cours de ces années. Ce travail est le fruit de plusieurs années de

recherches en tant qu’étudiante de maîtrise et de doctorat à l’université de Toronto. Durant

toutes ces années, vous étiez toujours prête à m’aider et à offrir votre appui. Je vous remercie

de tout mon cœur pour vos lectures attentives et exigeantes de plusieurs brouillons de ma

thèse, vos commentaires très précis, vos suggestions incroyablement fructueuses et vos

conseils. Le chemin sera beaucoup plus difficile à parcourir sans votre énorme soutien.

Je remercie avec beaucoup de chaleur Yannick Portebois qui a montré un grand intérêt

envers mon travail. Un grand merci de m’avoir offert des conseils, des commentaires et

d’avoir inspiré/orienté/balisé certaines parties de ma thèse, tout particulièrement celles qui

portent sur la lexicographie historique du français. Cela m'a permis de comprendre que la fin

de la thèse n’est pas la fin de la recherche, mais plutôt le début de nouvelles explorations.

Merci d’avoir été une interlocutrice motivante et enthousiaste.

Je tiens également à remercier Mihaela Pirvulescu qui a pris le temps de discuter de ma

recherche et de me donner commentaires et ses conseils. Merci beaucoup d’avoir soulevé

quelques questions théoriques importantes et d’avoir fourni des critiques constructives et

précieuses.

vi

Je remercie le professeur Jeffrey Steele d’avoir accepté de relire ma thèse et d’en être

membre du jury. Je suis très reconnaissante d’avoir eu l’occasion de suivre vos cours de

linguistique à l’université de Toronto lors de mes années d’études au programme de maîtrise

et de doctorat.

Je suis très reconnaissante aux professeurs Parth Bhatt, Yves Roberge, Emmanuel Nikiema

et Juvenal Ndayiragije de m’avoir donné goût à la recherche linguistique et d’avoir motivé

ma vocation pour le domaine de la morphologie.

J’exprime mes profonds remerciements à mes collègues et amies Anna Frolova et Nathalie

Lenina pour leur soutien et leurs encouragements au cours de la réalisation de cette

recherche. Un immense merci à ma relectrice Meï-Lan Mamode pour ses relectures

minutieuses et incroyablement efficaces.

Et enfin, j’adresse spécialement de tendres remerciements à ma famille dont la chaleur et le

soutien m’ont permis de garder une bonne espérance. Je souhaite remercier tout

particulièrement mon cher fils Aleksandr pour ses encouragements enthousiastes et le respect

qu’il a toujours eu envers mes choix.

vii

Table des Matières

Résumé ................................................................................................................................................... ii

Remerciements ...................................................................................................................................... v

Table des Matières ............................................................................................................................ viii

Liste des tableaux ................................................................................................................................. xi

Liste des graphiques .......................................................................................................................... xiii

Principales abréviations ..................................................................................................................... xiv

CHAPITRE 1 – Introduction ............................................................................................................... 1

1.1 Objectifs ....................................................................................................................................... 1

1.2 Travaux antérieurs ..................................................................................................................... 3

1.3 Organisation de la thèse ............................................................................................................. 5

1.4 Contribution de la thèse ............................................................................................................. 7

CHAPITRE 2 – Les mots composés : descriptions et théories ........................................................ 10

2.1 Introduction ............................................................................................................................... 10

2.2 Identification des mots composés français .............................................................................. 12

2.2.1 Critères phonologiques et orthographiques ......................................................................... 14

2.2.2 Critères morphologiques ..................................................................................................... 16

2.2.3 Critères sémantiques ............................................................................................................ 18

2.2.4 Critère d’atomicité syntaxique ............................................................................................. 19

2.2.5 Tête et base dans les mots composés ................................................................................... 21

2.3 Typologie des mots composés français .................................................................................... 24

2.4 Les modèles théoriques des mots composés ............................................................................ 27

2.4.1 Le modèle lexicaliste de Di Sciullo et Williams (1987) et Di Sciullo (2005) ..................... 28

2.4.2 Le modèle des mots composés de Zwanenburg (1992) ....................................................... 33

2.4.3 La théorie de formation de Lieber (le modèle lexico-syntaxique) ...................................... 37

2.4.4 La théorie de Fabb ............................................................................................................... 42

2.4.5 Les modèles de traitement lexical des mots composés ........................................................ 47

2.5 Conclusion ................................................................................................................................. 49

viii

CHAPITRE 3 – L’objet de la productivité morphologique ............................................................ 55

3.1 Introduction ............................................................................................................................... 55

3.2 Le modèle de productivité morphologique de Bauer ............................................................. 58

3.3 Le modèle de productivité morphologique de Baayen .......................................................... 65

3.4 La fréquence relative de Hay (2003) ....................................................................................... 74

3.5 Productivité morphologique des mots composés : un paradoxe ........................................... 78

3.5.1 Le rôle de la fréquence des constituants dans les mots composés ....................................... 78

3.5.2 Le rôle de la longueur des constituants dans les composés ................................................. 80

3.5.3 Le paradoxe de la productivité des mots composés ............................................................ 80

3.6 La productivité et la taille de la famille morphologique ....................................................... 81

3.7 L’approche structurale versus l’approche sémantique ......................................................... 86

3.8 Productivité et diachronie ........................................................................................................ 88

3.9 Productivité et registre de langue ............................................................................................ 89

3.10 Sommaire ................................................................................................................................. 91

3.11 Conclusion ............................................................................................................................... 93

CHAPITRE 4 – Méthodologie et corpus ........................................................................................... 97

4.1 Introduction ............................................................................................................................... 97

4.2 L’évaluation de la productivité morphologique à partir des corpus textuels ..................... 98

4.3 Méthodologie ........................................................................................................................... 101

4.3.1 Étape 1 : Création de la liste de composés ........................................................................ 104

4.3.2 Étape 2 : Choix des types et formes des composés qui seront mesurés ............................ 107

4.3.3 Étape 3 : Organisation et exploitation du corpus Frantext ................................................ 109

4.3.4 Étape 4 : Mesure de la productivité dans Frantext ............................................................ 111

4.3.5 Étape 5 : ldentification de la base dans les mots composés ............................................... 113

4.3.6 Étape 6 : Étude diachronique des formes recensées .......................................................... 114

4.4 L’étude pilote : la productivité des composés garde-x ......................................................... 115

4.4.1 Étapes préparatoires ........................................................................................................... 115

4.4.2 La productivité des composés garde-x .............................................................................. 118

4.4.2.1 La productivité selon la mesure des hapax ................................................................ 118

4.4.2.2 La taille de la famille morphologique des composés garde-x .................................... 119

4.4.3 Identification des bases et fréquence relative ................................................................ 122

4.5 Corrélation entre les trois mesures ....................................................................................... 125

4.6 Conclusion ............................................................................................................................... 127

ix

CHAPITRE 5 – L’analyse de la productivité des noms composés français ............................... 130

5.1 Introduction ............................................................................................................................. 130

5.2 Productivité basée sur les hapax ............................................................................................ 132

5.2.1 Productivité des composés N-N ........................................................................................ 133

5.2.2 Productivité des composés A-N ........................................................................................ 137

5.2.3 Productivité des composés N-A ........................................................................................ 141

5.2.4 Productivité des composés N-de-N ................................................................................... 144

5.2.5 Facteurs corrélés à la productivité au sens strict ............................................................... 146

5.2.5.1 Productivité et position de la tête morphologique ...................................................... 147

5.2.5.2 Productivité et type de composés ............................................................................... 149

5.2.5.3 Productivité et aspect régulier/irrégulier des composés ............................................. 151

5.2.6 Sommaire ........................................................................................................................... 152

5.3 Productivité basée sur la taille de la famille morphologique ............................................. 153

5.4 Productivité et fréquence relative .......................................................................................... 158

5.4.1 Fréquence relative des composés N-N .............................................................................. 159

5.4.2 Fréquence relative des composés A-N .............................................................................. 164

5.4.3 Fréquence relative des composés N-A .............................................................................. 168

5.4.4 Fréquence relative des composés N-de-N ......................................................................... 171

5.4.5 Sommaire ........................................................................................................................... 173

5.5 Discussion ................................................................................................................................. 175

5.6 La productivité en diachronie ................................................................................................ 186

5.6.1 Évolution de la productivité par types et position de la tête .............................................. 186

5.6.1.1 Les composés N-N par période .................................................................................. 186

5.6.1.2 Les composés A-N par période .................................................................................. 188

5.6.1.3 Les composés N-A par période .................................................................................. 190

5.6.1.4 Les composés N-de-N par période ............................................................................. 191

5.6.2 Évolution globale de la productivité des composés ........................................................... 193

5.6.3 Combinaisons lexicales les plus courantes ........................................................................ 202

5.6.4 Sommaire ........................................................................................................................... 205

5.7 Conclusion ............................................................................................................................... 207

CHAPITRE 6 – Conclusion .............................................................................................................. 212

6.1 La productivité morphologique en composition .................................................................. 212

6.2 Méthodes et corpus ................................................................................................................. 214

6.2.1 Facteurs d’identification des mots composés en français .................................................. 214

x

6.2.2 Corpus et choix méthodologiques ..................................................................................... 215

6.2.3 Problèmes rencontrés ......................................................................................................... 217

6.3 Résultats ................................................................................................................................... 219

6.3.1 Les hypothèses ................................................................................................................... 220

6.3.2 Étude diachronique des composés ..................................................................................... 225

6.4 Questions et futures pistes de recherche ............................................................................... 228

Références bibliographiques ............................................................................................... 232

Appendice 1 Corpus Littré – liste des noms composés .................................................... 243

Appendice 2 Noms composés mesurés (Frantext) ............................................................ 252

Appendice 3 Noms composés non-mesurés (Littré) ......................................................... 265

Appendice 4 Étude pilote – composés garde-x .................................................................. 269

xi

Liste des tableaux

Tableau 3-1 A simplified example of an affix entry in morphological database .................. 85

Tableau 4-1 Typologie des composés qui seront potentiellement mesurés (liste de Littré) 109 Tableau 4-2 Typologie des noms composés garde-x/x-garde (liste de Gallica) ................. 116

Tableau 4-3 La fréquence d’occurrences des composés garde-x dans Gallica .................. 117 Tableau 4-4 La fréquence d’occurrences des composés garde-x dans le corpus Frantext . 118

Tableau 4-5 Productivité des composés garde-x selon la mesure P ................................... 119 Tableau 4-6 Taille de la famille morphologique des composés garde-x (Frantext) ........... 121

Tableau 4-7 Fréquence des composés garde-x et de leur base dans le corpus Frantext ..... 124 Tableau 4-8 Fréquence relative des composés garde-x par période .................................... 125

Tableau 4-9 Corrélation entre les trois mesures pour les composés garde-x ...................... 126 Tableau 5-1 Productivité des composés N-N selon la position de la tête ........................... 134

Tableau 5-2 Productivité des composés A-N réguliers et irréguliers selon la position de la tête .......................................................................................................... 138

Tableau 5-3 Productivité des composés N-A selon la position de la tête ........................... 142 Tableau 5-4 Productivité des composés N-de-N selon la position de la tête morphologique ................................................................................. 145 Tableau 5-5 Productivité des composés N-N, A-N, N-A et N-de-N selon la position

de la tête morphologique ................................................................................ 147 Tableau 5-6 Productivité des composés N-N, A-N, N-A et N-de-N par type ..................... 150

Tableau 5-7 Productivité des composés N-N, A-N, N-A et N-de-N selon l’aspect régulier/irrégulier ............................................................................................ 151

Tableau 5-8 Corrélation entre la taille catégorielle et la productivité des composés N-N, A-N, N-A et N-de-N .............................................................................. 154

Tableau 5-9 Corrélation entre la taille catégorielle et la productivité des composés N-N, A-N, N-A, N-de-N réguliers selon la position de la tête morphologique ....... 157

Tableau 5-10 Fréquence relative moyenne, productivité et taille catégorielle des composés N-N ......................................................................................... 161

Tableau 5-11 Fréquence relative moyenne, productivité et taille catégorielle des composés A-N ......................................................................................... 165

Tableau 5-12 Fréquence relative moyenne, taille catégorielle et productivité des composés N- A ......................................................................................... 168

xii

Tableau 5-13 Fréquence relative moyenne, taille catégorielle et productivité des composés N-de-N ..................................................................................... 171

Tableau 5-14 Productivité, fréquence d’occurrences et le nombre d’hapax selon la position de la tête morphologique dans les composés N-N, A-N, N-A, N-de-N .......... 176

Tableau 5-15 Distribution des formes avec de vrais hapax selon le type de composés ........ 179 Tableau 5-16 Productivité P des composés N-N par période ................................................ 187

Tableau 5-17 Productivité P des composés A-N par période ................................................ 188 Tableau 5-18 Productivité P des composés N-A par période ................................................ 190

Tableau 5-19 Productivité des composés N-de-N réguliers par période (mesures P, T) ...... 191 Tableau 5-20 Évolution globale de la productivité des composés N-N, A-N, N-A,

N-de-N (mesure P) .......................................................................................... 193 Tableau 5-21 Évolution de la productivité des composés réguliers N-N, A-N, N-A,

N-de-N (mesure P) .......................................................................................... 196 Tableau 5-22 Évolution de la productivité des composés irréguliers N-N, A-N, N-A,

N-de-N (mesure P) .......................................................................................... 197 Tableau 5-23 Évolution globale des composés N-N, A-N, N-A, N-de-N réguliers et

irréguliers selon la position de la tête morphologique (mesure P) .................. 199 Tableau 5-24 Évolution globale de la productivité des composés N-N, A-N, N-A,

N-de-N de 1606 à 1920 ................................................................................... 201 Tableau 5-25 Distribution des combinaisons lexicales les plus courantes ............................ 203

xiii

Liste des graphiques

Graphique 5-1 Productivité des composés N-N réguliers selon la position de la tête ...... 135 Graphique 5-2 Productivité des composés N-N selon l’aspect régulier/irrégulier ........... 137

Graphique 5-3 Productivité des composés A-N selon la position de la tête ..................... 140 Graphique 5-4 Productivité des composés A-N (réguliers vs irréguliers) ........................ 140

Graphique 5-5 Productivité des composés N-A selon la position de la tête .................... 143 Graphique 5-6 Productivité des composés N-A (réguliers vs irréguliers) ........................ 143

Graphique 5-7 Productivité des composés N-de-N selon l’aspect régulier/ irrégulier ..... 146 Graphique 5-8 Corrélation entre la taille catégorielle et la productivité

des composés N-N .................................................................................... 155 Graphique 5-9 Corrélation entre la taille catégorielle et la productivité

des composés N-A .................................................................................... 156 Graphique 5-10 Corrélation entre la taille catégorielle et la productivité

des composés A-N .................................................................................... 156 Graphique 5-11 Corrélation entre la mesure FR3 et la productivité P des composés N-N . 162

Graphique 5-12 Corrélation entre la mesure FR3 et la productivité P des composés A-N réguliers et irréguliers ............................................................................... 167

Graphique 5-13 Corrélation entre la mesure FR3 et la productivité P des composés N-A réguliers et irréguliers ............................................................................... 169

Graphique 5-14 Corrélation entre les mesures FR et la productivité P des composés N-de-N réguliers et irréguliers ................................................................. 172

Graphique 5-15 Distribution de la valeur N dans les composés N-N, A-N, N-A et N-de-N selon l’aspect régulier/irrégulier .............................................. 178

Graphique 5-16 Évolution globale des composés N-N (réguliers et irréguliers) selon la position de la tête morphologique ........................................................ 187

Graphique 5-17 Évolution globale des composés A-N (réguliers et irréguliers) selon la position de la tête morphologique ........................................................ 189

Graphique 5-18 Évolution des composés N-A (réguliers et irréguliers) selon la position de la tête morphologique .......................................................................... 190

Graphique 5-19 Évolution des composés N-de-N réguliers et irréguliers selon la position de la tête morphologique .......................................................................... 192

xiv

Principales abréviations

F la taille de la famille morphologique

FR la fréquence relative

FR1 la fréquence relative basée sur la fréquence du constituant qui est la tête

FR2 la fréquence relative basée sur la fréquence du constituant qui n’est pas la tête

FR3 la fréquence relative basée sur la somme des fréquences des constituants

FR4 la fréquence relative basée sur la moyenne des fréquences des constituants

n1 le nombre d’hapax legomena

N le nombre total d’occurrences des formes recensées dans le corpus

P la productivité au sens strict

P* la productivité globale

T la taille catégorielle de la famille morphologique

B et N Brousseau et Nikiema

1

CHAPITRE 1

Introduction

Bien que la question de productivité morphologique fasse l’objet de discussions récurrentes

dans les travaux linguistiques depuis plusieurs années (Aronoff 1976 ; Bauer 2001 ;

Kastovsky 1986), la productivité des mots composés est un domaine de recherche très peu

exploré, surtout en français. La présente thèse propose une étude approfondie de la

productivité des noms composés français dans un grand corpus littéraire du XVIIe au XXe

siècle, ainsi que l’analyse de l’utilisation de différentes méthodes statistiques pour mesurer la

productivité en composition. Dans ce chapitre, j’introduis d’abord les objectifs de la thèse.

Ensuite, je fais le survol des travaux antérieurs tant dans le domaine de la composition que

dans celui de la productivité morphologique. Puis, je décris l’organisation de la thèse.

Finalement, je parle de la contribution de la thèse à l’étude des noms composés en français

et, plus particulièrement, à l’analyse de leur productivité morphologique en diachronie.

1.1 Objectifs Les travaux récents en morphologie dérivationnelle ont démontré un intérêt nouveau pour le

concept de productivité et pour les moyens de mesurer celle-ci (Baayen 1992 ; Bauer 1983,

2001 ; Hay 2003, Plag 1999 ; Hay et Baayen 2002). Toutefois, la majorité des recherches en

productivité se trouve dans le champ de la dérivation et traite de l’anglais. À l’exception des

travaux de Corbin (1975, 1987), Namer (2003), Dal (2003) et Grabar et al. (2006) consacrés

à la productivité des affixes, la productivité morphologique inspire peu les chercheurs

français. D’ailleurs, la productivité en composition (Bauer 2008 ; Estopà 2009 ; Fernandez-

Dominguez 2007, 2009) est très peu explorée, que ce soit du point de vue théorique ou du

point de vue quantitatif.

Le présent travail vise à contribuer à l’étude de la productivité des noms composés français

du XVIIe au XXe siècle. Dans ce contexte, la présente thèse se donne les quatre objectifs

2

suivants. En premier lieu, il s’agit de créer un corpus de noms composés français et d’établir

la typologie des formes recensées. Le deuxième objectif consiste à évaluer la productivité des

formes recensées au moyen de diverses mesures de productivité et de déduire une corrélation

possible entre ces mesures. Le troisième objectif vise à démontrer comment la structure

interne et le statut (i.e. régulier/irrégulier) des composés contribue à leur productivité

morphologique. Finalement, le quatrième objectif est d’examiner l’évolution de la

productivité des composés français en diachronie.

Plus précisément, j’essaierai de répondre aux questions suivantes :

1) Quelles sont les meilleures mesures pour évaluer la productivité des composés français ?

Est-ce que la mesure de productivité au sens strict (basée sur les hapax legomena) est

suffisamment fiable pour calculer la productivité en composition?

2) Le niveau de productivité des composés français dépend-il de la taille de leur famille

morphologique et de la fréquence de leurs constituants ?

3) Quels types de composés sont les plus productifs en français du XVIIe au début du XXe

siècle?

4) Quels sont les facteurs qui influencent le changement dans le taux de productivité

morphologique des mots composés en français ?

Espérant pouvoir contribuer à l’approfondissement de la notion de productivité en

composition française, je propose d’effectuer, dans ce travail, une étude approfondie des

noms composés du XVIIe au XXe siècle. La recherche se limite aux quatre structures les plus

couramment utilisées en français : N-N, A-N, N-A et N-de-N. En analysant le changement

du taux de productivité de ces composés, je prends en considération plusieurs facteurs, tels

que la position de la tête morphologique, le type des composés, le statut régulier/irrégulier

(i.e. la transparence sémantique et la compositionnalité) des formes recensées, ainsi que la

taille de la famille morphologique et la fréquence des constituants. La productivité des

formes recensées sera évaluée dans un grand corpus littéraire, Frantext, au moyen de trois

mesures de productivité.

3

1.2 Travaux antérieurs La composition inclut plusieurs aspects morphologiques, syntaxiques, sémantiques et

phonologiques qui diffèrent d’une approche théorique à l’autre. Dans les premiers travaux

sur la composition, les mots composés ont été étudiés par rapport aux liens sémantiques

(Grevisse 1969) ou syntaxiques (Benveniste 1967 ; Martinet 1967) entre les constituants qui

les forment. Les linguistes contemporains comme Riegel (1991) et Anscombre (1991) se

penchent sur les propriétés référentielles des éléments du composé en tant qu’une expression

figée. Actuellement, deux grands modèles théoriques représentent le statut des mots

composés dans la grammaire générative : le modèle lexicaliste et le modèle syntaxique.

Dans le modèle lexicaliste (Di Sciullo 2005 ; Zwanenburg 1992 ; Di Sciullo et Williams

1987), le processus de la composition morphologique est organisé autour de la notion de tête.

Par contre, dans le modèle syntaxique (Fabb 1998 ; Lieber 1992, 2004), la formation des

mots composés est construite autour de la théorie X-barre (quelque peu révisée)

conformément aux règles de la syntaxe.

L’étude des mots composés présente parfois des problèmes, surtout en ce qui concerne leur

identification (Bauer 2009 ; Fabb 1998, 2005 ; Lieber 1992, 2004 ; Zwanenburg 1992 ; Di

Sciullo et Williams 1987 ; 2005 ; Lieber et Štekauer 2009). Le repérage des mots composés

est plus difficile en français parce que, dans la plupart des cas, les constituants y apparaissent

dans le même ordre qu’en syntaxe. Notamment, il est parfois difficile de distinguer les mots

composés des syntagmes (i.e. après-soinN vs soin après traitementSN) et des expressions

idiomatiques (i.e. mange-disqueN vs manger ses mots). Pour différencier les mots composés

des syntagmes nominaux, il faut utiliser un certain nombre de tests morphologiques,

syntaxiques, sémantiques et phonologiques qui tendent à établir la cohésion du composé.

Quant à la productivité morphologique en composition, très peu de recherches s’y sont

consacrées. Exception faite des travaux de Krott, Schreider et Baayen (1999), Fernandez-

Dominguez (2007, 2009), Bauer (2008) et Estopà (2009), les études portant sur la

productivité n’ont pratiquement pas traité des mots composés. D’ailleurs, il n’existe pas de

travaux sur la productivité des composés en français.

4

Un élément fondamental de la productivité morphologique, selon Bauer (2001), est lié à la

potentialité de créer des mots nouveaux. Dans les travaux antérieurs, la productivité a été

abordée soit sous un angle qualitatif, soit quantitatif. D'un point de vue qualitatif, on définit

la productivité comme la capacité des règles morphologiques à former de nouveaux lexèmes

(Bauer 2001) de façon non intentionnelle (Dal 2003). L’aspect quantitatif de la productivité

reflète la rentabilité du processus morphologique, c’est-à-dire le degré auquel cette

disponibilité est exploitée selon les normes de la langue particulière (Bauer 2001). Plusieurs

méthodes quantitatives, utilisant de grands corpus textuels, ont été proposées pour mesurer

des aspects différents de la productivité (Baayen 1992, 1993 ; Baayen et Lieber 1991 ;

Baayen et Renouf 1996 ; Krott, Schreider et Baayen 1999).

Parmi ces mesures, la plus largement utilisée actuellement est celle de la productivité au sens

strict proposée dans Baayen (1992, 1993), Baayen et Lieber (1991), Baayen et Renouf

(1996). Cette mesure est basée sur le nombre d’hapax legomena (les formes qui apparaissent

une fois seulement dans un grand corpus) qui sert à indiquer la probabilité de rencontrer de

nouveaux types d’une catégorie morphologique qui n’ont pas été enregistrés dans les

échantillons précédemment analysés (Baayen 1993).

Une autre mesure de productivité qui a été récemment appliquée à la composition dans le

travail de Fernandez-Dominguez (2009), est celle de la fréquence relative. Cette mesure,

proposée initialement en dérivation (Hay 2003), tient compte du rapport entre la fréquence

du composé et celle de ses constituants. Selon cette mesure, le niveau plus bas de la

fréquence relative indique que le mot complexe représente une structure décomposable et

potentiellement productive (Hay 2003).

Outre les mesures quantitatives de Baayen (1992, 1993) et Hay (2003), une nouvelle

méthode basée sur la taille catégorielle de la famille morphologique des mots complexes a

été récemment présentée dans Baayen et Hay (2002). En analysant la productivité des affixes

en anglais, ils montrent que l’augmentation de la taille catégorielle de la famille

morphologique d’un affixe coïncide avec la diminution du taux de sa productivité. Pourtant,

cette approche n’a jamais été appliquée à la mesure de la productivité des mots composés.

5

Par conséquent, étant donné le fait qu’il n’existe pas de travaux sur la productivité des

composés en français et peu sur la productivité des composes en général, ce travail élargira le

champ d’application de différentes mesures proposées avant tout pour la dérivation et pour

l’anglais.

1.3 Organisation de la thèse L'étude de la productivité morphologique des mots composés français est organisée en cinq

volets. Le premier chapitre consiste à présenter les objectifs de l’étude, des travaux

précédents dans le domaine de la productivité et la structure de la thèse. Le chapitre 2

propose un survol général de deux grands modèles théoriques en composition : le modèle

lexicaliste (Di Sciullo 2005 ; Zwanenburg 1992 ; Di Sciullo et Williams 1987) et le modèle

syntaxique (Fabb 1998 ; Lieber 1992, 2004). Un autre but de ce chapitre est de présenter les

différents critères qui sont pris en compte lors de l’identification des composés français (i.e.

critères phonologiques, morphologiques, sémantiques, syntaxiques). Comme la classification

des composés en français constitue parfois un problème, la typologie des formes recensées

est examinée selon quatre critères majeurs proposés dans Béchade (1992), Gross (1996) et

Brousseau et Nikiema (2001). Enfin, les questions liées à la base et la tête morphologique en

composition sont examinées. À l’issue de ce chapitre, je parle des concepts théoriques qui

sont retenus dans mon travail.

Le chapitre 3 vise à présenter les différentes théories de la productivité morphologique

(Aronoff 1976 ; Baayen 1992 ; Bauer 1988, 2001 ; Hay 2003 ; Plag 1999 ; Hay et Baayen

2002), en tenant compte des deux facettes de la productivité morphologique : l’aspect

qualitatif (Bauer 2001 ; Dal 2003) et l’aspect quantitatif (Baayen 1992, 1993 ; Baayen et

Lieber 1991 ; Baayen et Renouf 1996 ; Krott, Schreider et Baayen 1999). Dans ce chapitre,

je me concentre particulièrement sur les trois mesures de productivité qui seront appliquées

dans cette thèse : la productivité au sens strict (Baayen 1992 ; Baayen et Lieber 1991), la

fréquence relative (Hay 2003) et la taille catégorielle de la famille morphologique (Baayen et

Hay 2002). Étant donné que l’application de différentes mesures de productivité est possible

uniquement dans les grands corpus textuels, les questions de la taille et de la représentativité

de différentes bases de données sont également discutées. J’introduis brièvement la question

de l’approche structurale versus l’approche sémantique dans l’évaluation de la productivité

6

morphologique des mots composés. Je présente également le survol du rapport entre la

productivité et le registre de langue. Pour conclure le chapitre 3, je précise les méthodes

quantitatives et le corpus qui sont pris en considération.

Le chapitre 4 expose en détail la méthodologie retenue, ainsi que les résultats de l’étude-

pilote sur la productivité des noms composés français garde-x. En premier lieu, j’introduis

les trois bases de données utilisées : le corpus textuel Frantext, le corpus textuel Gallica et le

Dictionnaire de Littré. Je discute des forces et des faiblesses de chaque corpus, des

différentes méthodes d’organisation et d’exploitation de ces sources, ainsi que de certaines

questions liées à l’extraction des formes recensées. En deuxième lieu, je présente les

différentes étapes de la recherche, de la création de la liste de noms composés à partir du

dictionnaire de Littré jusqu’à l’application des trois mesures de productivité au corpus

Frantext. Finalement, je présente l’étude-pilote sur la productivité des composés garde-x,

entreprise pour valider les différents choix méthodologiques, et je fais l’analyse des

corrélations potentielles entre les trois mesures de productivité (i.e. la productivité au sens

strict, la fréquence relative et la taille catégorielle de la famille morphologique).

Dans le Chapitre 5 je présente l’analyse quantitative de la productivité des composés N-N,

A-N, N-A et N-de-N en utilisant les trois mesures quantitatives retenues. La productivité des

formes recensées est examinée au cours de quatre périodes différentes s’échelonnant du

XVIIe au XXe siècle. L’étude de la productivité est réalisée, tant globalement que par période,

en fonction de trois facteurs : le type de composés (structure), la position de la tête

morphologique et l’aspect régulier/irrégulier

En outre, dans le Chapitre 5, je discute les résultats obtenus pour vérifier les quatre

hypothèses suivantes. Pour l’hypothèse #1, il s’agit de confirmer que les composés réguliers

(arrière-boutique, basse-étoffe, arc-boutant, etc.) sont plus productifs que les irréguliers

(huppe-col, patte-fiche, bonne-vilaine, etc.). La deuxième hypothèse est liée à la structure

interne des formes recensées. Compte tenu du point de vue de Mathieu-Colas (1994) et

Brousseau et Nikiema (2001) qui considèrent les structures N-N et N-de-N parmi les plus

productives en synchronie, je mets à l’épreuve cette perception en analysant le taux de leur

productivité entre 1606 et 1920. La troisième hypothèse cherche à examiner la probabilité

7

d’une corrélation inverse entre la productivité et la taille catégorielle de la famille

morphologique des formes recensées. Je cherche à vérifier si la croissance de la taille

catégorielle de la famille morphologique des composés coïncide avec la décroissance du taux

de leur productivité. La quatrième hypothèse vise à examiner le lien entre la fréquence

relative et le niveau de productivité des formes recensées. Il s’agit de confirmer que le niveau

de productivité des composés est en relation inverse de celui de la fréquence relative, c’est-à-

dire que les mots composés dont la fréquence relative est plus basse sont plus productifs que

ceux dont la fréquence relative est plus élevée. En me basant sur l’hypothèse de Hay (2003)

en dérivation, je cherche à vérifier si la fréquence relative, proposée pour les mots affixés,

pourrait également être appliquée aux mots composés. Enfin, dans le chapitre 5, j’essaye de

répondre à la question majeure de la thèse : quelles sont les meilleures mesures quantitatives

pour évaluer la productivité en composition? Plus précisément, je cherche à savoir si la

mesure de productivité P au sens strict est suffisamment fiable comme seul moyen

d’évaluation de la productivité des noms composés.

Enfin, le chapitre 5 propose l’étude diachronique des formes recensées du XVIIe au début du

XXe siècle. Leur productivité est analysée par période selon le type et la position de la tête

morphologique, puis leur évolution générale en diachronie est examinée. Finalement, je me

penche sur les combinaisons lexicales qui apparaissent de façon récurrente au cours des

quatre périodes analysées.

La Conclusion (Chapitre 6) propose une synthèse des résultats obtenus au cours de la

recherche. J’y discute également des problèmes rencontrés, des résultats les plus significatifs,

des questions qui restent en suspens et des perspectives de recherches futures.

1.4 Contribution de la thèse Cette thèse se veut une contribution à la morphologie dérivationnelle du français,

particulièrement au processus de composition. Elle propose une analyse de la productivité de

différents types de composés, qui prend en compte leur typologie, fréquence d’emploi et

transparence sémantique et ce, en diachronie.

8

Par conséquent, le présent travail propose une étude détaillée de l’évolution de la

productivité des composés N-N, A-N, N-A et N-de-N au cours des années 1606-1920. En

outre, il examine l’application de différentes théories et de méthodes quantitatives qui n’ont

pas été précédemment utilisées pour l’évaluation de la productivité des composés de façon

générale ainsi que pour le français en particulier. Ainsi, le travail contribue à plus d’un titre à

l’étude morphologique de la composition en français.

La première contribution tient à la création d’un corpus des mots composés français. Vu la

nécessité d’effectuer une recherche quantitative dans une base de données textuelle de grande

taille, un corpus de 1970 noms composés à trait d'union a été initialement créé. Ce corpus est

formé de plusieurs types de composés réguliers et irréguliers utilisés en français du XVIIe au

XXe siècle. En effet, sauf une liste d’exemples dans Darmesteter (1875) et Mathieu-Colas

(1994), et le corpus des mots composés V-N (essuie-glace, porte-plume, casse-cou, etc.) de

Villoing (2002), il n’existe pas, à ma connaissance de corpus ou de liste de composés

français, sauf la banque de données créée récemment par Yves Bourque (2012)1, qui

regroupe une liste synchronique. Ainsi, la première contribution de la thèse consiste en la

création d’un corpus représentatif associé à plusieurs types de noms composés français

utilisés au cours de quatre périodes historiques différentes et couvrant une longue période, du

XVIIe au début du XXe siècle.

La deuxième contribution consiste en une nouvelle application des mesures de productivité

disponibles actuellement. D’une part, la méthode combinant trois mesures de productivité

utilisée dans la thèse n’a pas été précédemment appliquée à l’évaluation des mots en

composition. D’autre part, la productivité est examinée en fonction d’une série de propriéts

des composés : leur type structural (N-N, A-N, N-A, N-de-N), la position de la tête

morphologique (gauche/droite ou à l’extérieur du composé) et l’aspect régulier/irrégulier

(transparence/opacité sémantique).

Une contribution majeure de la thèse consiste certainement à combler une lacune dans

l’étude sur la productivité des mots composés visant à répondre à la question suivante : la

1 Voir http ://polylexical.com.

9

mesure de productivité P au sens strict, est-elle suffisamment fiable comme seul moyen de

calcul de productivité en composition ? Il s’agit donc d’une contribution théorique et

empirique. En premier lieu, ce travail permet de tester les différentes théories de productivité

morphologique disponibles. En deuxième lieu, la recherche sert à déduire une corrélation

possible entre les trois mesures de productivité utilisées pour raffiner des données et garantir

une fiabilité des résultats obtenus.

Finalement, comme il n’existe pas de travaux sur la productivité des composés en français,

soit en synchronie, soit en diachronie, cette thèse apporte une contribution empirique dans

l’étude diachronique de la néologie des mots composés français.

10

CHAPITRE 2

Les mots composés : descriptions et théories

2.1 Introduction L’analyse des mots composés par les linguistes du XXe siècle met en valeur les liens

syntaxiques et sémantiques entre les constituants des mots composés. Par exemple, chez le

célèbre grammairien Grevisse (1969), les études sur les composés français sont

essentiellement sémantiques ; il les considère comme des éléments constitutifs qui perdent

leurs sens d’origine et forment avec d’autres éléments lexicaux une nouvelle unité dont la

signification est autonome. Une autre tradition dans l’étude des mots composés est plutôt

d’inspiration syntaxique, mettant l’accent sur les différences qui caractérisent les noms

composés par rapport aux groupes nominaux libres. Parmi les linguistes qui ont étudié le

processus de composition à partir de cette idée, ce point de vue, on peut nommer Martinet

(1967) et Benveniste (1967). Certains linguistes contemporains comme Riegel (1991) et

Anscombre (1991) attirent l’attention sur les problèmes de référence que posent les mots

composés, dans la mesure où ils désignent des concepts préétablis.

Selon la définition de Bauer (1983), quand deux ou plus de deux radicaux pouvant être

utilisés comme bases se combinent, ils forment un autre radical – le mot composé : « A

compound may therefore be more fully defined as a lexeme containing two or more potential

stems that has not subsequently been submitted to a derivational process » (Bauer 1983 : 29).

Le processus de composition d’après Spencer (1991 : 309) représente l’interface par

excellence entre la morphologie et la syntaxe. La composition ressemble à la syntaxe d’avoir

des caractéristiques comme la présence du modifieur de la tête, les relations prédicat-

argument et les relations d’apposition entre les constituants. Du point de vue de la formation

des mots, les constituants du composé ne peuvent pas être séparés par l’insertion d’autres

mots ou de syntagmes.

11

D’après Libben (2006 : 2), la composition est un processus universel fondamental de la

formation des mots. L’étude des mots composés permet d’examiner des caractéristiques

fondamentales de la morphologie et des capacités humaines dans la représentation et le

traitement des mots. Les composés qui sont souvent utilisés (lexicalisés) sont stockés dans la

mémoire et ils sont accessibles comme un tout. Toutefois, cela n’exclut pas la décomposition

morphologique pour ces mots ; la lexicalisation ne coupe pas non plus les relations entre le

composé entier et ses morphèmes constituants. La notion de la maximalisation d’opportunité

(maximization of opportunity) de Libben (2006 : 6) suggère que les deux parties, le mot

composé et ses constituants, doivent être représentés dans le lexique mental en utilisant les

structures morphologiques et les liens vers les représentations monomorphémiques.

L’identification des mots composés et leur distinction des mots simples exigent beaucoup

d’analyse ainsi que l’application de plusieurs tests de validation qui servent à établir la

cohésion du mot composé ou le degré de figement de ses constituants. La notion du degré de

figement a été notée par Gross (1988, 1990) qui montre que le niveau de figement est plus

élevé quand la séquence admet moins de transformations syntaxiques.

Par composition, on entend un certain degré de figement de la relation qui existe entre éléments composants. Dès lors qu'on parle de figement ou de degré de figement, on établit une comparaison, implicite, avec des groupes qui ne sont pas figés, c'est-à-dire avec ce que nous appellerons des groupes nominaux ordinaires. Ainsi nous dirons que ‘une idée reçue’ est un groupe figé, tandis que ‘une idée stupide’ ne l'est pas. (Gross 1988 : 62)

Ainsi, selon Gross (1988 : 69), une structure qui permet toutes sortes de modifications est un

groupe nominal ordinaire (par ex. un livre difficile). Par contre, si aucune des propriétés ne

peut être changée, alors, c’est un cas de figement. D’après Corbin (1992), les noms composés

diffèrent des noms simples par le fait que ces derniers ne peuvent pas être décomposés en

unités plus petites, quelle que soit la nature de ces unités. Ceux qui peuvent être décomposés

sont des noms construits. Parmi ces derniers, on distingue les noms composés et les noms

dérivés ; les composés contiennent des éléments lexicaux qui peuvent être employés de façon

autonome. D’après Corbin (1992), « un mot composé est une unité lexicale complexe

construite par des règles lexicales conjoignant des unités lexicales à pouvoir référentiel »

Corbin (1992 : 28).

12

La définition des mots composés comme étant des structures morphologiques ou syntaxiques

dépend, chez les linguistes, du type de règles utilisées pour générer la formation des mots.

Ces règles relèvent soit du composant morphologique, soit du composant syntaxique. Deux

grands modèles théoriques représentent le statut des mots composés dans la grammaire

générative : le modèle lexicaliste (Di Sciullo 2005 ; Zwanenburg 1992 ; Di Sciullo et

Williams 1987) et le modèle syntaxique (Fabb 1998 ; Lieber 1992, 2004).

Dans le modèle lexicaliste, la formation des mots ne dépend pas de règles transforma-

tionnelles syntaxiques, mais bien du composant lexical. La formation des mots composés est

surtout organisée autour de la notion de la tête morphologique. Dans le modèle syntaxique,

par contre, les règles de la syntaxe sont responsables de la construction des mots composés, à

la fois du point de vue de l’assemblage de leurs constituants que de celui des relations

sémantiques qu’ils entretiennent. Conformément au modèle syntaxique, la construction des

mots composés est organisée autour de la théorie X-barre (quelque peu révisée).

Le présent chapitre a pour objectif de présenter un survol général de deux cadres théoriques

mentionnés ci-dessus en tenant compte de la représentation et du traitement des mots

composés en français. J’examinerai d’abord les différents critères d’identification des mots

composés en français (section 2.2). Ensuite, je discuterai le problème de la détermination de

la base et la notion de la tête morphologique dans la composition (section 2.2.5). Puis, dans

la section 2.3, je rendrai compte de la typologie des composés français. Enfin, je passerai en

revue les études théoriques sur le statut des mots composés, notamment le modèle lexicaliste

de Di Sciullo et Williams (section 2.4.1) et de Zwanenburg (section 2.4.2) en le comparant

au modèle lexico-syntaxique de Lieber (section 2.4.3) et à la théorie de Fabb (section 2.4.4).

Finalement, en conclusion (section 2.5) je présenterai les concepts théoriques retenus.

2.2 Identification des mots composés français L’étude des mots composés français présente parfois des problèmes, particulièrement au

niveau de leur identification. Dans plusieurs cas, il est difficile de distinguer, d’une part, les

mots composés des simplex et des mots dérivés et, de l’autre, des syntagmes et des

expressions idiomatiques. Bauer (1978) soutient que plusieurs composés en anglais, en

danois, en allemand et en irlandais ont pour équivalents des syntagmes nominaux en français.

13

Conformément à Martinet (1985) et Gross (1996), un mot composé possède la même

distribution syntaxique qu’un mot simple : « […] ils se combinent avec les mêmes

déterminants et participent aux mêmes fonctions » (Martinet 1985 : 37). Toutefois, la

distribution des marqueurs morphologiques dans les mots composés diffère de celle dans les

simplex. En composition, contrairement aux structures simples, on remarque de différentes

combinaisons possibles pour ce qui est de la flexion : absence de flexion (des rez-de-

chaussée), flexion du premier constituant (des timbres-poste, des pauses-café), flexions de

deux constituants (des francs-maçons).

La distribution du mot composé est aussi caractéristique par son intégralité : par exemple, on

ne peut pas introduire la négation à l’intérieur d’un mot composé sans que sa distribution ne

soit désorganisée (Gross 1996 : 23). Dans le cas de la composition, les deux morphèmes qui

forment un mot composé sont associés aux deux signifiants libres qui forment un signifié

unique (Martinet 1985 : 37).

L’identification des mots composés est plus difficile en français qu’en anglais (et autres

langues germaniques) parce que, dans la plupart des cas, les constituants y apparaissent dans

le même ordre qu’en syntaxe. Il faut donc trouver une façon de différencier les composés en

(1a, b) des syntagmes et des expressions idiomatiques en (1c, d).

(1) a. après-soin (composé) b. belle-sœur (composé) c. soin après traitement (syntagme nominal) d. cela me fait une belle jambe (expression idiomatique)

Pour identifier les composés, plusieurs tests morphologiques, syntaxiques, phonologiques et

orthographiques ont été proposés dans les travaux de Lees (1960), Levi (1978), Allen (1978 :

cité dans Brousseau 1989 : 23), Bauer (1978), Di Sciullo et Williams (1987), Roeper et

Siegel (1978), Selkirk (1982), Booij (1992). La majorité de ces tests a été regroupée pour les

composées français dans les travaux de Brousseau et Nikiema (2001).

Par conséquent, afin de distinguer les mots composés des syntagmes nominaux en français,

on utilise un certain nombre de critères phonologiques, morphologiques, sémantiques et

syntaxiques qui tendent à établir la cohésion du composé. Si un test fonctionne, alors on

14

considère une forme analysée comme un mot composé. Les tests les plus cohérents pour

distinguer les composés en français sont liés à des critères morphologiques et syntaxiques.

2.2.1 Critères phonologiques et orthographiques

Pour distinguer les composés des simplex et des dérivés, Brousseau et Nikiema (2001)

utilisent le critère « d’autonomie distributionnelle » pour chacun des composants du mot

composé. Selon ce critère, les composés sont formés des morphèmes libres qui peuvent

apparaître en isolation : « Les composés se distinguent des simplex et des mots dérivés en ce

que chacun des morphèmes qui les composent est libre » (Brousseau et Nikiema 2001 :

338)2. Ainsi, les formes en (2) peuvent être identifiées comme des composés parce que

chacun de leurs constituants est un morphème libre :

(2) adapte-couleur, chaise longue, grand-oncle

Toutefois, Brousseau (B et N 2001 : 338) rappelle qu’il faut rendre compte des nombreux

composés à caractère idiosyncratique qui sont devenus des simplex avec le temps (p. ex.

oripeau) et qu’il faut considérer seulement les composés qui ont conservé dans la langue un

statut de mot complexe dont la structure est utilisée dans la formation de mots nouveaux.

Ainsi, Brousseau propose d’utiliser le critère d’opacité phonologique, introduit par Lees

(1960) qui permet d’éliminer les noms figés ou lexicalisés et de distinguer la préfixation de

la composition. Selon ce critère, un mot complexe est un mot composé s’il peut être séparé

en unités phonologiques qui correspondent exactement à des items lexicaux.

2 Un point de vue similaire sur le processus de composition est présenté chez Bauer (2003) qui définit un mot composé comme “ the formation of a new lexeme by adjoining two or more lexemes » (Bauer 2003 : 40). Toutefois, Lieber et Štekauer (2009) parlent de deux raisons pour lesquelles, selon eux, il est difficile de trouver une définition satisfaisante et universellement applicable au composé: « On the one hand, the elements that make up compounds in some languages are not free-standing words, but rather stems or roots. On the other, we cannot always make a clean distinction between compound words on the one hand and derived words or phrases on the other. […] words like overfly and outrun in English must be considered compounds, rather than prefixed forms. There are two problems with this conclusion. First, the status of verbal compounds in English is highly disputed, and these items are clearly verbal. Second, even though over and out also occur as free morphemes in English, the form that attaches to the verbs fly and run behaves rather differently than the first element of a compound. ” (Lieber et Štekauer 2009 : 2-4)

15

En conséquence, les mots en (3 a-b) passent ce test parce que chaque unité phonologique du

composé correspond exactement à un item lexical de la langue, ce qui n’est pas le cas des

mots en (3 c-d) :

(3) a. contrecoup /k ntrəәku/ b. arc-en-ciel /arkãsjεl/ c. oripeau /ɔripo/ vs dorée peau /dɔre po/ d. vinaigre /vinɛgr/ vs vin aigre /vɛ ̃/ /ɛgr/

L’analyse des formes en (3) révèle les mots composés contrecoup et arc-en-ciel en (3a-b) qui

peuvent être séparés en unités phonologiques correspondant précisément à des items

lexicaux3. Par contre, oripeau et vinaigre en (3c-d) ne peuvent pas être décomposés en unités

qui correspondent synchroniquement à des items lexicaux tels qu’ils apparaîtraient dans les

syntagmes équivalents dorée peau et vin aigre.

En français, la présence d’un trait d’union est un indice clair du statut de mot composé en

contraste avec le syntagme nominal. Ainsi les groupes comme passe-temps et robe-houppette

sont clairement considérés comme mots composés. Toutefois, les cas où les composés

formés à partir d’un même élément possèdent (4a, c) ou non (4b, d) le trait d’union ne sont

pas rares (Béchade 1992 : 140).4

(4) a. arc-en-ciel b. arc de triomphe c. nouveau-né d. nouveau riche

3 Lieber et Štekauer (2009) pensent qu’au moins en anglais, l’accent peut être considéré comme un critère

phonologique pertinent pour l’identification des composés. En anglais, dans la plupart de cas, l’accent dans les mots composés tombe sur le constituant gauche, alors que dans les phrases syntaxiques c’est la tête, ou le constituant droit, qui est accentué. Néanmoins, il y a parfois des exceptions: “What we are forced to conclude is that for English, at least, left-hand stress is often a mark of compound, but certainly cannot be taken as either a necessary or a sufficient condition for distinguishing a compound from a phrase. […] There are phrases with left-hand stress and compounds with right-hand or double stress. We therefore need to look at other criteria that have been proposed for identifying compounds.” Lieber et Štekauer (2009 : 12) 4 Lieber et Štekauer notent qu’en anglais l'orthographe des composés est aussi relativement incohérente : “[…]

the orthography of English compounds is notoriously inconsistent : some compounds are written as single words (postcard, football), in others the constituents are hyphenated (sound-wave, tennis-ball), and in still others the constituent elements are spaced off, i.e. written as two separate words (blood bank, game ball). […] Some compounds occur in all three variants: flowerpot, flower-pot, flower pot.” (Lieber et Štekauer 2009 : 7)

16

2.2.2 Critères morphologiques

Comme nous l’avons vu dans la section précédente, si la présence du trait d’union peut être

considérée comme un indice fiable dans la reconnaissance des mots composés, son absence

ne nous révèle rien. Ainsi, plusieurs critères morphologiques ont aussi été proposés dans les

travaux de Béchade (1992), Gross (1996), Liber (1992), Martinet (1985), Riegel (1988).

Selon Lieber (1992), le premier élément du composé ne peut pas occuper la même position

dans le syntagme nominal ou adjectival :

[…] compounds frequently have items as their first elements which could not occur prenominally in a noun phrase, preadjectivaly in an adjective phrase, and so on. For example, nouns do not occur in the pre-head position either in NPs or APs, so where they appear in these positions it must be within compounds (e.g. file cabinet, sky blue, etc.). (Lieber 1992 : 13)

Lieber souligne aussi que pour certaines langues, les composés peuvent être distingués des

syntagmes par le fait que, dans un mot composé, l’élément non-tête reste non conjugué,

tandis qu’il doit être conjugué dans le syntagme (Lieber 1992 :13).

Gross (1996 : 32), à son tour, montre que dans le cas d’un syntagme nominal, chaque nom

peut avoir un modifieur (déterminant, dans la terminologie de Gross) alors que dans un mot

composé la modification porte sur l’ensemble de la structure figée.

(5) a. le livre de mon frère, l’intéressant livre de mon frère (syntagmes) b. le livre d’or (mot composé) c. *le livre épais d’or, *le livre d’or jaune (structures agrammaticales)

En élaborant plusieurs points de vue sur la structure morphologique des mots composés,

Brousseau (B et N 2001 : 339-341) propose les trois critères morphologiques suivants pour

faciliter l’identification des mots composés en français.

D’après le premier critère, le modifieur dans un composé peut apparaître seulement dans une

position déterminée (6a), tandis que dans un syntagme nominal ou adjectival il peut

occuper une autre place (6b).

17

(6) a. Composés b. Syntagmes après-soin N soin après traitement SN sud-africaine A africaine du sud SA amour-propre N amour qui est propre SN

Ainsi, le modifieur ‘après’ en (6a) peut être employé seulement dans de la position initiale

du composé, tandis que dans le syntagme nominal en (6b) il apparaît après le nom ‘soin’.

Selon le deuxième critère, les items lexicaux mineurs comme les prépositions et les

conjonctions qui font partie des syntagmes ne sont pas toujours présents dans les mots

composés :

(7) a. Composé b. Syntagme une construction [resto-bar]N une construction de [restaurant et bar]SN un soin [musico-cérebral]A un soin [musical et cérébral]SA

Finalement, conformément au troisième critère morphologique, le déterminant est souvent

absent dans les mots composés.

(8) a. Composés b. Syntagmes porte-serviettesN support recevant des serviettes pianiste-vedetteN pianiste qui est la vedette lève-glaceN mécanisme dans la voiture qui lève la glace

À la différence des autres langues romanes et germaniques, où il n’y a généralement pas

d’accord de genre ou de nombre, ni de marqueur de cas entre les deux éléments d’un

composé ; la plupart des composés français construits d’un adjectif et d’un nom s’accordent

en genre5.

(9) femme fatale, bande dessinée, produit vert

L’accord en nombre dans les composés français n’est pas régulier. Dans la plupart des

composés, c’est le sens qui détermine si le modifieur dans le composé doit apparaître au

singulier ou au pluriel :

5 Bauer (2003 : 41) montre qu’en général, il n’y a pas de marque d’inflexion entre les constituants des mots

composés. Toutefois, les cas où ce phénomène est présent peuvent être trouvés dans les langues danoise, finlandaise, turque, islandaise, etc.

18

(10) a. Singulier b. Pluriel une coupe de cheveux des coupes de cheveux (une coupe ou des coupes différentes des cheveux du client) une école de redressement des écoles de redressement (une école ou des écoles où on fait le redressement)

Pour cette raison, le critère d’accord en genre et en nombre ne peut pas être considéré comme

un test fort pour identifier correctement un mot composé en français.

2.2.3 Critères sémantiques

À partir des années 1960, les linguistes commencèrent à analyser consciencieusement la

question de l’interprétation sémantique des composés et celle des relations sémantiques entre

ses constituants (Lees 1960 ; Levi 1978 ; Lieber 1992 ; Zwanenburg 1991, 1992 ; Di Sciullo

et Williams 1987). Ces recherches, basées surtout sur les relations prédicat-argument,

contribuèrent beaucoup à la compréhension de la différence entre les mots composés et les

structures syntaxiques6.

Parmi les critères sémantiques permettant de faire une distinction claire entre les composés et

les structures syntaxiques, il faut mentionner les indices présentés chez Brousseau (B et N :

2001) qui, à leur tour, sont basés sur deux tests d’inhérence, introduits par Bauer (1978). Les

tests d’inhérence découlent d’une caractéristique importante de la relation entre les deux

éléments d’un composé, où l’élément modifieur doit être considéré en tant que propriété

inhérente de la tête du composé.

Le premier test d’inhérence postule qu’ « une suite [N-N] ou [A-N] est un composé si le fait

de modifier le composé par un antonyme de son modifieur interne n’entraîne pas de

contradiction » (B et N 2001 : 342). Ce test permet d’identifier les mots en (11) traitement-

choc et court-métrage comme des composés. Même si le modifieur externe (ordinaire, long)

6 L’une des recherches fondatrices sur les relations sémantiques entre les éléments du composé a été faite par

Levi (1978) qui a proposé le système de Recoverably Deletable Predicates. Ce système inclut neuf prédicats (CAUSER, AVOIR, FAIRE, ÊTRE, UTILISER, POUR, DANS, DE, À PROPOS DE) qui correspondent aux neuf interprétations sémantiques potentielles entre les éléments du composé. Ce système est devenu la base de plusieurs expériences psycholinguistiques dans le domaine de la composition.

19

et le modifieur interne (choc, court) sont des antonymes, l’expression est sémantiquement

correcte : elle ne contient pas de contradiction.

(11) a. un [traitement-choc] banalN b. un long [court-métrage]N

D’après le deuxième test d’inhérence, « une suite [N-N] ou [A-N] est un composé si l’ajout

d’une phrase complétive exprimant le caractère temporaire de la propriété exprimée par le

modifieur interne du composé entraîne une contradiction » (B et N 2001 : 342). Le deuxième

test identifie comme des composés les mots département-beauté et double personnalité dans

les exemples en (12b) et (13b). Les deux syntagmes en (13a) et (14a) sont considérés comme

contradictoires parce que la phrase complétive s’oppose au caractère permanent évoqué par

le modifieur interne. Les syntagmes en (b) sont corrects du point de vue sémantique parce

que le modifieur ne représente pas une propriété permanente.

(12) a. * C’est un département-beauté qui vend parfois des soins de beauté. b. Ce département de produits de beauté vend du linge de maison le samedi.

(13) a. *Sa personnalité-double est unique maintenant. b. Sa personnalité est double maintenant ; demain elle sera unique.

Dans les composés département-beauté et double personnalité, les modifieurs internes

(beauté, double) représentent des propriétés inhérentes des têtes (département, personnalité)

de ces composés. Ainsi, les phrases en (13a) et (14a) sont mal formées parce que les

syntagmes modificateurs (qui vend parfois des soins de beauté et est unique maintenant)

s’opposent au caractère permanent évoqué par les modifieurs internes (beauté, double).

Il est à noter que les deux tests d’inhérence peuvent être considérés comme des tests solides

pour identifier les mots composés, mais ils sont parfois difficiles à utiliser.

2.2.4 Critère d’atomicité syntaxique

Bauer (1978 : 54) avait déjà noté que le mot composé est traité dans la syntaxe comme une

seule unité, et non en tant que séquence de deux unités distinctes. Ainsi, la modification ou la

coordination des constituants dans les composés N-N ne sont pas permises. Par exemple,

dans le composé a bank note, toute modification d'un élément du composé en (14b) ou la

20

conjonction entre ses constituants en (14c) entraînent la modification de toute la structure qui

devient mal formée.

(14) a) a bank note b) *a bank red note/ *a [red bank] note c) *a bank and an office note

Le critère d’atomicité syntaxique a été précisé par Di Sciullo et Williams (1987 :19) qui ont

indiqué que les règles de la syntaxe ne peuvent pas accéder à la structure des mots, qu’ils

soient construits par dérivation ou par flexion.

Ainsi, conformément à la théorie de l’atomicité syntaxique, les composés sont des atomes

syntaxiques, c’est-à-dire des structures opaques, indécomposables pour la syntaxe. À partir

de certains travaux, notamment ceux de Di Sciullo et Williams (1987), Brousseau (B et N

2001) a élaboré une théorie en fonction des composés français en proposant trois tests

d’atomicité syntaxique permettant de les distinguer clairement des autres structures

syntaxiques. Ces tests sont formulés comme suit (B et N 2001 : 436) :

Une forme complexe est un mot si :

a) les éléments qui la composent ne peuvent être conjoints ;

b) ces éléments ne peuvent être remplacés par une anaphore ;

c) ces éléments ne peuvent être modifiés.

Le test d’atomicité syntaxique en (a) postule que l’insertion d’une conjonction entre les

éléments du composé est impossible. Ce test permet d’identifier comme des composés les

formes robe de bal et robe de mariée en (15a) puisque la conjonction des composants bal et

mariée génère une construction agrammaticale, comme le montre (15b). La conjonction est

possible seulement entre les structures syntaxiques.

(15) a. robe de bal, robe de mariée b. * Ma sœur a essayé des robes de bal et de mariée.

Le deuxième critère du test d’atomicité syntaxique en (b) stipule qu’on ne peut pas remplacer

un élément du composé par une anaphore. Ce test identifie des fards à paupières et des fards

à joues en (16a) comme des mots composés. En effet, la proposition ‘j’en utilise à joues’ en

(16b) est agrammaticale du fait que l’antécédent de en se trouve dans un mot.

21

(16) a. J’utilise des fards à paupières et j’utilise des fards à joues. b. * J’utilise des fardsi à paupières et j’eni utilise à joues.

Enfin, le troisième test d’atomicité syntaxique montre que les éléments du mot composé ne

peuvent être modifiés. Pour appliquer ce test, il suffit d’insérer un ou plusieurs items

lexicaux entre les deux constituants d’une structure bien formée. Si la structure est toujours

bien formée, il s’agit d’une structure syntaxique. Si la structure devient mal formée, il s’agit

d’un atome syntaxique, d’un mot composé.

Ce test permet d’identifier les structures porte-avions et fer à repasser en (17a) comme étant

des mots composés parce que l’insertion des items lexicaux gros en (17b) et bien en (17c) les

transforme en structures mal formées.

(17) a. porte-avions, fer à repasser b. * Les pilotes utilisent un porte-gros-avions comme base d’atterrissage. c. * Mon père a réparé un fer à bien repasser.

Il est à noter que, le critère d’atomicité syntaxique est le critère par excellence pour identifier

les mots composés par rapport aux syntagmes.

2.2.5 Tête et base dans les mots composés

La question de l’identification de la tête dans les mots dérivés et composés a été discutée

dans plusieurs travaux théoriques (Bauer 19987 ; Booij 2005 ; Fabb 1998, 2005 ; Lieber

1992, 2009 ; Plag 2006 ; Zwanenburg 1992). Le cadre théorique développé par Brousseau

(B et N 2001 : 246) adopte les deux critères suivants pour identifier la tête en composition.

En premier lieu, la tête est un élément qui possède les mêmes traits catégoriels que le mot

composé ; elle détermine la catégorie, et s’il y a lieu, le genre et le nombre du composé8. En

deuxième lieu, la tête est un hyperonyme du composé (le composé est un hyponyme de la

tête). L’hyponymie (voir Leech 1974 et Miller 1978, 1999) est un rapport d’inclusion :

7 Bauer (1998) suggère que la notion de la tête peut être utilisée comme un test pour différencier les mots composés des syntagmes. Dans le cas du composé black bird, il indique : “In a phrase, it should be possible to replace the head noun with one, but not in a compound. So a black one can refer to our crow, but a blackone cannot be our Agelaius.” (Bauer 1998 : 77) 8 Dans sa thèse consacrée au recensement et à la description des mots composés dans les dictionnaires

électroniques, Savary (2000 : 26) définit aussi la tête d’un mot composé comme un constituant qui a les mêmes traits morphologiques que le mot composé lui-même.

22

Hyponymy is a semantic relation describing the inclusion of one class in another. Semantic intuitions about hyponymy can be tested by sentences like x is a y or x is a kind of y. In terms of class inclusion, considering that the class of animals includes the subclass of dogs, “dog” is a hyponym of “animal” [and “animal” is a hypernym (or superordinate) of “dog”]. (Miller 1999 : 7)

La notion d'hyponymie a été élaborée chez Brousseau (1989 ; 2001) pour identifier la tête

dans les mots composés : « En morphologie, la tête d'un mot complexe est le constituant dont

le mot est un hyponyme (Brousseau 1989 :17). Ainsi, le composé bande-annonce est un

hyponyme de la tête morphologique bande (une bande-annonce est une bande). La tête du

composé (bande) est un hyperonyme du mot, c’est-à-dire qu’elle représente un terme

générique dont le sens comprend celui plus spécifique (bande-annonce). En conséquence, les

composés endocentriques (composés qui ont une tête morphologique) doivent respecter les

deux critères de la définition de la tête (B et N 2001 : 347). Le critère d’hyponymie est en

effet nécessaire pour identifier la tête dans les composés binominaux, comme bande-

annonce, où chaque constituant est de même catégorie (et de même genre) que le mot

composé.

Malgré le fait qu’aucun des constituants du composé exocentrique ne remplit les fonctions de

la tête morphologique, leur tête logique9 se trouve à l’extérieur du mot composé. Donc, une

claire-voie est une clôture ou une rangée de hautes fenêtres qui laissent passer des rais de

lumière. Un pied-bleu est un soldat qui porte des guêtres bleues.

Un autre aspect qui soulève beaucoup de discussions parmi les chercheurs est celui de la base

morphologique en composition. Actuellement, dans les travaux linguistiques, il n'existe pas

de consensus sur la notion de la base dans les mots composés. Cette notion est plus

clairement identifiée dans le domaine de la dérivation, c’est-à-dire pour les mots formés par

affixation. Par exemple, Bauer (1983 : 20) définit la base en dérivation comme suit : « A

base is any form to which affixes of any kind can be added ». Spenser (1991) considère une

base comme une unité morphologique à laquelle les autres morphèmes peuvent s’attacher

pour former des formes flexionnelles, des dérivés et des composés :

9 La notion de la tête logique des composés exocentriques dont les propriétés sont présentées dans l’entrée

lexicale du composé a été discutée chez Brousseau et Nikiema (2001 : 351).

23

I shall try to use the term root to refer to a single morpheme which bears the 'core' meaning of a word. The term stem will be reserved for that part of a word to which inflectional affixes are added, and base for that part to which any other morpheme is added (inflectional, derivational, compound). (Spencer 1991 : 461)

Dans le processus de dérivation, la base est une racine ou un morphème libre auquel peuvent

se joindre des affixes différents. Dans la plupart des modèles théoriques, il existe une relation

binaire entre la base et un affixe : à chaque niveau de dérivation, un mot dérivé est toujours

formé d’une seule base et d’un seul affixe. Dès que le dérivé est formé, il peut être utilisé de

nouveau comme base pour construire une nouvelle forme dérivationnelle à l’aide d’un autre

morphème (B et N 2001 : 213). Dans les exemples en (18), la base est identifiée par le

soulignement :

(18) a. music-al → musical-ité b. trans-form → transform-ation

Ainsi, la base du mot dérivé est un morphème libre alors que l’affixe est un morphème lié.

Le suffixe remplit généralement la fonction de tête (soulignée en (19)), portant les

caractéristiques syntaxiques et sémantiques du mot :

(19) penseurN

pensV eurN

Tout type de procédé morphologique dérivationnel (suffixation, préfixation) impose à la base

sélectionnée des contraintes phonologiques, morphologiques, sémantiques ou lexicales.

Bauer (2001 : 139) montre que seules les bases qui respectent ces contraintes peuvent

fonctionner comme bases potentielles pour un processus morphologique particulier.

Ainsi, en dérivation, la notion de la base morphologique possède les propriétés suivantes :

(20) Propriétés de la base dans les dérivés a. La base est un morphème libre ou une racine ; b. La base n'est pas la tête morphologique (dans la plupart des cas) ; c. Dans le mot dérivé, il y a seulement une base.

Théoriquement, et en prenant comme point de départ les propriétés de la base dans les mots

dérivés en (20), la base dans un composé peut être identifiée de deux façons possibles,

24

illustrées en (21) (le soulignement identifie la/les bases). Selon la première variante, on

considère comme la base le morphème libre qui n’est pas la tête du composé (cuisine en

(21a)) par analogie avec la base d’un mot dérivé (où l’affixe est la tête). Selon la deuxième

variante, on considère comme bases tous les morphèmes libres (fiche et cuisine en (21b)) par

analogie avec la base d’un mot dérivé qui est un morphème libre ou une racine (le radical du

mot)10 :

(21) a. fiche-cuisineN b. fiche-cuisineN

ficheN cuisineN ficheN cuisineN

- base + base + base + base

En analysant la productivité morphologique des composés néerlandais et allemands, Krott et

al. (1999) considèrent, mais sans le justifier, que chaque constituant d’un composé est une

base, comme en (21b) ci-dessus.

Nous verrons dans le chapitre 4 (section 4.3.3), que la notion de la base dans les mots

composés est très importante lorsqu’on mesure la fréquence relative des mots dérivés. Cette

mesure, proposée par Hay (2003) pour les mots dérivés, est calculée d’après la corrélation

entre la fréquence du mot complexe et celle de la base. En estimant la fréquence de la base

des composés, j’utiliserai les deux options de la base présentées en (21) puisqu’il n’y a pas

de motif théorique justifiant l’adoption d’une version de la base plutôt que l’autre.

2.3 Typologie des mots composés français En ce qui concerne la typologie des mots composés, Fabb (1998) et Lieber (1992, 2004)

suggèrent que chaque langue doit déterminer son inventaire de combinaisons possibles.

Toutefois, en suivant Lieber et Štekauer (2009), Bauer (2009) parle du fait que la question de

la typologie des mots composés n’est pas facile à cause des problèmes liés à l’identification

correcte des composés.

10

En ce qui concerne les composés primaires à trait d’union formés à l’aide des prépositions à et de, ces prépositions ne sont pas des constituants majeurs du composé. Ainsi, un composé bain à pied peut être analysé comme structure comportant une ou deux bases, pas trois.

25

There may be orthographic, phonological, morphological, syntactic or semantic ways of defining what a word is, and some of these will be reinterpreted in later discussion here as ways of being sure that we are dealing with compounds. (Bauer 2009 : 542)

En fait, il apparaît que la typologie des mots composés français varie selon les quatre axes

suivants (Béchade 1992, Gross 1996, B et N 2001) :

- la présence d’une tête morphologique : les composés endocentriques versus les composés

exocentriques ;

- la structure prédicat-argument explicite : les composés synthétiques versus les composés

primaires ;

- la formation selon des règles propres au français : les composés indigènes versus les

composés savants ;

- la transparence sémantique : les composés réguliers versus les composés irréguliers.

Selon le premier axe ci-dessus, la présence ou l’absence d’une tête morphologique explicite

permet de distinguer : les composés endocentriques ayant une tête morphologique explicite

(papier-musique, lunettes-soleil, appareil-photo) et les composés exocentriques, sans tête

morphologique explicite (reine-claude, gros-jean, table ronde).

À son tour, parmi les composés endocentriques, on peut établir une distinction

supplémentaire en fonction de la position de la tête : à gauche (22c, d) ou à droite (22a, b). Il

est à noter qu’en français, la tête des composés endocentriques est située préférablement à

gauche.

(22) a. beaux-arts b. sous-estimation c. café-concert d. firme-conseil

En se basant sur les relations prédicat-argument, le deuxième axe fait la distinction entre les

composés synthétiques et les composés primaires. Ainsi, les composés synthétiques en (23)

contiennent une tête déverbale. Leur sémantique est basée sur la structure argumentale de la

tête (p. ex. porte) ; l’élément non-tête (p. ex. avions) joue le rôle d'argument interne du verbe

26

dont la tête est dérivée. Contrairement à l’anglais, le français possède très peu de composés

synthétiques.

(23) massage dorsal, porte-avions

À leur tour, les composés primaires en (24) sont formés avec des constituants qui ne sont pas

impliqués dans une relation prédicat-argument explicite.

(24) petit-four, réseau familial

Le troisième axe est orienté sur les différents systèmes de formation des mots composés.

Deux groupes de composés y sont présentés : les composés indigènes et les composés

savants. Le groupe de composés indigènes comme en (25), inclut les structures où chacun

des constituants est un item lexical du français.

(25) après-guerre, haut-parleur, marchand-conseil

Par contraste, le groupe de composés savants comme en (26), regroupe des formes où un des

constituants est un morphème grec ou latin. Dans les composés savants, la tête

morphologique se trouve à droite.

(26) bio-enthousiaste, polydépendance

Du point de vue de leur formation, plusieurs formes savantes sont considérées ambiguës à

cause du statut plus ou moins autonome des morphèmes comme bio-, anti-, ex-, mi-, non-,

etc. qui peuvent être analysés comme des préfixes ou comme des morphèmes libres. Ces

types de formes savantes sont considérés par certains linguistes comme des composés

(Chung 2006 ; Assink et Sandra 2003).

Finalement, la typologie des composés selon le quatrième axe est centrée sur la transparence

sémantique et la compositionnalité des composés. Par exemple, les composés en (27) sont

des composés réguliers puisque leur signification est compositionnelle et que leurs propriétés

sémantiques (et également syntaxiques) peuvent être déduites des propriétés de leurs

constituants.

(27) adapte-couleur, piste de danse

27

Par contre, la signification des composés irréguliers ne peut pas être générée en assemblant

tout simplement des propriétés sémantiques et syntaxiques de leurs éléments (cf. (28)). Les

composés irréguliers doivent être stockés dans le lexique puisque leurs propriétés ne sont pas

dérivables.

(28) reine-claude, trique-madame, coup de barre

La théorie de la morphologie dérivationnelle ne s’intéresse qu’aux composés réguliers, soit

ceux dont les propriétés découlent de leur structure morphologique. Toutefois, l’objet de ma

recherche est l’étude des mots composés réguliers et, pour un certain type de composés (les

exocentriques), des irréguliers. Les types de composés qui ne sont pas formés par des

processus de composition propres au français ont été éliminés : les composés savants (p. ex.

polydépendance, hypo-allergénique) et les emprunts (p. ex. sweetshop, horse-guard).

2.4 Les modèles théoriques des mots composés Le phénomène de la composition a été examiné selon les différents aspects morphologiques,

syntaxiques et sémantiques dans les travaux linguistiques à partir du XIXe siècle

(Darmesteter 1875 ; Meunier 1875). Les travaux récents en morphologie ont démontré un

intérêt nouveau pour le concept de composition dans des langues différentes (Bauer 1978 ;

2008 ; Booij 2005 ; Brousseau 1989 ; Chung 2006 ; Estopà 2009 ; Fernández-Domínguez

2009 ; Bauer et Renouf 2001). Toutefois, malgré que le nombre de langues où la composition

fait l’objet d’une description se soit accru, la majorité de travaux théoriques dans le domaine

de composition est basée sur l’anglais. Le phénomène de la composition en français reste un

champ de recherche moins exploré (Corbin 1992 ; Gross 1996 ; Mathieu-Colas 1994 ; Savary

2000 ; Villoing 2002 ; Zwanenburg 1992).

En analysant les mots composés, les linguistes essaient de trouver une ligne de démarcation

entre la syntaxe et la morphologie. Par conséquent, deux positions différentes sont

regroupées autour des deux cadres théoriques suivants : le cadre lexicaliste (Corbin 1992 ; Di

Sciullo 2005 ; Selkirk 1982 ; Zwanenburg 1992 ; Di Sciullo et Williams 1987) et le modèle

syntaxique (Fabb 1998 ; Lieber 1992, 2004 ; Roeper 1988).

28

D’après le modèle lexicaliste, la formation des mots ne dépend pas de règles syntaxiques ;

c’est le composant lexical qui est au centre de la construction des mots composés. Par contre,

les représentants du camp syntaxique envisagent les mots composés comme des structures

syntaxiques. Ils attribuent un grand rôle aux règles syntaxiques qui, selon eux, participent au

processus de composition et aux relations sémantiques entre les constituants du composé.

La présente section a pour but d’examiner des modèles génératifs de mots composés élaborés

pendant les vingt dernières années et leur application à l’étude du processus de la

composition en français. Une attention particulière sera portée aux composés V-N qui, selon

les différents modèles théoriques appliqués, présentent souvent des problèmes d’analyse.

2.4.1 Le modèle lexicaliste de Di Sciullo et Williams (1987) et Di Sciullo (2005)

L’approche théorique de Di Sciullo et Williams (1987) et Di Sciullo (2005) se trouve dans le

cadre lexicaliste qui envisage la morphologie comme un domaine autonome générant les

mots construits et les mots composés11. D’après ce modèle, la grammaire comprend entre

autres deux « sous domaines», la morphologie et la syntaxe, qui diffèrent entre elles par la

classe des unités mises en œuvre et les règles qu’elles utilisent12.

La notion pertinente qui distingue cette approche du modèle syntaxique est « l’atomicité

syntaxique » qui postule le rôle autonome des composants morphologiques et syntaxiques

dans la construction des mots. D’après cette théorie, les règles de la syntaxe ne touchent pas

la structure des mots, qu’ils soient formés par dérivation ou par flexion (Di Sciullo et

Williams 1987 : 18-19). Il est à noter que l’application de la théorie de «l’atomicité

syntaxique » est extrêmement importante quant à l’identification des mots composés parce

qu’elle permet de distinguer les noms composés des groupes nominaux ou d’autres

syntagmes. Di Sciullo et Williams (1987) soulignent que le principe de l’atomicité

11

La première formulation de l’hypothèse lexicaliste (Lexicalist Hypothesis) est apparue chez Chomsky (1970 : 188). Néanmoins, il n’y discute pas directement la composition et plusieurs questions concernant la structure du lexique sont restées en suspens. 12

Di Sciullo et Williams (1987) ne spécifient pas la classe des unités formées, en se limitant par l’énonciation des différences entre la syntaxe et la morphologie.

29

syntaxique est appliqué aux mots, et seulement aux mots, qu’ils soient composés ou affixés :

« […] the rules of formation for words are a coherent whole, and the rules of formation for

phrases are another coherent whole. […] Words are opaque to syntactic descriptions and

operations, but phrases are not. » (Di Sciullo et Williams 1987 : 19)

Ainsi, en suivant la notion de l’atomicité syntaxique, le processus d’identification des mots

composés doit prendre en compte les faits ci-dessous :

a) En premier lieu, en anglais, les mots composés diffèrent des syntagmes du fait que les

composés sont des formes à tête finale (comme les dérivés affixés), alors que les syntagmes

ne le sont pas (Di Sciullo et Williams 1987 : 53). Par contre en français, la majorité de

composés sont des structures à la tête initiale.

b) En deuxième lieu, on ne peut pas réordonner la place des constituants de composés sans

que la structure ne devienne mal formée (*) ou reçoive une différence d'interprétation (≠)

comme en (29). Le caractère non réversible des constituants d'un composé suit la théorie de

l'Asymétrie Stricte de la Morphologie, selon laquelle l'asymétrie est la propriété

caractéristique des relations morphologiques (Di Sciullo 2005 :15).

(29) a. a movie producer / *a producer movie b. rail road / ≠ a road rail c. blue gray / ≠ a gray blue

c) Finalement, le processus de la composition morphologique est organisé autour de la notion

de tête. Ainsi, la composition utilise des règles morphologiques de formation de mots (Di

Sciullo et Williams 1987 : 23) et la RHR (Right-hand Head Rule) est une règle universelle.

Definition of «headF » (read : head with respect to the feature F) : The headF of a word is the rightmost element of the word marked for the feature F. (Di Sciullo et Williams 1987 : 26)

Ainsi, selon cette définition, la tête morphologique dans le mot composé suit les règles

suivantes (Di Sciullo et Williams 1987 : 24) : 1) elle est localisée à droite, comme les

suffixes ; 2) elle détermine la catégorie et le pluriel du mot composé, et éventuellement,

30

d’autres traits catégoriels ; 3) elle rend compte des généralisations d’ordre argumental et

sémantique13.

Cependant, la notion de la RHR de Di Sciullo et Williams entre en contradiction avec la

structure des mots construits dont l’élément à droite ne répond pas aux propriétés d’une tête

(par ex., les composés dans les langues romanes, en vietnamien, etc.). Pour résoudre ce

problème, Di Sciullo et Williams (1987) proposent la notion de la tête relativisée (relativised

head) qui détermine la position de la tête morphologique en respectant la structure

argumentale du mot composé.

The headF of a word T is the X-most element of the word marked for feature F. Parameter : X-most : initial/final position. (Di Sciullo et Williams 1987 : 62)

La notion de tête relativisée permet aussi à un mot d’avoir plusieurs têtes, où chaque tête est

marquée pour un trait particulier : « The notion « relativized head » permits the possibility

that words could have two heads, a head F1 and a head F2, where F1 and F2 are different

Features » (Di Sciullo et Williams 1987 : 26).

En tenant compte du fait que les règles syntaxiques ont accès au statut catégoriel et à la

structure argumentale des unités lexicales en assignant le rôle-théta, la structure argumentale

d’un mot composé doit suivre les règles suivantes (Di Sciullo et Williams 1987 : 62) :

a) La non-tête peut, mais ne doit pas satisfaire un argument de la tête.

b) La non-tête ne peut pas satisfaire l’argument externe de la tête.

c) L’argument de la non-tête ne fait pas partie de la structure argumentale du

composé.

d) Seulement l’argument externe (l’argument R)14 de la tête fait partie de la structure

argumentale du composé.

13

Di Sciullo et Williams indiquent (1987 : 32) que le rapport argumental entre les éléments tête et non-tête se produit d’une manière différente en composition et en dérivation. En dérivation, l’élément non-tête ne satisfait pas un rôle-thêta de la tête ; alors, la tête (un affixe) établit le lien avec sa non-tête à l’aide de la notion de la « composition fonctionnelle ». Par contre, en composition, la relation entre les constituants tête et non-tête se réalise par assignation du rôle-thêta.

31

Par exemple, le composé destruction story peut être interprété comme une histoire à propos

de la destruction. Dans ce cas-là, l’élément non-tête destruction en (30) satisfait l’argument

Thème de la tête story, conformément à la règle en (a) ci-dessus :

(30) destructioni story (R, A, Th) (R, A, Thi)

Le nom composé destruction story a un seul argument Agent disponible : celui qui raconte la

destruction.

Ensuite, l’exemple en (31) illustre la règle en (b). La structure est agrammaticale parce que

l’argument externe du verbe sleep est satisfait par la non-tête du composé (boy) :

(31) It was *boy-slept

En ce qui concerne la règle en (c), elle est mise en lumière par l’exemple en (32) où

l’argument de la non-tête destruction (city), ne pouvant pas faire partie de la structure

argumentale du composé, entraîne l’agrammaticalité de la construction.

(32) the *destruction-story of the city signification : l’histoire de la destruction de la ville

Finalement, l’exemple en (33) (Di Sciullo et Williams 1987 : 32) représente la règle en

(d) qui dit que seulement l’argument externe (l’argument R) de la tête fait partie de la

structure argumentale du composé.

(33) *tree-eating of pasta

Il ressort que la structure en (33) est agrammaticale parce que la structure du composé

comporte seulement l’argument R. En conséquence, le complément pasta ne peut pas être

interprété comme un argument (Thème) du composé. L’argument interne de la base verbale

eating ne peut pas passer au-delà de la première projection et doit donc être satisfait à

l’intérieur du composé. Néanmoins, la structure pasta-eating in trees est grammaticale parce

que l’argument interne pasta (Thème) est satisfait à l’intérieur du composé.

14

L’argument externe R correspond à la propriété référentielle du nom. Dans la phrase « John is a fool », le prédicat fool possède un argument R qui est satisfait par le R de John (prédication).

32

En d’autres termes, en composition, les propriétés argumentales peuvent être dissociées en

deux types différents (Di Sciullo et Williams 1987 : 30) : a) des propriétés représentant la

relation argumentale entre les éléments du composé ; b) des propriétés qui se rapportent à la

structure argumentale du composé lui-même.

En ce qui concerne les différentes relations fonctionnelles entre les constituants de composés,

Di Sciullo (2005 : 16) suggère que les composés primaires (root compounds) représentent

des relations de modification (34a) ; les composés synthétiques (34b) forment des relations

prédicat-argument et les composés dvandva (ou appositionnels) en (34c) sont établis par

l'apposition de deux constituants, où chaque élément contribue également à l'interprétation

du composé.

(34) a. catfish b. cigar cutter c. learner driver

Selon Di Sciullo (2005 : 19), la formation des composés en anglais et en français est

différente. Les composés anglais peuvent être formés seulement au niveau morphologique

DM tandis que les composés français peuvent aussi bien être construits au niveau syntaxique

DS. Ainsi, les composés français ont une structure interne de syntagme. Dans les composés

primaires, le modifieur (souligné dans les exemples en (35)) peut suivre la tête (35a, b, c) de

la même façon qu’en syntaxe française. Par contre, en anglais, le modifieur précède la tête

(35d, e, f).

(35) a. poisson chat d. catfish b. gris pâle e. pale gray c. papier à lettres f. letter paper

La position des adjectifs dans les mots composés illustre très bien la différence entre la

formation DM

/DS en anglais et en français. Dans la syntaxe française, l’adjectif peut suivre

ou précéder le nom ; dans les composés français, en général, l’adjectif suit le nom (36a). Par

contre, dans les syntagmes anglais, les adjectifs précèdent le nom. Dans les composés

anglais, ils se trouvent dans la position finale en tant que têtes (36b) ou dans la position

prénominale s’ils ne remplissent pas des fonctions de têtes (36c) (Di Sciullo 2005 : 20).

33

(36) a. peau-rouge b. sky blue, powder blue c. red snapper, black eye

Finalement, les composés français peuvent inclure des constituants syntagmatiques VP, PP,

AP ou NP, soutenant ainsi l’hypothèse qu’ils étaient formés en DS et transférés en DM (Di

Sciullo 2005 : 21).

(37) a. trompe-la-mort b. dur à cuire c. homme de paille d. chemin de fer

En conclusion, l’approche de Di Sciullo et Williams (1987) pose que la construction des

unités par des règles morphologiques est ordonnée autour de la notion d’une tête de la même

façon que les syntagmes construits par la syntaxe. En ce qui concerne la formation des mots

composés, le principe de l’atomicité syntaxique et la notion de la tête morphologique sont

des facteurs extrêmement importants lors de l’identification des mots composés parce qu’ils

permettent de distinguer les noms composés des groupes nominaux ou d’autres syntagmes.

2.4.2 Le modèle des mots composés de Zwanenburg (1992)

Le modèle de Zwanenburg (1992) comme celui de Di Sciullo et Williams (1987), se trouve

dans un cadre lexicaliste en ce qu’il pose l’existence d’un composant morphologique

autonome. La morphologie est donc un domaine autonome de la grammaire, qui produit les

mots construits, incluant les mots composés. Ainsi, un mot composé est formé selon les

principes d’organisation de la morphologie en combinant deux unités de type mot pour

construire une nouvelle unité de type mot (Zwanenburg 1992 : 222).

Dans son article consacré exclusivement à la composition en français, Zwanenburg propose

la typologie des composés français comme suit : les composés coordonnés (coordinate

compounds) en (38a), les composés subordonnés (subordinate compounds) en (38b) et les

composés exocentriques en (38c) (Zwanenburg 1992 : 225).

(38) a. guide-interprète, aigre-doux b. timbre-poste, coffre-fort, sous-chef c. rouge-gorge, brise-glace, en-tête

34

Les composés subordonnés en (38b) du type timbre-poste, coffre-fort doivent être analysés,

selon Zwanenburg (1992 : 225), comme des syntagmes idiomatiques. Ces structures sont

plus ou moins figées et elles sont listées dans le lexique.

En revanche, les composés subordonnés qui ont une préposition réelle (sous-chef) ou un

adverbe (arrière-pays) possèdent la tête à droite qui détermine la catégorie et le genre des

mots complexes ; ces structures sont alors considérées comme des composés et non pas des

syntagmes. En suivant l’analyse de Di Sciullo et Williams (1987), la tête morphologique

dans ce type de composés possède les propriétés suivantes : 1) elle est localisée à droite,

comme les suffixes ; 2) elle détermine la catégorie et le pluriel du mot composé, et

éventuellement, d’autres traits catégoriels ; 3) elle rend compte des généralisations d’ordre

argumental et sémantique (Zwanenburg 1992 : 225).

Pour analyser les composés exocentriques, Zwanenburg (1990 : 40) propose une règle de

conversion morphologique qui inclut un affixe nominal zéro. Cette règle permet au VP

d’accéder au statut du nom selon son type sémantique : soit un nom d’agent ou un nom

d’instrument.

Dans le composé exocentrique sous-bois en (39a), un affixe zéro se trouve à l’extérieur du

composé. Il a pour complément une projection prépositionnelle non maximale où la

préposition sous- joue le rôle de tête. Le constituant bois satisfait la structure argumentale de

la préposition sous (un sous-bois est quelque chose qui est sous le bois). Par contre, dans le

composé endocentrique avant-bras en (39b), la préposition avant est un complément qui joue

le rôle d’un modifieur de la tête bras (avant-bras signifie la partie avant du bras).

(39) a. N b. N P N Mod N

P N sous bois Ø avant bras

Cette analyse aide à éviter de traiter les composés exocentriques de façon arbitraire

puisqu’ils représentent ainsi des structures régulières. Dans les composés exocentriques, la

35

préposition remplit la fonction de la tête de la projection prépositionnelle et le suffixe

nominal est la tête de la projection nominale. La tête des composés est donc à droite dans les

deux cas : dans les composés exocentriques en (39a) et les composés endocentriques en (39b)

(Zwanenburg 1990 : 40).

Contrairement à Di Sciullo et Williams (1987)15 qui envisagent les composés V-N en

français comme des structures sans tête morphologique, Zwanenburg (1992 : 224) les traite

comme des constructions exocentriques ayant une tête externe, tel qu’illustré en (39a) :

« Besides these there are so-called exocentric compounds, which seem to have their head

outside » (Zwanenburg 1992 : 224).

Ainsi, les composés brise-glace et brise-tout sont analysés par Zwanenburg (1992) en tant

que des noms et des adjectifs suite à la conversion d’un syntagme verbal, à l’instar de Di

Sciullo et Williams (1987), mais avec une différence : ils comportent une tête externe. Le

composé V-N brise-glace en (40) est considéré comme un composé exocentrique où la règle

de conversion remplit les mêmes fonctions qu’une règle de suffixation, et elle attribue au mot

composé les mêmes propriétés qu’attribue une tête suffixale. La représentation des composés

V-N à l’aide d’un syntagme verbal (non maximal) est justifiée par la relation

verbe/complément entre le V et le N. Donc, dans le composé brise-glace en (40), le nom

glace est le complément du constituant verbal brise (Zwanenburg 1992 : 226) :

(40) brise-glace N

VP N V N brise glace ø

15

Di Sciullo et Williams (1987 : 80-83) soulignent qu’en français, les composés V-N ne peuvent pas être analysés comme des structures morphologiques parce qu’aucun de leurs constituants ne correspond à la tête du composé : « As in the case of [N ->VP], morphological principles are of little use in shedding light on these structures. For example, the left-hand member of these words is the head of the internal structure in some sens but not the head of the unit as a whole; the word as a whole is not headed by either member ». (Di Sciullo et Williams 1987 : 84)

36

Selon la règle de la conversion introduite par Zwanenburg (1992), des noms composés

peuvent être formés à partir d’un VP. De plus, le fait que le suffixe zéro impliqué dans la

formation des structures V-N fonctionne comme le suffixe -eur dans la dérivation justifie le

caractère morphologique de la formation de ce type de composés en français. En d’autres

termes, le suffixe zéro forme des noms d’agent ou d’instrument en utilisant une base verbale

(someone who /something which Vs).

[…] we can analyze them, with di Sciullo-Williams (1987 : 78-88), as conversion of verbal phrases into nouns and adjectives, respectively. The nouns are thus comparable to agent nouns with an overt suffix like arrang-eur from arrang-(er), and the adjectives to adjectival participles like charm-ant from charm-(er). This analysis allows us to interpret nouns like brise-glace semantically along the same lines as agent noun like arrangeur. (Zwanenburg 1992 : 232)

En tenant compte des arguments mentionnés ci-dessus, la règle de conversion prévoit aussi la

satisfaction des arguments du verbe de la base. Par exemple, dans le composé protège-

cordon, l’argument interne du verbe protéger est satisfait au moment de la construction

interne syntaxique. La fonction de l’argument externe est remplie par la règle de conversion,

de la même façon que le suffixe -eur remplit l’argument externe du verbe chercher dans le

dérivé chercheur : « […] the affixless conversion of a verb into a noun may have the same

headlike function as a suffix, and this accounts their so-called ‘exocentric’ character »

(Zwanenburg 1992 : 226).

Ainsi, la règle de conversion permet d’expliquer l’aspect nominal ou adjectival du VP et le

caractère non fléchi du verbe inclus dans les composés V-N.

This explains the left-hand headness of the bases of theses conversion and, as a consequence of their being conversions, the fact that in general these structures do not present internal inflection. (Zwanenburg 1992 : 221)

Il est à noter que la classe de « vrais composés », selon Zwanenburg (1992), est limitée aux

structures qui ont une tête morphologique à droite (sous-chef, sous-louer, arrière-pays, bien-

heureux, etc.).

The head status of the right-hand constituent manifests itself in that it determines always the category, and in the case of nouns the gender, of the complex word. We cannot analyze these words as phrases, and thus must consider them as real compounds. (Zwanenburg 1992 : 225)

37

Toutefois, en suivant Bally (1932) et Noailly (1989) qui suggèrent que la morphologie

française fait entrer dans la composition plusieurs syntagmes, Zwanenburg admet que la

plupart des composés français peuvent être analysés comme des structures ayant la tête

morphologique à gauche.

A general characterisation of French compounding as opposed to Germanic compounding might be that in French real, right-hand headed compounding is very restricted, and that French makes extensive use of left-hand headed lexicalised phrases and conversion with left-hand headed internal phrases. (Zwanenburg 1992 : 221)

Un résumé des observations présentées en 2.4.2 suggère que le modèle de formation des

mots composés de Zwanenburg (1992) se situe plutôt dans le cadre morphologique. Quant

aux structures V-N, sa règle de conversion morphologique permet à la fois de conférer au VP

son statut de nom et de prendre en compte le type sémantique du composé (celui d’agent ou

d’instrument).

2.4.3 La théorie de formation de Lieber (le modèle lexico-syntaxique)

Le modèle de formation des mots composés de Lieber (1992 : 14) est basé sur l’idée selon

laquelle le processus de composition a recours aux catégories syntagmatiques générées en

syntaxe. Ainsi, son point de vue est partiellement contre l’hypothèse lexicaliste de Di Sciullo

et Williams (1987) et Zwanenburg (1992). En fait, son travail consiste à démontrer, à

l’inverse de Chomsky (1970), que les règles de la syntaxe construisent aussi bien les

syntagmes que les mots. La proposition de Lieber (1992) est la suivante : il faut annexer la

morphologie à la syntaxe de sorte que la grammaire ne comprenne pas deux composants

séparés, mais un unique composant syntaxique qui est responsable également de la formation

des mots.

I argue that it is possible to merge the two theories so that in fact there is only one set of structural principles with parameters that are set only once for each language. I show that such a theory can account for ordinary derived words and compounds and their phrasal counterparts […] (Lieber 1992 : 26)

En d’autres termes, les mots composés sont considérés comme des constructions lexicales

répondant aux principes de la théorie X-barre, quelque peu révisés ; ils sont construits de

38

deux unités lexicales qui, en s’assemblant, construisent une unité lexicale de même niveau

qu’eux (Lieber 1992 : 65). Dans ces structures, un des composants joue le rôle de la tête du

composé, et selon la théorie X-barre, transfère ses propriétés à l’ensemble de la construction.

Dans l’approche lexico-syntaxique de Lieber (1992), la position de la tête dans les composés

est déterminée par les Conditions de Légitimation (Licensing Conditions), paramétrisées

pour chaque langue16. Autrement dit, la tête d’un mot composé prend la même position que

celle qui est prévue pour la tête syntaxique, relativement aux compléments, modifieurs et

spécifieurs. Ainsi, en français, la tête d’un composé remplit les positions suivantes (Lieber

1992 : 65)17 :

a) La tête précède le complément : un essuie-glace ;

b) La tête précède le modifieur : une statue de bronze, un timbre-poste ;

c) La tête suit le spécifieur : un grand-père.

En considérant les propriétés de la tête mentionnées ci-dessus, la formation des mots

composés ne se distingue pas théoriquement de celle des syntagmes, ni de celle des mots

construits par suffixation.

Contrairement à la RHR (Right-hand Head Rule) de Di Sciullo et Williams (1987), la notion

de tête selon Lieber (1992 : 33-40) est établie de façon identique pour la formation des mots

composés et celle des syntagmes. Ce point de vue se base sur plusieurs arguments.

Premièrement, l’anglais possède des préfixes qui peuvent déterminer la catégorie du mot (i.e.

préfixe en- qui forme des verbes à partir des noms ou des adjectifs : encase, endear).

16

Les trois paramètres de Licensing Conditions sont présentés chez Lieber (1992) de la manière suivante: a. Heads are initial/final with respect to complements and adjuncts. i. Theta-roles are assigned to the left/right. ii. Case is assigned to the left/right. b. Heads are initial/final with respect to specifiers. c. Heads are initial/final with respect to modifiers. (Lieber 1992 : 35) 17

Il est à noter qu’en anglais, la position des spécifieurs et des modifieurs par rapport à la tête syntaxique, est opposée à celle des compléments. En revanche, en français les spécifieurs apparaissent d’un côté de la tête et les compléments et modifieurs de l’autre (Lieber 1992 : 35).

39

Deuxièmement, il existe des langues où la tête morphologique est clairement à gauche (p. ex.

le français, le vietnamien).

La typologie des mots composés en anglais est présentée selon deux catégories principales

(Lieber 2009 : 358-359) :

(41) a. composés primaires : dog bed, maintenance schedule b. composés synthétiques : truck driver, meat-eating, home-made

En outre, cette classification comporte les sous-groupes suivants :

a) les composés coordonnés du type comedy-drama, secretary-treasure, blow-dry (Lieber

2009 : 359) ;

b) les composés subordonnés, qui peuvent être endocentriques (kick-ball, machine-wash,

sunrise) ou exocentriques (pickpocket, cutpurse, spoilsport) (Lieber 2009 : 361) ;

c) les composés attributifs, considérés par Lieber (2009 : 362) comme les plus productifs en

anglais. La plupart de ces composés sont de la structure N-N (immigration candidate,

sister node, key word), mais il y existe aussi des composés A-N (high school, barefoot,

long-term), N-A (dog-tired, jet-black) et A-A (funny-peculiar).

Pour expliquer l’interprétation sémantique des composés en anglais, Lieber (2004) introduit

le Principe de Co-indexation selon lequel l’argument le plus haut de la non-tête doit être co-

indexé avec l’argument le plus haut de la tête : « In a configuration in which semantic

skeletons are composed, co-index the highest nonhead argument with the highest (preferably

unindexed) head argument » (Lieber 2004 : 50).

Notamment, Lieber propose deux structures pour les composés synthétiques : une pour les

composés synthétiques anglais (thirst-quencher, wall builder, etc.) (Lieber 1992 : 59) et

l’autre pour les composés synthétiques français (essuie-glace, grille-pain, etc.) (Lieber 1992 :

67). Pour son modèle des composés synthétiques anglais elle propose une structure où N est

généré comme un complément du nom déverbal. Pour le composé thirst-quencher, par

exemple, le rôle-Theta (de la tête) de quench est hérité par le N formé du verbe quench et du

suffixe ‘er’ et il est assigné à droite, ce qui génère la structure en (42a). Mais parce que le

Cas peut être assigné seulement à la projection maximale, la représentation en (42a) est

40

bloquée à cette étape et force le mouvement de la tête (Roeper 1988) à entrer en vigueur. En

effet, la tête doit se déplacer pour respecter la Condition de visibilité qui demande qu’en NP

se voie assigner un Cas (Chomsky 1986). Le Nom thirst bouge à gauche et s’adjoint au Nom

quencher en formant le composé synthétique en (42b) :

(42)

Quant aux composés synthétiques français, ils sont interprétés comme des noms à relation

instrument/agent. Ils sont formés d'un VP et d'un affixe dérivationnel équivalent au suffixe -

er dans les composés synthétiques en anglais. Le verbe et le nom entretiennent entre eux des

relations syntaxiques de type tête-complément : d’une part, le nom correspond à l’argument

interne du verbe et d’autre part, la tête précède le complément. Le suffixe zéro, qui ne

possède pas de forme phonétique, est la tête du mot composé, remplissant les mêmes

fonctions que le suffixe -er qui forme des composés synthétiques anglais du type flame

thrower. Il détermine les traits diacritiques du composé et il a des effets sur sa structure

argumentale (Lieber 1992 : 159). Le composé essuie-glace est ainsi représenté comme suit

(Lieber 1992 : 67).

(43) essuie-glace

N VP V N | | essuie glace ø

41

Dans le cas du composé essuie-glace en (43), le suffixe zéro transmet la catégorie syntaxique

(nom), le genre masculin, l’interprétation agentive du composé ; il attribue à une structure

VP les propriétés lexicales d’un N, tout en restant dans un format de type X-barre (Lieber

1992 : 159).18 La tête du composé se trouve à l’intérieur du composé ; il s’agit d’un suffixe-

zéro qui ne possède pas de forme phonétique.

Dans le modèle de Lieber (1992), la tête du mot composé est un constituant essentiel parce

qu’elle détermine, par percolation, les propriétés syntaxiques et sémantiques de sa projection.

Ces traits ne percolent pas de manière aléatoire, mais ils se réalisent dans le cadre de la

signature catégorielle pertinente pour une langue particulière (Lieber 1992 : 88). La signature

catégorielle contient les traits morphosyntaxiques (les traits de nombre, de genre, de

personne, etc.) et les traits diacritiques (le mode, le temps, le Cas, etc.) ; elle exclut les

informations concernant la représentation sémantique et argumentale (Lieber 1992 : 90).

Lieber (1992) fait une distinction entre deux mécanismes de percolation liés à la notion de la

tête : la Percolation de tête (« Head percolation ») et la Percolation d’appui (« Backup

Percolation »). Selon la Percolation de tête, les traits morphosyntaxiques de la tête percolent

au nœud qui domine la tête (Lieber 1992 : 92). La Percolation d’appui est utilisée pour

transmettre des valeurs de traits si, après la Percolation de tête, le nœud dominant la tête reste

non-marqué pour un trait :

If the node dominating the head remains unmarked for a given feature after Head Percolation, then a value for that feature is percolated from an immediately dominated nonhead branch marked for that feature. Backup percolation propagates only values for unmarked features and is strictly local. (Lieber 1992 : 92)

18

Un autre point de vue sur les composés V-N est présenté notamment dans la thèse de Villoing (2002) qui considère les composés V-N comme des formes construites d’un verbe et d’un nom. Villoing montre que les mots composés V-N du français répondent aux caractéristiques des mots formés par la morphologie constructionnelle parce qu’ils sont des lexèmes composés de lexèmes (2002 : 181). La différence primordiale entre la théorie de Villoing et celle de Lieber (1992) consiste en ce que Villoing prend position contre l’analyse des mots composés français comme des constructions formées selon les règles de la syntaxe (Villoing 2002 : 141, 201), c’est-à-dire qu’elle est contre la présence de VP dans la structure des composés français. Toutefois, sa théorie ne rejette pas explicitement la structure N-N pour les composés comme porte-avions, qui comporte un suffixe-zéro. Elle admet la présence de certains composés N-N dans les cas où la forme nominale existe de façon indépendante, par exemple, ‘batte’, ‘guide’ et ‘pince’ dans batte-gazon, guide-interprète, pince-crocodile etc. (Villoing 2002 : 386).

42

La structure en (44) présentée chez Brousseau (1989 : 34) illustre le mécanisme de

percolation des traits morphosyntaxiques du morphème-tête corbeille au nœud dominant en

propageant les traits catégoriels du genre (féminin) et du nombre (singulier). Pour assurer

l’identité morphosyntaxique entre la tête et le mot composé, les traits de la tête corbeille (N2)

percolent premièrement au niveau dominant NP, puis au nom composé corbeille à papiers

(N1). Ainsi, la structure corbeille à papiers hérite du genre (féminin) et du nombre (singulier)

conférés par le morphème-tête corbeille.

(44) N1 [+f, +s] NP [+f, +s] N2 NP corbeille à papiers [+fém, +sing] [+masc, +pl]

Ainsi, nous voyons que l’analyse des noms composés en français, selon l’approche de

(Lieber 1992), dépend fortement de l’identification de la tête du composé et de la percolation

des traits morphosyntaxiques, traits que la tête partage avec le composé.

2.4.4 La théorie de Fabb

Les travaux de Fabb (1984, 1998, 2005) sur la composition se situent dans le cadre

syntaxique de la formation des mots. Sa définition des mots composés est assez générale :

« A compound is a word which consists of two or more words” (Fabb 1998 : 66).

Fabb (2005) indique qu’en anglais, la structure interne des composés se trouve à l’extérieur

de la syntaxe. Contrairement aux syntagmes, les composés sont généralement des structures

qui ne peuvent pas être altérées : « Compounds are unalterable in a way that phrasal

structures are not. One of the words cannot just be omitted or replaced or moved ; they are

frozen, and hence clearly distinguishable from phrasal structures » (Fabb 2005 : 50).

Pour lui, les relations entre la composition et la syntaxe posent deux sortes de problèmes

(Fabb 1998 : 76). Premièrement, il existe des langues qui possèdent des types de composés

ayant une structure interne disponible aux manœuvres syntaxiques et visibles pour le

43

processus syntaxique. Les composés incorporés et synthétiques sont des exemples clairs de

ce type de structure. Deuxièmement, les composés peuvent être interprétés comme un

résultat de la lexicalisation de syntagmes. Par exemple, il est presqu’impossible d’avoir un

article à l’intérieur du composé anglais, tandis qu’en français, les composés peuvent avoir

des éléments syntaxiques à l’intérieur du mot, notamment les prépositions de et à, ou un

déterminant : pomme-de-terre, trompe-l’œil.

Contrairement à la RHR (Right-hand Head Rule) de Di Sciullo et Williams (1987), Fabb

(1998 : 70) montre que la position de la tête morphologique dans les mots composés dépend

uniquement de la langue. Ainsi, la tête se retrouve à droite en anglais (sneak-thief), mais

généralement à gauche en français (bal masqué).

Dans l’approche de Fabb (1998), les relations entre les constituants du mot composé sont

basées sur la notion de la directionnalité. La structure du composé dépend à la fois de la

position de la tête morphologique (à droite ou à gauche) et du type de relations entre les

éléments du composé :

A compound can be ‘directional’ in two senses. One sense involves the position of the head : whether on the right or the left. The other sense involves the direction of the relation between the parts of the compound : the direction of modification in a noun–noun compound (e.g. in log cabin modification is rightwards) or the direction of complementation in a verb-based compound (e.g. in push-bike complementation is rightwards). (Fabb 1998 : 70)

La typologie générale des mots composés, selon Fabb (1998), est basée sur les trois types

suivants (Scalise et Bisetto 2009 : 40).

(45) composés

sans tête une tête deux têtes (exocentriques) (endocentriques) (coordonnés/appositionnels/dwanda)

Dans les composés endocentriques, comme sneak-thief, la tête du composé thief possède les

mêmes caractéristiques que la tête du syntagme : elle représente une signification

fondamentale du mot composé et possède les mêmes traits catégoriels que le mot composé

44

(e.g. sneak-thief est une sorte de thief ; thief et sneak-thief sont tous deux des noms) (Fabb

(1998 : 67).

Les composés exocentriques, comme greenhouse, n’ont pas de tête morphologique. Fabb

(1998 : 67) déclare qu’en fait, il existe des similarités entre les composés endocentriques et

exocentriques : par exemple, la classification du composé greenhouse en tant que composé

endocentrique ou exocentrique dépend du niveau de conceptualisation selon lequel

greenhouse est considéré comme un type de maison.

Quant aux composés coordonnés comme student-prince, les deux constituants partagent les

caractéristiques du composé (dans le composé student-prince, une personne est à la fois

prince et étudiant) (Fabb (1998 : 67). Ce type de composés peut être représenté par une

combinaison de synonymes (p. ex. toro-bèf ‘taureau’ en haïtien) ou d’antonymes (p. ex.

aigre-doux en français).

Selon Fabb (1998), sauf les types mentionnés ci-dessus, chaque langue possède des types de

composés spécifiques19.

Then there are compound types which are language – or language family – specific, such as the Japanese postsyntactic compounds […], Hebrew construct state nominal […], or Mandarin resultative verb compounds […]. Other types of compounds are found intermittently ; these include synthetic compounds […], incorporation compounds […] and reduplication compounds. (Fabb (1998 : 68)

Les composés synthétiques, selon Fabb (1984), sont créés uniquement dans la syntaxe. Fabb

propose le schéma révisé de X-barre (Xn →Xn-1) pour donner une possibilité au mot Xo

dominer d’autres Xo (B et N 2001 : 366). Les seuls mots qui peuvent être crées dans la

syntaxe sont ceux qui sont joints par des relations thématiques ; la structure interne de ces

mots doit respecter le Principe de projection. (B et N 2001 : 366).

19

Scalise et Bisetto (2009 : 60) indiquent que, conformément à la classification des composés chez Marchand (1969), Spencer (1991), Olsen (2001), Bauer (2001), Booij (2005), la typologie de mots composés de Fabb (1998) est assez limitée : « Fabb‘s classification is too restrictive when confronted with the variety of recognized compounds ». Par exemple, la classification de Spencer (1991) inclut quatre types de composes (endocentriques, exocentriques (bahuvrīhi), dvandva, appositionnels) ; la typologie de Booij (2005) est basée sur cinq types de composés (endocentriques, exocentriques, bahuvrīhis, copulatives, appositionnels).

45

Certains suffixes dérivationnels, selon Fabb (1984), peuvent devenir des suffixes

syntaxiques. Ainsi, il suggère que les affixes qui permettent la formation des composés

synthétiques (p. ex.-er, -ing, -en) sont en fait des affixes syntaxiques (Spencer 1991 : 334).

Ces affixes peuvent porter des rôles thématiques et ils sont considérés comme des items

appartenant au niveau X0 dans le schéma X-barre, liés par les règles de la syntaxe.

Selon le Critère-thêta, le verbe doit obligatoirement assigner un rôle-thêta à son argument

interne (Fabb 1984). Dans les composés synthétiques comme truck driving, le verbe-base

drive doit assigner son rôle-thêta au nom truck(s) pour satisfaire le critère-thêta. Pour ce

faire, le verbe doit gouverner le nom, donc occuper un nœud-sœur dans la structure

syntaxique (Spencer 1991 : 334) :

(46) V V ing Ni V<Thi>

truck drive

Dans la structure en (46), le <Thi> représente l’argument interne du verbe drive, coindicé

avec le nom truck. Ainsi, dans les composés synthétiques comme meat-eater, body-builder,

thief-taker, les relations entre les constituants du composé ressemblent à celles entres les

parties d’un syntagme : le premier constituant représente l’objet du deuxième élément,

comme si le composé était un syntagme inversé. Par contre, dans les composés N-N (p. ex.

living room, queen bee, etc.) et A-N (blackboard, greenhouse, redcap, etc.), le premier

élément (living, queen, black, green, red) est le modifieur du deuxième constituant (room.

bee, board, house, cap) (Fabb 2005 : 113).

Contrairement à la syntaxe, où chaque composant contribue à la signification de la phrase

d’une façon prévisible, la contribution de chaque constituant à la signification du composé

est visible seulement si l’on connaît la signification du mot figé (Fabb 1998 : 66) :

In syntax, each component part tends to add meaning in a clearly predictable way to the whole. In most though not all compounds the relation between the meaning of the parts and the whole is not predictable in the same way. (Fabb 2005 : 50)

46

En d’autres termes, la signification du composé ne peut pas forcément être déduite de celle

de ses éléments (Fabb (1998 : 66). Par exemple, le composé blackbird peut désigner un

oiseau de couleur brune, et non pas noire. Toutefois, il existe une corrélation entre la

prévisibilité du sens, la transparence sémantique et la transparence structurale du composé.

Par exemple, dans les langues avec deux types distincts de composés, le type possédant la

structure moins transparente aura plus de modifications morphologiques et phonologiques

(Fabb 1998 : 68).

D’après Fabb (1998), dans les composés synthétiques anglais, il existe un certain nombre de

lacunes dans l’interprétation sémantique liées au constituant gauche (nom, adjectif ou

adverbe). Théoriquement, cet élément doit remplir les fonctions de complément du

constituant-tête à droite et il ne peut pas être interprété comme un argument externe ou un

sujet. En fait, les composés synthétiques en -ing et -er ressemblent aux syntagmes verbaux

actifs (i.e. play checkers > checker-playing), tandis que les composés synthétiques comme

expert tested ressemblent aux syntagmes verbaux passifs (tested by experts > expert tested)

(Fabb 1998 : 75). Ainsi, les composés synthétiques diffèrent des composés primaires. Par

exemple, malgré que le composé *bird-singing est exclu, le composé bird-song, où le

constituant bird est interprété comme le sujet d’un élément à droite, est possible. Ainsi,

l’interprétation sémantique des composés synthétiques dépend des règles de construction des

syntagmes correspondants, étant liée à l’assignation des rôles-thêta à une position particulière

dans le syntagme selon la nature active ou passive du verbe (Fabb 1998 : 75).

En résumé, le modèle syntaxique de la formation des mots composés de Fabb (1984, 1998,

2005) attribue beaucoup d’importance aux règles de construction des mots composés, leur

typologie et leur représentation sémantique (surtout l’explication de certains composés

synthétiques ayant des lacunes dans leur interprétation sémantique). Selon cette approche, la

prédiction du sens du composé et sa transparence sémantique sont liées à la transparence

structurale : dans les langues où existent des composés avec un niveau différent de

transparence sémantique, les formes moins transparentes ont plus de modifications

morphologiques et phonologiques.

47

2.4.5 Les modèles de traitement lexical des mots composés

Les modèles récents de traitement morphologique des mots complexes ont démontré que ces

derniers peuvent être traités de deux façons : soit ils sont stockés en mémoire et reconnus de

façon globale (la théorie du stockage exhaustif, Butterworth 1983), soit ils sont décomposés

(dissociés) et reconnus par le biais des morphèmes qui les forment (la théorie

décompositionnelle, Taft 1979).

Le troisième modèle postule que les mots complexes peuvent être à la fois stockés et

décomposés. Ce modèle de traitement morphologique propose l’existence de deux routes

d’accès : une route directe qui permet au locuteur d’accéder au mot complexe comme s’il

était simple et une route dissociée (décomposée) où le locuteur accède au mot complexe par

le biais des morphèmes qui le composent. Selon le Morphological Race Model de Baayen et

Schreuder (1999), le traitement morphologique des mots composés comporte effectivement

deux routes comme en (47), où les lignes pleines représentent la route dissociée et la ligne

pointillée indique la route directe.

(47)

haut-parleur

Conformément au schéma en (47), le locuteur peut accéder au sens du mot composé haut-

parleur de façon directe (ligne pointillée) ou par le biais des constituants qui le composent

(p. ex. haut et parleur). Ce modèle est pertinent à la productivité des mots composés parce

que les locuteurs ne traitent pas toutes les formes complexes de la même manière20.

20

Libben (2005) indique aussi que la représentation morphologique des mots composés est décomposable : « Compounds words are, by definition, multi-morphemic. As such they have a dual life : we can consider the meaning of the compound word as a whole (“whole-word meaning”) or we can examine the meanings of the constituent parts of the compound (“constituent meaning”). […] compound words are parsed into morphemes during processing, so that the mental lexicon can be said to have morphological representations. […] The finding that morphological parsing automatically activates all possible constituents challenges the traditional distinction between semantically transparent versus semantically opaque compounds. » (Libben 2005 : 2)

haut-parleur

haut parleur

48

Par ailleurs, comme le note Hay (2003 : 7), l’utilisation de ce modèle permet de mettre en

relief l’idée que l'accès à un mot via la route directe affecte la représentation de ce mot, sa

décomposition et, potentiellement, le niveau de sa productivité morphologique. Les mots

complexes, même si on y accède via la route décomposée, sont stockés dans la mémoire

comme des formes analysées (« parsed forms »), ayant des liens forts avec leurs composants

internes.

Il ressort également que, dans le cas des composés, les deux routes de stockage sont activées

en parallèle et que le choix d’une route ou de l’autre dépend fortement de facteurs comme le

nombre de types de membres de la famille morphologique formés à partir de la base

(Bertram et al. 2000 : 491). Les structures possédant de grandes familles morphologiques

sont traitées plus vite à cause de la diffusion sémantique entre le mot composé et les

membres de sa famille morphologique.

Ainsi, comme le montrent Libben et Jarema (2006), le traitement des mots composés peut

être représenté de la façon suivante. D’une part, les composés doivent être facilement

décomposés en leurs constituants (morphèmes) et, d’autre part, la séquence qui est associée

au mot composé doit être stockée comme une unité complète dans la mémoire.

The fundamental capacity [of lexical processing of compounds] would seem to have two sides. On the one hand, compound words need to be easily segmentable into their constituent morphemes in much the same way as sentences need to be segmentable into their constituent words. […] On the other hand, the compound sequence as a whole must be stored in memory so it becomes a new lexical item that can be retrieved as a single entity for production and whose idiosyncratic meaning can be stored in the mind. (Libben et Jarema 2006 : 3)

Le traitement morphologique des composés exocentriques selon le Morphological Race

Model de Baayen et Schreuder (1999) est particulièrement intéressant, puisque la

signification de ces composés est souvent opaque, ne pouvant pas être déduite à partir de

celle de leurs constituants (Libben 2005 : 2).

Les recherches récentes dans le domaine de l’identification des mots composés révèlent que

les composés qui sont souvent utilisés (lexicalisés) sont stockés dans la mémoire et sont

accessibles comme un tout/non-décomposé. La notion de la maximalisation d’opportunité

49

(maximization of opportunity) suggère que les deux types d’éléments – le mot composé

global et ses constituants – doivent être représentés dans le lexique mental en utilisant les

structures morphologiques et les liens entre les représentations monomorphiques de leurs

constituants (Libben 2006 : 6).

En considérant les arguments présentés ci-dessus, on peut conclure que les mots composés

sont des structures situées au carrefour des mots et des syntagmes ; ils reflètent en même

temps les propriétés de la représentation linguistique mentale et leur traitement grammatical.

2.5 Conclusion Dans ce chapitre, j’ai fait un compte rendu du phénomène de la composition en me

concentrant surtout sur les questions de l’identification, de la typologie, de la tête et de la

base morphologique dans les composés français. Différents modèles théoriques des mots

composés ont été présentés en termes de leur utilisation dans la recherche sur la productivité

des noms composés en français : Di Sciullo et Williams (1987, 2005), Lieber (1992, 2004),

Zwanenburg (1992) et Fabb (1998, 2005).

L’identification des mots composés, surtout en français, pose souvent des problèmes

puisqu’il faut les différencier des syntagmes nominaux (après-soinN vs soin après

traitementSN) et des expressions idiomatiques (mange-disqueN vs manger ses mots). La

difficulté est liée au fait qu’en français les constituants apparaissent dans le même ordre en

composition et en syntaxe. Pour distinguer les mots composés des syntagmes nominaux, il

faut utiliser un certain nombre de tests morphologiques, syntaxiques, sémantiques et

phonologiques qui tendent à établir la cohésion du composé. Si un test fonctionne bien, on

considère une forme analysée comme un mot composé. Dans mon travail, je retiendrai

surtout le test basé sur le critère de l’atomicité syntaxique proposé par Di Sciullo et Williams

(1987) et élaboré dans le travail de Brousseau (B et N 2001). Ce test constitue le critère par

excellence pour identifier les mots composés par rapport aux syntagmes. Conformément à ce

critère, les constituants du mot composé : a) ne peuvent pas être conjoints ; b) ne peuvent pas

être remplacés par une anaphore ; c) ne peuvent pas être modifiés.

50

En ce qui concerne les autres tests solides dans d’identification des composés français,

j’aurai recours aux deux épreuves sémantiques présentées chez Brousseau (B et N : 2001)

qui, à leur tour, sont basés sur deux tests d’inhérence, introduits par Bauer (1978). D’après

ces tests, une suite N-N ou A-N est un composé si : a) le fait de modifier le composé par un

antonyme de son modifieur interne n’entraîne pas de contradiction ; b) l’ajout d’une phrase

complétive qui s’oppose au caractère permanent évoqué par le modifieur interne entraîne une

contradiction. Néanmoins, il faut noter que ces tests sont parfois difficiles à utiliser.

Concernant la notion de la tête en composition, tous les modèles théoriques présentés dans ce

chapitre mettent en évidence l’importance de cet élément morphologique dans

l’identification d’un mot composé. La tête du mot composé est un élément qui porte des

informations syntaxiques et sémantiques essentielles, et qui détermine la catégorie

grammaticale, le genre, le nombre et la sémantique du mot.

La tête morphologique est toutefois traitée différemment dans les modèles théoriques

présentés dans ce chapitre. Dans le cadre lexicaliste de Di Sciullo et Williams (1987), la tête

morphologique dans le mot composé doit suivre les règles de la RHR (the Right-hand Head

Rule) : 1) elle est localisée à droite, comme les suffixes ; 2) elle détermine la catégorie et le

pluriel du mot composé, et éventuellement, d’autres traits catégoriels ; 3) elle rend compte

des généralisations d’ordre argumental et sémantique. Une variante relativisée de la RHR (Di

Sciullo et Williams 1987) détermine la position de la tête morphologique en respectant la

structure argumentale du mot composé. En d’autres termes, la notion de tête relativisée

admet que : a) la tête peut occuper une position à droite ou à gauche ; b) un mot composé

peut avoir plusieurs têtes, où chaque tête est marquée pour un trait particulier. De cette façon,

la RHR relativisée permet, en premier lieu, d’accommoder les langues comme le français ou

le vietnamien qui ont la tête morphologique à gauche. En deuxième lieu, elle tient compte

des composés appositionnels possédant deux têtes morphologiques.

L’autre représentant du camp lexicaliste, Zwanenburg (1992), considère que la classe de

« vrais composés » est limitée aux structures qui ont une tête morphologique située

uniquement à droite (sous-chef, sous-louer, arrière-pays, bien-heureux, etc.). Toutefois, en

51

suivant Bally (1932) et Noailly (1989), il admet que la plupart des composés français

peuvent être analysés comme structures ayant la tête morphologique à gauche.

Contrairement à la RHR (Right-hand Head Rule) de Di Sciullo et Williams (1987), la notion

de tête dans le modèle lexico-syntaxique de Lieber (1992) est établie de façon identique pour

la formation des mots composés et celle des syntagmes. Selon cette approche, la position de

la tête dans les composés est déterminée par les Conditions de Légitimation (Licensing

Conditions), paramétrisées pour chaque langue. Ainsi, la tête d’un mot composé prend la

même position que celle qui est prévue pour la tête syntaxique, relativement aux

compléments, modifieurs et spécifieurs. Selon cette approche, en français, la tête d’un

composé : a) précède le complément (essuie-glace) ; b) précède le modifieur (timbre-poste) ;

c) suit le spécifieur (grand-père).

Enfin, en suivant le point de vue de Liber (1992), le modèle syntaxique de Fabb (1998)

révèle que la position de la tête morphologique dans les mots composés dépend uniquement

de la langue. En anglais sa position est à droite (sneak-thief), tandis qu’en français, elle se

trouve généralement à gauche (bal masqué).

Néanmoins, la tête du mot composé ne peut pas être définie en se basant uniquement sur la

définition positionnelle (à droite/gauche) et les traits catégoriels de ses constituants, par

exemple dans les composés N-N. Les propriétés sémantiques du composé et des éléments qui

le forment sont également importantes. Pour identifier la tête des formes recensées, j’aurai

recours à la notion d’hyponymie (voir Leech 1974 et Miller 1978, 1999), élaborée dans les

travaux de Brousseau (1989 ; 2001). D’après les relations sémantiques de l’hyponymie, il

existe un lien entre un mot X et un mot Y, où Y (un hyponyme) est plus spécifique que X (un

hyperonyme) et dont le sens contient aussi le sens de X (B et N 2001 : 245). Ainsi,

conformément au test d'hyponymie de Brousseau (1989 ; 2001), la tête du mot composé est

un morphème qui joue le rôle de l’hyperonyme du mot ; le composé à son tour, est

l’hyponyme de la tête morphologique. Par exemple, le composé femme d’affaire est un

hyponyme du constituant gauche femme, qui est la tête du composé (une femme d’affaire est

une femme).

52

En outre, l’identification de la base est cruciale pour mon travail puisque plusieurs mesures

statistiques utilisent la base dans leurs formules. Rappelons que la notion de la base en

composition n’est pas clairement définie dans les travaux linguistiques (Bauer 1983, Dressler

2006, Spenser 1991, Krott et all. 1999). Par exemple, Krott et al. (1999) considèrent, mais

sans le justifier, que chaque constituant d’un composé est une base. En fait, il existe deux

possibilités : a) la base peut être identifiée comme le morphème libre qui n’est pas la tête du

composé (par analogie avec les formes affixées où la base est clairement identifiable) ; b) on

considère comme bases tous les morphèmes libres. Néanmoins, il faut noter que l'objectif de

mon travail est d'analyser le lien entre les différentes variantes de base et la productivité des

formes recensées, plutôt que proposer une définition théorique de la notion de la base en

composition.

Enfin, en tenant compte du fait que la recherche sur la productivité des composés N-N, A-N,

N-A et N-de-N sera réalisée en diachronie conformément aux types de composés différents,

la question de la typologie des formes recensées est extrêmement importante pour mon

travail. Tout d’abord, rappelons que Bauer (2009) considère la question de la typologie des

mots composés difficile à cause des problèmes liés à l’identification correcte des composés.

Toutefois, en analysant la productivité morphologique des noms composés français, j’aurai

recours à la classification des noms composés proposée par Brousseau (2001), que je

considère comme détaillée et fiable pour toutes sortes de recherches sur les mots composés

en français.

D’après ce modèle de typologie, les composés français peuvent être classifiés selon quatre

axes différents. En premier lieu, le type auquel appartient le mot composé est basé sur la

présence/absence d’une tête morphologique (les composés endocentriques vs composés

exocentriques). En deuxième lieu, les formes sont classifiées selon la présence/absence d’une

structure prédicat-argument explicite (composés synthétiques vs composés primaires). En

troisième lieu, on classifie le composé selon qu’il a été formé ou non au moyen de règles

propres à la langue française (composés indigènes vs composés savants). Finalement, on a

recours à la transparence/opacité sémantique des formes étudiées (composés réguliers vs

composés irréguliers).

53

En ce qui concerne les types de composés, j’examinerai les deux groupes suivants. Le

premier groupe inclut tout d’abord des formes régulières des composés primaires N-N, A-N,

N-A et N-de-N, (chat-tigre, bel-outil, verre-à-vin, mestre de camp). Ce sont les structures qui

sont sémantiquement transparentes, compositionnelles, potentiellement décomposables.

Outre cela, ce groupe comprend aussi les composés exocentriques qui sont envisagés comme

des structures régulières (claire-voie, blanc-manteau, bec-cornu, vide-poches). Pour analyser

cette catégorie de composés, j’utiliserai le principe de compositionnalité proposé par Frege

(1892) selon lequel le sens d’une expression est une fonction du sens de ses composants.

Conformément à la notion de compositionnalité, le sens de l'ensemble (du composé) découle

du sens des parties composantes. Par exemple, un pied-bleu n’est ni un pied, ni quelque

chose de bleu. C’est un jeune soldat inscrit au rôle de la conscription portant encore les

guêtres bleues du paysan (Dictionnaire Littré 1877-1878). Dans le cas de pied-bleu, la tête

logique du composé (un jeune homme, un soldat) est, en quelque sorte, à l'extérieur. Le sens

du composé peut être déterminé en grande partie à partir des propriétés sémantiques et

syntaxiques de ses constituants. Pour cette raison, le composé pied-bleu sera analysé comme

régulier. Toutefois, il est à noter que pour la taille catégorielle de la famille morphologique,

seulement les formes régulières seront mesurées ici (voir le chapitre 4).

Le deuxième groupe de composés analysés est formé de structures exocentriques irrégulières

(reine-claude, huppe-col, patte-fiche, trique-madame). Ces composés doivent être stockés

dans le lexique puisque leurs propriétés ne sont pas dérivables (cf. section 2.3). L’analyse de

tels composés exocentriques permettra de comparer les deux types d’exocentriques.

Je mettrai de côté les composés synthétiques V-N (abat-faim, cache-lumière, frappe-plaque,

etc.) qui ont été très étudiés (cf. Villoing 2002). Toutefois, pour réaliser mon étude pilote

(voir les pages 117-126), je retiendrai les composés V-N garde-x, réanalysés comme des

structures N-N. Ce type de composés représente un nom d’Agent ou d’Instrument du genre

masculin ou féminin (p. ex. garde-corps, garde-ligne, garde-malade, etc.). En analysant les

composés synthétiques français, j’utiliserai la notion de la conversion par suffixe zéro

présentée chez Lieber (1992) et Zwanenburg (1992), en tenant compte de son rôle sur la

structure argumentale de la base verbale.

54

Contrairement au point de vue de Zwanenburg (1992), qui les considère plutôt comme des

syntagmes, j’anlyserai les composés N-N (arrière-boutique, bateau-dragon, etc.) et N-A

(p. ex. corde vocale, coffre-fort, colonne vertébrale), comme de vrais composés, en suivant

la notion de tête de Brousseau (2001) et celle de la tête relativisée de Di Sciullo et Williams

(1987).

Finalement, je tiendrai aussi compte du modèle de traitement morphologique présenté par

Baayen et Schreuder (le Morphological Race Model, 1999) qui postule que les mots

complexes réguliers peuvent être à la fois stockés et décomposés. Cette approche représente

le traitement morphologique des composés comme un modèle ayant deux routes possibles.

En premier lieu, il existe une route directe où le locuteur accède directement au mot

complexe (p. ex. haut-parleur), tandis que la deuxième route est dissociée – le locuteur

accède au mot complexe par le biais des morphèmes qui le composent (p. ex. haut et

parleur). Ce modèle est surtout pertinent pour la notion de la fréquence relative de Hay

(2003) qui sera utilisée au cours de ma recherche.

En résumé, la notion de la composition inclut plusieurs aspects morphologiques, syntaxiques,

sémantiques et phonologiques importants qui diffèrent parfois d’une approche théorique à

l’autre. Dans mon travail, je ne prends pas position pour un modèle théorique particulier, à

l’exception de l’identification de la tête, soit le test d’hyponymie de Brousseau (1989 ; 2001)

selon lequel la tête du mot composé est l’hyperonyme du mot alors que le composé est

l’hyponyme de la tête morphologique. Les autres aspects des modèles théoriques présentés

dans la section 2.4 n’ont pas d’incidence directe pour le calcul de la productivité.

Il ressort également que le statut des mots composés en français est un domaine peu exploré.

Très peu de recherches s’y sont consacrées, surtout concernant leur productivité

morphologique. Le chapitre suivant introduira les différents modèles de productivité qui

existent actuellement, de même que les différents instruments de la mesurer.

55

CHAPITRE 3

L’objet de la productivité morphologique

3.1 Introduction La notion de productivité morphologique occupe une place importante dans plusieurs travaux

linguistiques sur la formation des mots (Aronoff 1976 ; Baayen 1992 ; Bauer 1988,

2001 ; Hay 2003 ; Plag 1999 ; Hay et Baayen 2002). On peut trouver les premières

discussions sur la productivité morphologique en anglais chez Jespersen (1942). Récemment,

les différents aspects de la productivité morphologique ont été particulièrement étudiés dans

les travaux de Bauer (2001, 2003, 2003a), Dal (2003), Plag (1999). Chez Zwanenburg, la

définition de la productivité morphologique prend en compte le nombre de dérivés

effectivement produits : « On peut […] définir la productivité d’une règle dérivationnelle

comme le quotient du nombre de mots que cette règle peut former par le nombre de mots

qu’on rencontre réellement dans la langue » (Zwanenburg 1983 : 28).

Il faut souligner que la majorité des recherches en productivité se trouve dans le domaine de

la dérivation, surtout en ce qui concerne l’anglais. En revanche, la notion de la productivité

est moins explorée en français, que ce soit d’un point de vue théorique ou d’un point de vue

expérimental. À l’exception des travaux de Corbin (1976, 1987), Dal (2003), Namer (2003)

et Grabar et al. (2006) consacrés à la productivité des affixes, le phénomène de la

productivité morphologique inspire peu les chercheurs français. Plus généralement, la

discussion concernant la productivité morphologique se concentre surtout sur la dérivation

affixale (Aronoff 1976 ; Bauer 1988). Ainsi, la composition (grille-pain, grand-mère) est

considérée comme un processus productif, mais elle reste une question périphérique dans

l’analyse de la productivité morphologique.

Il apparaît que dans la dérivation, même s’il n’existe pas de définition uniforme dans la

littérature linguistique (Bauer 2001 ; Plag 1999), la majorité des linguistes conçoit la

productivité morphologique comme étant l’aptitude des affixes à créer de nouveaux dérivés.

56

Un même préfixe, par exemple, peut former des unités lexicales nouvelles appartenant à

différentes catégories grammaticales, selon la base à laquelle le préfixe s’attache.

(1) a. surcharge (nom) b. surhumain (adjectif) c. surchauffer (verbe)

Cependant, dans la langue contemporaine, certains préfixes, comme for-, outre-, sont

considérés comme morts ou rarement disponibles pour la création de nouveaux mots, et

d’autres comme sur-, super-, hyper- etc. sont envisagés comme assez productifs : suractivité,

surclasser, superprofit, hypermarché.

Concernant la dérivation en français, il est à noter que la productivité des suffixes a beaucoup

varié au cours des siècles. Par exemple, entre le XIIe et le XVIe siècle, le suffixe -able a servi

à dériver plusieurs adjectifs à partir de noms de propriété et de sentiment (Dal 2003 : 4) :

charitable, effroyable, équitable, pitoyable, etc. Donc, on peut dire que le suffixe -able était

productif pendant cette période-là. Par ailleurs, certains suffixes, comme -ie et -ure ont

démontré une grande vitalité pendant les siècles précédents, mais ils ne sont plus productifs

aujourd’hui (Béchade 1992 :116) : inertie, courtoisie, gelure, chevelure. Enfin, d’autres

suffixes (-age, -erie, -ique, etc.) restent productifs à travers les siècles et participent

activement à la création de mots nouveaux : dopage, jardinerie, électronique. En général,

l’aptitude d’un affixe à se joindre à des bases différentes est considérée comme un bon indice

de sa productivité.

Il faut constater que dans plusieurs langues, les locuteurs utilisent non seulement des mots

familiers, mais aussi des mots récemment inventés (‘newly coined’), facilement

compréhensibles. La création de nouveaux mots est très répandue dans la langue quotidienne,

comme on peut l’observer dans les médias (télé, radio, journaux, Internet) et le discours

familier. Il peut arriver que quelques mots inventés au moyen d’un processus morphologique

productif soient des items familiers pour certains locuteurs, sans nécessairement faire partie

de la norme de la langue. Une fois qu'un nouveau mot devient un item familier pour une

grande partie de la communauté linguistique, il est considéré comme un mot établi (Bauer

2001 : 36). Dal (2003 : 7) souligne aussi que « […] la conscience morphologique des

locuteurs est éminemment variable, et un mot peut passer inaperçu chez l’un et être repéré

57

comme nouveau chez l’autre (même quand il est installé de longue date dans le lexique

attesté) ».

La mesure de la productivité du processus morphologique est parfois difficile et elle dépend

de facteurs différents. En premier lieu, il n’existe pas d’unité de vues parmi les linguistes sur

la définition de la productivité morphologique et sur ce qui peut être considéré productif : le

processus, l’affixe ou les règles de formation de mots (Bauer 2001 : 12-15). En deuxième

lieu, le degré de productivité de différents affixes dépend de plusieurs restrictions

phonologiques, morphologiques, syntaxiques et sémantiques (Aronoff 1976 : 35-45 ; Bauer

2001 : 125-162) puisque certains affixes ne peuvent pas être utilisés librement dans la

formation de mots nouveaux. En anglais, par exemple, le suffixe –ment, peut s’attacher à

plusieurs verbes pour former de nouveaux noms, mais pas à n’importe quel verbe :

(2) a. settle + ment → settlement b. provide + ment → * providement

Toutefois, malgré les différences de vues, le facteur de « potentialité » est considéré comme

un élément fondamental dans l’étude de la productivité morphologique : « Productivity is all

about potential. A process is productive if it has a potential to lead to new coinages, or to the

extent to which it does lead to new coinages » (Bauer 2001 : 41).

Par ailleurs, la notion de productivité morphologique peut être abordée sous un angle

qualitatif ou quantitatif. D’un point de vue qualitatif, on définit la productivité comme la

capacité des règles morphologiques à former de nouveaux lexèmes de façon non

intentionnelle (Dal 2003 : 5), à partir de la disponibilité du processus morphologique (Bauer

2001 : 49). D'un point de vue quantitatif, plusieurs méthodes à base de corpus ont été

proposées pour mesurer des aspects différents de la productivité (Baayen 1992, 1993 ;

Baayen et Hay 2002 ; Baayen et Lieber 1991 ; Baayen et Renouf 1996 ; Krott et al.1999).

Toutefois, exception faite de l’ouvrage de Krott, Schreider et Baayen (1999), les études

portant sur la mesure de la productivité n’ont pratiquement pas traité des mots composés.

Ce chapitre a pour objectif de présenter : a) les différentes théories de la productivité

morphologique qui existent actuellement (sections 3.2) ; b) les différents modèles de la

productivité basés sur les hapax (Baayen 1992 ; Baayen et Lieber 1991) (section 3.3) ; c) la

58

notion de la fréquence relative de Hay (2003), qui sert à vérifier les corrélations potentielles

entre la productivité des constituants du composé employés seuls, et la productivité du nom

composé (section 3.4) ; d) le paradoxe de productivité morphologique des mots composés de

Krott, Schreuder et Baayen (1999) (section 3.5) ; e) une mesure basée sur la taille de la

famille morphologique (section 3.6) ; f) une analyse de la productivité des mots composés de

l’anglais par types sémantiques basée sur la notion de rentabilité (section 3.7).

Ce survol des différentes théories et des modèles d’évaluation discutés lors des sections 3.2-

3.7 me permettra de mettre au jour les tendances théoriques et empiriques dans le domaine de

la productivité. À l’issue de cet examen, je pourrai dégager les points forts et les points

faibles de chaque approche théorique pour limiter ma recherche aux méthodes qui sont

crucialement importantes dans l’analyse de la productivité des formes recensées.

La section 3.8 présentera un sommaire des notions théoriques liées à la productivité

morphologique. Finalement, en conclusion (section 3.9), je préciserai les mesures

quantitatives retenues.

3.2 Le modèle de productivité morphologique de Bauer La notion de la productivité morphologique est exhaustivement étudiée dans les travaux de

Bauer (1988, 2001, 2008), qui offrent plusieurs définitions de productivité morphologique

parmi lesquelles on peut citer la suivante : « […] the productivity of a morphological process

is its potential for repetitive non-creative morphological coining » (Bauer 2001 : 98).

La productivité est aussi considérée par Bauer (2001) comme étant une fonction de

l’innovation morphologique qui permet la création de nouveaux mots, mais ces créations ne

sont pas toutes productives :

Productivity is a feature of morphological innovation. It is a feature of morphological process which allow for new coinages, but not all coining necessarily indicates productivity. To be shown to be productive, coining must be repetitive in the speech community : isolated instances of coining from individuals do not in themselves necessarily indicate productivity. (Bauer 2001 : 97-98)

59

Deux facteurs importants déterminent la productivité morphologique : il s’agit premièrement

d’une productivité mécanique en termes de la fréquence d’emploi, qui peut être évaluée par

une mesure quantitative. Deuxièmement, c’est la potentialité d’un processus morphologique

de créer de nouveaux mots. Toutefois, la productivité ne se base pas exclusivement sur la

fréquence de mots ; elle est souvent liée à la haute fréquence, mais ce n’est pas nécessaire

(Bauer 2001 : 21).

Dans ses réflexions sur les notions fondamentales de la productivité, Bauer (2001 : 36)

souligne la nécessité de distinguer les objets morphologiques suivants : les mots existants

(‘existing words’), les nouveaux mots (‘new words’), les mots potentiels (‘potential words’)

et les mots probables (‘probable words’).

En ce qui concerne des mots existants, un mot existe à partir du moment où il est créé ; il fait

partie de la norme de la langue et entre dans un dictionnaire seulement quand il y est établi.

Bauer (2001 : 36) considère que dans un texte normal21, le nombre de dérivés non-établis est

probablement très bas (moins de 1 %)22. En même temps, vingt pour cent de ces formes non-

établies peuvent être des items familiers ; alors, ces chiffres nous donnent une estimation

possible de l’écart entre les mots existants et ceux que nous pouvons considérer attestés. Il

cite également en exemple 148 mots composés tirés du journal Time Magazine : dans ce

groupe, 67 composés comme crash site, airline official, island republic ne sont pas présents

dans le Oxford English Dictionary.

Bauer souligne que théoriquement, il est impossible de dire si un mot particulier attesté

existait ou non avant la déclaration de son attestation :

[…] we are in the awkward theoretical position of accepting in principle that there is a set of existing words, and of being able to identify some of those words, but not being able to say with confidence for a huge number of attested words whether they were or were not in existence before that attestation of them. (Bauer 2001 : 35)

21

Pour Bauer, un journal comme Time magazine représente un modèle du texte normal, tandis que The Oxford English Dictionary inclut des mots attestés qui font partie de la norme de la langue. (Bauer 2001 : 36) 22

En ce qui concerne la composition en anglais, dans un texte normal, le nombre de mots composés non-établis est plus élevé que celui des dérivés non-établis. (Bauer 2001 : 37)

60

Une recherche plus détaillée sur les mots existants est faite par Thiel (1973 : 379 ; cité dans

Bauer 2001 : 37) en allemand. Parmi 1331 composés attestés, seulement 37,9 % sont listés

dans les dictionnaires. Cependant, Bauer (2001 : 37) soutient que le nombre de composés

attestés en anglais et en allemand est considérablement plus grand que celui des composés

établis et qu’un cinquième des composés établis représente des formes familières. En suivant

Kiparsky (1982 : 26), Bauer suggère qu’en réalité, il est parfois difficile d’établir une

différence entre un mot existant et un mot établi.

Quant aux mots nouveaux, ce sont des mots créés dans la langue (‘coined word’) qui, à leur

tour, peuvent être des mots d'occasion (‘nonce words’) ou des néologismes. La différence

primordiale entre ces deux derniers types de mots consiste en ce qu’un néologisme fait partie

de la norme de la langue. Ainsi, il est considéré comme un bon marqueur de la productivité

du processus morphologique étudié (Bauer 2001 : 38).

Un élément fondamental de l’étude de la productivité, selon Bauer (2001), est la notion de la

« potentialité » de la création de mots nouveaux, c’est-à-dire le concept des mots potentiels

de la langue.

Productivity is all about potential. A process is productive if it has the potential to lead to new coinages, or to the extent to which it does lead to new coinages. We are aware of productivity only through the new coinages and the patterns of familiar and unfamiliar words coined by the relevant process. (Bauer 2001 : 41)

Un locuteur n’utilise pas nécessairement tous les mots potentiels ; par conséquent, tous les

mots potentiels ne vont pas devenir des mots probables (Bauer 2001 : 42) : « … a ‘possible’

word is defined in term of the linguistic system while a probable word is determined by

extra-systemic factors. » Les facteurs suivants sont considérés comme étant des facteurs

externes : le blocage, la sémantique, la longueur du mot, « les accidents de l’histoire

culturelle » ou l’échec de l’hypostatisation23 (Bauer 2001 : 42-43). Il est à noter que pour

Aronoff (1983 : 163, cité dans Bauer 2001 :42), la probabilité est un équivalent de la

23

En suivant Dressler et Ladányi (2000 : 106), Dal (2003 : 12) montre que « certains mots peuvent être bien formés, et pourtant avoir une probabilité d’actualisation faible, faute de trouver un contexte d’actualisation adéquat ou un référent plausible ».

61

productivité : « In word formation, the code word for probability is productivity.» Par contre,

pour Bauer (2001 : 43), les facteurs mentionnés ci-dessus diminuent la probabilité d’un mot

potentiel de devenir existant et, par conséquent, la productivité du processus morphologique

qui participe à la création de ce mot.

Il existe deux façons différentes et complémentaires d’étudier la productivité

morphologique : selon l’aspect qualitatif (i.e. la disponibilité du processus) ou quantitatif (i.e.

la rentabilité du processus) (Bauer 1988, 2001)24. Ainsi, la disponibilité du processus

morphologique représente son potentiel de former des mots nouveaux d’une manière

répétitive en suivant des règles de formation de mots, et elle est déterminée par le système de

chaque langue. Par contre, la rentabilité du processus morphologique reflète le degré auquel

cette disponibilité est exploitée selon les normes de la langue (Bauer 2001 : 211).25 D'un

point de vue qualitatif, pour que le processus morphologique soit productif, il doit être

disponible pour la production de nouveaux mots : « A morphological process is available

[…] if it can be used in the production of new words. This is the sense in which we have

been using the term ‘productive’ » (Bauer 2001 : 49).

La composition est considérée par Bauer (2001 : 117) comme un processus morphologique

très productif dans les langues comme l’anglais et l’allemand. Il soutient également (Bauer

2001 : 119) que si la composition est automatique et productive, ce processus morphologique

doit être disponible aux utilisateurs de la langue indépendamment de leur niveau d’éducation.

En dépit de la diversité des points de vue présentés parmi les linguistes sur ce qui doit être

considéré comme productif (i.e. mot, suffixe, processus morphologique), Bauer (2001)

24

Contrairement au point de vue de Corbin (1987) qui considère la notion de la rentabilité (profitabilité selon Bauer) du processus morphologique en termes de sa potentialité et de la production de nouveaux mots dans le passé, Bauer (2001 : 49) suggère qu’il faut distinguer ces deux notions. 25

Bauer souligne que pour le concept de productivité morphologique, la distinction entre la disponibilité et la rentabilité est assez importante : « Productivity deals with the number of new words that can be coined using a particular morphological process, and is ambiguous between the sense ‘availability’ and the sense ‘profitability’. The availability of a morphological process is it potential for repetitive rule-governed morphological coining. […] Availability is determined by the language system, and any process is either available or unavailable, with no middle ground. […] The profitability of a morphological process reflects the extent to which its availability is exploited in language use. » (Bauer 2001: 211)

62

montre que c’est plutôt un processus ou un patron morphologique qui peuvent être

considérés comme productifs :

[…] there seems to be some dispute among morphologists about what it is that is productive : whether it is, for example, a particular pattern of suffixation, or a particular semantic pattern at some level of generality, or a particular way of creating grammatical forms (such as nominalisation, adjectivalisation, etc.). […] we need to have some way of deciding which of these we should be considering on any given occasion. […] I should like to see a careful argument on this subject, explaining the problems with considering individual morphological processes as well as the benefits of looking at larger patterns. I suspect that both are justified, but under different circumstances. (Bauer 2003a : 14-15)

Différents facteurs peuvent faciliter la productivité : par exemple, la fréquence des bases

appropriées, la transparence phonologique et sémantique, la naturalité (‘naturalness’) (Bauer

2001 : 98). Tous ces facteurs favorisent la productivité d’un processus morphologique.

Toutefois, Bauer souligne qu’il est important de distinguer la productivité de la créativité,

puisque la productivité peut être vue comme un processus géré par des règles, tandis que la

créativité peut modifier ces règles. Pour Bauer, la créativité et la productivité sont des

prototypes : « It may be the case that productivity can be seen as rule-governed, and

creativity seen as rule-changing. […] Creativity and productivity are not distinct categories,

but prototypes. » (Bauer 2001 : 71)

En ce qui concerne les mesures de productivité, Bauer (2001 : 189) fait la révision d’un

certain nombre de formules proposées pour calculer la productivité morphologique et il

explore l'utilisation de la notion de l’hapax legomenon (des mots figurant dans un grand

corpus exactement une fois). Premièrement, il analyse le modèle d’Aronoff (1976 : 36) et sa

méthode basée sur la proportion entre les mots attestés et les mots potentiels produits par la

règle de formation des mots (RFM). Cette méthode de calcul a été formalisée par Bayeen et

Lieber (1991 : 803) comme suit :

(3) I = V/S

où I est l’index de la productivité, V est le nombre de types attestés et S et le nombre de

types potentiels formés par la RFM.

63

Selon Bauer (2001 : 146), cette formule ne fonctionne pas bien pour des raisons pratiques et

théoriques (S et V sont difficiles à identifier et à calculer). D’une part, le nombre précis des

mots attestés peut être déterminé seulement au moyen d’un corpus fixe (corpus électronique

ou dictionnaire). Ce type du corpus présente une lacune significative : il est possible que

certains processus productifs y soient absents. D’autre part, dans le modèle en (3), le nombre

S est en principe infini (Baayen et Lieber 1991 : 804). Bauer (2001 : 146) n’est pas d’accord

avec ce point de vue puisque le nombre de bases impliquées dans chaque processus productif

est limité. En conséquence, la formule en (3) possède les faiblesses suivantes : 1) elle mesure

la productivité du processus morphologique qui a eu lieu dans le passé ; 2) elle n’indique pas

si un processus morphologique particulier est disponible ou non.

Bauer (2001 :151) examine également la mesure de productivité basée sur la notion de

l’hapax legomenon proposée chez Bayeen (1989 ; 1993) ; Bayeen et Lieber (1991) et il

soulève le problème de la comparabilité des corpus. Pour justifier son point de vue, Bauer

mentionne l’exemple du suffixe –iana qui est utilisé une fois seulement (Victoriana) dans le

Corpus de Wellington de l’anglais néo-zélandais écrit. Dans ce corpus, le nombre d’hapax

(n1) correspondant à ce suffixe égal à 1, le nombre de type (N) est aussi 1 ; donc selon la

mesure basée sur l’hapax, le suffixe –iana doit être considéré comme absolument productif,

ce qui n’est pas vrai en réalité. Toutefois, Bauer souligne que ce n’est pas une faute de la

mesure de Baayen, mais plutôt de la taille insuffisante du corpus : plus petit est le corpus,

moins précis sont les résultats de la mesure basée sur l’hapax. Bauer est d’accord avec l’idée

suivante de Baayen : pour obtenir des résultats fiables, il faut utiliser le corpus le plus grand

possible. Mais la question du corpus de taille acceptable n’est pas résolue : il n’existe pas,

selon Bauer (2001 : 151), d’information précise concernant la taille minimale du corpus qui

garantit des données statistiques fiables.

Quoique la mesure de productivité de Baayen (1991) soit particulièrement prometteuse,

Bauer pense qu’une méthode d’évaluation de la productivité qui est complètement fiable

n’existe pas encore (Bauer 2001 : 199). Ses critiques touchent deux questions importantes :

1) le modèle de mesure de la productivité morphologique ; 2) la représentativité et la taille du

corpus dans la recherche sur la productivité morphologique. Concernant le premier problème

mentionné ci-dessus, il faut mentionner que Bauer n’a pas discuté dans ses travaux les

64

versions les plus récentes de calcul de la productivité de Baayen. Nous reviendrons donc sur

ces critiques à la prochaine section.

Bauer (2001 : 206) parvient ainsi à reconnaître que la disponibilité du processus

morphologique est limitée dans le temps : un processus peut être disponible pendant une

certaine période, mais pas durant une autre. Ainsi, la disponibilité est parfois difficile à

évaluer, du fait de plusieurs facteurs. Premièrement, il existe des types de formes nouvelles

(innovations) qui sont généralement exclus du domaine de productivité. Deuxièmement, le

phénomène de la productivité est considéré très souvent comme un phénomène lié à la

communauté, et non pas à un individu particulier. Les locuteurs individuels peuvent créer des

mots nouveaux qui ne sont pas attestés dans la communauté à un moment donné. Ainsi,

l’utilisation d’un processus morphologique par un locuteur ou un écrivain particulier ne

représente pas nécessairement la situation dans la communauté en général.

Parmi les autres facteurs qui peuvent limiter la productivité morphologique Bauer mentionne

les suivantes :

a) Les restrictions sur les bases utilisées dans les processus dérivationnels peuvent changer

en diachronie. Des processus morphologiques peuvent être disponibles pour certains types de

bases pendant une période de temps, mais pas pour une autre période adjacente (Bauer 2001 :

205).26

b) La productivité d'un processus peut limiter la productivité de l’autre (Bauer 2001 : 208).

c) La productivité peut varier selon le choix des utilisateurs de la langue : parfois, le locuteur

n’utilise pas souvent tel ou tel processus morphologique (Bauer 2001 : 209).

Afin d’évaluer le niveau de productivité, il est important d’utiliser un corpus textuel

représentatif, de taille suffisamment grande, qui puisse offrir une image réaliste de la

situation linguistique dans une langue particulière. Néanmoins, comme le remarque Bauer

26

Un exemple de la compétition entre les différents processus morphologiques est présenté dans le travail de Fleischer (1975 : 178-180 ; cité dans Bauer 2001 : 208), où les suffixes diminutifs allemands –chen et –lein rivalisent en s’attachant à des bases différentes.

65

(2001 : 160), tous les corpus ont la même faiblesse inhérente et irrémédiable : aucun corpus

ne peut couvrir tout ce qui arrive dans l'utilisation de la langue humaine, même dans un

domaine choisi. Ainsi, malgré leur immense utilité, les corpus ne peuvent pas résoudre le

problème de mesure de la productivité morphologique, quoique de très grands corpus servent

mieux que de plus petits.

Bauer défend l'utilité des dictionnaires dans l’étude de la productivité morphologique en

proposant les arguments suivants. En premier lieu, même si les dictionnaires ne donnent pas

généralement des listes complètes de formes morphologiques utilisées par telle ou telle

langue, certains dictionnaires sont plus explicites que d'autres sur ce compte. En deuxième

lieu, Bauer (2001 : 159) considère l’utilisation d’un bon dictionnaire comme un bon point de

départ dans la recherche sur la productivité morphologique.

3.3 Le modèle de productivité morphologique de Baayen Le modèle de productivité morphologique de Baayen se base sur une approche proprement

quantitative pour mesurer la productivité de différents procédés constructionnels. Il est à

noter que d'un point de vue quantitatif plusieurs méthodes à base de corpus ont été proposées

pour examiner des aspects différents de la productivité (Baayen 1992, 1993 ; Baayen et

Lieber 1991 ; Baayen et Renouf 1996 ; Krott, Schreider et Baayen 1999). Aronoff (1976 :

36) fut le premier parmi les générativistes à proposer d’attribuer à chaque règle de

construction de mots un indice de productivité. On obtient cet indice en divisant le nombre

de mots produits par la règle en question par le nombre de mots qu’elle est capable de former

(cf. 3.2).

Cette mesure a provoqué de nombreuses critiques indiquant la difficulté à déterminer une

valeur chiffrée aux mots actuels et possibles formés au moyen d’une règle de formation de

mots donnée (Bauer 2001 : 189 ; Plag 1999 ; Baayen et Lieber 1991 : 803-804). L’indice de

productivité d’Aronoff mène aussi à de fausses prédictions pour les cas extrêmes. Plag

(1999 : 23) remarque que les affixes capables de former un grand nombre de nouveaux

dérivés se voient affectés d’un indice tendant vers zéro (puisque le diviseur tend alors vers

66

l’infini), tandis qu’au contraire, l’indice des affixes peu aptes à former de nouveaux mots

peut être très supérieur à 1 (puisque le nombre de mots attestés excède celui des possibles)27.

Les mesures de calcul de la productivité les plus utilisées actuellement ont été proposées par

Baayen (1991, 1996, 1999, 2002). Pour éviter les défauts de l’indice de productivité

d’Aronoff, Baayen (seul ou en collaboration) propose une définition28 selon laquelle un

processus est productif quand il est capable de former en théorie un nombre infini de dérivés

de façon non-intentionnelle :

If a word-formation process is truly productive, new formations using that process will go unnoticed. For unproductive processes a new form may sometimes be coined, but such coinages will always draw attention to themselves : they will be used to shock, to amuse, or to achieve some other intentional effect. (Baayen et Lieber 1991 : 808)

Ainsi, selon Baayen, la mesure de productivité doit répondre aux exigences suivantes

(Baayen et Lieber 1991 : 809) :

– elle doit refléter l’intuition du linguiste concernant la productivité ;

– elle doit représenter le fait qu’un nouvel élément soit prêt à entrer dans de nouvelles

combinaisons de mots ;

– elle doit tenir compte du fait que des mots sémantiquement ou formellement

idiosyncratiques abaissent le niveau de la productivité du processus étudié.

En fait, deux mesures de calcul de la productivité morphologique ont été proposées par

Baayen : la productivité au sens strict et la productivité globale. Les deux mesures se

calculent relativement à un corpus donné.

27

Selon Plag, à moins que l’indice ne soit égal à 1, on considère que les mots attestés sont des mots possibles (Plag 1999 : 23). 28

En fait, Baayen utilise la définition de la productivité morphologique apparue chez H. Schultink (1961: 113 ; cité dans Plag 1999 : 13) : “We see productivity as a morphological phenomenon as the possibility for language users to coin unintentionally an in principle unlimited number of new formations, by using the morphological procedure that lies behind the form-meaning correspondence of some known words.”

67

La mesure la plus employée dans les recherches actuelles est la productivité morphologique

« au sens strict ». La productivité au sens strict, notée P, est une mesure quantitative qui se

base sur la notion d’hapax legomenon :

The category conditioned degree of productivity, P, assesses the likelihood, given we are encountering a word containing a certain affix, of that word representing a new type. It is calculated by the total number of hapaxes (forms containing the affix which are represented just once in the corpus) as a proportion of all tokens containing the affix (N). (Baayen et Lieber 2001 : 218)

Donc, il s’agit d’une mesure relative qui doit comparer la productivité des procédés

morphologiques à l’intérieur d’un même corpus ou entre des corpus différents (Baayen et

Renouf 1996). La formule pour mesurer la productivité au sens strict est définie comme suit :

(5) P = n1 / N

où P représente la productivité au sens strict (le taux de croissance du vocabulaire), n1

représente le nombre d’hapax legomena (les formes qui apparaissent une fois seulement dans

un grand corpus), et N représente le nombre total d’occurrences observées dans le corpus

contenant le type dérivationnel analysé (Baayen 1991 : 809).

Contrairement au modèle I = V/S, la formule révisée de Baayen en (5) est basée sur le

nombre d’hapax n1 et le nombre d’occurrences N des formes recensées et non pas sur le

nombre de types existants V et le nombre de types potentiels S. En réponse à la critique de

van Marle (1992 : 152), qui considère que la mesure P évalue plutôt ce qui est produit dans

le corpus de référence, et non pas une compétence naturelle, Baayen (1993 : 189) soutient

que le nombre d’hapax sert à indiquer la probabilité de rencontrer de nouveaux types qui

n’ont pas été enregistrés dans les échantillons précédemment analysés.

Baayen explique à plusieurs reprises la raison pour laquelle la mesure P se base sur le

nombre d’hapax legomena et le nombre d’occurrences, et non sur le nombre de types. Son

argumentation est liée au fait que les types à haute fréquence soient largement représentés

dans les processus qui sont incapables de former de nouveaux mots, tandis que les procédés

aptes à former de nouveaux mots se caractérisent par des types à basse ou moyenne

fréquence. Donc, les types qui sont responsables d'un procédé non disponible peuvent

68

augmenter la valeur du diviseur, et comme résultat, baisser sensiblement la valeur de P,

tandis que les types mettant en jeu un procédé productif produisent peu d’effet sur la valeur

du diviseur et sur celle de P (Baayen 1993 : 189).

L’analyse des données statistiques sur la productivité de 80 affixes anglais (utilisant la base

lexicale CELEX) de Baayen et Lieber (2001 : 233) confirme cette observation. Les affixes

de-, in-, re-, un- représentés dans ce corpus par un grand nombre de types à haute fréquence

(V = 121, 192, 289, 241 respectivement), sont peu aptes de former de nouveaux mots et, par

conséquent, leur productivité est assez basse : P = 0,0040 ; 0,0040 ; 0.0020 et 0.0050

respectivement.

Une autre mesure quantitative proposée par Baayen (1993) est aussi basée sur les hapax ;

toutefois, elle est rarement utilisée dans les recherches actuelles sur la productivité

morphologique. La mesure de la productivité globale (global productivity), notée P*,

exprime la probabilité d’apparition d’un mot nouveau dans un procédé donné (Baayen 1992 :

122-125 ; Hay et Baayen 2002)29. La mesure de la productivité globale est calculée comme

suit (Baayen 1993 : 190).

(6) P* = g (P, V)

où g est un index de probabilité, P est le degré de la productivité et V est la fréquence d’un

type analysé.

Selon cette mesure, la règle généralement plus productive aura de grandes valeurs tant pour

V (nombre de types observés) que pour P ; la règle qui n’est pas productive montrera peu de

nouveaux types de mots et un P de bas degré (Baayen et Lieber 1991 : 818). Ainsi, la mesure

de productivité globale P* évalue la probabilité d’apparition d’une nouvelle structure dans un

procédé morphologique en représentant la corrélation entre la productivité P et les types

attestés par le processus morphologique en question. La mesure de productivité globale P*

29

Dans ses premiers travaux (1989, 1991), Baayen représente la productivité globale comme un moyen d’incorporer la rentabilité du procédé étudié dans la mesure de la productivité (deux procédés A et B peuvent en effet avoir la même valeur P alors que l’un forme dix fois plus de mots que l’autre).

69

utilise un graphique bidimensionnel indiquant la productivité P avec l'axe horizontal X, et la

fréquence des types analysés avec l'axe vertical Y.

Toutefois, en analysant la productivité globale des suffixes anglais -er, -ation, -ity, -ous,

-able, -ment, etc., Baayen et Lieber (1991 : 819) réalisent que cette mesure pose des

problèmes méthodologiques : il est impossible (en se basant sur V et P) de mesurer quelle est

le processus le plus productif30.

Baayen révise donc la mesure de productivité globale P*. La nouvelle variante de P*

(Baayen 1993 : 205) considère la proportion entre le nombre d’hapax d’une catégorie et le

nombre total d’hapax dans le corpus de la façon suivante (Baayen 1993 : 193) :

(7) P* = n1,E,t / h1 où n1,E,t indique le nombre de mots de la catégorie morphologique pour laquelle on calcule P* ne possédant qu’une seule occurrence dans le corpus étudié (E = une catégorie morphologique ; t = le nombre d’occurrences de cette catégorie) et h1 le nombre total d’hapax (construits ou non) du corpus.

Ce que la mesure P* révèle, c’est la probabilité qu’un mot nouveau soit formé au moyen du

procédé que l’on mesure : elle est utilisée plutôt pour classer le processus productif selon le

degré de productivité en évaluant le degré de productivité conditionné par des hapax.

P* is the hapax conditioned degree of productivity. It expresses the probability that, if we are encountering an entirely new word, that word will contain the affix in question. It is measured by calculating what proportion of all hapaxes in the corpus is associated with that affix. (Baayen et Hay 2001 : 218)

En tenant compte de deux mesures mentionnées ci-dessus, Baayen suggère que P et P* sont

deux mesures complémentaires : « […] P and P* are complementary measures, the primary

use of P being to distinguish between unproductive and productive process as such, P* being

especially suited to ranking productive affixes » (Baayen 1993 : 194).

30

Bauer (2001) soulève un autre problème lié à cette mesure : « Unfortunately, [ …] it is not possible to weigh the relative contributions of the vertical and horizontal dimensions in such a chart. [ …] It fails to show that there is a vital relationship between the two measures, and rather implies that the two should be kept entirely separate » (Bauer 2001 : 154).

70

Toutefois, l’analyse des données statistiques de Baayen (Baayen et Lieber 1991 : 820) sur la

productivité morphologique des affixes différents fait ressortir trois séries d’observations.

Premièrement, certains affixes peuvent être représentés par un grand nombre de types (V) et

en même temps avoir un niveau bas de productivité (P) ou vice-versa. Par exemple, l’affixe

nominal anglais –ee, qui s’attache à une base verbale (employee), est représenté seulement

par 23 types (V), mais il démontre un degré élevé de productivité (0.0016) tandis que l’affixe

nominal –ment, qui forme des noms sur une base verbale (encouragement), inclut 184 types

différents, mais sa productivité est significativement plus basse (0.0002). Ce fait signifie que

les affixes peuvent être assez productifs même s’ils sont peu fréquents dans le corpus. Le

facteur crucial de la productivité, c’est la productivité au « sens étroit », c’est-à-dire une

proportion élevée d’hapax par rapport au nombre total d’occurrences : dans le cas des affixes

–ee et –ment cette ampleur est représentée par les chiffres suivants : 2 :1213 et 7 :44419

respectivement.

(8) Affixe N V P n1 nominal

_________________________________________________________ -ee 1213 23 0.0016 2

-ment 44 419 184 0.0002 7 où N = nombre d’occurrences ; V = nombre de types ; P = productivité ; n1 = nombre d’hapax.

Deuxièmement, on observe que les affixes rivaux qui forment des mots de la même catégorie

possèdent un niveau différent de productivité, ce qui peut être expliqué par des restrictions

différentes sur les affixes. Par exemple, le suffixe adjectival -ish (P = 0.0050), qui s’attache à

une base nominale, est plus productif que le suffixe adjectival –ous (P = 0.0006).

Troisièmement, on remarque que parmi les affixes dérivationnels anglais, la catégorie de la

base (nominale vs verbale) influence fortement le degré de productivité des dérivés : l’affixe

adjectival -ish (P = 0.0050) qui s’attache à une base nominale est plus productif que l’affixe

adjectival -able (P = 0.0007) qui se joint à une base verbale (Baayen et Lieber 1991 : 821).

Toutefois, en ce qui concerne la notion de l’hapax dans les mesures P et P*, Baayen (1991,

1992) insiste sur le fait qu’en premier lieu, les hapax qui ressortent dans un corpus donné

71

sont de bons marqueurs de la productivité du processus étudié (c’est-à-dire de l’aptitude à

former des mots nouveaux) : plus grand est le nombre d’hapax – plus productif est le

processus morphologique étudié. En deuxième lieu, le nombre d’hapax découverts dans le

corpus doit théoriquement représenter des néologismes (ou des innovations lexicales).

Toutefois, la taille du corpus est extrêmement importante : un corpus trop limité risque de

présenter à tort des formes uniques comme des néologismes. Les catégories morphologiques

non-productives sont caractérisées par une prédominance des types de haute fréquence, par

un petit nombre de types de basse fréquence et seulement par quelques (ou aucun) hapax,

surtout si la taille du corpus augmente. En contraste, la disponibilité des règles de formation

des mots pour un affixe donné garantit que, même les mots de basse fréquence avec cet

affixe peuvent être produits et compris (Baayen et Renouf 1996 : 74).

Baayen (1993), en se prononçant en faveur de la méthode basée sur les hapax, souligne que

des résultats fiables peuvent surtout être obtenus en travaillant sur un corpus de grande

taille :

[…] It is only for the larger corpora that neologisms will begin to appear, predominantly among the hapaxes. Even then, many hapaxes will be well-known lexical items. However, as the sample size increases, the proportion of the neologisms among the hapaxes will increase. Hence the probability of encountering neologisms is measured indirectly by means of the probability of encountering hapaxes. (Baayen 1993 : 189)

Ainsi, malgré le fait que la taille minimale du corpus n’est pas clairement spécifiée parmi les

linguistes, Baayen et Renouf (1996 : 71) montrent que la base lexicale CELEX (65 millions

de mots) a une taille suffisamment grande pour l’application de différents modèles qualitatifs

et quantitatifs.

Par ailleurs, il faut noter que Baayen (1991, 1993, 1996, 2006) soutient fortement

l’importance accordée aux corpus textuels dans la recherche sur la productivité

morphologique. Depuis longtemps, les principaux outils de recherche dans le domaine de la

morphologie étaient les dictionnaires (dont l’utilisation est fortement soutenue par Bauer) et

les intuitions des locuteurs (les acceptions des mots attestés/mots possibles). Le rapport entre

les hapax et la productivité soulève quand même quelques questions. Les trois raisons en

72

faveur de l’utilisation des hapax dans la mesure de la productivité morphologique, proposée

par Baayen et Renouf (1996 : 78), sont :

– Premièrement, dans un grand corpus, les hapax servent de marqueurs de probabilité pour

les nouveaux types de mots. Ils permettent de déduire, combien de nouveaux types de

mots sont à prévoir pour les grands échantillons.

– Deuxièmement, la plupart des néologismes apparaissent parmi les hapax legomena. Ainsi,

dans un corpus donné, les patrons les plus productifs sont révélés par les hapax.

– Enfin, les hapax attirent l’attention sur de nouvelles formes créées de façon spontanée,

non-intentionnelle. Ces créations ressemblent le plus aux constructions syntaxiques pour

ce qui est de à la productivité.

C’est la troisième raison qui provoque le plus de discussions parmi les linguistes (Bauer

2001, Dal 2003 ; Plag 1999). Bauer (2001 : 68) indique qu’il n’existe pas de règle qui

permette de déterminer quel mot est créé de façon non-intentionnelle et lequel est formé de

façon intentionnelle.

À son tour, Dal (2003 : 6) mentionne qu’on ne peut pas savoir exactement si, par exemple,

les huit occurrences du mot étanchéifier que comptent les archives du journal Libération ont

été créées d’une manière non-intentionnelle, ou si les journalistes qui ont utilisé ce verbe ont

voulu l’attester. Le problème de « non-intentionnalité » est résolu partiellement chez Baayen

où il introduit une notion « d’indistinguabilité » (Dal 2003 : 7) pour préciser la notion de

« non-intentionnalité » :

If a word-formation process is truly productive, new formations using that process will go unnoticed. For unproductive processes a new form may sometimes be coined, but such coinages will always draw attention to themselves : they will be used to shock, to amuse, or to achieve some other intentional effect. (Baayen et Lieber 1991 : 808)

Donc, un procédé est considéré productif quand il est utilisé pour former de nouveaux mots

non distingués comme tels par le récepteur. Ainsi, les mots comme accidentabilité ou

assurabilité démontreront autant la productivité du suffixe -ité que les mots attestés

agglutinabilité ou annulabilité, puisque rien ne permet a priori au locuteur de distinguer

entre les deux groupes (Dal 2003 : 7). Quand même, le problème reste en partie pour les

73

évaluateurs de la productivité : comme le note Plag (1999 : 14), la conscience morphologique

des locuteurs diffère beaucoup ; un mot nouveau peut passer inaperçu chez l’un et être

considéré comme nouveau chez l’autre.

Enfin, il apparaît que certains auteurs utilisent dans leurs travaux des lexèmes qui leur sont

propres ; dans ce cas-là ces formes peuvent être considérées, pour les besoins de la mesure,

comme des hapax d’un auteur particulier et non pas des hapax proprement dits.

Toutefois, compte tenu des observations présentées ci-dessus, on peut dire que les mesures

proposées par Baayen représentent une étape décisive dans l’évaluation de la productivité

morphologique puisqu’elles réunissent les divers paramètres linguistiques dans des formules

mathématiques, permettant ainsi des comparaisons objectives entre les procédés différents.

En fait, la discussion sur la productivité ne concerne pas tellement la définition de la notion

de la productivité, mais plutôt les mesures qui prennent en considération ces composantes

qualitatives et quantitatives31.

Même si le modèle de productivité P de Baayen possède des lacunes et a été vivement

critiqué, il continue d’être une mesure standard quand il s’agit de comparer quantitativement

la productivité de divers procédés morphologiques. Par conséquent, j’ai décidé d’utiliser

dans mon travail la mesure P au sens strict en (5) plutôt que la mesure P* en (7) représentant

un degré de productivité relative conditionné par des hapax parce que : a) la mesure P a été

largement utilisée et plusieurs recherches ont obtenu des résultats relativement fiables sur la

productivité morphologique en dérivation ; b) elle est très utile pour l’examen de la

corrélation entre la productivité et l’accès lexical (Bertram, Schreuder et Baayen 2000 ; Hay

et Baayen 2002 ; etc.). Cette mesure est considérée par plusieurs linguistes comme étant

assez solide parce que la productivité du processus morphologique s’abaisse lorsqu’on

observe des formes ayant une haute fréquence (Plag 1999).

31

Toutefois, Bauer (2001) suggère qu’il n’existe pas encore de mesure de productivité complètement fiable : “ We saw that the best measures currently available are indirect, and there are problems which even the best available methods do not solve, in particular comparability between corpora (or language, etc.). Perhaps what we are seeking in a measure, which will tell us for any morphological process M: What is the likelihood that the next word I meet which is formed by M will be a new word (or, an alternative formulation, a word which is not item-familiar)? Unfortunately, there does not seem to be any simple way of assigning reliable values to such a measure “ (2001: 162).

74

3.4 La fréquence relative de Hay (2003) Nous avons vu que la fréquence des patrons morphologiques est généralement reconnue

comme pertinente à la productivité. Hay (2003) et Hay et Baayen (2002) développent cette

idée et montrent que c’est la fréquence relative entre le mot dérivé et sa base qui détermine

leur productivité.

Contrairement aux modèles traditionnels qui considèrent que l’accès morphologique et la

productivité des dérivés sont liés à la fréquence absolue des formes dérivées, Hay propose

que ce soit la fréquence relative entre le dérivé et sa base qui influence sa décomposition et,

par conséquent, la productivité morphologique de l’affixe32 :

[…] relative frequency matters more than absolute frequency. A low-frequency form is likely to be non-transparent if it is composed of even-lower-frequency parts. And a high-frequency form may be highly decomposable if the base word it contains is higher frequency still. (Hay 2003 : 166)

La fréquence relative de Hay est calculée comme suit :

fdérivé (9) frelative = __________

fbase

Cette formule montre que si un dérivé est plus fréquent que sa base, le mot est vu comme

non décomposable du point de vue du traitement morphologique, et l’affixe inclus dans le

dérivé n’est pas productif. Si la base de la forme dérivée est plus fréquente, l’affixe est

considéré comme productif puisque le mot dérivé est décomposable selon le modèle du

traitement morphologique. Donc, selon cette mesure c’est la fréquence relative, plutôt que la

fréquence absolue qui a un effet sur la décomposition des mots complexes (Hay 2003 : 145).

L’analyse du mot complexe insane dans la base de données lexicale CELEX démontre, par

exemple, que la fréquence de sane est de 149/17.4 millions en comparaison avec 258/17.4

32

Anshen et Aronoff (1988) étaient parmi les premiers linguistes qui ont souligné l’importance de la fréquence relative pour des formes dérivées irrégulières. Selon eux, ces formes ont tendance à être plus fréquentes que leurs bases, ce qui facilite un accès lexical de ces mots. Par exemple, l’accès au mot feet, en comparaison avec la forme foot, est plus facile puisque la forme foot est moins fréquente. Ainsi, selon ce point de vue, les dérivés qui sont plus fréquents que leurs bases facilitent un accès lexical au mot entier ; si les bases sont plus fréquentes, ils facilitent la décomposition du dérivé.

75

millions pour insane (Hay 2003 : 144). Donc, insane possède une fréquence relative plus

élevée que sane. L’accès lexical au mot dérivé insane, qui est plus fréquent que sa base sane,

se passe via la route directe, ce qui prédit que même des mots moins fréquents peuvent être

non-décomposables s’ils sont plus fréquents que leurs bases (Hay 2003 : 73).

Pour vérifier son hypothèse, Hay a mené une expérience avec 34 paires de mots dérivés (17

dérivés préfixés et 17 dérivés suffixés) mélangés avec des mots pseudo-préfixés et pseudo-

suffixés, tel qu’illustré en (10).

(10) a. defend-dethrone b. family–busily c. adjective-protective

Les résultats de l’expérience ont clairement confirmé l’hypothèse de Hay. Il existe une

corrélation inverse entre la fréquence de la base et la décomposition du dérivé : les formes

plus fréquentes que leurs bases étaient constamment évaluées par les participants comme

moins complexes, tant pour les dérivés suffixés que préfixés. Donc, la fréquence relative des

formes dérivées influence fortement leur décomposabilité :

This provides strong evidence that the frequency of the base form is involved in facilitating decomposability. When the base is more frequent than the whole, the word is easily and readily decomposable. However when the derived form is more frequent than the base it contains, it is more difficult to decompose, and appears to be less complex. (Hay 2003 : 88)

En analysant séparément l’influence de la fréquence relative sur les dérivés préfixés et

suffixés, Hay (2003 : 102) montre qu’en général, les formes préfixées sont moins

décomposables et qu’elles sont souvent plus fréquentes que leurs bases (p<.01). La

corrélation entre la fréquence de la base et la fréquence du dérivé est plus forte dans les

formes suffixées (p<.00001).

Il ressort également que les formes dérivées qui sont plus fréquentes que leurs bases sont

plus indépendantes et plus polysémiques (Hay 2003 : 61). Si les dérivés préfixés sont plus

fréquents que leurs bases, ils ont plus de définitions que les formes préfixées qui sont moins

fréquentes que leurs bases (Hay 2003 : 105). Parmi les dérivés préfixés qui sont moins

76

fréquents que leurs bases, les formes fréquentes sont plus polysémiques que celles qui sont

moins fréquentes (Chi carré = 79.51, p<.001) (Hay 2003 : 117).

Ainsi, selon le modèle de la fréquence relative, la décomposition d’un affixe et sa

productivité sont étroitement liées : les affixes qui forment des dérivés décomposables sont

probablement plus productifs que ceux qui créent des formes non-décomposables, ce qui, à

son tour, supporte l’idée que la productivité morphologique est projetée du lexique : « The

more an affix is represented by highly decomposable forms, the more likely it is to be

productive» (Hay 2003 : 151).

En utilisant la base de données lexicale CELEX (qui inclut aussi des données du corpus

COBUILD), Hay examine aussi le rapport entre la fréquence relative et la productivité

morphologique des formes contenant des affixes productifs et des bases monomorphémiques.

En fait, la productivité morphologique représente un continuum : plus un affixe est

représenté par des formes décomposables, le plus de chances il a d’être productif. Par contre,

la fréquence de type d’affixes ne suffit pas à prédire la productivité :

Type frequency alone can not predict productivity. What is crucially missing from any analysis focusing on type frequency alone is any information about how decomposable the types are. An affix which has high type frequency is unlikely to be productive if all of the words containing it are relatively opaque. (Hay 2003 : 145).

Parmi les autres facteurs qui influencent la productivité morphologique du dérivé, Hay

(2003) mentionne les contraintes phonotactiques (séquences de phonèmes) telles qu’elles

s’appliquent à la jonction d’un affixe et de sa base. Hay suggère que les affixes qui ont

tendance à créer les frontières phonotactiques qui facilitent l'accès à un mot complexe (i.e.

inhumane) sont dans la plupart des cas moins fréquents que leurs bases ; par conséquent, ils

sont plus prédisposés à la décomposition et donc plus productifs.

Affixes which have a small proportion of form which are more frequent than their base and a large proportion of forms with illegal juncture are predicted to be highly productive…. We predict that any factor which facilitates decomposition of complex forms should also facilitate the emergence of productivity. (Hay 2003 : 151)

77

D’autres facteurs qui, selon Hay (2003), peuvent potentiellement faciliter la productivité

morphologique, sont la transparence phonologique et la transparence sémantique du mot

dérivé. En général, chaque facteur qui facilite la décomposition du mot complexe doit aussi

potentiellement faciliter la productivité. Un locuteur traite un mot complexe sémantiquement

transparent selon ses composants, ce qui appuie la notion de décomposabilité. La

transparence sémantique du mot complexe peut être mieux prédite par la fréquence relative

que par la fréquence absolue :

Relative frequency is related to semantic drift. Words for which the derived form is more frequent than the base are significantly less likely to mention their base in their definition than words for which the derived form is less frequent than the base. (Hay 2001 : 1057)

Dans le modèle de Hay (2003), la relation entre la fréquence relative et la polysémie est

proportionnelle : plus la forme dérivée est fréquente relativement à sa base, plus elle est

polysémique. Quand la forme dérivée devient suffisamment fréquente, elle est associée avec

plusieurs significations, sans égard à la fréquence relative de la base (Hay 2003 : 151).

Même si Hay ne parle pas de la corrélation possible entre le mot composé et sa base, il serait

important de savoir si la notion de la fréquence relative peut aussi être appliquée aux mots

composés. Puisque, d’une part, les composés et les dérivés sont tous deux formés dans le

composant morphologique et soumis essentiellement aux même principes (voir le chapitre 2)

et que, d’autre part, les autres mesures de productivité s’appliquent tant aux composés

qu’aux dérivés, ma prédiction est la suivante. Les mots composés vont suivre le modèle de la

fréquence relative élaboré en dérivation. Autrement dit, si un mot composé est plus fréquent

que les mots-bases (ses constituants), les constituants ne seront pas productifs et le mot

composé sera vu comme non décomposable du point de vue du traitement morphologique. Si

les mots-bases (les constituants) du composé sont plus fréquents, le patron de composition

sera considéré comme productif et le mot composé sera décomposable selon le modèle du

traitement morphologique33.

33

Il est à noter que, sauf les travaux de Fernandez-Dominguez (2007, 2009) sur la productivité des composés N-N en anglais, la notion de la fréquence relative n’a pas été appliquée aux composés. Fernández-Domínguez et al. (2007 : 38) suggèrent toutefois que la fréquence de la base des composés peut être mesurée selon trois

78

3.5 Productivité morphologique des mots composés : un paradoxe

Nous avons vu que les études portant sur la mesure de la productivité n’ont pratiquement pas

traité des mots composés. L’ouvrage de Krott, Schreider et Baayen (1999) fait exception : il

révèle un phénomène intéressant, soit que le degré de productivité des composés diffère

substantiellement de la productivité de ses constituants. Il existe en fait une corrélation entre

la productivité des mots composés et certaines propriétés de leurs composants : la fréquence

et la longueur des constituants employés seuls déterminent leur probabilité à l’intérieur des

composés. Les mots qui sont plus fréquents et plus courts ont plus de chances de devenir des

constituants de composés. Cela signifie que selon la mesure quantitative de la productivité

morphologique de Baayen (cf. 3.3), les mots qui sont plus courts et plus fréquents ont la plus

grande valeur de N (le nombre total d’occurrences observées dans le corpus), d’où vient le

niveau plus bas de P (la productivité au sens strict).

Les résultats de Krott et al. (1999) obtenus pour les composés néerlandais et allemands

montrent que la longueur et la fréquence des constituants du nom composé, aussi bien que la

productivité de la catégorie morphologique à laquelle appartiennent ces constituants, forment

une corrélation complexe qui détermine la productivité générale du mot composé.

3.5.1 Le rôle de la fréquence des constituants dans les mots composés

Dans leur analyse de la productivité des structures N-N34 en néerlandais et en allemand,

Krott et al. (1999) envisagent une représentation différente des types de mots employés

comme constituants dans les composés. Les mots-bases qui sont fréquemment employés

seuls ont plus de chance de devenir des constituants de composés : « The higher the average

word frequency for a given base word type, the higher the chance of it being overrepresented

variantes possibles : a) en additionnant les fréquences des constituants séparés ; b) en additionnant les fréquences des constituants séparés et en divisant la somme par le nombre de constituants pour calculer la fréquence moyenne ; c) en utilisant seulement la fréquence de la tête du composé. Nous verrons dans la section 4.3.3 qu’une quatrième variante est également possible, où la base est un élément qui n’est pas la tête du composé (en suivant l’analogie avec la base du mot dérivé qui n’est pas sa tête). 34

Krott, Schreider et Baayen (1999) utilisent dans leurs recherches le corpus CELEX qui inclut au moment de la recherche 42 millions de mots néerlandais et 6 millions de mots allemands.

79

in complex word » (Krott et al. 1999 : 910). Ainsi, l’étude de la fréquence de surface (le

nombre d’occurrences) moyenne des constituants droits et gauches dans les composés

néerlandais et allemands révèle une corrélation positive entre la fréquence des constituants et

le score-Z35 (Krott et al. 1999 : 919).

En premier lieu, dans les composés néerlandais, les mots qui sont plus fréquemment utilisés

comme des constituants gauches sont les mots monomorphémiques dont la fréquence

moyenne est égale à 4.37. Ils possèdent le score-Z le plus élevé (Z = 86.39), ce qui signifie

qu’ils ont plus de chance de devenir des constituants de composés. En deuxième lieu, les

mots dérivés, employés comme constituants de composés, représentent aussi une fréquence

élevée (moyenne f = 3.23), mais leur score-Z est assez bas (Z = 6.63). Par contre, les

composés synthétiques ont une fréquence moins élevée (moyenne f = 2,63) et possèdent un

score-Z négatif (Z = -6,31), qui les classifie comme de mauvais candidats dans le rôle des

constituants de composés. Ainsi, leur utilisation en tant que tel est moins fréquente.

Il ressort également que les composés N-N employés comme constituants de composés sont

les structures les moins fréquentes parmi tous les types analysés (moyenne f = 2,36) ; ils

possèdent le score-Z le plus négatif (Z = -65.02), ce qui signifie que ces formes deviennent

rarement des constituants dans les autres mots composés. Des résultats très similaires ont été

obtenus pour les constituants droits dans les composés néerlandais, aussi bien que pour les

constituants droits et gauches en allemand (Krott et al. 1999 : 919).

Compte tenu des observations présentées ci-dessus, les résultats obtenus appuient

l’hypothèse de Krott et al. (1999) sur les types de mots différents employés comme

constituants en composition. En général, il semble que la fréquence d’emploi des mots

employés seuls détermine leur probabilité à l’intérieur des composés, en tant que

constituants : les mots-bases qui sont plus fréquents ont plus de chance de servir de

constituants aux composés, en comparaison à ceux qui sont moins fréquents. Krott et al.

35

Berry-Rogghe a développé le score Z qui mesure la différence entre les fréquences observées pour chaque combinaison formée à partir de L (une unité lexicale) dans une fenêtre de mots-formes donnée et les fréquences attendues sous l’hypothèse du hasard. Plus le score d’une combinaison est élevé, plus cette combinaison est significative. (Berry-Rogghe 1973 : 103)

80

(1999 : 917) suggèrent que les mots qui sont plus fréquents sont reconnus et produits plus

vite, et d’une façon plus précise, contrairement aux mots employés moins fréquemment.

Globalement, ce fait signifie que les mots plus fréquents sont plus disponibles comme

constituants potentiels de mots composés.

3.5.2 Le rôle de la longueur des constituants dans les composés

Krott et al. (1999) ont également analysé dans les mots composés le nombre de morphèmes

dans les constituants gauches et droits. Leur hypothèse prédit une forte corrélation négative

entre la longueur des mots-bases et leur fréquence d’occurrences : « The longer a base word,

the higher the chance of it being underrepresented in complex words » (Krott et al. 1999 :

913).

En fait, les résultats obtenus avec le score-Z montrent que les constituants gauches qui sont

courts sont surreprésentés dans les composés néerlandais, tandis que les constituants longs y

sont rarement employés. La fréquence la plus haute est enregistrée parmi les constituants

formés d’un seul morphème (f moyenne = 4.37) ; ces constituants possèdent aussi un score-Z

positif très élevé (Z = 86.39) (Krott et al. 1999 : 913). En revanche, les constituants qui

contiennent deux ou trois morphèmes sont moins fréquents et leurs scores-Z sont négatifs

(moyenne f = 2,69 et 2,24 et Z = -34.09 et -32.30 respectivement). Des résultats très

similaires ont été obtenus sur la corrélation entre la longueur des mots-bases, la fréquence et

le score-Z des constituants droits des composés néerlandais (Krott et al. 1999 : 923).

Ainsi, Krott et al. (1999 : 917) suggèrent qu’en composition, les notions de longueur, de

fréquence et de types de base des constituants sont corrélées : les mots courts sont plus

fréquents et plus faciles à produire et à reconnaître que les mots longs ; ainsi, ils sont de bons

candidats pour remplir la fonction de constituants dans les mots composés.

3.5.3 Le paradoxe de la productivité des mots composés

Comme mentionné ci-dessus, la fréquence et la longueur des mots déterminent leur

probabilité d’apparition comme constituants dans les mots composés. Ces faits amènent

Krott et al. (1999 : 914) à une suggestion paradoxale liée à la productivité des constituants à

l’intérieur des mots composés : les catégories des mots-bases qui sont moins productives

81

employées seules, deviennent plus productives comme constituants des mots composés. La

mesure de la productivité morphologique utilisée par Krott et al. (1999 : 914) se base sur le

modèle de Baayen (1992, 1994) qui propose l’estimation de la productivité morphologique

comme suit :

(11) V(1, N) P = __________ N

où V (1, N) représente le nombre d’hapax legomena (les formes qui apparaissent une fois seulement dans un grand corpus), et N représente le nombre total d’occurrences du type de mot analysé.

En fait, il apparaît que les catégories qui incluent beaucoup de mots courts de haute

fréquence ont une grande valeur de N et, conséquemment, un degré bas de productivité. De

ce fait découle le paradoxe suivant (Krott et al. 1999 : 914) : des catégories de mots qui

possèdent un degré de productivité assez bas sont relativement plus productives comme

constituants de composés, tandis que les catégories qui sont en général plus productives

possèdent un degré de productivité plus bas comme constituants de composés.

Paradoxically, this suggests that those categories of base words that have a low category-conditioned degree of productivity are relatively more productive as constituents in other complex words than base words that have a high category-conditioned degree of productivity. (Krott et al. 1999 : 914)

En analysant les structures mentionnées ci-dessus, Krott et al. (1999) ont aussi découvert que

les catégories moins productives comprennent typiquement des formations assez fréquentes

possédant souvent plusieurs significations opaques. Ces formations doivent être stockées

dans le lexique mental pour être prêtes à la formation de mots nouveaux. Ainsi, ce fait peut

expliquer le paradoxe de la productivité des mots composés selon lequel les catégories moins

productives deviennent plus productives lorsqu’elles sont employées comme constituants des

mots composés (Krott et al. 1999 : 917).

3.6 La productivité et la taille de la famille morphologique Outre la mesure quantitative de Baayen (1992, 1993, 1996), une autre approche visant

l’évaluation de la productivité a récemment émergé – celle de la corrélation entre la

productivité et la taille de la famille morphologique. En fait, l’effet de la taille de la famille

82

morphologique est bien étudié dans les langues germaniques (néerlandais : Bertram et al.

2000 ; De Jong et al. 2000 ; Moscoso del Prado Martin et al. 2005 ; Schreuder et Baayen

1997 ; anglais : De Jong et al. 2002 ; allemand : Lüdeling et De Jong 2002) et récemment en

hébreu (Moscoso del Prado Martin et al. 2005).

Traditionnellement, la notion de la famille de mots inclut l’ensemble des unités lexicales

morphologiquement liées. Selon la définition de Schreuder et Baayen (1997 : 118), la famille

morphologique inclut tous les mots qui sont formés avec le mot de base via la dérivation ou

la composition, mais pas la flexion36. Par exemple, le terme de la famille morphologique est

utilisé par Schreuder et Baayen (1997 : 121) pour dénoter une série de mots dérivés d’un

radical (table) au moyen de la composition (tablespoon, timetable) ou de la dérivation

(tablet, tabular).

Selon Schreuder et Baayen (1997 : 121), la taille de la famille morphologique est déterminée

d’après le nombre de mots différents dans une famille morphologique particulière (excluant

du compte le mot de base lui-même). Quant à la notion de la fréquence cumulative de famille

morphologique, elle indique la somme de la fréquence d’occurrence des membres de la

famille morphologique, excluant la fréquence du radical du mot-base.

La taille de la famille morphologique apparaît comme un facteur substantiel lié à la décision

lexicale dans plusieurs travaux récents (Bertram et al. 2000 ; de Jong et al. 2002 ; Schreuder

et Baayen 1997). Par exemple, une expérience de décision lexicale visuelle présentée chez

Schreuder et al. (1997 : 118) montre que des mots monomorphémiques néerlandais ayant une

famille morphologique plus grande sont traités plus rapidement que ceux ayant moins de

membres dans leur famille morphologique.

En ce qui concerne la corrélation possible entre la taille de la famille morphologique et la

production lexicale des mots composés, Van Jaarsveld, Coolen et Schreuder (1994 : 134)

furent parmi les premiers à suggérer que la taille de la famille morphologique joue un rôle

important dans le traitement des composés. Apparemment, quand un nouveau composé est

36 De Jong et al. (2000) ne considèrent pas les formes fléchies (pluriel, féminin, verbes conjugués, etc.) comme membres d’une famille morphologique.

83

formé de constituants appartenant à de grandes familles morphologiques, son activation le

rend très semblable aux mots de la même famille et il est plus difficile de le rejeter comme

un mot inexistant.

La corrélation directe entre la taille de la famille morphologique et la fréquence de ses

membres a été constatée dans les composés anglais dans Moscoso del Prado Martin et al.

(2005). Ils révèlent que la taille de la famille morphologique des composés dépend fortement

de la fréquence de ses constituants ; en effet, quand un des constituants est fréquemment

utilisé, la taille de la famille morphologique du composé a tendance à être plus grande :

For instance, the English word man appears as a constituent in nearly 200 other English words, including compounds such as policeman or manpower, and derived words such as manhood. On the other extreme, word such as scythe does not appear as constituents in any other words. […] morphological family size is highly correlated with word frequency, i.e., the more frequent a word is, the larger its morphological family size tends to be. » (Moscoso del Prado Martin et al. 2005 : 496)

Bien, Levelt et Baayen (2005 : 17876) constatent par ailleurs qu’en néerlandais et en hébreu,

la fréquence des mots composés et de leurs constituants employés seuls dépend fortement de

la taille de leurs familles morphologiques. En néerlandais, comme en anglais, les familles

morphologiques consistent en grande partie de mots composés, tandis qu’en hébreu, elles

sont composées presque exclusivement de mots dérivés. Les structures des familles

morphologiques de ces langues sont clairement corrélées avec leurs volumes : la taille

moyenne de la famille morphologique est [0,549] en néerlandais et [0,25] en hébreu.

Plusieurs calculs expérimentaux sur la corrélation entre la taille de la famille morphologique

et la fréquence cumulative des mots complexes (incluant des composés) montrent aussi que

la taille de la famille est un facteur important dans le traitement lexical des composés en

anglais, en néerlandais et en allemand :

84

The counts of family size and cumulative family frequency for complex words (including compounds ) suggests that family size is an important factor in the lexical processing of English, Dutch and German. It shows that compounding, the most productive morphological process in Dutch, is responsible for the bulk of the family members. For languages such as French, in which compounding (chemin de fer,) is much less productive, it is unclear whether family size will turn out to be equally important as in Dutch or English. (Schreuder et Baayen 1997 :135)

En suivant Schreuder et Baayen (1997), Moscoso del Prado Martin et al. (2005 : 501)

suggèrent que l'effet de la taille de la famille est logarithmique de nature.

En ce qui concerne le rôle de la famille morphologique dans l’évaluation du niveau de

productivité des mots complexes, cet aspect a été examiné dans le travail de Baayen et Hay

(2002). Pour déduire une corrélation possible entre la productivité des affixes et la taille de

leur famille morphologique en anglais, Baayen et Hay (2002) ont proposé la mesure de la

taille catégorielle de la famille morphologique définie comme suit : « Let the ‘categorial

family size’ of a morphological category be the sum of the (logarithms of the) family sizes of

the base words of the members of this category » (Baayen et Hay 2002 : 2). La formule pour

cette mesure est la suivante :

V(affix)

(12) V (affix) = ∑ log V (basei)

i = 1

où V = catégorie morphologique d’un affixe particulier ; f (basei) = famille morphologique du mot-base formés avec cet affixe.

Selon cette formule, la taille catégorielle de la famille morphologique des mots formés avec

un affixe particulier, est calculée de la façon suivante :

(13) log (F1) + log (F 2) + log (F 3) etc.

où F = la taille de la famille morphologique des mots-bases formés avec un affixe.

Pour illustrer le calcul, prenons un exemple simplifié proposé par Baayen et Hay (2002 : 2) :

85

Tableau 3-1 A simplified example of an affix entry in morphological database

Category Members Whole word frequency

Base Base frequency

Family size of base

un unaware 284 aware 1768 2

unbound 8 bound 107 30

unease 105 ease 819 20

unsafe 56 safe 1584 28

unwise 91 wise 723 37

unbrave 1 brave 371 4

Baayen et Hay (2002 : 2) évaluent la taille catégorielle de la famille morphologique des

dérivés formés avec un affixe un- (cf. Tableau 3-1) comme suit :

(14) log (2) + log (30) + log (20) + log (28) + log (37) + log (4)

Ainsi, la taille de la famille catégorielle est une mesure reflétant le fait qu’une catégorie

morphologique au complet contribue à la connectivité morphologique dans le lexique mental.

Une mesure étroitement liée à celle-ci est la taille moyenne de la famille catégorielle calculée

de la façon suivante (Baayen et Hay 2002 : 2) :

(15) Vf (affix/V)

Cette mesure s’utilise pour estimer la taille catégorielle d’un membre individuel de la famille

morphologique.

En ce qui concerne la question majeure de la recherche, c’est-à-dire, si la taille catégorielle

de la famille morphologique peut prédire la productivité au niveau des différentes catégories

morphologiques, Baayen et Hay (2002) concluent que les catégories les plus productives

correspondent aux familles morphologiques plus petites :

[…] more productive categories extend to base words with smaller morphological families, while less productive categories tend to be restricted to higher-frequency base words with larger morphological families. Locally, at the level of the individual members of morphological categories, productivity manifests itself as the possibility of incorporating in the category formations with less well-established base words, less well-established both in terms of frequency and in terms of their connectivity in the mental lexicon. (Baayen et Hay 2002 : 4)

86

Il reste à voir comment cette corrélation entre la taille de la famille morphologique et la

productivité s’applique également aux mots composés du français.

3.7 L’approche structurale versus l’approche sémantique Contrairement à la dérivation où c’est l’affixe qui entraîne un changement de la catégorie

morphologique et détermine le type du mot affixé, en composition, on peut interpréter

différemment ce qu’est un type de composés : structural ou sémantique. Autrement dit, la

relation entre la productivité des mots composés et leur type peut être envisagée selon ce que

j’appellerai respectivement l’approche structurale ou l’approche sémantique.

Selon l’approche structurale, la typologie des mots composés en français est basée sur quatre

axes (cf. § 2.3) et elle inclut les types suivants : les composés endocentriques et

exocentriques (i.e. lunettes-soleil vs reine-claude) ; les composés synthétiques et primaires

(i.e. porte-avions vs petit-four) ; les composés indigènes et savants (i.e. haut-parleur vs

polydépendance) ; les composés réguliers et irréguliers (i.e. adapte-couleur vs trique-

madame). De plus, on peut considérer les combinaisons de catégories (gabarits) et la position

de la tête morphologique dans la structure (ie. N-N, A-N, N-A, etc.).

Par contre, la typologie des mots composés selon l’approche sémantique est établie par les

relations sémantiques entre ses constituants, c’est-à-dire entre les arguments et le prédicat,

que celui-ci soit explicite (composés synthétiques) ou implicite (composés primaires). Dans

le travail de Fernández-Domínguez (2009 :7), les types des composés N-N en anglais ont été

définis sémantiquement en fonction des prédicats implicites suivants proposés au départ par

Levi (1978) : ABOUT (business report, football team, etc.) ; BE (police officer, summertime,

etc.) ; CAUSE (pressure mark, teargas, etc.), FOR (sunglasses, massage room, etc.) ; FROM

(oak leaf, deerskin, etc.) ; HAVE (tea bag, wine bar, etc.) ; IN (kitchen shelf, watersport,

etc.) ; MAKE (glass door, beeswax, etc.) ; USE (motorbike, powerboat, etc.).

Ainsi, dans le travail de Fernández-Domínguez (2009), l’analyse de la productivité des

composés N-N est basée plutôt sur l’aspect qualitatif, notamment la notion de rentabilité

(Corbin 1987) du processus de composition. L’auteur propose deux variantes pour mesurer la

productivité des composés N-N en anglais. La première mesure (π) se base sur le ratio entre

87

le nombre de types (V) et le nombre d’occurrences (N) des formes recensées en indiquant

leur niveau de rentabilité en termes numériques. La deuxième variante (Π), sous forme du

graphique, est basée sur les mêmes facteurs ; elle sert d’une mesure complémentaire où l’axe

vertical reflète le nombre d’occurrences et l’axe horizontal le nombre de types. Fernández-

Domínguez souligne (2009 :173) que l’application combinée de ces deux mesures est

cruciale puisqu’elle permet d’expliquer des résultats ambigus. De cette manière, son modèle

de mesure est basé surtout sur la fréquence de types en tenant compte de la nature bipolaire

de la productivité (disponibilité versus rentabilité). En outre, d’après l’auteur, cette méthode

reflète mieux les besoins de formation de nouveaux composés chez un locuteur ; elle permet

aussi d’obtenir des résultats pertinents pour les groupes de composés sémantiquement

homogènes.

Toutefois, dans le travail de Fernández-Domínguez (2009 : 157), l’application de la mesure π

a généré des résultats contradictoires sur la productivité des composés N-N : les composés

formés au moyen de CAUSE et FROM, considérés généralement comme non productifs,

sont ressortis parmi les plus rentables. L’auteur explique ces données par le fait que

comparativement avec les autres prédicats où le nombre de types est assez élevé (i.e.

ABOUT→ V = 268 ; MAKE→ V = 122 ; FOR→ V = 364 ; etc.) le nombre de types dans les

prédicats CAUSE et FROM est considérablement plus petit (V = 55 vs V = 45

respectivement). Ainsi, le niveau de rentabilité de CAUSE (π = 0.2360) et FROM

(π = 0.1654) est plus élevé comparativement au niveau de rentabilité de MAKE (π = 0.1508)

et FOR (π = 0.1270). Par contre, selon la mesure Π (sous forme du graphique), les prédicats

IN, FOR et ABOUT sont les plus rentables, alors que selon la mesure π les prédicats IN et

FOR apparaissent parmi ceux qui sont les moins rentables (0.1244 et 0.1270 respectivement).

Ainsi, l’application de la mesure quantitative π représente certains points faibles (i.e. les cas

où V est inférieur à 60). En outre, comme le montre Bauer (2001), la rentabilité selon Corbin

(1987) est envisagée à la fois comme un potentiel et une réalisation du processus

morphologique dans le passé. Toutefois, ces deux notions devraient probablement être

distinguées.

88

Dans mon travail, l’analyse quantitative de la productivité des noms composés sera basée sur

l’approche structurale. Cette méthode me permettra d’évaluer l’évolution du niveau de

productivité des formes recensées en fonction de plusieurs facteurs tels que le type

endocentrique/exocentrique, la position de la tête morphologique, le statut régulier/irrégulier

et le type structural du composé. Outre cela, la productivité des composés N-N, A-N, N-A et

N-de-N sera examinée tant globalement qu’en diachronie.

3.8 Productivité et diachronie La productivité des mots composés est un domaine de recherche qui intéresse actuellement

beaucoup de linguistes (Bauer 2008 ; Estopà 2009 ; Fernandez-Dominguez 2007, 2009).

Toutefois, comme l’a remarqué Trips (2009), il existe peu de travaux qui analysent la

productivité morphologique en fonction des changements diachroniques : « …almost all

work done in morphological productivity has made none or little reference to time, leaving

aside changes over time, i.e., the diachrony of the language » (Trips 2009 : 33). Selon

Dalton-Puffer (1996 : 217), en dérivation, la productivité en diachronie peut être mesurée en

comparant la fréquence d’occurrences d’un type de composés durant des périodes de temps

ou au cours des sous-périodes différentes d'un corpus : « …a productive morphological rule

produces many different words (types), and it is therefore likely that in a given corpus a

productive suffix will occur more often than an unproductive one ».

Estopà (2009 : 552) souligne qu’il existe peu de travaux qui étudient la productivité en

composition sous l’aspect de la diachronie dans les langues romanes, surtout en français.

Cependant, selon lui, ce type de recherche peut être très fructueuse pour la linguistique

puisqu’il reflète des changements au niveau de création de nouvelles formes complexes

durant les différentes périodes historiques :

Par ailleurs, peu d’études traitant de la néologie des langues romanes ont été réalisées sous l’angle de la diachronie pour mettre en relief la créativité linguistique d’une communauté au cours d’une longue période, données pourtant précieuses, car permettant de réaliser une « radiographie » des changements linguistiques plus complète que la description basée sur des données synchroniques. (Estopà 2009 : 552)

89

Étant donné qu’il n’existe pas de travaux sur la productivité des composés français en

diachronie, dans le Chapitre 5, je présenterai l’étude diachronique sur la productivité des

composés N-N, A-N, N-A et N-de-N.

L’étude diachronique m’aidera à distinguer les vrais hapax (i.e. des néologismes potentiels)

des faux hapax (i.e. des mots rares), un problème soulevé par (Dal 2003), et ainsi de mieux

tester la fiabilité de la mesure de productivité P. Les mots rares (faux hapax) ne seront pas

retenus puisque seulement les hapax parus dans Frantext pour la première fois (vrais hapax)

seront pris en considération. Les hapax d’une période donnée sont ainsi traités comme de

faux hapax s’ils apparaissent ne serait-ce qu’une fois dans la période précécente.

Évidemment, cette distinction n’est pas possible pour la première période puisque je n’ai pas

consulté les données pour la période antérieure (pré-1606). Conséquemment, en raffinant le

statut des hapax, l’étude diachronique contribuera à la fiabilité de la mesure P et éliminera,

pour trois des quatres périodes, le problème des mots rares.

3.9 Productivité et registre de langue

D'après certains linguistes, le phénomène de productivité peut être lié au registre (ou niveau)

de langue qui reflète une situation d’énonciation particulière. Ainsi, Bauer (2001 : 17)

suggère : « I am not aware of any others efforts to equate ‘semi-productivity’ with

productivity in particular registers, though the idea is an interesting one.»

Lethmann et Martin-Berthet (2008 : 52) soulignent que c’est « une situation de discours qui

détermine le registre utilisé », néanmoins, le terme ‘registre’ est quelquefois employé de

façon ‘extensive’ représentant les aspects comme domaine, usage, fréquence, etc. (Lethmann

et Martin-Berthet 2008 : 26). Elles montrent également qu’en français, l’emploi des mots

composés se rapporte à une situation de discours et le registre utilisé :

Mots composés et locutions offrent un grand nombre d’emploi métaphoriques, quel que soit le registre de la langue ; jeter des perles aux pourceaux ou aux cochons (« accrocher à quelqu’un une chose dont il est incapable d’apprécier la valeur ») est une locution littéraire, … donner de la confiture aux cochons est une locution familière. (Lethmann et Martin-Berthet 2008 : 115)

90

Dans son travail récent, Estopà (2009 : 552) indique que dans la langue catalane, « de

nombreux néologismes formés par composition nominale sont utilisés dans un registre

populaire et vulgaire. » Quant aux structures V-N, plusieurs néologismes enregistrés en

catalan ont aussi comme origine un registre familier, voire vulgaire (Estopà 2009 : 562).

L’importance de différents registres pour les études linguistiques a également été notée par

Dubois et all. (2002) :

À l’intérieur d’une même langue, les variations sont également importantes, synchroniquement parlant : pour les niveaux de langue, on parle de langue familière, soutenue, technique, savante, populaire, propre à certaines classes sociales, à certains sous-groupes (famille, groupes professionnels). (Dubois et all. 2002 : 267)

Bien que mon travail ne vise pas à examiner le rôle du registre de langue dans la productivité

des noms composés en français, cette question est liée à la représentativité des corpus. Étant

donné que le corpus textuel Frantext est formé principalement de textes littéraires (80%), il

aurait été intéressant d’explorer la productivité des mots composés en utilisant des corpus

journalistique, plus susceptibles de contenir des formations lexicales quotidiennes. Toutefois,

à ma connaissance, ce type de corpus n’existe pas pour les périodes antérieures au XXe

siècle. Les deux corpus du français journalistique les plus utilisés actuellement sont : le

Corpus Chambers-Rostand du français journalistique (environ 1 million de mots) qui inclut

des articles parus en 2002-2003 dans les journaux Le Monde, L'Humanité, La Dépêche du

Midi et le corpus du journal Le Monde (environs 25 millions de mots) constitué des articles

parus en 1995. Ce dernier a été utilisé par Grabar et al. (2006) au cours de la recherche sur la

productivité des mots dérivés en français.

Deuxièmement, avant le XXe siècle, les articles parus dans les journaux ont été écrits

généralement par des auteurs littéraires. En dépit du fait que ces articles aient traité de sujets

différents (i.e. la politique, la science, la culture, etc.), il est raisonnable de penser qu’ils

s’apparentaient aux œuvres littéraires par leur style ou leur registre. Ainsi, les journaux

disponibles avant le XXe siècle ne représentaient pas un vrai style journalistique. Dans les

limites imposées par l’approche diachronique retenue ici, Frantext constitue donc la

mielleure source pour les données.

91

3.10 Sommaire Les différents modèles de productivité présentés dans ce chapitre révèlent que les questions

les plus intéressantes ne concernent pas tant la définition de la productivité morphologique

elle-même, que ses mesures qualitatives et quantitatives.

Comme on l’a vu, la notion de productivité peut être abordée sous un angle qualitatif ou

quantitatif. D'un point de vue qualitatif, on définit la productivité comme la capacité des

règles morphologiques à former de nouveaux lexèmes de façon non intentionnelle (Dal

2003). L’aspect quantitatif de la productivité reflète la rentabilité du processus

morphologique, c’est-à-dire le degré auquel cette disponibilité est exploitée selon les normes

de la langue particulière. Ainsi, il existe deux facettes de la productivité morphologique :

d’une part, c’est une productivité mécanique déterminée par la fréquence d’emploi et évaluée

par une mesure quantitative, et d’autre part c’est la possibilité de création d’un patron

productif (Bauer 2001 : 9). Plusieurs méthodes, utilisant de grands corpus, ont été proposées

pour mesurer des aspects différents de la productivité (Baayen 1992, 1993 ; Fernández-

Domínguez 2009 ; Baayen et Lieber 1991 ; Baayen et Renouf 1996 ; Krott, Schreider et

Baayen 1999).

Quelques problèmes importants liés à la productivité morphologique ont été soulevés par

Bauer (2001, 2005, 2008). Ses critiques touchent en général deux questions : 1) le modèle de

mesure de la productivité morphologique ; 2) la représentativité et la taille du corpus utilisé.

On doit à Baayen (1991, 1993, 1996) les mesures de productivité les plus utilisées

actuellement qui réunissent les différents paramètres de la productivité dans des formules

mathématiques, en permettant des comparaisons objectives entre processus. En général,

Baayen propose deux mesures de productivité morphologique : la productivité au sens strict

et la productivité globale ; les deux mesures se calculent relativement à un corpus donné,

nécessairement de taille suffisamment grande.

Toutefois, la mesure la plus utilisée présentement est celle de la productivité P au sens strict

(Baayen 1991, 1993). Comme l'un des principaux points forts de cette méthode, Baayen et

Renouf (1996) mentionnent les hapax qui sont de bons marqueurs de la productivité du

92

processus étudié : plus grand est le nombre d’hapax, plus productif est le processus

morphologique étudié. Néanmoins, la taille du corpus utilisé est aussi extrêmement

importante : un corpus trop limité risque de présenter, à tort, des formes uniques comme des

néologismes.

La seconde mesure de la productivité (Baayen 1992 ; 1993), appelée la productivité globale,

reflète un index de probabilité d’apparition d’un mot nouveau dans un procédé donné.

Cependant, comme l’indique Bauer (2001), l'utilisation de cette méthode révèle les

problèmes liés à la représentation du niveau de productivité. Selon son point de vue, il est

impossible d’évaluer correctement la contribution réelle de chaque facteur en termes de leurs

dimensions verticale et horizontale sur un graphique bidimensionnel.

En contraste avec les modèles traditionnels qui considèrent que la productivité

morphologique est liée à la fréquence absolue des formes dérivées, Hay (2003) souligne

l’importance de la fréquence relative. Selon son modèle, élaboré pour la dérivation, un affixe

qui est présent dans les formes décomposables est probablement plus productif que celui qui

fait partie des formes non-décomposables.

Enfin, la mesure récemment introduite dans le calcul du niveau de productivité a été

proposée par Baayen et Hay (2002) et est liée à la taille de la famille morphologique des

formes analysées. Selon cette mesure, il existe une corrélation inverse entre la taille

catégorielle et le niveau de productivité des structures complexes : l’augmentation de la taille

d’une famille catégorielle correspond au niveau de productivité plus bas.

Finalement, une approche sémantique basée sur l’aspect qualitatif de la productivité a été

proposée dans le travail récent de Fernández-Domínguez (2009). En suivant le modèle de

Levi (1978), le niveau de productivité des mots composés N-N en anglais a été évalué en

termes de relations sémantiques entre ses constituants (i.e. entre le prédicat et les arguments).

Toutefois, l’utilisation de la mesure π proposée par l’auteur a parfois démontré des résultats

qui entrent en conflit avec la mesure P au sens strict de Baayen (1991, 1993). Ainsi, les

composés N-N formés au moyen de prédicats CAUSE et FROM, envisagés généralement

comme non productifs, sont apparus comme les plus rentables.

93

3.11 Conclusion Dans ce chapitre, j’ai présenté les aspects importants liés à la notion de la productivité

morphologique, ainsi que les différents modèles théoriques visant à évaluer la productivité

des mots complexes. J’ai montré que, malgré un intérêt nouveau pour le concept de

productivité et les moyens de mesurer celle-ci dans les travaux récents en morphologie

dérivationnelle, la productivité des mots composés est un domaine de recherche très peu

exploré, surtout en français. L’intérêt des chercheurs envers la productivité morphologique

privilégie surtout la productivité des affixes ; et c'est en cela que la productivité des

composés mérite d’être étudiée plus profondément.

Parmi toutes les mesures présentées dans ce chapitre, j’ai retenu trois approches quantitatives

pour évaluer la productivité des formes recensées, tant globalement que par période.

La première mesure est celle de la productivité P au sens strict basée sur la notion d’hapax

legomenon (Baayen 1992, 1993, 2008 ; Baayen et Lieber 1991 ; Baayen et Renouf 1996).

Cette approche, représentée par la formule P = n1 / N, prend en considération le nombre

d’hapax et le nombre total d’occurrences des formes recensées. Ainsi, la mesure P au sens

strict me permettra d’analyser de nouveaux types de composés en calculant la fréquence

d’occurrences des formes recensées (composés et leurs constituants) et des membres de leurs

familles morphologiques (cf. § 4.3). Finalement, l’utilisation de la mesure P rendra possible

la présence des hapax qui sont de bons marqueurs de la productivité du processus étudié :

plus grand est le nombre d’hapax – plus productif est le processus de composition. Ainsi, le

rôle principal de cette mesure est la distinction entre les processus productifs et non

productifs.

Rappelons que Bauer (2001) a critiqué la mesure P au sens strict en termes de la

représentativité et la taille du corpus utilisé. Toutefois, il exprime la même opinion que

Baayen (1993) sur la taille du corpus utilisé : il faut utiliser un corpus le plus grand possible

pour garantir des données statistiques fiables. Les formes recensées dans mon travail seront

validées dans le corpus informatisé Frantext comptant plus de 170 millions de mots. Cette

base de données comporte environ 4000 textes, dont 80 % sont des textes littéraires et 20 %

sont des textes techniques, représentant de principales disciplines scientifiques. Ce corpus est

94

assez représentatif du point de vue de la langue et il inclut des formes attestées aussi bien que

des formes établies de la langue française. Même s’il n’existe pas encore de consignes

précises concernant la taille du corpus utilisé pour mesurer le taux de productivité, il est

raisonnable de penser que ce corpus est suffisamment grand pour résoudre les problèmes

soulevés par Bauer (2001). Notons qu’il dépasse en taille le corpus CELEX (65 millions de

mots) et Cobuild (16 millions de mots) utilisés notamment par Baayen.

La deuxième mesure est la mesure de la fréquence relative de Hay (2003). Cette approche,

élaborée pour les mots dérivés comme frelative = fdérivé / fbase, sera adaptée aux composés

comme frelative = fcomposé / fbase. Cette mesure calculera séparément la fréquence des

constituants (des bases) du composé et la fréquence du composé lui-même.

Selon Hay (2003), la fréquence relative d’un mot complexe par rapport à sa base influence sa

décomposition et, par conséquent, le niveau de sa productivité : plus un affixe est représenté

par des formes décomposables, plus probablement il doit être productif. Donc, en appliquant

la notion de la fréquence relative aux noms composés, je pourrai valider ce modèle pour la

composition. Il est à noter que la mesure de la fréquence relative était appliquée au processus

de composition seulement dans le travail de Fernandez-Dominguez (2009). Sa thèse

consacrée à la productivité des composés N-N en anglais a révélé des résultats mixtes en

termes de l’emploi de la fréquence relative dans le calcul de la productivité des formes

recensées. J’utiliserai donc la notion de la fréquence relative de Hay (2003) en conjonction

avec la mesure de l’hapax de Baayen (1992, 1993).

Finalement, la troisième mesure est celle de la taille de la famille d’une catégorie

morphologique de Baayen et Hay (2002). Cette approche sera appliquée pour définir une

corrélation possible entre la productivité et la taille catégorielle de la famille morphologique

du nom composé. Cette mesure se calculera en deux étapes. En premier lieu, je mesurerai la

taille de la famille morphologique de chaque constituant d’une forme recensée. En deuxième

lieu, j’utiliserai la formule logarithmique log (F3) + log (F2) + log (F3) etc. de Baayen et

Hay (2002) où F1, F2, F3, sont les tailles de la famille morphologique des mots-bases. Étant

donné qu’actuellement, dans les travaux linguistiques, il n'existe pas de consensus sur la

notion de la base dans les mots composés (cf. 2.2.5), j’aurai recours à la notion de constituant

95

plutôt que de base dans mon étude sur la taille catégorielle de la famille morphologique des

composés N-N, A-N, N-A et N-de-N. Rappelons que Krott et al. (1999) dans leur étude sur la

productivité morphologique des composés néerlandais et allemands, considèrent que chaque

constituant d’un composé est une base (cf.2.2.5).

La mesure de la taille catégorielle de la famille morphologique me permettra d’évaluer la

fréquence des constituants du composé aussi bien que la fréquence des membres de leurs

familles morphologiques. Selon les recherches récentes de Baayen et Hay (2002) menées sur

la productivité des affixes, il existe une forte corrélation entre la fréquence relative et la taille

de la famille morphologique des dérivés : quand la fréquence de la base augmente, le nombre

d’hapax diminue. En corollaire, une taille de la famille catégorielle plus basse est liée à un

nombre d’hapax accrû et, par conséquent, un niveau plus élevé de la productivité P.

En considérant la pertinence des recherches mentionnées ci-dessus, l’application de la

méthode de la taille catégorielle, en termes de la corrélation entre la famille morphologique

des constituants et la productivité du mot composé, peut révéler des résultats intéressants. En

premier lieu, ce modèle n’a jamais été appliqué à l’étude de la productivité morphologique

des composés français. En deuxième lieu, en utilisant cette approche, il est possible d’affiner

les outils de mesure en comparant la mesure quantitative de la productivité P au sens strict de

Baayen (cf.3.3) avec les données sur la taille de la famille morphologique des composés.

Cette étude me permettra d'analyser comment les familles de grande taille contribuent au

nombre d’hapax et, conséquemment, à la productivité des composés N-N, A-N, N-A et

N-de-N en général.

Ma recherche vise aussi à vérifier les corrélations potentielles entre la productivité des

constituants du composé et la productivité du nom composé lui-même (i.e. la fréquence

relative). Selon Krott et al. (1999), les constituants qui sont plus courts et plus fréquents

possèdent un plus grand nombre de N, d’où vient le nombre plus bas de P. Je vais donc

repérer les structures les plus courantes dans les types N-N, A-N, N-A et N-de-N pour

vérifier cette observation. Toutefois, dans les limites de ce travail, je ne tiendrai pas compte

de la longueur des consituants.

96

En conclusion, étant donné que la productivité morphologique des mots composés est très

peu étudiée, et qu’il n’existe pas de travaux sur la productivité du processus de composition

en français, ma recherche testera plusieurs modèles théoriques qui existent dans ce domaine

en utilisant les trois mesures mentionnées ci-dessus. Dans le chapitre suivant, je présenterai

la méthodologie et le corpus dont je me servirai dans mon travail, ainsi que l’étude-pilote sur

la productivité des composés garde-x.

97

CHAPITRE 4

Méthodologie et corpus

4.1 Introduction La discussion des diverses mesures de productivité des noms complexes au chapitre

précédent a révélé l’importance de l’utilisation d’un corpus textuel de taille suffisamment

grande puisque les résultats obtenus en dépendent fortement. Pour cette raison, j’aurai

recours à une large base de données, Frantext.

Le présent chapitre a pour objet d’expliciter la méthodologie utilisée dans cette recherche. En

premier lieu, j’introduis les trois bases de données qui sont explorées dans mon étude : le

corpus textuel Frantext, le corpus Gallica et le Dictionnaire de Littré. Je discute des forces et

des faiblesses de chaque base de données, des différentes méthodes d’organisation et

d’exploitation de ces sources, ainsi que des questions liées à l’extraction des formes

recensées et à la formation de la liste de noms composés qui sont évalués au cours de mon

travail. En deuxième lieu, j’explique les méthodes d’application de trois mesures de calcul de

la productivité au corpus Frantext : la mesure basée sur les hapax (Baayen 1992 ; Baayen et

Lieber 1991), la mesure de la fréquence relative de Hay (2003) et la mesure de la taille

catégorielle de la famille morphologique de Baayen et Hay (2002). Finalement, je présente

les étapes et les résultats de l’étude-pilote qui a été menée pour tester mes choix

méthodologiques et vérifier la pertinence des mesures de productivité retenues.

Le chapitre est structuré de la façon suivante. La section 4.2 propose un survol de

l’évaluation de la productivité morphologique à partir des corpus textuels. Dans la section

4.3 sont présentées les étapes de la création de la liste de noms composés français à partir de

la base de données Gallica et et du Dictionnaire de Littré, les méthodes d’identification des

formes recensées et le choix des types et des structures analysés. Dans les sections 4.3.4 et

4.3.5, les étapes préparatoires concernant l’organisation et l’exploitation du corpus Frantext

sont introduites. La section 4.4 décrit l’étude pilote sur la productivité des noms composés

98

garde-x. La section 4.5 analyse les résultats de l’étude pilote quant à corrélation potentielle

entre la productivité, la fréquence relative et la taille de la famille morphologique.

Finalement, la section 4.6 présente une brève conclusion sur l’étude pilote et les choix

méthodologiques.

4.2 L’évaluation de la productivité morphologique à partir des corpus textuels

Comme nous l’avons vu au chapitre précédent, deux grands types de mesures ont été

proposés pour évaluer la productivité d’un processus morphologique : les mesures basées sur

les mots listés dans les dictionnaires et les mesures reposant sur l’attestation textuelle (Bauer

2003 : 86). Traditionnellement, les aspects diachroniques de la productivité ont été étudiés au

moyen de dictionnaires. Cependant, l'utilisation des dictionnaires révèle quelques problèmes

méthodologiques (Baayen 2009). Premièrement, la représentativité des échantillons est

inévitablement lacunaire pour les étapes plus lointaines dans l’histoire de la langue.

Deuxièmement, un mot peut avoir été en usage depuis longtemps avant d’être consigné au

dictionnaire. Troisièmement, les dictionnaires fournissent peu de contrôle sur la variation de

la productivité.

Actuellement, les données linguistiques présentées dans les corpus textuels sont considérées

comme sources essentielles dans l’application des mesures de la productivité morphologique.

Baayen (1991 : 803) considère qu’en comparaison aux dictionnaires, un grand corpus textuel

est très utile aux recherches sur la productivité morphologique des formes complexes

puisque : a) il offre toute l’information nécessaire sur la fréquence des mots ; b) il contient

des mots qui ne sont pas typiquement listés dans le dictionnaire ; c) au contraire du

dictionnaire, il ne contient pas de mots qui ne sont plus utilisés.

Ainsi, les grands corpus textuels tels que Frantext (le français général) et Beltext (le français

en Belgique) sont envisagés par plusieurs chercheurs en tant que sources de valeur dans les

recherches linguistiques sur le français. Par exemple, dans son œuvre sur les variations

sociolinguistiques dans la langue littéraire française du XVIIe siècle, Ayres-Bennett (2004 :

9) souligne que « The database known as Frantext has been particularly valuable for

99

researching usage ». L’importance du corpus textuel Frantext pour les explorations en

linguistique a aussi été notée par Hoch (1994) :

La réputation de la base de données textuelle Frantext n'est certes plus à faire. Sa renommée, de surcroît, ne se limite pas à la France, où elle a vu le jour, mais s'étend également à de nombreux pays étrangers – de la Suède au Japon, en passant par la Lituanie et le Canada –, auprès des spécialistes des domaines littéraire et linguistique aussi bien que des professionnels de la documentation. (Hoch 1994 : 122)

Toutefois, l’utilisation du corpus textuel a aussi ses limitations fonctionnelles. Parmi les

problèmes méthodologiques posés par l’évaluation de la productivité à partir des corpus

textuels, il faut mentionner les suivants : a) la taille des corpus ; b) la représentativité des

corpus conformément aux types de textes ; c) la fréquence des formes recensées dans les

corpus ; d) l’identification des formes recensées dans le corpus. Précisons ces problèmes tour

à tour.

a) Premièrement, la taille du corpus textuel utilisé doit être suffisamment grande. Selon

Baayen (1993 : 189), seulement un grand corpus peut assurer que les hapax sont

essentiellement des néologismes et que les formes de la langue sont représentatives pour une

période étudiée. Un corpus suffisamment grand doit compter au minimum des dizaines de

millions de mots.

En tenant compte du fait que la mesure de la productivité la plus utilisée actuellement est

basée sur les hapax, l’importance d’un grand corpus aussi été notée par Plag (2004) :

The size of the corpus is of crucial importance for this measure. If the corpus is too small, hapax legomena will tend to be well-known words of the language. With increasing corpus size, however, the proportion of neologisms among the hapax legomena increases, and it is precisely among the hapax legomena that the greatest number of neologisms appear. (Plag 2004 : 9)

Les hapax qui apparaissent dans un corpus donné sont de bons marqueurs de la productivité

du processus étudié (c’est-à-dire de leur aptitude à former des mots nouveaux) : pour que le

processus de composition soit considéré comme productif, il faut que la vitalité de ce

processus soit confirmé par l’existence de néologismes récents, et la capacité du processus à

créer de nouvelles structures dans l’avenir.

100

b) Deuxièmement, en ce qui concerne la représentativité du corpus textuel, il doit fournir un

échantillon assez typique de la langue étudiée, c’est-à-dire des usages linguistiques différents

incluant la langue littéraire, la langue familière, la langue spécialisée, etc. Comme exemple

de ce type de corpus, Baayen (1991 : 803) mentionne la base de données CELEX, qui compte

environ 65 millions de mots, et le corpus textuel Frantext avec plus de 170 millions de mots.

Cette dernière comporte plus de 4000 textes, dont 80 % sont des textes littéraires et 20 % des

textes techniques, représentant les principales disciplines scientifiques. La base de données

Gallica de la Bibliothèque nationale de France offre approximativement plus d’un million et

demi de documents numérisés, dont 408 190 sont en mode texte : 297 000 livres, 13 000

manuscrits, revues, journaux, etc. (environ 100 millions de mots). Ces œuvres représentent

des domaines divers liés à l'histoire, la littérature, les sciences, la philosophie, le droit,

l'économie, la science politique, etc. Ce type de corpus dresse un portrait général de la langue

en représentant les différents registres de langue (i.e. familier, soutenu, courant, etc.).

c) En outre, l’utilisation d’un grand corpus textuel est un critère nécessaire pour obtenir

de l’information fiable sur la fréquence des mots, et plus précisément sur la fréquence

relative des formes recensées. Selon Plag (1999 : 33), la productivité globale du processus

morphologique s’abaisse lorsqu’on observe des formes ayant une haute fréquence. Cette

corrélation ne peut toutefois être établie qu’à partir d’un corpus de grande taille.

d) Finalement, l’identification des formes recensées dans le corpus textuel représente

parfois des difficultés. Les mots composés présentent une difficulté particulière puisqu’ils ne

comportent pas de morphèmes ou de séquences orthographiques spécifiques (e.g. -age, -ion,

re- pour les dérivés) permettant de les identifier. Ils comportent au moins deux mots qui

peuvent former ou non un mot complexe. Et si le trait d’union permet d’identifier certains

composés (franc-tireur, rouge-gorge, coffre-fort, aide-comptable), il n’est pas toujours

présent dans ces structures complexes (portefeuille, chemin de fer, couteau à fromage,

assurance tous risques) et sert également à unir des mots dans des structure syntaxiques (e.g

vient-il). Un dépouillement manuel du corpus peut donc être nécessaire pour extraire les

formes en question, ce qui fut le cas pour ma recherche.

101

En résumé, l’exploitation d’un grand corpus est cruciale pour le travail sur la productivité

morphologique quand on utilise les mesures basées sur les hapax (Baayen 1992 ; Baayen et

Lieber 1991), la mesure de la fréquence relative de Hay (2003) et la mesure de la taille

catégorielle de la famille morphologique (Baayen et Hay 2002). Le recours au grand corpus

textuel est important tant pour le calcul du nombre d’occurrences de formes recensées, que

pour le calcul des membres de chaque famille morphologique.

4.3 Méthodologie Vu la nécessité d’effectuer une recherche sur un grand corpus représentatif, mon travail

repose sur trois sources de données. En premier lieu, le Dictionnaire de la langue française

de Littré (édition de 1877-1878) m’a servi pour créer la liste de noms composés qui ont été

analysés. En deuxième lieu, j’ai eu recours au plus grand corpus textuel Frantext pour

déterminer la fréquence des composés et de leurs familles morphologiques dans quatre sous-

corpus chronologiques (1606-1694 ; 1695-1798 ; 1799-1872 ; 1873-1920). Finalement, la

base de données Gallica a été exploitée dans une étude pilote sur les composés garde-x.

Pour mener mon étude, les étapes ci-dessous ont été suivies.

Étape 1 : Création de la liste de composés. Cette étape vise à établir mon propre corpus de

noms composés français. Premièrement, j’ai dépouillé manuellement la base de données

Gallica pour dresser un inventaire de composés garde-x/x-garde. Cette base de données a été

utilisée pour tester la méthodologie du travail. Deuxièmement, j’ai interrogé le Dictionnaire

de la langue française de Littré (1877-1878) pour former la liste des noms composés à trait

d'union dont la productivité morphologique sera évaluée. (cf. § 4.3.1).

Étape 2 : Choix des types et formes des composés qui seront mesurés. Cette étape consiste à

classifier des composés extraits par types (gabarits) selon leur structure interne : N-N, A-N,

N-A, N-de-N, Adv-N, Prép-N, etc., et par le statut régulier/irrégulier. De cette liste de

classement, certains types et certaines formes ont été éliminés aux fins de l’analyse (cf.

§ 4.3.2) ; seuls ont été retenus les composés N-N, A-N, N-A, N-de-N, incluant les composés

réguliers et irréguliers.

102

Étape 3 : Organisation et exploitation du corpus Frantext. L’objectif de cette étape est de

valider la fréquence d’occurrences des formes recensées dans la base de données Frantext.

La version catégorisée de la base intégrale du corpus a été utilisée pour rechercher les

occurrences des noms composés retenus et faire toutes les analyses statistiques nécessaires.

La fréquence d’occurrences des formes recensées a été calculée dans le corpus Frantext de

façon globale, et pour chacune des quatre périodes historiques (cf. § 4.3.3)37. Ces quatre

périodes ont été établies à partir de jalons importants dans l’histoire de la langue française :

a) 1606-1694 : La période du français classique est caractérisée par le déclin de l’importance

du latin et l’intérêt grandissant envers la langue française. C’est également l’époque de

l’apparition des premiers dictionnaires entièrement français (Dictionnaire de Richelet 1680,

Dictionnaire Universel de Furetière 1690, etc.) et l’ouverture de la Bibliothèque du Roi au

public (1692). La deuxième moitié du XVIIe siècle est marquée par une certaine renaissance

de l'orthographe ‘moderniste’ avec la création de l’Académie française en 1635 par le

cardinal Richelieu. Désormais, l’Académie devient le lieu où les règles de la langue écrite

officielle et savante sont imposées. Ainsi, c’est l’époque de stabilisation de l’orthographe

diversifiée des mots composés. Cette période est importante aux fins de ce présent travail

puisqu’elle marque l’apparition de plusieurs néologismes d’origine française en français.

b) 1695-1798 : C’est une période marquée par l’apparition du Dictionnaire de l'Académie

française (1695) et le développement de l'enseignement du français. Dans ses éditions de

1740, 1762 et 1798, l'Académie française modifie l'ancienne orthographe de milliers de mots

en mettant en place celle qui deviendra l’orthographe contemporaine. Par exemple, elle

supprime les consonnes muettes des mots comme bled (blé) ou crud (cru) et introduit un

système complet d'accentuation (i.e. accents aigus, graves, circonflexes). À cette époque, la

langue française devient langue diplomatique internationale et langue de l’État. Cette période

est également significative à cause de l’introduction de normes linguistiques et la création

supplémentaire de néologismes.

37

Toutes les données statistiques obtenues au cours de la recherche sont basées sur le corpus Frantext (les données d'octobre-novembre 2009).

103

c) 1799-1872 : La période du français moderne est marquée par l’établissement de la loi de

Guizot (1833) sur l’éducation publique primaire. C’est une époque liée à l’apparition de

dictionnaires importants comme celui de l'Académie française (1835), de Larousse (Grand

dictionnaire universel de 1865), du Dictionnaire de la langue française de Littré (1872).

Cette période est essentielle pour l’expansion du vocabulaire français et pour l’apparition

d’un grand nombre de néologismes dans les domaines tels que la science, la presse ou les

affaires, de même que plusieurs mots anglais introduits dans la langue française.

d) 1873-1920 : C’est la période du français contemporain, caractérisée par l’enrichissement

du vocabulaire, la réforme de l’orthographe, le surréalisme dans la littérature. De nouveaux

vocabulaires associés au sport, au cinéma, à l’économie et aux sciences ont été diffusés par

les médias. Bien que cette période soit significative pour mon travail – puisqu’elle marque

l’introduction d’un grand nombre de mots nouveaux liés aux technologies, sciences, art et

médias – elle est quand même sous-représentée dans mes données, à cause du décalage entre

la compilation des items lexicaux par Littré et la publication de son dictionnaire.

En effet, selon Pruvost (2003), Littré a terminé le recensement des formes de son dictionnaire

en 1830. La date finale de l’analyse morphologique (i.e. 1920) a été établie au début de mon

travail lors de l’étude-pilote sur les composés garde-x. Même si la date de publication du

Dictionnaire de Littré est 1872 (supplément apparu en 1877), cet ouvrage peut être considéré

comme une œuvre lexicographique dont l’influence dépasse la période de son apparition

(Mourlet 2003). L’impact du Dictionnaire de Littré sur les œuvres lexicographiques de son

époque est très fort. Premièrement, le choix de termes spécialisés liés au vocabulaire des

sciences, de la vie politique, etc. va au-delà de l’année 1830 (Mittérand 1968 : 109).

Deuxièmement, ce dictionnaire de la langue classique diffère considérablement des

dictionnaires de son temps par : « son relatif libéralisme dans l’enregistrement des formes,

son emploi systématique de la citation, aussi indispensable que la définition pour faire

comprendre le sens et les nuances divers d’un mot, et le souci de logique dans la distinction

et la disposition des sens » (Mitterand 1968 : 110). En ce qui concerne le vocabulaire du

Dictionnaire de Littré, les chercheurs soulignent « une acception encore vivante dans la

prose courante des contemporains de Littré » (Mittérand 1968 : 110). Ainsi, les faits

mentionnés ci-dessus amènent à considérer que le vocabulaire du Dictionnaire de Littré peut

104

en fait être utilisé dans l’étude sur la productivité des noms composés pour la période de

1873-1920.

Étapes 4 et 5 : Le niveau de productivité des types N-N, A-N, N-A et N-de-N a été examiné

en termes de trois mesures disponibles tant globalement que par période. Ainsi, j’ai recours à

la mesure de productivité au sens strict basée sur les hapax (Baayen 1992 ; Baayen et Lieber

1991), la mesure de la fréquence relative de Hay (2003) et la mesure de la taille catégorielle

de la famille morphologique (Baayen et Hay 2002). L’application des trois mesures

mentionnées ci-dessus a été effectuée dans le corpus textuel Frantext (cf. § 4.3.4). Pour

calculer la fréquence relative des formes recensées, j’ai envisagé quatre variantes possibles

de la base dans les mots composés (cf. § 4.3.5).

Étape 6 : Le changement du niveau de productivité des formes recensées a été analysé en

diachronie (cf. § 4.3.6).

4.3.1 Étape 1 : Création de la liste de composés

La première étape consiste à constituer une liste de composés. Contrairement aux affixes,

que l’on peut interroger directement dans un grand corpus textuel (e.g. mots en -eur, en

-able, en pré-), les noms composés ne comportent pas de constituants récurrents permettant

d’interroger directement le corpus. Il fallait donc créer au préalable une liste de noms

composés. Au départ, une liste de composés comportant un trait d’union a été établie en

interrogeant la base de données Gallica, choisie à cause de la possibilité d’extraction de mots

avec un trait d'union (ce qui est impossible à faire dans le corpus Frantext).

La base de données Gallica de la Bibliothèque nationale de France m’a servi essentiellement

à l’identification des noms composés à trait d’union parce que ce corpus n’est pas de taille

suffisante pour appliquer les mesures quantitatives retenues. Il est beaucoup plus petit

(environ 80 millions de mots au moment où la recherche a été lancée) que Frantext (plus de

170 millions de mots). Ainsi, les formes recensées doivent être mesurées plus tard dans un

grand corpus Frantext.

Puisque la première étape de collecte des données impliquait Gallica, c’est donc avec cette

base de données que l’étude pilote a été menée, visant à tester la méthodologie du travail.

105

L’étude pilote était limitée aux composés dont je connaissais l’un des constituants au départ,

c’est-à-dire les composés garde-x/x-garde. Le dépouillement manuel des 671 œuvres de

Gallica a démontré que cette base de données ne pouvait être retenue : elle exige trop de

temps pour fournir les résultats requis.

En conséquence, le Dictionnaire de la langue française d’Émile Littré (édition de 1877-

1878) a été utilisé pour constituer la deuxième liste des noms composés à trait d’union

analysés au cours de mon travail. J’ai principalement eu recours à cette source puisqu’elle est

assez représentative. Avec ses 78 423 entrées qui englobent la période du XVIe au début du

XIXe siècle, ce dictionnaire représente tous les termes usuels associés aux sciences, aux arts,

aux métiers et à la vie courante aussi bien que des citations tirées d’ouvrages littéraires

(Voltaire, Corneille, Montaigne, La Fontaine, etc.). Le Dictionnaire de la langue française

de Littré (première et seconde éditions publiées par Hachette entre 1863 et 1872, et entre

1873 et 1877 respectivement) contient cinq tomes avec un supplément, suivi d'un

dictionnaire étymologique des mots d'origine orientale. C’est un dictionnaire normatif qui

reflète le bon usage littéraire du XVIIe au XIXe siècle dont le lexique est caractérisé par

Dantier (2003) comme « la langue entre la lexicographie et la linguistique ». Littré décrit la

langue présentée dans son œuvre comme suit :

…toute langue vivante, et surtout toute langue appartenant à un grand peuple et à un grand développement de civilisation, présente trois termes : un usage contemporain qui est le propre de chaque période successive ; un archaïsme qui a été lui-même autrefois usage contemporain, et qui contient l'explication et la clef des choses subséquentes ; et, finalement, un néologisme qui, mal conduit, altère, bien conduit, développe la langue, et qui, lui aussi, sera un jour de l'archaïsme et que l'on consultera comme histoire et phase du langage. (Dantier 2003 : 7)

J’ai utilisé l’édition 1877-1878 de ce dictionnaire à cause de sa disponibilité sur CD-ROM.

Selon Goosse (1991) et Pruvost (2003, 2006), c'est au milieu des années 1820, peut-être

même 1830, que s'arrête le corpus de Littré. Pruvost (2003) suggère la date de 1830 :

[…] le Dictionnaire de la langue française reste un outil remarquable pour toute la littérature antérieure jusqu’à celle d’avant 1830, cette dernière date correspondant à la limite supérieure que s’était fixée Littré pour le dépouillement des ouvrages susceptibles de lui apporter des exemples cités. (Pruvost 2003 : 28)

106

Cependant, Mourlet (2003) montre que le dictionnaire de Littré est une œuvre

lexicographique dont l’impact doit être considéré au-delà de la période de son apparition :

Cependant, « l’œuvre lexicographique » de Littré ne se limite pas à la seconde moitié du XIX siècle. Elle se distingue aussi notoirement par ses effets durables auprès d’une partie du public qui en a maintenu la tradition. Il importe donc d’appréhender cette œuvre au-delà de la période au cours de laquelle elle est née, en l’examinant dans ce qu’elle a de pérenne. (Mourlet 2003 : 15)

Dans ma recherche, il reste toutefois un problème de représentativité de la liste des composés

tirés de Littré : dans le corpus Frantext, je peux seulement valider des composés qui figurent

dans le Littré. Ce dictionnaire exclut un certain nombre de termes techniques et scientifiques

de la quatrième période (1873-1920) ainsi que le vocabulaire des œuvres littéraires

contemporaines. En conséquence, il peut exister des mots composés dans Frantext pour la

période de 1830 à 1920 qui, parce qu’absents du Littré, ne sont pas pris en compte ici.

Toutefois, selon Goosse (1991), le vocabulaire du Littré est très représentatif en ce qui

concerne l’introduction des néologismes : « Littré est attentif au vocabulaire scientifique, au

vocabulaire technique, au vocabulaire concret… […] Littré ouvre largement ses colonnes

aux néologismes, aux termes provinciaux » (Goosse 1991 : 365).

Ainsi, à cause du grand nombre de néologismes présentés chez Littré, sa base de données, en

termes de mots composés, peut être considérée comme dépassant les frontières de la langue

du XIXe siècle. En travaillant sur son œuvre, Littré a déclaré décrire le français historique et

contemporain. Dans la préface du Supplément de son dictionnaire (1881), Littré fait la

confession : « J’ai fait un choix, essayant de n’admettre que les mots dont l’usage commence

à s’emparer » (Pruvost 2006 : 162).

En effet, la liste de composés tirés du Littré ne contient aucun mot formé après 1830.

Toutefois, en tenant compte des observations présentées ci-dessus, les trois mesures

disponibles ont été utilisées pour l’analyse d’une partie de la troisième période (1830-1872)

et de toute la quatrième période (1873-1920), qui est relativement courte.

Au cours de l’Étape 1, j’ai dépouillé manuellement le Dictionnaire de la langue française de

Littré (1877-1878) pour repérer tous les composés comportant un trait d’union afin d’établir

107

mon propre corpus de noms composés français (cf. § 4.3.1). Une liste de 1970 noms

composés à trait d’union a été établie (accroche-cœur, bec-cornu, coup-de-pied, bout-à-port,

etc.)38.

4.3.2 Étape 2 : Choix des types et formes des composés qui seront mesurés

Les composés qui sont étudiés dans mon travail sont organisés par types (gabarits) selon leur

structure interne (N-N, N-à-N, N-de-N, A-N, etc.) et, à l’intérieur de chaque type, classés par

ordre alphabétique.

De tous les composés tirés du Dictionnaire de Littré (un total de1970), n’ont été retenus que

ceux qui seraient potentiellement mesurés au cours de la recherche, soit 275 (177 réguliers et

98 irréguliers)39. La liste initiale de composés a été réduite de façon à éliminer les types

marginaux, peu représentatifs de la composition nominale en français ou présentant des

problèmes d’analyse qui auraient pu fausser les données. Premièrement, les types de

composés qui ne sont pas formés d’items lexicaux français ont été exclus, soit les emprunts

(e.g. aqua-toffana, horse-guard, etc.) et les composés savants (e.g. gastro-conjonctivite,

phréno-glottisme, etc.). Deuxièmement, les formes telles que mi-fruit ou post-consulat sont

considérées comme des composés par certains linguistes (Chung 2006 ; Assink et Sandra

2003), mais plutôt comme des mots préfixés par d’autres (Amiot 2004 ; Fradin 2003 ; Gross

1996). Je considère ces structures complexes comme des mots dérivés par préfixation.

Troisièmement, les composés V-N ont été exclus, et ce, pour plusieurs raisons. D’une part,

ces formes en français ont été amplement étudiées (cf. Villoing 2002). D’autre part, ces

structures sont difficiles à traiter puisqu’elles comportent un affixe zéro, ce qui rend difficile

l’identification de la base. En fait, ce genre de composés regroupe les types [V-N]N ou [N-

N]N. Ainsi, tous les composés garde-N n’ont pas la même structure : ils peuvent être analysés

soit comme des composés synthétiques [V-N]N, soit comme des composés primaires [N-N]N.

Les composés qui appartiennent à la seconde structure sont ceux dont le premier constituant

38 La liste complète des composés se trouve à l’Appendice 1 : Corpus Littré – liste des noms composés. 39 La liste des composés qui sont mesurés se trouve à Appendice 2 : Noms composés mesurés (Frantext). Les composés qui ne sont pas mesurés se trouvent à l’Appendice 3 : Noms composés non-mesurés (Littré).

108

peut être interprété comme le nom garde, existant dans le lexique indépendamment des noms

composés. Ce nom est masculin ou féminin et a une interprétation agentive, selon les

propriétés qu’il donne au composé dont il fait partie. Par contre, les composés qui

appartiennent à la première structure [V-N]N sont toujours masculins et ont une interprétation

instrumentale, selon les propriétés héritées de l’affixe-zéro (cf. chapitre 2.3.3). Roger (1998)

a montré qu’il existe de nombreux composés qui dénotent à la fois un humain et un objet. Par

exemple, les composés garde-côte et garde-meuble représentent deux types des composés

garde-x (Villoing 2002 : 268) :

(1) a. garde-côte : un « milicien chargé de la surveillance des côtes » (T.L.F.) garde-côte : un « navire de surveillance des côtes » (T.L.F.)

b. garde-meuble : un « officier responsable de l’entretien d’un garde-meuble » (T.L.F.) garde-meuble : un « bâtiment qui abrite le mobilier de l’État » (T.L.F.)

L’identification claire de la structure des composés garde-x ambigus exige des références au

contexte d’emploi pour chaque composé en question. Pour cette raison, toutes les formes

garde-x qui font partie de la liste de composés de Littré ont été exclues de l’analyse de la

productivité des noms composés français. Toutefois, de la liste de 60 composés garde-x/x-

garde issue de Gallica, 34 composés garde-x sont utilisés dans le cadre de l’étude pilote.

Finalement, les composés N-à-N, Adv-N, A-A, Dét-N, N-V et Prép-N ont aussi été éliminés

puisque leur fréquence d’occurrence est inférieure, ce qui les rend non productifs, à priori.

Les composés à plus de deux termes (e.g. non-plus-ultra, soupe-tout-seul, etc.) et le groupe

de composés que j’ai regroupés sous l’étiquette « autres » (e.g. mieux-disant, deux-quatre,

etc.) ont aussi été identifiés en tant que structures non régulières, à priori non productives, et

conséquemment éliminés. Ces composés représentent des locutions lexicalisées, c’est-à-dire

des formes dans lesquelles on peut reconnaître des suites de morphèmes autonomes, mais

dont la signification n’est pas compositionnelle.

Initialement, seulement les formes régulières (e.g. adapte-couleur, piste de danse, etc.)

avaient été retenues. Ce sont des structures qui sont sémantiquement transparentes,

compositionnelles, donc potentiellement décomposables. Plus tard, j’ai également décidé

109

d’appliquer les mesures de productivité aux irréguliers (e.g. reine-claude, huppe-col, double-

bec, etc.), à cause du petit nombre de composés réguliers (177) et aussi parce que ce type de

composés n’a jamais été étudié en termes de productivité morphologique. Les composés qui

ont été mesurés sont présentés dans le Tableau 4-1.

Tableau 4-1 Typologie des composés qui seront potentiellement mesurés (liste de Littré)

Structure du mot composé

Exemples Distribution #

Distribution %

N-N bêque-bois, chat-cervier 72 26 % A-N beau-frère, faux-saunier 137 50 % N-A bec-cornu, bouillon-blanc 39 14 %

N-de-N bec-de-cane, cou-de-pied 27 10 % Total 275 100 %

On voit que parmi les composés dont la productivité a été mesurée, les composés, A-N et

N-N constituent les formes les plus fréquentes (50 % et 26 % respectivement). Outre le

gabarit, l’étude sur la productivité des formes recensées est aussi réalisée selon les facteurs

suivants : la présence/absence de la tête morphologique (endocentriques vs exocentriques), la

position de la tête morphologique et l’aspect régulier/irrégulier.

4.3.3 Étape 3 : Organisation et exploitation du corpus FRANTEXT

Après avoir établi la liste et la typologie des noms composés à mesurer, j’ai validé la

fréquence d’occurrences de ces formes dans Frantext40. Cette base de données est un large

corpus informatisé composé de textes en français, créé initialement par le laboratoire ATILF

(Analyse et Traitement Informatique de la Langue Française) qui, à son tour, résulte de la

fusion entre l’Institut National de la Langue Française (INALF-CNRS) et le laboratoire

LANDISCO (Langue Discours Cognition-Université Nancy 2). Cette source contient plus de

4000 textes (plus de 170 millions mots), appartenant à des domaines différents tels que les

sciences, les arts, la littérature, les techniques, la politique et la philosophie, et couvrant onze

40 La base de données Frantext (http ://humanities.uchicago.edu/orgs/ARTFL/) fut élaborée en 1960 à partir d'un premier ensemble de textes pour apporter une documentation d'exemples au Trésor de la langue française. Elle comportait moins de mille œuvres des XIXe et XXe siècles sélectionnées à partir des bibliographies de manuels d'histoire littéraire. Cet ensemble s'est rapidement enrichi vers 1970 de textes scientifiques et techniques nécessaires à la rédaction du dictionnaire. Par la suite, le fonds s'est étendu de façon à couvrir les trois siècles précédents ainsi que la période suivante. Le corpus continue de s'étendre progressivement.

110

siècles (de 842 à 2010). Ce corpus est très représentatif puisqu’il reflète des niveaux et des

registres différents de la langue française.

Deux versions de Frantext sont proposées aux chercheurs. La version non catégorisée, ou

base intégrale, comporte environ 4036 textes avec plus de 170 millions d’occurrences

embrassant environ un millier d’auteurs. Ce corpus est composé à 80 % d’œuvres littéraires

et à 20 % d’œuvres scientifiques ou techniques. Il y est possible de choisir plusieurs auteurs,

toutes les œuvres d'un auteur, les périodes, etc., aussi bien que rechercher les occurrences de

formes linguistiques. Le logiciel d’interrogation permet des requêtes complexes portant sur

des formes graphiques ou sur des lemmes (toutes les formes d’un même substantif).

La version catégorisée est constituée d’un sous-ensemble de la base intégrale (1940 œuvres

en prose postérieures à 1829, environ 1200 textes étiquetés grammaticalement). Les textes

ont été catégorisés, ce qui signifie qu'ils ont été découpés en entités catégorisées : noms,

adjectif, adverbe, conjonction de coordination, participe présent, participe passé, pronom

personnel, etc. (27 catégories au total). Cette version offre des possibilités d’interrogation

élargies à des requêtes grammaticales. Ce corpus fait l’objet d’un codage grammatical selon

les parties du discours et il permet des requêtes portant sur les codes grammaticaux.

J’utilise la version non catégorisée de Frantext parce que la version catégorisée est limitée

aux textes postérieurs à 1829. La version non catégorisée de Frantext me permet de faire

toutes les analyses statistiques nécessaires à mon travail (le nombre d’occurrences, de bases,

de membres des familles morphologiques). Je peux rechercher les occurrences des formes

recensées aussi bien qu’étudier le voisinage d’un mot en question. Par exemple, en utilisant

la formule en (2) :

(2) ete(c = (etq etmgarde|etmgarde etq))

Je peux extraire des exemples des formes recensées pour les citer dans leur contexte

phrastique comme en (3) :

(3) Elle mit, comme pour se chauffer, un pied sur la barre de bronze qui surmontait le garde-cendre [...] (Balzac)

111

En effectuant des recherches dans Frantext, il est important de tenir compte des variations

graphiques des noms composés liées au changement diachronique (i.e. garde-corps vs garde-

de-corps, garde-du-corps). Ainsi, je considère les deux (ou trois) variantes graphiques du

même mot composé comme deux types différents (i.e. N-N vs N–de-N pour les composés

mentionnés ci-dessus). En ce qui concerne les formes garde-cendre et garde-cendres, je les

analyse comme un seul type V-N.

Parmi les désavantages de l’utilisation du corpus Frantext, il faut mentionner l’impossibilité

d’interroger par le trait d’union, ce qui a imposé la nécessité de la constitution préalable

d’une liste de composés à partir d’un dictionnaire, soit celui de Littré.

Le corpus Frantext présente les qualités nécessaires à l’application des mesures que j’ai

retenues. Premièrement, comptant plus de 170 millions de mots, ce corpus a une taille plus

que suffisante pour mesurer la fréquence des formes en question par période étudiée.

Deuxièmement, cette base de données me permet d’analyser la productivité morphologique

en diachronie. En utilisant ce corpus, je peux repérer les néologismes et déterminer

l’évolution du niveau de productivité des formes recensées dans le temps.

4.3.4 Étape 4 : Mesure de la productivité dans Frantext

L’évaluation de la productivité des noms composés dans Frantext a exigé de nombreuses

sous-étapes pour appliquer les trois mesures de productivité retenues.

La première mesure, celle basée sur les hapax (Baayen 1992 ; Baayen et Lieber 1991), est

représentée par la formule P = n1 / N. Cette mesure ne prend en considération que le nombre

d’hapax (n1) et le nombre total d’occurrences de la structure analysée (N). Ce calcul évalue la

productivité du gabarit (du type) des noms composés en démontrant le taux de croissance du

vocabulaire pour chaque période étudiée.

Le deuxième calcul évalue la fréquence relative .Cette formule a été élaborée par Hay (2003)

pour les mots dérivés comme frelative = fdérivé / fbase et je l’ai adaptée aux composés

comme suit : frelative = fcomposé / fbase. En utilisant cette mesure, j’ai évalué dans Frantext

le nombre total d’occurrences du composé, par exemple oiseau-mouche, et le nombre

d’occurrences de ces bases (i.e. oiseau et mouche). En appliquant la notion de la fréquence

112

relative aux noms composés, j’ai validé ce modèle dans le domaine de la composition

pour vérifier si la fréquence relative peut prédire le changement du niveau de productivité

morphologique des mots composés.

La troisième mesure, celle de la taille de la famille d’une catégorie morphologique de

Baayen et Hay (2002), a été appliquée pour définir une corrélation possible entre la

productivité et la taille de la famille morphologique des noms composés. La mesure de la

taille catégorielle de la famille morphologique se calcule en deux étapes. Par exemple, pour

mesurer la taille catégorielle de la famille morphologique du composé chou-fleur, j’ai

premièrement mesuré la taille de la famille morphologique de chaque constituant (base) de

ce composé dans Frantext. Donc, les familles morphologiques des constituants chou (chou-

blanc, coupe-chou, chouchou, chouchouter, chou-king, chou-palmiste, chou-rave, vert-chou)

et fleur (fleurir, fleurissement, fleurer, fleurette, fleuriste, fleuron, défleurir, refleurir), qui

incluent tous les dérivés et les composés formés à partir de ces bases (sauf les bases elles-

mêmes), ont été calculées par période. Ainsi, pour la première période, la famille

morphologique du constituant chou inclut deux membres (chouchou et chouchouter) alors

que celle du constituant fleur en inclut six (fleurir, fleurissement, fleurer, fleurette, fleuriste,

fleuron). En conséquence, la famille morphologique totale du composé chou-fleur pour la

première période comporte huit membres. Quant aux autres périodes, le nombre total de

membres de la famille morphologique du composé chou-fleur est distribué de la façon

suivante :

(4) a. 1695-1798 : 9 membres (chou = 2 membres ; fleur = 7 membres) b. 1799-1872 : 14 membres (chou = 7 membres ; fleur = 7 membres) c. 1873-1920 : 13 membres (chou = 4 membres ; fleur = 9 membres)

Deuxièmement, j’ai utilisé la formule logarithmique log (F1) + log (F2) + log (F3) etc. de

Baayen et Hay (2002) où F1, F2, F3 sont les tailles de la famille morphologique des

constituants. Ainsi, la taille catégorielle de la famille morphologique du composé chou-fleur

par période est calculée comme suit :

(5) a. 1606-1694 : log(2) + log(6) = 0.3010+0.7782 = 1.0792 = 1.08 b. 1695-1798 : log(2) + log(7) = 0.3010+0.8451 = 1.1461 = 1.15 c. 1799-1872 : log(7) + log(7) = 0.8451+0.8451 = 1.6902 = 1.69 d. 1873-1920 : log(4) + log(9) = 0.6021+0.9542 = 1.5563 = 1.56

113

La mesure de la taille catégorielle de la famille morphologique évalue la fréquence des

constituants du composé, aussi bien que la fréquence des membres de leurs familles

morphologiques. Étant donné que l’évaluation de la famille morphologique de chaque

constituant d’un mot composé exige énormément de temps, la mesure de la taille catégorielle

est appliquée dans ce travail aux formes régulières uniquement.

4.3.5 Étape 5 : ldentification de la base dans les mots composés

L’identification de la base est importante parce qu’elle est utilisée dans le calcul de la mesure

de la fréquence relative de Hay (2003) et la mesure de la taille catégorielle de la famille

morphologique de Baayen et Hay (2002).

Toutefois, comme le montre Fernández-Domínguez et al. (2007 : 50), l’évaluation de la

fréquence relative de Hay (2003) pose un problème lié à l’identification claire de la base.

Cette mesure peut être calculée de façons différentes où chaque variante de mesure rapporte

des résultats contrastés. Fernández-Domínguez et al. (2007 : 38) suggèrent que la fréquence

de la base des composés peut être mesurée selon trois variantes possibles :

a) en additionnant les fréquences des constituants séparés ;

b) en additionnant les fréquences des constituants séparés et en divisant la somme

par le nombre de constituants pour calculer la fréquence moyenne ;

c) en utilisant seulement la fréquence de la tête du composé.

Cependant, à mon avis, dans le calcul de la fréquence de la base du composé, il faut aussi

inclure une variante où la base est l’élément qui n’est pas la tête du composé (par analogie

avec les mots dérivés où la base n’est pas la tête du mot complexe).

En effet, la base morphologique est clairement identifiée dans les mots dérivés formés par

affixation (cf. 2.2.3). Ainsi, la base du mot dérivé est un morphème libre auquel s'attache un

affixe qui est un morphème lié. Le suffixe remplit généralement la fonction de tête en portant

les caractéristiques syntaxiques et sémantiques du mot.

114

Rappelons (cf. § 2.2.5) que, en dérivation, la base du mot affixé possède les caractéristiques

suivantes :

(6) a. la base est un morphème libre ; b. la base n'est pas la tête morphologique du mot affixé (dans la plupart des cas) ; c. dans le mot affixé, il y a seulement une base.

Par contre, en composition, la base n'est pas clairement identifiée (Bauer 1983, 2001 ;

Dressler 2006 ; Spenser 1991 ; Krott et al. 1999). Théoriquement, en prenant comme point de

départ les propriétés de la base dans les mots dérivés en (6), la base dans les composés peut

être identifiée de deux façons différentes (cf. 2.3.3). Par exemple, dans le composé belle-

sœur, la base morphologique est : a) soit le morphème libre qui n'est pas la tête du composé

(belle) ; b) soit tout morphème libre (belle et sœur).

Donc, en composition, la base peut être définie de plus d’une façon :

(7) a. la base du composé est un morphème libre (donc, tous les constituants du composé peuvent être des bases) ; b. la base du composé est le constituant qui n'est pas la tête du composé

De ce fait, en analysant la productivité des noms composés français, j’utilise quatre variantes

de mesures de la base pour évaluer la fréquence relative des formes recensées. J’ai recours

aux trois variantes proposées par Fernández-Domínguez et al. (2007, 2009) mentionnées ci-

dessus et j’ajoute une quatrième variante où la base du composé est le constituant qui n’est

pas la tête. De cette façon, la comparaison des résultats de chaque variante à ceux obtenus

par la mesure basée sur les hapax me permet d’identifier la base qui procure les meilleurs

résultats pour la mesure de la fréquence relative de Hay (2003).

4.3.6 Étape 6 : Étude diachronique des formes recensées

Comme l’a remarqué Trips (2009), il existe peu de travaux qui analysent la productivité

morphologique en fonction des changements diachroniques : « …almost all work done in

morphological productivity has made none or little reference to time, leaving aside changes

over time, i.e., the diachrony of the language » (Trips 2009 : 33). Néanmoins, pendant les

vingt dernières années, plusieurs corpus électroniques comme Frantext, Beltext, Gallica,

115

CELEX, Cobuild, etc. sont devenus disponibles et extrêmement utiles pour l'analyse

diachronique du niveau de productivité des processus morphologiques différents.

En ce qui concerne la productivité, deux aspects y sont activement impliqués : un aspect

synchronique et un aspect diachronique. Selon Aronoff (1980), la productivité d’une règle

morphologique donnée est une notion synchronique, mais la notion de probabilité réfère

inévitablement aux changements diachroniques.

At first glance, it seems more plausible to think of productivity in purely diachronic terms. According to this view one would say that rule A is more productive than Rule B if more words formed according to Rule A enter the language in the time between two given points T1 and T2. Thus, since productivity is computed by comparing points in the history of a language, it is a diachronic matter. (Aronoff 1980 : 71)

Bauer (1988) considère la productivité comme une notion synchronique : “…we can speak of

productivity in synchronic terms, or of changes in productivity in diachronic terms, but not of

productivity as such in diachronic terms” (Bauer 1988 : 61).

Dans mon travail, l’étude diachronique de la productivité des noms composés français

N-N, A-N, N-A et N-de-N est abordée en deux étapes. En premier lieu, la productivité des

formes recensées est analysée par période selon le type, la position de la tête morphologique

et l’aspect régulier/irrégulier. En deuxième lieu, l’évolution générale des formes recensées

est examinée tant globalement que par période séparée.

4.4 L’étude pilote : la productivité des composés garde-x Pour assurer le bon déroulement de la recherche, j’ai décidé premièrement d’effectuer une

étude pilote sur les noms composés garde-x. Cette étude vise à découvrir la corrélation

possible entre la productivité, la fréquence relative et la taille catégorielle de la famille

morphologique des composés garde-x. De plus, ce travail a été l’occasion de valider et de

raffiner mes choix méthodologiques.

4.4.1 Étapes préparatoires

Au commencement de l’étude pilote, j’ai suivi quelques étapes préparatoires.

116

Première étape. J’ai divisé la base de données Gallica selon les quatre sous-périodes

chronologiques (1606-1694 ; 1695-1798 ; 1799-1872 ; 1873-1920) que j’ai retenues pour

mon étude (cf. §4.3.). En travaillant dans Gallica, j’ai utilisé la fiche bibliographique de

chaque œuvre pour trouver sa date de publication/reproduction ainsi que d’autres

informations pertinentes.

Deuxième étape. Pour créer la liste préalable des composés garde-x/x-garde et établir la

typologie des formes recensées, j’ai interrogé chaque œuvre de Gallica par le trait d’union et

le mot garde41. Chaque œuvre a été dépouillée manuellement pour trouver toutes les

occurrences de la forme garde-x ou x-garde. Comme résultat de ce travail, une liste de 60

mots composés a été créée42 :

(8) garde-barrière, garde-côtes, arrière-garde, garde de santé, sauve-garde, etc.

La typologie des composés garde-x/x-garde dans le corpus Gallica est présentée dans le

Tableau 4-2.

Tableau 4-2 Typologie des noms composés garde-x/x-garde (liste de Gallica)

Structure du mot composé

Exemples Distribution #

Distribution %

N-N garde-temps, garde-sel, garde-notes 25 41.7 N-Prép-N garde de santé, homme de garde 16 26.6 % V-N sauve-garde, garde-main 12 20.0 % Prép-N avant-garde, contre-garde 4 6.6 % A-N bien-garde 1 1.7 % V-A garde-fou 1 1.7 % préfixe-N ex-garde 1 1.7 % Total 60 100 %

En analysant les données du tableau ci-dessus, on voit que pendant les quatre périodes

étudiées, les structures N-N, N-Prép-N et V-N étaient les plus fréquentes.

De la liste de composés garde-x/x-garde extraite de Gallica, n’ont été retenues que les

formes garde-x (34 formes), afin de tester les mesures sur un seul type de composition

41 Toutes les données ont été recueillies dans la base de données Gallica en avril-mai 2008. 42 La liste des composés garde-x/x-garde se trouve à l’Appendice 4 : Étude pilote – composés garde-x, Tableau 10.

117

(V-N). Dix-sept composés x-garde/x-de-garde ont été éliminés (arrière-garde, avant-garde,

chien-de-garde, homme de garde, sar-des-gardes, sauve-garde, etc.). Les composés garde-x

à plus de deux termes (neuf formes) ont aussi été exclus (i.e. garde de cavalerie, garde de

chasse, garde de mareschal, garde de santé, garde de police, garde de service, etc.).

Parmi les 34 formes retenues, deux composés présentent une variation dans leur

orthographe :

(9) a. garde-meuble vs gardemeuble b. garde-robe vs garderobe vs garderobbe vs garde-robbe

Toutes les formes ont été considérées comme variantes du même composé garde-meuble ou

garde-robe ; néanmoins, la fréquence d’occurrences de chaque variante a été évaluée

séparément dans Frantext.

Troisième étape. J’ai mesuré la fréquence d’occurrence des composés garde-x dans Gallica

et j’ai calculé le nombre total d’œuvres et de mots. Les données statistiques issues de Gallica

sont résumées dans le Tableau 4-343.

Tableau 4-3 La fréquence d’occurrences des composes garde-x dans Gallica

1606-1694 1695-1798 1799-1872 1873-1920 Total :

Composés 42 124 98 82 346

Œuvres 141 183 283 64 671

Mots 4 884 725 12 524 257 20 608 307 5 208 641 43 225 930

Les composés garde-x étaient plus fréquemment employés pendant la deuxième (1695-1798)

et la troisième (1799-1872) période (124 et 98 occurrences respectivement). Ces périodes se

caractérisent aussi par le plus grand nombre d’œuvres littéraires et le plus grand nombre total

de mots.

J’ai validé la fréquence d’occurrences des composés garde-x dans le plus grand corpus,

Frantext, comme le montre le Tableau 4-4.

43 Les données statistiques présentées dans le Tableau 4-3 ont été recueillies dans Gallica en mai 2008.

118

Tableau 4-4 La fréquence d’occurrences des composés garde-x dans le corpus Frantext44

1606-1694 1695-1798 1799-1872 1873-1920 Total :

Composés 75 430 491 320 1316

Œuvres 367 575 655 473 2070

Mots 17 303 466 34 393 102 40 823334 27 568 502 120 088 404

Comme dans le cas de la base de données Gallica, la fréquence des composés garde-x dans

Frantext est la plus élevée pendant la deuxième et la troisième périodes (430 et 491

occurrences respectivement), où l’on trouve également le plus grand nombre de mots.

4.4.2 La productivité des composés garde-x

Au cours de la quatrième étape, j’ai mesuré la productivité des composés garde-x selon la

mesure P basée sur les hapax et la mesure T de la taille catégorielle de la famille

morphologique.

4.4.2.1 La productivité selon la mesure des hapax

Au cours de cette étape de l’étude pilote, j’ai calculé la productivité morphologique des

composés garde-x en utilisant la mesure P basée sur les hapax (Baayen 1992 ; Baayen et

Lieber 1991) ; 25 hapax legomena (les formes qui apparaissent une fois seulement dans un

grand corpus) ont été repérés. En appliquant la formule de mesure de la productivité de

Baayen (cf. 4.3.4), j’ai calculé la productivité morphologique des noms composés garde-x

comme suit :

25 (10) P = — = 0.0190 1316

où 25 = le nombre total d’hapax de forme garde-x 1316 = le nombre total d’occurrences des composés garde-x

Le changement du taux de productivité des formes recensées a été aussi calculé pour chaque

44

Toutes les données sur les composés garde-x sont basées sur le corpus Frantext interrogé enmai 2009.

119

période, comme le montre le tableau suivant (où n1 = nombre d’hapax, N = nombre total

d’occurrences ; P = productivité morphologique au sens strict).

Tableau 4-5 Productivité des composés garde-x selon la mesure P

Période n1 N P

1606-1694 2 75 0.0267

1695-1798 8 430 0.0186

1799-1872 2 491 0.0041

1873-1920 13 320 0.0406

Moyenne 6.3 329 0.0191

La productivité morphologique des composés garde-x était la plus élevée pendant la

quatrième et la première période (P4 = 0.0406 et P1 = 0.0267 respectivement). Le niveau de

productivité assez élevé pendant la première période pourrait être expliqué par le fait qu’à

cette époque le latin avait commencé à perdre de son importance et la langue française avait

été largement introduite dans la vie quotidienne, notamment par le biais de nombreux

néologismes. Pour ce qui est de la quatrième période, le niveau élevé de productivité pourrait

être dû à l’introduction d’un grand nombre de néologismes associés à la technologie, la

science, les médias, etc. Par contre, la productivité des composés garde-x s’abaisse

considérablement pendant les années 1799-1872 (P3 = 0.0041).

4.4.2.2 La taille de la famille morphologique des composés garde-x

La taille catégorielle de la famille morphologique des composés garde-x a été mesurée en

deux étapes (cf. § 4.3.4). Premièrement, pour chacun des constituants du mot composé en

question, j’ai relevé tous les mots appartenant à la même famille morphologique. Par

exemple, pour le composé garde-chasse, j’ai trouvé tous les membres de la famille

morphologique associés à gard(e) et à chasse. Selon la définition de Schreuder et Baayen

(1997 : 118), la famille morphologique inclut tous les mots qui sont formés avec le mot de

base via la dérivation ou la composition, mais pas la flexion, en excluant la base elle-même.

Rappelons que dans les travaux linguistiques, il n'existe pas d’unanimité de points de vue sur

la notion de la base dans les mots composés (cf. 2.2.5). Ainsi, en suivant le modèle de Krott

120

et al. (1999) qui considèrent que chaque constituant d’un composé est une base (cf.2.2.5), j’ai

recours à la notion de ‘constituants’ plutôt que de ‘base’ dans mon calcul.

Ainsi, en interrogeant Frantext au moyen des formules en (11 et 13) j’ai pu relever tout mot

comportant la suite de lettres gard et chass précédée ou suivi d’autres lettres en termes de

chaque période étudiée.

(11) a. gard.* b. *.garde

Pour la période 1695-1798, la combinaison de la formule en (11a) et des options Single Term

and Phrase Search et Frequency by Title a généré une liste de 150 mots distincts

commençant par gard (12a) alors que la a formule en (11b) a généré une liste de 37 mots se

terminant par gard(e) (12b).

(12) a. gardafu | gardafuy | gardai | gardaient | gardeur | gardens | gardent | garder | gardeuse | gardettes | gardien | gardienne | etc.

b. algarde | angarde | bongarde | | egarde |regarde | rutgarde | etc.

En suivant les mêmes étapes pour le constituant chasse, les formules en (13a) et (13b) ont

généré respectivement des liste de 31 mots (14a) et de 103 mots (14b) comportant la base

chass(e).

(13) a. *.chasse b. chass.*

(14) a. abouchasse | approchasse | atachasse | attachasse | etc. b. chassarent | chassas | chasser | chasseuresse | chasseu | chasseur | chasseurs | etc.

Après avoir analysé les deux listes en (12) et (14), j’ai éliminé les mots correspondant

directement aux constituants (garde et chasse) et toutes les formes non-apparentées (non

dérivées ou composées à partir de cette base). Ainsi, toutes les formes flexionnelles et les

formes irrégulières comme entreregardent, gardent, mesgarde, gardens ou gardafuy ont été

supprimés puisqu’elles n’appartiennent pas à la même famille morphologique ou sont exclus

de calcul par définition (formes fléchies).

Ainsi, la liste définitive des membres de la famille des constituants garde et chasse est la

suivante :

121

(15) a. garder, gardeur, gardeuse, gardien, gardienne, garde-chasse b. chasser, chasseur, chasseresse

Alors, pour la deuxième période (1695-1798) le composé garde-chasse possède une famille

morphologique formée de 9 membres.

Toujours pour la deuxième période, j’ai calculé le nombre total de membres de la famille

morphologique ainsi que la taille moyenne de la famille pour chaque type de composé garde-

x par période (i.e. garde-chasse, garde-côtes, garde-fou, garde-manger, etc.). Le Tableau

4-645 montre les résultats généraux du calcul par période46.

Tableau 4-6 Taille de la famille morphologique des composes garde-x (Frantext)

1606-1694 1695-1798 1799-1872 1873-1920

Composés (types) 5 17 19 22

Taille de la famille (nombre) 34 160 219 248

Taille de la famille (moyenne) 6.8 9.4 11.5 11.3

Le tableau révèle une croissance du nombre moyen de la taille de la famille morphologique

au cours des quatre périodes étudiées, allant de 6.8 membres pour la première période à 11.5

pour la troisième période avec une très légère décroissance vers la quatrième période (11.3

membres).

Finalement, pour mesurer la taille catégorielle de la famille morphologique des composés

garde-x, j’ai utilisé la formule logarithmique de Baayen et Hay (2002) selon laquelle la taille

catégorielle de la famille du composé garde-x est calculée comme la somme des logarithmes

de la taille des familles des constituants qui sont membres de cette catégorie. Ainsi, pour la

première période (1606-1694), la taille catégorielle des composés garde-x (5 types) présentée

par les familles morphologiques des constituants formant les composés garde-côtes (F1 = 5),

garde-manger (F2 = 9), garde-marine (F3 = 7), garde-meuble (F4 = 8) et garde-robe (F5 = 5)

est calculée comme en (16), où F représente la taille cumulative de la famille morphologique

de chaque composé, formée à partir des familles morphologiques de ses constituants.

45 Les données statistiques du Tableau 4-6 ont été vérifiées dans le corpus Frantext en octobre 2011. 46 La liste complète des familles morphologiques des composés garde-x se trouve à l’Appendice 4 : Étude pilote – composés garde-x, Tableau 11.

122

(16) Période 1 (1606-1694) a. log (F1) + log (F2) + log (F3) + log (F4) + log (F5) b. log (5) + log (9) + log (7) + log (8) + log (5) = 0.6990+0.9542+0.8451+0.9031+0.6990 = 4.1004 = 4.10

En suivant le même modèle, la taille catégorielle des composés garde-x pour la deuxième

période (17 types) (i.e. garde-chasse (F1 = 11) ; garde-côtes (F2 = 10) ; garde-feu (F3 = 6) ;

garde-finage (F4 = 5), etc.) est calculée de la manière suivante :

(17) Période 2 (1695-1798) a. log(11)+ log(10)+ log(6)+ log(5)+ log(10)+ log(6)+ log(8)+ log(11)+ log(11)+ log(11)+ log(10)+ log(10)+ log(9)+ log(8)+ log(12)+ log(13)+ log(9) = b. 1.041+1+0.778+1.041+1+0.778+0.903+1.041+1.041+1.041+1+1+0.954+0.903 + 1.079+1.114+0.954 = 16.668 = 16.67

Finalement, le calcul pour la troisième période (19 types) et à la quatrième période (22 types)

amène aux résultats suivants).

(18) Période 3 (1799-1872) log(11)+log(8)+log(13)+log(12)+ etc. = 19.97

(19) Période 4 (1873-1920) log(11)+log(11)+log(8)+log(15)+etc. = 22.96

Les résultats obtenus en (16-19) suivent les mêmes tendances que les données statistiques du

Tableau 4-6. La taille moyenne catégorielle des composés garde-x augmente de la première

(T1 = 4.10) à la quatrième période (T4 = 22.96). La taille moyenne de la famille

morphologique de ce type augmente aussi progressivement de la première à la troisième

période (9.2 à 11.5 membres respectivement) en diminuant légèrement vers la quatrième

période (11.3). Quant au nombre total des composés garde-x, il accroît considérablement dès

la première à la quatrième période (46 vs 248 composés).

4.4.3 Identification des bases et fréquence relative

Au cours de la cinquième étape de l’étude pilote, j’ai mesuré la fréquence relative (FR) des

composés garde-x en utilisant la mesure de Hay (2003).

123

Rappelons qu’en composition, la fréquence de la base des composés peut être calculée selon

quatre variantes de mesures possibles (cf. 4.3.5). Trois des variantes ont été proposées par

Fernández-Domínguez et al. (2007 : 38) qui suggèrent que la fréquence de la base des

composés peut être mesurée : a) en additionnant les fréquences des constituants séparés ; b)

en calculant la fréquence moyenne des constituants ; c) en utilisant la fréquence de la tête du

composé. J’y ajoute une quatrième variante où la base retenue pour le calcul est le

constituant qui n’est pas la tête du composé

Pour l’étude pilote, seul le premier constituant (la tête) a été considéré pour servir de base. Il

faut noter toutefois que l’identité catégorielle de cette base est ambiguë ; nominale ou

verbale. L’évaluation de la fréquence relative des composés synthétiques, incluant les

composés garde-x, dépend nécessairement de la façon dont on identifie la base de ce type de

composés et du modèle théorique adopté. Actuellement, il existe trois candidats possibles

pour cette mesure, selon le caractère nominal/verbal de gard et selon position de l’affixe

zéro :

(20) a. Candidat 1 :[[gardeV-øN]N XN]N b. Candidat 2 :[[gardeV-XN]VP øN]N c. Candidat 3 :[[√garde]N/V XN]N

D’après la première variante en (20a), la base du composé garde-x est un nom déverbal,

gardeN. La suffixation-zéro est accomplie en premier, suivi par la composition (Lieber

2004). Pour mesurer, par période, toutes les occurrences de garde comme un nom déverbal

(candidat 1), je dois éliminer les variantes représentant des syntagmes verbaux (i.e. je garde,

il/elle/on garde).

Dans la deuxième variante en (20b), la base du composé garde-x est un syntagme verbal

(Lieber 1992). Dans ce modèle, la composition est effectuée à la première étape dans le VP ;

la dérivation à l’aide du suffixe zéro la suit. Pour mesurer toutes les occurrences de la base

comme candidat 2, je dois en premier lieu mesurer toutes les occurrences de la base gard-

(garde*), puis enlever les occurrences des lexèmes uniquement nominaux, soit : garderie,

gardeur, gardeuse, gardian, gardien, gardienne, gardiennage.

124

Le troisième candidat de la base en (20c) est lié aux modèles où les racines lexicales sont non

spécifiées pour la catégorie47. La base est donc la racine √gard-N/V, présente dans les formes

nominales (N) et verbales (V) (e.g. gardien, gardiennage, gardera, gardais, etc.). Ce modèle

a été proposé notamment par Namer (2003). Ainsi, pour mesurer toutes les occurrences de la

base selon le candidat 3, je dois, en premier lieu, mesurer toutes les occurrences de la base

gard- (garde*) et, en deuxième lieu, enlever les occurrences qui ne sont pas formées au

moyen de cette base (gardénia, gardon).

Ainsi, en travaillant avec le corpus Frantext je me heurte au problème d’identification de la

tête du mot composé (nom, verbe ou racine). Cette tâche, dans Frantext, peut seulement être

accomplie manuellement pour chaque œuvre analysée. Étant donné que selon le candidat 1

l’affixe zéro est difficile à identifier dans la base (i.e. je garde, il/elle/on garde vs la/le garde),

et que le candidat 3 inclut une racine non spécifiée pour la catégorie présentée dans les N et

V, j’ai décidé d’utiliser le candidat 3 comme la base des composés garde-x lors de l’étude-

pilote.

Pour calculer la fréquence relative des composés garde-x, j’ai calculé la fréquence

d’occurrence des composés garde-x et celle de leur base (√gard-N/V), comme le montre le

tableau suivant.

Tableau 4-7 Fréquence des composés garde-x et de leur base dans le corpus Frantext

Fréquence par période Fréquence totale

1606-1694 1695-1798 1799-1872 1873-1920

garde-x 75 430 491 320 1316

√gard-N/V 8 691 14 291 18 462 12 661 54 105

Mots 17 303 466 34 393 102 40 823 334 27 568 502 120 088 404

À partir de ces données, j’ai mesuré la fréquence relative totale des composés garde-x

comme suit : frelative = fcomposé / fbase (cf. § 4.3.4).

47 Dans certains modèles de Morphologie Distribuée (Halle and Marantz 1993), une catégorie lexicale est formée d’une racine sans spécification catégorielle qui se fusionne avec une tête qui assigne la catégorie syntaxique (Marantz 2001).

125

(21) FR = 1316/54105 = 0.0243

Dans les composés garde-x, la base √gard-N/V est notablement plus fréquente que la

structure garde-x, ce qui permet de conclure que les composés garde-x sont potentiellement

décomposables et productifs.

La fréquence relative des formes recensées selon les quatre périodes étudiées est présentée au

Tableau 4-8.

Tableau 4-8 Fréquence relative des composes garde-x par période

Fréquence par période

1606-1694 1695-1798 1799-1872 1873-1920

garde-x 75 430 491 320

FR √gard-N/V 0.009 0.030 0.027 0.025

Le niveau de fréquence relative des composés garde-x varie considérablement au cours des

quatre périodes analysées. Toutefois, on remarque que le niveau de fréquence relative le plus

bas (FR1 = 0.009) de la première période (1606-1694) est directement corrélé au nombre le

plus petit d’occurrences des composés garde-x (N1 = 75). Cette tendance est aussi clairement

présentée pendant la quatrième période où la croissance du niveau de FR (FR4 = 0.025) est

directement corrélée à l’augmentation de N (N4 = 320).

On remarque aussi que le taux de fréquence relative et le nombre d’occurrences des

composés garde-x au cours de la deuxième et la troisième période sont assez similaires.

4.5 Corrélation entre les trois mesures Le phénomène de la corrélation inverse entre la taille catégorielle de la famille

morphologique et le niveau de productivité a déjà été noté pour le processus d’affixation en

anglais. Baayen et Hay (2002 :1) ont montré qu’en dérivation, l’augmentation de la taille

catégorielle d’une famille morphologique correspond à la décroissance du niveau de la

productivité morphologique. Cette corrélation, existe-t-elle également pour les noms

composés ?

126

Pour dégager une corrélation possible, toutes les données statistiques obtenues pour les

composés garde-x sont récapitulées dans le Tableau 4-9 (où N = nombre d’occurrences ;

n1 = nombre d’hapax ; F = taille de la famille morphologique ; Fm = taille moyenne de la

famille morphologique ; P = productivité au sens strict ; T = taille catégorielle de la famille

morphologique ; FR = fréquence relative).

Tableau 4-9 Corrélation entre les trois mesures pour les composes garde-x

Mesure 1606-1694 1695-1798 1799-1872 1873-1920 Total Moyenne

N 75 430 491 320 1316 329

n1 2 8 2 13 25 6.3

F 34 160 219 248 661 165

Fm 6.8 9.4 11.5 11.3 39 9.8

P 0.027 0.019 0.004 0.041 0.091 0.023

T 4.10 16.67 19.97 22.96 63.70 15.93

FR 0.009 0.030 0.027 0.025 0.091 0.023

En premier lieu, la corrélation inverse entre la productivité morphologique P et la taille

catégorielle T de la famille morphologique des composés garde-x n’a pas été confirmée.

Ainsi, le niveau P le plus élevé (P4 = 0.041) ne correspond pas à la mesure T la plus basse

(T1 = 4.10) et le niveau P le plus bas (P3 = 0.004) ne correspond pas à la mesure T la plus

élevée (T4 = 22.96). En outre, on remarque une corrélation directe entre les mesures P et

T dans seulement 50 % de cas : cette tendance apparaît dans les années 1873-1920

(P4 = 0.041vs T4 = 22.96) et 1695-1798 (P2 = 0.019 vs T2 = 16.67).

En deuxième lieu, il existe une corrélation directe assez forte (75 %) entre la fréquence

d’occurrences, la taille de la famille morphologique et la taille catégorielle des composés

garde-x. Par exemple, la croissance de la fréquence d’occurrences des composés garde-x

(N1 = 75, N2 = 430 ; N3 = 491, etc.) correspond à l’augmentation du niveau de la taille

catégorielle de ces structures (T1 = 4.10 ; T2 = 16.67 ; T3 = 19.97 ; T4 = 22.96) et à la

famille morphologique la plus grande (F1 = 34, F2 = 160 ; F3 = 219, F4 = 248).

127

En ce qui concerne une corrélation possible entre les mesures FR et T, on constate une

corrélation directe dans seulement 50 % des cas, ce qui n’a aucune valeur significative.

Ainsi, le niveau FR le plus bas (FR1 = 0.009) correspond à la mesure T la plus petite

(T1 = 4.10) et la troisième mesure FR la plus basse (FR3 = 0.027) est corrélée à la troisième

mesure T la plus petite (T3 = 19.97).

Enfin, il n’existe pas de corrélation directe ou indirecte entre le niveau de productivité P et la

fréquence relative FR des formes recensées.

Donc, pour obtenir des résultats fiables en termes d’une corrélation possible entre les

mesures P et T d’un côté, et P et FR de l’autre, des recherches complémentaires sont

nécessaires, qui prennent en compte un plus large éventail de données. Les résultats de ce

travail plus vaste sont présentés au Chapitre 5.

4.6 Conclusion Dans ce chapitre, j’ai exploré plusieurs questions méthodologiques concernant l’organisation

et l’utilisation de différentes bases de données dans l’évaluation de la productivité

morphologique des noms composés.

Malgré le caractère relativement restreint de l’utilisation des dictionnaires dans la recherche

sur la productivité morphologique (cf. 4.2), j’ai utilisé le Dictionnaire de Littré pour créer

une liste préalable de formes recensées. Toutefois, parmi 1970 composés à trait d’union tirés

du Littré, seulement 275 composés ont été retenus pour être mesurés dans Frantext. Dans la

majorité des cas (177 composés, soit 64 %), il s’agit de formes régulières qui sont

sémantiquement transparentes et potentiellement décomposables (e.g. chat-cervier, piste de

danse, bout-à-port, bec-cornu, etc.). Ces composés appartiennent aux quatre types

structuraux (gabarits) suivants : N-N, A-N, N-A et N-de-N.

Un but important de ce chapitre était de présenter l’étude pilote que j’ai menée, visant à

tester la méthodologie et à vérifier les corrélations possibles entre les trois mesures de

productivité. L’utilisation du corpus textuel Frantext au cours de l’étude pilote a confirmé

l’adéquation de cette base de données et la faisabilité de tous les calculs nécessaires aux

mesures retenues. Ce corpus informatisé, avec plus de 4000 textes et 170 millions

128

d’occurrences, est très représentatif puisqu’il est formé de textes de types différents : œuvres

littéraires, historiques, politiques, philosophiques, scientifiques, etc.

Au cours de l’étude pilote, j’ai évalué la productivité des composés garde-x au moyen des

trois mesures quantitatives retenues : productivité au sens strict, la fréquence relative, la taille

catégorielle de la famille morphologique.

Dans le travail consacré à la productivité de l’affixe un- en anglais, Baayen et Hay (2002) ont

montré que l’augmentation de la taille de la famille catégorielle des dérivés formés avec cet

affixe correspond à l’abaissement du niveau de sa productivité. Toutefois, l’étude-pilote n’a

pas révélé cette tendance pour les composés français garde-x. La corrélation directe entre les

mesures P et T (i.e. les formes possédant le niveau de productivité P le plus élevé

correspondent à la mesure de la taille catégorielle T la plus grande) a été observé seulement

dans 50 % des cas, soit pour deux périodes sur quatre (1695-1798 et 1873-1920).

De même, les résultats de l’étude pilote ont démontré que, dans le cas des composés garde-x,

il n’existe pas de rapport entre le critère de la fréquence relative FR et la taille catégorielle T

de la famille morphologique. La corrélation directe entre ces mesures (i.e. le taux FR le plus

bas correspond à la mesure T la plus petite) a été constatée uniquement au cours des années

1606-1694 et 1799-1872, soit dans 50 % de cas analysés.

Enfin, la recherche concernant la corrélation entre les mesures FR et P a abouti à la

conclusion que, dans le cas des composés garde-x, aucun rapport direct ou indirect, n’a été

observé entre les mesures P et FR.

Cependant, l’étude pilote a découvert une corrélation positive (75 %) entre la fréquence

d’occurrences, la taille de la famille et la taille catégorielle de la famille morphologique des

formes recensées. La croissance d’occurrences des composés garde-x entraîne

l’augmentation du nombre de membres dans leur famille morphologique et, par conséquent,

le taux le plus élevé de la taille catégorielle des formes recensées.

En somme, trois mesures de productivité ont été examinées lors de l’étude pilote, quoique la

vraie corrélation entre ces mesures n’ait pas encore été révélée. Puisque le pourcentage des

cas de corrélation P-T d’un côté et P-FR de l’autre constitue seulement 50 %, les résultats

129

obtenus sont considérés comme inconcluants. Une des explications possibles du manque de

corrélation (inverse ou directe) stable peut être liée au nombre réduit de structures analysées

(34 composés). On peut donc penser que la recherche sur l’ensemble des composés révélera

des résultats plus probants.

Par ailleurs, l’étude pilote sur la productivité des composés garde-x a validé les choix

méthodologiques retenus. D’une part, de sa grande taille et ses fonctionnalités

d’interrogation, Frantext s’est révélé comme une base de données très adéquate. D’autre

part, les trois mesures de productivité sont également apparus comme opératoires (i.e. le

recueil de données, les calculs, les analyses) en permettant de raffiner la recherche sur la

productivité des formes recensées, en ce qui concerne le traitement des résultats obtenus.

Par conséquent, cette méthodologie a donc été appliquée à l’ensemble des composés retenus

(N-N, A-N, N-A et N-de-N) dans Frantext. Les résultats des calculs, la comparaison par

période et les corrélations entre les mesures sont présentés en détails au Chapitre 5.

130

CHAPITRE 5

L’analyse de la productivité des noms composés français

5.1 Introduction Dans le chapitre précédent, j’ai présenté la méthodologie nécessaire pour effectuer l’analyse

de la productivité des noms composés français à l’aide du corpus textuel Frantext. L’étude

pilote sur les composés garde-x a testé le choix des mesures d’évaluation et les différents

moyens d’exploitation du corpus. Ce travail a confirmé mes choix de méthodes de recherche

et de mesures utilisées.

Dans ce chapitre je présente les résultats obtenus : 177 noms composés réguliers et 98

composés irréguliers seront analysés pour découvrir une corrélation possible entre les

différentes mesures de productivité morphologique. Ces composés appartiennent aux quatre

types suivants : N-N, A-N, N-A et N-de-N.

Pour évaluer la productivité des structures en question, les trois mesures de productivité

présentées en 4.3.5 seront utilisées dans la recherche tant globalement que par période. De

plus, le changement du niveau de productivité des formes recensées sera évalué en fonction

de la position de la tête morphologique et du statut régulier/irrégulier des composés, qui à

son tour est basé sur leur transparence sémantique et leur compositionnalité. Ainsi, les

composés réguliers représentent les formes dont la signification est compositionnelle et dont

les propriétés sémantiques (et également syntaxiques) peuvent être déduites des propriétés de

leurs constituants (par exemple, un chou-fleur est une sorte de chou ressemblant à une fleur).

La majorité des composés endocentriques sont des structures régulières. Par contre, les

composés exocentriques sont envisagés comme structures régulières ou irrégulières selon la

possibilité d’inférer une tête logique.

Les résultats concernant la productivité des composés garde-x obtenus au cours de l’étude

pilote ont démontré que la corrélation entre la productivité et la taille catégorielle de la

131

famille morphologique des formes recensées n’a pas été confirmée. Le rapport direct entre

ces deux mesures a été observé dans seulement 50 % des cas, ce qui n’a aucune valeur

significative. En ce qui concerne le lien entre la productivité et la fréquence relative,

l’existence de la corrélation directe (ou indirecte) entre ces mesures n'a toujours pas été

confirmée dans le cas des composés garde-x.

Dans ce chapitre, je vise à vérifier les quatre hypothèses suivantes :

1. Le taux de productivité des composés N-N, A-N, N-A et N-de-N dépend de la

position de la tête morphologique et du statut régulier/irrégulier des composés. Les formes

les plus productives sont, généralement, les structures régulières et celles avec la tête

morphologique à gauche. Cette hypothèse découle de l’aspect qualitatif de productivité,

selon lequel les formes irrégulières ne forment pas de patrons productifs ; ainsi, elles ne sont

pas considérées comme productives et elles doivent être stockées dans la mémoire (Bauer

2001 : 147). Deuxièmement, la majorité des composés français possèdent la tête

morphologique à gauche.48 Les composés avec la tête à droite sont généralement considérés

comme peu nombreux et moins productifs que ceux dont la tête est à gauche, du moins en

synchronie (Gross 1996 : 31 ; Mathieu-Colas 1994 : 229 ; Brousseau et Nikiema 2001 : 347).

2. Le taux de productivité des composés N-N, A-N, N-A et N-de-N est lié à la structure

interne du composé : les types N-N et N-de-N sont les structures les plus productives en

synchronie (Brousseau et Nikiema 2001 : 347-348 ; Mathieu-Colas : 1994 : 229, 240)49.

3. Il existe une corrélation inverse entre la productivité et la taille catégorielle de la

famille morphologique des composés : la croissance de la taille catégorielle de la famille

morphologique correspond à la décroissance du taux de productivité du composé (Baayen et

Hay 2002 ; De Jong, Schreuder et Baayen 2000 ; Moscoso del Prado Martin al. 2004).

48

Tel que mentionné par Y. Bourque (Yves Bourque, communication personnelle, 7 octobre 2012), la majorité de composés N-N, N-à-N, N-de-N analysés dans sa thèse de doctorat (à paraitre : Vers une typologie de l'opacité sémantique des unités polylexicales) constituent des formes endocentriques avec la tête à gauche (1279 sur 1593 ou 80 %). 49

Le nombre de structures les plus fréquentes dans la base de données de Y. Bourque (2012) se distribue de la façon suivante : les composés N-N (4133) ; les composés N-A (3115) ; les composés N-de-N (2668) ; les composés A-N (744) ; les composés N-à-N (458). Voir http ://polylexical.com.

132

4. Le niveau de productivité des composés N-N, A-N, N-A et N-de-N est en relation

inverse à celui de sa fréquence relative : les mots composés dont la fréquence relative est

plus basse sont plus productifs que ceux dont la fréquence relative est plus élevée (Hay

2003 :151). Je cherche à vérifier si la notion de la fréquence relative proposée par Hay

(2003) pour les mots affixés, peut aussi être appliquée aux mots composés.

Finalement, je vise à répondre à la question suivante : la mesure de productivité P au sens

strict, est-elle suffisamment fiable comme seul moyen de calcul du taux de productivité des

noms composés ?

Ce chapitre est organisé de la façon suivante. La section 5.2 présente l’analyse de la

productivité morphologique des formes recensées selon la mesure P basée sur les hapax.

L’objet de la section 5.3 est d’évaluer la productivité des composés N-N, A-N, N-A et

N-de-N en termes de la taille de la famille morphologique. La section 5.4 est consacrée à

l’étude de la corrélation potentielle entre la productivité morphologique et la fréquence

relative des formes analysées. Dans la section 5.5, je discute les résultats obtenus selon ces

trois mesures de la productivité. La section 5.6 a pour objet de présenter l’étude diachronique

de la productivité des noms composés français du XVIIe jusqu’au début du XXe siècle. Enfin,

les résultats sont discutés globalement dans la conclusion (section 5.7).

5.2 Productivité basée sur les hapax Je commence l’analyse de la productivité des formes recensées par la mise en œuvre de la

mesure quantitative la plus utilisée actuellement, celle de la productivité P au sens strict de

Baayen (Baayen 1992 ; Baayen et Lieber 1991 ; Baayen et Renouf 1996). Rappelons que

cette mesure, basée sur la notion d’hapax legomenon, est notée de la façon suivante.

(1) P = n1 / N où P = la productivité ; n1 = le nombre d’hapax legomena (les formes qui apparaissent une fois seulement dans un grand corpus) ; N = le nombre total d’occurrences des formes recensées dans le corpus.

Ce calcul évalue la productivité du gabarit (du type) des noms composés en démontrant le

taux de croissance du vocabulaire.

133

Rappelons également que la recherche sur la productivité des composés N-N, A-N, N-A et

N-de-N est basée sur le corpus Frantext, dont la taille est suffisamment grande pour que cette

mesure quantitative puisse être appliquée (environ 4000 textes comptant plus de 170 millions

d’occurrences (cf. la section 4.3.4)). Étant donné que la recherche englobe une durée assez

longue (du XVIIe au début du XXe siècle), je prévois un abaissement de la valeur P dans les

formes recensées au fur et à mesure qu’on avance dans le temps puisque les hapax qui se

répètent dans les périodes historiques postérieures ne représentent plus de mots nouveaux. En

conséquence, seulement de vrais hapax seront pris en considération dans l’étude, c’est-à-dire,

les hapax qui apparaissent dans le corpus pour la première fois (et qui sont donc absents des

sous-corpus des périodes précédentes ; cf. 4.3).

5.2.1 Productivité des composés N-N

Parmi les 72 noms composés N-N, 54 formes sont régulières et 18 sont irrégulières. En

fonction de la position de la tête morphologique, 19 composés N-N endocentriques ont la tête

à gauche, alors que 30 ont la tête à droite. Les composés appositionnels constituent un petit

groupe de formes N-N régulières (cinq), soit :

(2) fille-mère, lord-lieutenant, roman-feuilleton, table-bureau, sud-ouest

La liste de composés N-N réguliers avec de vrais hapax est distribuée selon les quatre

périodes étudiées comme suit (où le constituant souligné est la tête morphologique).

- 1606-1694 : arrière-boutique, arrière-main, arrière-neveu, arrière-pensée, arrière-saison, croix-pile, volte-face.

- 1695-1798 : bien-fonds, chou-fleur, gomme-gutte, lord-lieutenant, rêve-creux, taupe-grillon.

- 1799-1872 : chou-rave, tiers-point.

- 1873-1920 : arrière-sens.

Les composés N-N irréguliers sont au nombre de 18. Les formes représentant de vrais hapax

dans ce type de composés sont réparties de la façon suivante.

- 1606-1694 : reine-claude, cache-cache.

134

- 1695-1798 : bout-dehors, côte-rôtie, mont-joie.

- 1799-1872 : huppe-col, patte-fiche, trique-madame.

- 1873-1920 : or-sol.

Les composés N-N qui ont été mesurés sont présentés dans le Tableau 5-150.

Tableau 5-1 Productivité des composés N-N selon la position de la tête Position de la

Position de la tête

1606-1694 1695-1798 1799-1872 1873-1920 P Total

N n1 P N n1 P N n1 P N n1 P

N-N réguliers (2944) Tête à gauche 5

2

2 0.0385 121 3 0.0248 443 1 0.0023 207 - 0.0073

Tête à droite 33

5 0.1515 312 2 0.0064 735 1 0.0014 535 1 0.0019 0.0056

Appositionnels 6 - - 167 1 0.0060 206 - - 127 - - 0.0020

Total réguliers

91

7 0.0770 600 6 0.0100 1384 2 0.0014 869 1 0.0012 0.0054

N-N irréguliers (404)

Exocentriquess irréguliers

55

2 0.0364 64 3 0.0469 196 3 0.0153 89 1 0.0112 0.0223

En analysant les données du tableau ci-dessus on voit que :

a) Parmi les composés N-N réguliers, les formes dont la tête est à gauche sont considérées

comme les plus productives à cause de leur rendement global (P total = 0.0073).

b) Les formes N-N avec la tête à droite sont considérablement plus productives pendant la

première période (P1 = 0.1515) ce qui est lié à la petite valeur de N (N = 33)51 et le nombre

assez élevé d’hapax (n1 = 5). Le taux de leur productivité s’abaisse considérablement à partir

de 1695.

c) Étant donné que les composés N-N appositionnels forment un petit groupe dont les hapax

n'apparaissant qu'une seule fois dans Frantext, la productivité de ce type de composés ne

peut pas être évaluée de façon fiable.

50 Dans les tableaux 5-1 à 5-6, les zones ombrées représentent le niveau de productivité le plus élevé pour chaque type de composé. Elles identifient donc la période où un type donné était le plus productif. 51 D’après Sigley (1997 : 219, cité dans Bauer 2001 :151), pour que le les propriétés de P soient mathématiquement significatives, le total des formes (N) doit, au minimum, être égal à 50. Donc, toutes les données où N<50 doivent être considérées avec prudence.

135

d) En général, on peut voir que les composés N-N réguliers possèdent le niveau de

productivité le plus élevé pendant la première période 1606-1694 (P1 = 0.0770). Le taux de

leur productivité diminue constamment de 1695 à 1920.

e) Les formes exocentriques irrégulières sont les plus productives tout au long des trois

périodes analysées, en montrant le taux le plus élevé au cours des années 1695-1798

(P2 = 0.0469).

Globalement, comme le montre le Tableau 5-1, la productivité des composés N-N dépend de

la position de la tête morphologique. Les composés avec la tête à gauche sont constamment

productifs lors des trois premières périodes analysées. Par contre, le niveau de productivité

des composés N-N endocentriques dont la tête est à droite est élevé seulement pendant les

années 1606-1694 (P1 = 0.1515). Toutefois, ce résultat ne semble pas être convaincant

puisque le nombre total de formes analysées est moins de 50 (N = 33). Par ailleurs, le petit

nombre d’occurrences de ce type est lié aux plusieurs hapax (cinq hapax sur 30 composés)

ressortis entre 1606 et 1694 (arrière-main, arrière-neveu, arrière-pensée, arrière-saison,

volte-face). À partir des années 1695-1798, la productivité de ce type de composés s’abaisse

fortement en devenant comparable à celle des composés appositionnels.

Pour ce qui est des formes régulières, la productivité des trois types de composés (avec la

tête à droite, à gauche, appositionnels) est très similaire pendant la période de 1873-1920

(voir le Graphique 5-1).

Graphique 5-1 Productivité des composés N-N réguliers selon la position de la tête

0

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16

1606-1694 1695-1798 1799-1872 1873-1920

tête à gauche tête à droite appositionnels

136

En outre, lors des années 1606-1694, les composés N-N réguliers dont la tête est à droite sont

quatre fois plus productifs que ceux ayant la tête à gauche. Par contre, à partir des années

1695-1798, et surtout lors de la période 1799-1872, la productivité de ces deux types de

composés s’abaisse de façon considérable.

De plus, le Tableau 5-1 révèle la productivité la plus élevée des N-N réguliers au cours des

années 1606-1694 en comparaison aux périodes postérieures. Ce phénomène peut être

expliqué par le fait que la taille du corpus de la période 1606-1694 (17,303,466 mots) est

deux fois plus petite que celle des années 1695-1798 (34,393,102 mots) et 2.4 fois inférieure

à celle des années 1799-1872 (40, 823,334 mots).

On peut aussi bien voir que la productivité des composés N-N dépend de leur statut

régulier/irrégulier. Pendant la période 1606-1694, les composés réguliers sont deux fois plus

productifs que les composés irréguliers. Par contre, à partir de l’année 1695, leur productivité

s’abaisse énormément.

Ainsi, il apparaît que les chiffres du Tableau 5-1 fournissent des données fort inattendues :

globalement, la productivité des composés N-N exocentriques irréguliers (P = 0.0223) est 4.1

fois plus élevée que celle des composés N-N réguliers (P = 0.0054).

Le taux de productivité assez élevé des composés irréguliers est un résultat imprévu. Ce type

de composés (e.g. reine-claude, cache-cache) représente des structures non-décomposables

qui doivent être stockées dans le lexique. En fonction de l’aspect qualitatif de productivité,

les formes stockées ne sont pas associées à des patrons productifs puisqu’elles ne sont pas

décomposables (Baayen et Lieber 1991 : 808). Pour qu’un processus morphologique soit

productif, il doit être capable de former un nombre infini de dérivés de façon non-

intentionnelle. Autrement dit, ce processus doit être disponible comme un patron

morphologique productif pour former de nouveaux lexèmes n’existant pas auparavant et dont

le locuteur ignore l’existence. Bauer (2001 : 147) suggère que, par définition, les mots

formés par des patrons non-productifs doivent être lexicalisés avec une ou plusieurs

significations spécialisées. Selon Hay (2001 : 145), la productivité est un continuum qui

surgit comme une fonction des mots décomposés dans le lexique : plus un mot complexe est

représenté par des formes décomposables, plus il a des chances d’être productif.

137

Compte tenu de ce qui précède, le fait que le niveau élevé de productivité des composés

exocentriques irréguliers augmente même pendant la période 1695-1798 (P2 = 0.0469 vs

P1 = 0.0364) est paradoxal parce que ce type de composés représente des formes non-

décomposables qui ne forment pas de patrons morphologiques productifs. Ainsi, dans le cas

des composés exocentriques irréguliers, les résultats obtenus soulèvent la question de la

fiabilité de la mesure P au sens strict. Je reviendrai sur cette question dans la section 5.2.6.

Le changement du niveau de productivité des composés N-N selon l’axe régulier/ irrégulier

est récapitulé dans le Graphique 5-2.

Graphique 5-2 Productivité des composés N-N selon l’aspect régulier/irrégulier

00.010.020.030.04

0.050.060.070.080.09

1606-1694 1695-1798 1799-1872 1873-1920

réguliers irréguliers composés N-N (total)

5.2.2 Productivité des composés A-N

Passons maintenant à l’examen des composés A-N qui représentent le type le plus

nombreux : 137 composés dont 102 sont réguliers et 35 sont irréguliers. Parmi les 102

composés réguliers, 87 ont la tête à droite et 15 sont des exocentriques (i.e. claire-voie,

haute-taille, longue-langue).

La liste de composés A-N réguliers avec de vrais hapax (32) se présente comme suit (où le

constituant souligné est la tête morphologique).

- 1606-1694 : bel-outil, blanc-manger, claire-voie, courte-boule, courte-lettre, courte-pointe, courte-queue, demi-frère, double-canon, double-chaîne, haut-le-corps, haute-taille, mort-bois, mort-gage, sainte-nitouche.

138

- 1695-1798 : basse-étoffe, blanc-bois, demi-sœur, double-front, grosse-gorge, longue-langue.

- 1799-1872 : bas-justicier, bas-métier, blanc-manteau, court-côté, demi-autour, demi-bosse, faux-saunier, franc-funin, vide-poches.

- 1873-1920 : court-bâton, noir-museau.

Parmi les 35 composés A-N irréguliers, neuf sont de vrais hapax ; ils sont distribués de la

façon suivante entre les quatre périodes étudiées.

- 1606-1694 : bonne-vilaine, double-bec, gros-jean, petit-bouc, saint-gall.

- 1695-1798 : bonne-voglie, gros-colas.

- 1799-1872 : 0.

- 1873-1920 : dur-bec, toute-table.

Le taux de productivité des composés A-N réguliers et irréguliers varie d’une période à

l’autre. Ainsi, la productivité de ce type de composés est résumée dans le Tableau 5-2.

Tableau 5-2 Productivité des composés A-N réguliers et irréguliers selon la position de la tête morphologique

Position de la tete

1606-1694 1695-1798 1799-1872 1873-1920 P Total

tot N n1 P N n1 P N n1 P N n1 P

A-N réguliers (24696)

Tête à droite 2986 8 0.0027 6241 4 0.0006 8659 8 0.0009 6116 1 0.0002 0.0009

Exocentriques réguliers

7 7 1.0000 52 3 0.0577 360 4 0.0111 268 1 0.0037 0.0218

Total réguliers

2993 15 0.0050 6293 6 0.0010 9008 9 0.0010 6402 2 0.0003 0.0013

A-N irréguliers (4802)

Exocentriques irréguliers

860 5 0.0058 1110 2 0.0018 1932 0 - 900 2 0.0022 0.0019

Total exocentriques

867 12 0.0138 1162 5 0.0043 2292 4 0.0017 1168 3 0.0026 0.0044

Du tableau ci-dessus se dégagent les conclusions suivantes :

a) La productivité des composés A-N réguliers est très similaire à celle des composés

A-N irréguliers pendant les années 1606-1694 (P1 = 0.0050 vs P1 = 0.0058). À partir de la

139

période 1695-1798, le taux de productivité des composés irréguliers devient plus élevé que

celui des composés réguliers.

b) La productivité des composés A-N dépend de la position de la tête morphologique. En

comparaison aux composés A-N avec la tête à droite (P1 = 0.0027 ; P2 = 0.0006 ; P3 =

0.0009 ; P4 = 0.0002), les composés exocentriques réguliers sont considérablement plus

productifs (P1 = 1.0000 ; P2 = 0.0577 ; P3 = 0.0111 ; P4 = 0.0037) durant toutes les périodes

analysées. Cependant, le résultat P1 = 1.0000 doit être pris en considération prudemment. En

premier lieu, le nombre d’occurrences est moins de 50 (N = 7) (cf. Sigley § 5.2.1). En

deuxième lieu, comme le montre Baayen (1992 :143), le taux très élevé de productivité

présenté par un nombre assez bas d’occurrences doit être envisagé avec beaucoup de

précautions. Le problème consiste dans le fait que pour une petite valeur de N les

mathématiques sous-jacentes ne s'appliquent pas au calcul de la mesure P.

Ce phénomène a été aussi noté par Bauer (2001 : 150).52

c) Globalement, les A-N exocentriques réguliers (P = 0.0218) sont 11.5 fois plus productifs

que les exocentriques irréguliers (P = 0.0019).

d) Toutefois, la productivité totale des composés A-N irréguliers est légèrement plus élevée

que celle des A-N réguliers (P = 0.0019 vs P = 0.0013).

e) Entre 1606 et 1920, les composés A-N exocentriques (réguliers et irréguliers) sont plus

productifs que les composés dont la tête est à droite.

La productivité des composés A-N est présentée dans le Graphique 5-3, basé sur un axe

logarithmique pour mieux différencier les composés réguliers et irréguliers.

52

Bauer (2001 :151) attire l’attention sur le cas du suffixe -iana qui ressort une fois seulement (N = 1) dans le corpus Wellington (Victoriana) et dont n1 = 1. Théoriquement, ce suffixe doit être considéré comme 100 % productif. Néanmoins, Bauer indique que tous les cas où N = 1 doivent être examinés avec prudence : plus le nombre d’occurrences des formes recensées est petit, moins les résultats peuvent être considérés comme concluants.

140

Graphique 5-3 Productivité des composés A-N selon la position de la tête

0.0001

0.001

0.01

0.1

11606-1694 1695-1798 1799-1872 1873-1920

tête à droite exocentriques réguliers exocentriques irréguliers

Comme le montre le graphique ci-dessus, les composés A-N exocentriques réguliers sont

considérablement plus productifs que les A-N irréguliers et surtout les A-N avec la tête à

droite au cours des années 1606-1798. Par contre, lors de la période 1873-1920, la

productivité des A-N endocentriques diminue énormément lorsque le taux de productivité

des A-N exocentriques réguliers et irréguliers devient assez similaire.

Le changement du niveau de productivité des composés A-N selon l’aspect régulier/

irrégulier est récapitulé dans le Graphique 5-4.

Graphique 5-4 Productivité des composés A-N (réguliers vs irréguliers)

Le graphique ci-dessus indique que le niveau de productivité des composés A-N réguliers et

irréguliers était assez similaire pendant la première période (P1 = 0.0050 vs P1 = 0.0058).

Toutefois, entre 1695 et 1798, la productivité des A-N irréguliers est presque deux fois plus

141

élevée que celle des A-N réguliers (P2 = 0.0018 vs P2 = 0.0010) ; pour la période 1873-1920,

la productivité des composés irréguliers augmente considérablement (sept fois).

En général, le taux le plus élevé des composés A-N apparaît pendant la période 1606-1694

(P1 = 0.0052). À partir des années 1695-1798, leur productivité s’abaisse graduellement.

5.2.3 Productivité des composés N-A

Les composés N-A sont peu nombreux : 16 formes régulières et 23 formes irrégulières.

Parmi les composés N-A réguliers, 13 ont la tête à gauche et trois composés sont

exocentriques : bec-cornu, pic-vert, pied-bleu.

La liste de composés N-A réguliers avec de vrais hapax (7) est distribuée de la manière

suivante (où le constituant souligné est la tête morphologique).

- 1606-1694 : arc-boutant, acquit-patent, bec-cornu, porc-épic.

- 1695-1798 : criste-marine, pic-vert.

- 1799-1872 : pied-bleu.

- 1873-1920 : 0.

Le groupe de composés N-A irréguliers est plus grand que celui des réguliers : 23 formes au

total, dont sept formes se caractérisent par la présence de vrais hapax.

- 1606-1694 : bouillon-blanc, cul-bas, sang-gris, ver-coquin.

- 1695-1798 : bec-allongé, cou-jaune.

- 1799-1872 : 0.

- 1873-1920 : bec-courbe, bec-dur.

Le tableau ci-dessous présente le taux de productivité des composés N-A, qui varie de façon

considérable d’une période à l’autre.

142

Tableau 5-3 Productivité des composés N-A selon la position de la tête morphologique


1606-1694 1695-1798 1799-1872 1873-1920 P total

N n1 P N n1 P N n1 P N n1 P

N-A réguliers (1855)

Tête à gauche 114 3 0.0263 393 1 0.0025 799 - - 540 - - 0.0022


1 1 1.0000 2 1 0.5000 6 1 0.1667 - - - 0.3333

Total réguliers 115 4 0.0348 395 2 0.0051 805 1 0.0012 540 - - 0.0038 N-A irréguliers (2842)


107 4 0.0374 888 2 0.0023 1307 - - 540 2 0.0037 0.0028

Conformément à la position de la tête morphologique, la comparaison du niveau de

productivité des composés N-A montre que :

a) Pendant les trois premières périodes analysées, les composés exocentriques réguliers sont

plus productifs que les composés dont la tête est à gauche. Néanmoins, ces résultats sont à

interpréter avec précaution à cause du petit nombre d’occurrences pour ce type tout au long

des années 1606-1872 (N1 = 1 ; N2 = 2 ; N3 = 6). Si on met de côté les exocentriques

réguliers, il apparaît qu’au total, le niveau de productivité des N-A avec la tête à gauche et

des N-A irréguliers, est presque identique (P = 0.0022 vs P = 0.0028).

b) Le taux de productivité des composés N-A avec la tête à gauche ne peut pas être analysé

entre 1799 et 1920 pour cause de lacunes de données statistiques.

c) Comme dans le cas des composés A-N, le niveau de productivité des composés N-A

réguliers et celui des composés N-A irréguliers sont presque identiques pendant la période

1606-1694 (P1 = 0.0348 vs P1 = 0.0374). Entre 1695-1798, la productivité des composés

N-A réguliers diminue considérablement (P2 = 0.0051) ; néanmoins, ce type de composés

reste plus productif que celui des composés N-A irréguliers (P2 = 0.0023).

d) Contrairement au cas des composés N-N et A-N, où les formes irrégulières étaient plus

productives que les régulières, le taux de productivité des N-A réguliers (P = 0.0038) lors des

années 1606 et 1920 est plus élevé que celui des N-A irréguliers (P = 0.0028).

143

Le changement de la productivité est présenté dans le graphique suivant.

Graphique 5-5 Productivité des composés N-A selon la position de la tête morphologique

On voit que les N-A exocentriques réguliers sont considérablement plus productifs que les

autres types N-A. Les N-A avec la tête à gauche et les N-A exocentriques irréguliers ont une

productivité assez similaire pendant la première période (P1 = 0.0263 vs P1 = 0.0374) et

surtout, entre 1695 et 1798 (P2 = 0.0025 vs P2 = 0.0023). En outre, les N-A exocentriques

irréguliers montrent une la croissance de productivité dans les années 1873-1920.

L’évolution de la productivité des composés N-A selon le statut régulier/irrégulier est résumé

dans le Graphique 5-6 ; la représentation est basée sur un axe logarithmique pour mieux

distinguer les courbes de productivité des composés réguliers vs irréguliers.

Graphique 5-6 Productivité des composés N-A (réguliers vs irréguliers)

0.0001

0.001

0.01

0.1

11606-1694 1695-1798 1799-1872 1873-1920

réguliers irréguliers Total :

144

On peut voir que globalement, les composés N-A réguliers sont modérément plus productifs

que les N-A irréguliers (P = 0.0038 vs P = 0.0028). Toutefois, chaque type de composés

révèle des données lacunaires pour une période, ce qui rend les résultats obtenus difficiles à

interpréter.

5.2.4 Productivité des composés N-de-N

Les composés N-de-N sont peu nombreux : cinq formes régulières et 22 formes irrégulières.

En fonction de la tête morphologique, les composés N-de-N endocentriques dont la tête est à

gauche sont au nombre de trois : belle-de-jour, belle-de-nuit, mestre de camp. Seulement un

composé N-de-N dont la tête est à droite et un composé exocentrique régulier sont ressortis

dans Frantext : pou-de-soie ; cul-de-jatte.

Le petit groupe de composés réguliers avec de vrais hapax (au nombre de deux) est distribué

au cours des années 1604-1920 de la manière suivante :

- 1606-1694 : belle-de-jour.

- 1695-1798 : 0.

- 1799-1872 : pou-de-soie.

- 1873-1920 : 0.

Les vrais hapax dans les composés N-de-N irréguliers, au nombre de 10, sont les suivants :

- 1606-1694 : bec-de-cane, cou-de-pied, cul-de-sac, sang-de-dragon

- 1695-1798 : cul-de-poule

- 1799-1872 : bec-de-faucon, fleur-de-mai

- 1873-1920 : bec-de-cygne, bec-de-grue, bec-de-lézard

Les données statistiques générales pour les N-de-N sont récapitulées dans le Tableau 5-4.

145

Tableau 5-4 Productivité des composés N-de-N selon la position de la tête morphologique


1606-1694 1695-1798 1799-1872 1873-1920 P total N n1 P N n1 P N n1 P N n1 P

N-de-N réguliers (170)

Tête à gauche 52 1 0.0192 101 0 - 9 0 - 2 0 - 0.0061

Tête à droite - - - - - - 1 1 1.0000 - - - 1.0000


4 0 - - - - - - - 1 0 - -

Total réguliers 56 1 0.0180 101 0 - 10 1 0.1000 3 0 - 0.0118

N-de-N irréguliers (1627)


113 4 0.0354 234 1 0.0043 626 2 0.0032 654 3 0.0046 0.0061

Total exocentriques

117 4 0.0342 234 1 0.0043 626 2 0.0032 654 3 0.0046 0.0061

À partir des chiffres présentés ci-dessus, on peut avancer certains constats :

a) Dans l’ensemble, il n’y a pas suffisamment de données pour tirer des conclusions précises

concernant la productivité des composés N-de-N réguliers. Malgré le niveau de productivité

très élevé de ce type de composés pendant la période 1799-1872 (P3 = 1.0000), ces données

ne peuvent pas être considérées comme fiables à cause du nombre d’occurrences trop petit

(N = 1) (cf. § 5.2.2).

b) En ce qui concerne l’aspect régulier/irrégulier des exocentriques, les composés N-de-N

réguliers sont globalement deux fois plus productifs que les N-de-N irréguliers (P = 0.0061).

Néanmoins, il faut prendre en considération le fait que lors des années 1799-1872, il n’y a

qu’une seule occurrence dans les composés N-de-N avec la tête à droite.

c) Le fait que les composés irréguliers soient constamment productifs dès 1605 à 1920 est un

résultat inattendu qui est contradictoire à l’aspect qualitatif de la productivité (cf. 5.2.1).

d) Quant à la corrélation entre le niveau de productivité et la position de la tête

morphologique des composés N-de-N réguliers, aucune conclusion n’est possible en raison

des données lacunaires pour les composés réguliers.

146

Le graphique ci-dessous montre le rapport entre le niveau de productivité et le facteur

régulier/irrégulier des composés N-de-N. Il est basé sur un axe logarithmique pour mieux

distinguer les courbes de productivité des composés réguliers et irréguliers.

Graphique 5-7 Productivité des composés N-de-N selon l’aspect régulier/ irrégulier

0

0.02

0.04

0.06

0.08

0.1

0.12

1606-1694 1695-1798 1799-1872 1873-1920

réguliers irréguliers Total :

Conformément à la représentation ci-dessus, le taux de productivité le plus élevé est observé

dans les N-de-N réguliers entre 1799 et 1872. Cependant, pendant la première période, la

productivité des N-de-N réguliers est presque deux fois plus bas que celui des N-de-N

irréguliers. En même temps, rappelons que dans le cas des N-de-N réguliers, on observe les

lacunes de données statistiques entre les années 1695-1798 et 1873-1920. Compte tenu de

ces faits, il est impossible de déduire des conclusions fiables à partir des résultats obtenus

pour ce type de composés.

5.2.5 Facteurs corrélés à la productivité au sens strict

Dans les sections 5.2.1-5.2.4, j’ai présenté l’analyse du niveau de productivité des composés

N-N, A-N, N-A et N-de-N en utilisant la mesure P au sens strict basée sur la notion d’hapax

legomenon. À partir des résultats obtenus, j’ai abouti à la conclusion que le taux de

productivité morphologique dépend de facteurs différents, tels que la position de la tête

morphologique, l’aspect régulier/irrégulier et le type du composé. L’analyse détaillée de

cette corrélation sera discutée dans les sections 5.2.5.1-5.2.5.3.

147

5.2.5.1 Productivité et position de la tête morphologique

Les données sur la productivité des types N-N, A-N, N-A et N-de-N en fonction de la tête

morphologique sont résumées dans le Tableau 5-553.

Tableau 5-5 Productivité des composés N-N, A-N, N-A et N-de-N selon la position de la tête morphologique

Type 1606-1694 1695-1798 1799-1872 1873-1920 Total

P N n1 P N n1 P N n1 P N n1 P Tête à gauche (2833)

N-N 52 2 0.0385 121 3 0.0248 443 1 0.0023 207 -

N-A 114 3 0.0263 393 1 0.0025 799 - - 540 - -

N-de-N 52 1 0.0192 101 0 - 9 0 - 2 - -

Total 218 6 0.0275 615 4 0.0065 1251 1 0.0008 749 - 0.0039

Tête à droite (25 618)

N-N 33 5 0.1515 312 2 0.0064 735 1 0.0014 535 1 0.0019

A-N 2986 8 0.0027 6241 4 0.0006 8659 8 0.0009 6116 1 0.0002

N-de-N - - - - - - 1 1 1.0000 - - -

Total 3019 13 0.0043 6553 6 0.0009 9395 10 0.0011 6651 2 0.0003 0.0012

Exocentriques réguliers (701)

A-N 7 7 1.0000 52 3 0.0577 360 4 0.0111 268 1 0.0037

N-A 1 1 1.0000 2 1 0.5000 6 1 0.1667 - - -

N-de-N 4 0 - - - - - - - 1 0 -

Total 12 8 0.6667 54 4 0.0741 366 5 0.0137 269 1 0.0037 0.0257

Appositionnels (506)

N-N 6 - - 167 1 0.0060 206 - - 127 - -

Total 6 - - 167 1 0.0060 206 - - 127 - - 0.0020

Exocentriques irréguliers (9675)

N-N 55 2 0.0364 64 3 0.0469 196 3 0.0153 89 1 0.0112

A-N 860 5 0.0058 1110 2 0.0018 1932 0 - 900 2 0.0022

N-A 107 4 0.0374 888 2 0.0023 1307 - - 540 2 0.0037

N-de-N 113 4 0.0354 234 1 0.0043 626 2 0.0032 654 3 0.0046

Total 1135 15 0.0132 2296 8 0.0035 4061 5 0.0012 2183 8 0.0037 0.0037

53

Les zones ombrées représentent la valeur totale de P selon la position de la tête morphologique.

148

Généralement, en français, les composés endocentriques dont la tête est à gauche sont

considérés en synchronie comme les formes les plus productives (Brousseau 2001 : 347 ;

Gross 1996 : 31 ; Mathieu-Colas 1994 : 229). Toutefois, comme le montre le tableau ci-

dessus, les structures les plus productives sont les formes exocentriques régulières (voir les

sections ombrées). Le taux de productivité de ces formes est beaucoup plus élevé que celui

des composés avec la tête à gauche (6.6 fois), celui des composés avec la tête à droite (21.4

fois) et celui des composés appositionnels (12.9 fois). Il est intéressant de noter le déclin du

taux de productivité des composés réguliers exocentriques dans les années 1873-1920, se

soldant par un niveau de productivité similaire à celui des composés exocentriques irréguliers

(P4 = 0.0037).

Les composés dont la tête est à gauche constituent la deuxième structure la plus productive

(P = 0.0039). Toutefois, le taux de productivité de ces composés diminue progressivement

dans les années 1695-1872 (les données étant intéressantes pour la période 1873-1920).

Quant aux composés endocentriques avec la tête à droite, ils représentent les formes les

moins productives (P = 0.0012). Entre 1606 et 1798, le niveau de leur productivité diminue

rapidement suivi d’un petit épanouissement en 1799-1872 et d’un grand déclin en 1873-

1920.

Dans le cas des composés exocentriques irréguliers, dont le niveau de productivité est aussi

élevé (P = 0.0037), le nombre d’occurrences (N = 9675) et le nombre d’hapax (n1 = 36)

dépassent largement les chiffres moyens de ces indices observés dans les autres types de

composés, sauf les structures dont la tête est à droite. Rappelons qu’il s’agit là d’un résultat

paradoxal puisque les formes exocentriques irrégulières ne forment pas de patrons

morphologiques productifs (cf. 5.2.1) et elles doivent être lexicalisées avec des significations

spécialisées (Bauer 2001 :147). Toutefois, globalement, ce type de composés est sept fois

moins productif que les composés exocentriques réguliers.

Il faut également considérer le fait que l’analyse des composés N-N et A-N a révélé le taux le

plus élevé des formes irrégulières par rapport aux formes régulières (cf. Tableaux 5-1 et 5-2).

Selon les résultats obtenus, la proportion entre les valeurs n1 et N (n1/N) est plus basse dans

les structures irrégulières. Par exemple, dans les composés N-N, cette corrélation est

149

présentée de la manière suivante : formes régulières (16/ 2944) vs irrégulières (9/404) (ou

Prég. = 0.0054 vs Pirrég. = 0.0223). En ce qui concerne les composés A-N, la distribution entre

les valeurs n1 et N peut être résumée comme suit : réguliers (32/ 24696) vs

irréguliers (9/4802) (ou Prég. = 0.0013 vs Pirrég. = 0.0019). Par contre, la proportion entre n1 et

N dans les composés N-A réguliers et irréguliers ne diffère pas beaucoup ; réguliers (7/1855)

vs irréguliers (8/2842). En conséquence, il apparaît que les composés A-N réguliers sont plus

productifs que les A-N irréguliers (P = 0.0038 vs P = 0.0028). De plus, malgré le fait que les

N-de-N réguliers sont plus productifs que les N-de-N irréguliers (P = 0.0118 vs P = 0.0061),

ces résultats sont à interpréter avec précautions à cause des données fort lacunaires pour le

type N-de-N régulier.

Ainsi, le fait que les composés irréguliers se comportent bizarrement dans les types N-N et

A-N peut être lié aux facteurs suivants. En premier lieu, ce phénomène peut être expliqué par

certaines limites de l’utilisation de la mesure P qui dépend fortement des valeurs N et n1. En

deuxième lieu, cela peut être lié au nombre disproportionné de valeurs similaires des formes

régulières et irrégulières. Donc, la taille différente de chaque sous-corpus, en termes des

valeurs différentes entre N et n1, peut potentiellement contribuer à ce comportement.

Finalement, les composés appositionnels ne peuvent pas être analysés précisément à cause du

sévère manque de données pour les années 1606-1694, 1799-1872 et 1873-1920.

5.2.5.2 Productivité et type de composés

L’analyse fournit des données intéressantes sur la corrélation entre le taux de productivité et

la structure interne des formes recensées. Le Tableau 5-6 résume les résultats obtenus sur la

productivité des quatre types de composés54.

54

Les zones ombrées représentent le niveau de P le plus élevé pour chaque période.

150

Tableau 5-6 Productivité des composés N-N, A-N, N-A et N-de-N par type

Ppériode type de composés Moyenne N-N A-N N-A N-de-N

1606-1694 0.0616 0.0052 0.0360 0.0296 0.0331

1695-1798 0.0136 0.0011 0.0031 0.0030 0.0052

1799-1872 0.0032 0.0008 0.0005 0.0047 0.0023

1873-1920 0.0021 0.0005 0.0019 0.0046 0.0023

Moyenne 0.0201 0.0019 0.0104 0.0105 0.0107

En fonction de la productivité moyenne la structure N-N représente le type le plus productif

suivi par les composés N-A et A-N qui possèdent un taux de productivité 1.9 fois et 10.6 plus

bas que celui du type N-N. Par contre, la productivité moyenne des composés N-de-N doit

être interprétée avec précaution (cf. section 5.2.4).

En outre, la productivité des composés N-N reste la plus élevée lors de chaque étape

historique analysée. Bien que le niveau de productivité des composés N-de-N ait le plus

élevé entre les années 1799-1920 (P3 = 0.0047), cela ne reflète pas la situation réelle.

Rappelons que ces chiffres sont à interpréter prudemment à cause du petit nombre

d’occurrences pour ce type de composés (cf. section 5.2.4).

Le deuxième type le plus productif, est les N-A. Toutefois, en comparaison avec le type N-N,

le taux de productivité des composés N-A est 1.7 fois plus bas dans les années 1606-1694,

4.8 fois plus bas entre 1695 et 1798 et 6.4 fois plus bas lors des années 1799-1872. La

productivité des composés N-A dans les années 1873-1920 est similaire à celle du type N-N

(P4 = 0.0019 et P4 = 0.0021 respectivement).

Quant à la structure A-N, on voit que ce type de composés a connu une chute beaucoup plus

forte que celle des structures N-N et N-A. Le ralentissement de la productivité des composés

A-N est visible pendant toutes les périodes analysées.

Finalement, il est à noter que globalement, le taux de productivité moyenne des structures

recensées a été le plus élevé dans les années 1605-1694 (P1m = 0.0331). Ces chiffres baissent

151

considérablement entre 1695-1798 (6.4 fois). Toutefois, pendant les années 1799-1872 et

1873-1920, la productivité moyenne des composés N-N, A-N, N-A et N-de-N reste la même.

5.2.5.3 Productivité et aspect régulier/irrégulier des composés

Le troisième facteur corrélé au niveau de productivité est celui de l’aspect régulier/irrégulier

des formes recensées. En fait, il apparaît que l’utilisation de la mesure P au sens strict en

fonction de ce facteur révèle des données fort controversées. Le Tableau 5-7 résume les

résultats obtenus55.

Tableau 5-7 Productivité des composés N-N, A-N, N-A et N-de-N selon l’aspect régulier/irrégulier Type de composé

1606-1694 1695-1798 1799-1872 1873-1920 Total

P N n1 P N n1 P N n1 P N n1 P

Réguliers (29 665)

N-N 91 7 0.0770 600 6 0.0100 1384 2 0.0014 869 1 0.0012

A-N 2993 15 0.0050 6293 6 0.0010 9008 9 0.0010 6402 2 0.0003

N-A 115 4 0.0348 395 2 0.0051 805 1 0.0012 540 - -

N-de-N 56 1 0.0180 101 0 - 10 1 0.1000 3 - -

Total réguliers

3255 27 0.0083 7389 14 0.0019 11207 13 0.0012 7814 3 0.0004 0.0019

Irréguliers (9675)

N-N 55 2 0.0364 64 3 0.0469 196 3 0.0153 89 1 0.0112

A-N 860 5 0.0058 1110 2 0.0018 1932 0 - 900 2 0.0022

N-A 107 4 0.0374 888 2 0.0023 1307 - - 540 2 0.0037

N-de-N 113 4 0.0354 234 1 0.0043 626 2 0.0032 654 3 0.0046

Total irréguliers

1135 15 0.0132 2296 8 0.0035 4061 5 0.0012 2183 8 0.0037 0.0037

Globalement, les composés irréguliers sont presque deux fois plus productifs que les

composés réguliers. Ce fait a été observé pendant trois périodes sur quatre, excluant les

années 1799-1872 où le taux de productivité de composés réguliers et irréguliers est

identique (P3 = 0.0012).

55

Les zones ombrées représentent la valeur totale de P pour les composés réguliers et irréguliers.

152

En ce qui concerne le type de composés, les formes irrégulières sont considérablement plus

productives pour les types N-N (trois périodes) et A-N (1873-1920). On observe l’absence de

cette tendance dans le cas du type N-N en 1606-1695 (P1 = 0.0770) ; du type N-A en 1695-

1798 (P2 = 0.0051) et du type N-de-N en 1799-1872 (P3 = 0.1000).

Compte tenu du fait que les composés irréguliers sont des formes indécomposables qui ne

créent pas de patrons productifs (Bauer 2001 : 147 ; Hay 2001 : 145 ; Baayen et Lieber

1991 : 808) et à partir des résultats obtenus pour les types N-N et A-N (cf. § 5.2.1-5.2.2),

force est de conclure que la mesure P ne peut pas être retenue comme seul outil d’évaluation

du niveau de productivité. Je reviendrai sur cet aspect dans la section 5.5.

5.2.6 Sommaire

Dans les sections 5.2-5.4, j’ai analysé la productivité P des composés en fonction de trois

facteurs : position de la tête morphologique, type de composés et aspect régulier/irrégulier.

Les composés exocentriques réguliers sont les structures les plus productives (P = 0.0257)

(cf. section 5.2.5.1), suivis par les endocentriques avec la tête à gauche (P = 0.0039).

Néanmoins, le taux de productivité des exocentriques irréguliers (P = 0.0037) doit être

interprété avec précaution dû au fait que ces structures, à priori, ne forment pas de patrons

productifs. Les composés appositionnels (P = 0.0020) et les composés avec la tête à droite

(P = 0.0012) ont été identifiés comme les formes les moins productives.

Les composés N-N représentent le type le plus productif indépendamment de la période

analysée (cf. Tableau 5-6), suivis par les N-A et les A-N. Par contre, le taux élevé de

productivité des N-de-N ne peut pas être considéré comme fiable à cause du nombre réduit

d’occurrences et d’hapax. Ce groupe de composés est trop petit (cinq structures régulières et

22 irrégulières) pour établir une corrélation en fonction du type de composés et la position de

la tête morphologique.

Finalement, l’analyse révèle des résultats fortement controversés pour les types N-N et

A-N : il y apparaît que les composés irréguliers sont plus productifs que les composés

réguliers. Ces résultats s’opposent à l’aspect qualitatif de productivité, selon lequel

seulement les formes régulières sont décomposables et aptes à former des patrons productifs

153

(Bauer 2001 : 147 ; Hay 2001 : 145 ; Baayen et Lieber 1991 : 808 ) (cf. section 5.2.1). Ainsi,

soit l’emploi de la mesure P au sens strict montre certaines limites du calcul de la

productivité, soit l’inégalité de la taille de quatre sous-corpus influence les résultats obtenus.

En ce qui concerne la mesure P, la productivité élevée des N-N et A-N irréguliers peut être

expliquée par le nombre d’occurrences assez bas des formes irrégulières relativement à celles

régulières. Ainsi, le nombre d’occurrences des N-N irréguliers dans Frantext est presque 10

fois plus bas que celui des réguliers : N-N irréguliers (N2 = 64 ; N3 = 196 ; N4 = 89) vs N-N

réguliers (N2 = 600 ; N3 = 1384 ; N4 = 869). On observe la même tendance dans le cas des

composés A-N au cours des années 1873-1920 : A-N irréguliers (N4 = 900) vs A-N réguliers

(N4 = 6402). Ainsi, la basse valeur de N en conjonction avec un nombre d’hapax assez

comparable pour les N-N (périodes 2-4 réguliers : n1 = 6 ; n1 = 2 ; n1 = 1 vs irréguliers :

n1 = 3 ; n1 = 3 ; n1 = 1) et les A-N (période 4 réguliers : n1 = 2 vs irréguliers : n1 = 2) peut

contribuer à une valeur de P considérablement plus élevée pour les N-N et A-N irréguliers.

L’étude de ces résultats sera reprise dans la section 5.5.

5.3 Productivité basée sur la taille de la famille morphologique

Dans cette section, l’étude de la productivité est basée sur la mesure de la taille de la famille

morphologique développée pour les formes affixées par Baayen et Hay (2002).

Si cette mesure fonctionne également avec les composés, on s’attend à trouver la corrélation

inverse suivante : la croissance de la taille catégorielle de la famille morphologique est liée à

la diminution du niveau de productivité des noms composés.

Rappelons que cette mesure se calcule en deux étapes : premièrement, on mesure la taille de

la famille morphologique de la forme recensée (tous les dérivés et les composés formés à

partir des mots-bases) ; deuxièmement, on utilise la formule logarithmique log (F1)+log

(F2)+log (F3) etc. où F1, F2, F3, sont les tailles de la famille morphologique des mots-bases.

Le calcul a été effectué de la façon suivante, illustrée par le composé N-N chou-fleur.

Premièrement, en interrogeant Frantext au moyen des formules *.chou.* et *.fleur.*, j’ai

dégagé tous les membres de la famille morphologique du constituant chou (chouchou,

154

chouchouter, chou-blanc, chou-king, chou-palmiste, chou-rave, coupe-chou, vert-chou) et du

constituant fleur (fleurir, fleuri, fleurissement, fleurer, fleurette, fleuriste, fleuron, défleurir,

refleurir) par période. Conséquemment, la taille de la famille morphologique du composé

chou-fleur se répartit de la façon suivante : 1606-1694 (huit membres) ; 1695-1798 (neuf

membres) ; 1799-1872 (14 membres) ; 1873-1920 (13 membres).

Au cours de la deuxième étape, la taille catégorielle de la famille morphologique du composé

chou-fleur est calculée comme la somme des logarithmes des tailles de famille des bases

chou et fleur. Ainsi, la taille catégorielle (T) du composé chou-fleur est évaluée comme suit :

(3) log (F8) + log (F9) + log (F14) + log (F13) = 0.903+0.954+1.146+1.114 = 4.12 où F représente la taille de la famille morphologique du composé par période.

La mesure de la taille catégorielle d’une famille morphologique effectuée en deux étapes

demande énormément de temps. C’est pourquoi seuls les composés réguliers seront analysés

en utilisant cette mesure.

Les données statistiques concernant les valeurs T et P des formes recensées sont résumées

dans le Tableau 5-856.

Tableau 5-8 Corrélation entre la taille catégorielle et la productivité des composés N-N, A-N, N-A et N-de-N

Période N-N A-N N-A N-de-N Moyenne

T P T P T P T P Tm Pm

1606- 1694

43.78 0.0770 79.73 0.0050 13.19 0.0348 3.32 0.0180 35.01 0.0337

1695- 1798

52.22 0.0100 97.60 0.0009 15.57 0.0051 2.28 - 41.92 0.0053

1799- 1872

62.35 0.0014 119.77 0.0010 17.13 0.0012 3.08 0.1000 50.58 0.0259

1873- 1920

63.59 0.0012 111.54 0.0003 17.59 - 3.80 - 49.13 0.0008

Moyenne 55.49 0.0224 102.16 0.0018 15.87 0.0137 3.12 0.0590

56

Les zones ombrées représentent les corrélations inverses les plus marquées (le niveau le plus bas de la taille catégorielle vs le niveau le plus élevé de productivité) pour tous les types de composés.

155

En ce qui concerne la première période, le taux de productivité le plus élevé correspond à la

taille catégorielle la plus basse dans la majorité des cas (voir les zones ombrées). Ce

phénomène est clairement présenté dans les types N-N et N-A57. Ainsi, dans le type N-N, la

croissance de la taille catégorielle de la famille morphologique diminue progressivement le

coefficient de leur productivité. Le Graphique 5-8 illustre la relation entre les deux mesures P

et T dans les composés N-N.

Graphique 5-8 Corrélation entre la taille catégorielle et la productivité des composés N-N58

010203040506070

1606-1694 1695-1798 1799-1872 1873-19200

0.02

0.04

0.06

0.08

0.1

T P

La même tendance a été observée dans le type N-A : la corrélation inverse est observée

pendant les trois premières périodes (T1 = 13.19 vs P1 = 0.0348 ; T2 = 15.57 vs

P2 = 0.0051 ; T3 = 17.13 vs P3 = 0.0012), soit celles pour lesquelles les données sont

suffisantes. La corrélation pour les composés N-A est récapitulée dans le Graphique 5-9.

57 Si les résultats révèlent que quand la valeur T augmente, la valeur P s’abaisse, on ne peut pas établir le pourcentage spécifique de changement de ces valeurs (i.e. si les mesures P et T subissent le même niveau du changement). 58 Étant donné qu’il existe une grande différence numérique entre les valeurs T et P (i.e. T4 = 63.59 vs P4 = 0.0012), les Graphiques 5.9-5.11 incluent deux échelles différentes : celle à gauche sert à représenter la valeur T, alors que celle à droite représente la valeur P.

156

Graphique 5-9 Corrélation entre la taille catégorielle et la productivité des composés N-A

0

5

10

15

20

1606-1694 1695-1798 1799-1872 1873-192000.0050.010.0150.020.0250.030.0350.04

T P

Pour les composés A-N, le patron de la corrélation inverse n’est pas parfait (voir les chiffres

en caractères gras du Tableau 5-11). Le rapport inverse entre les mesures T et P est observé

dans les années 1606-1694 (P1 = 0.0050 vs T1 = 79.73) et 1873-1920 (P4 = 0.0003 vs

T4 = 111.54), mais pas pour la période 1799-1872 (P3 = 0.0010 vs T3 = 119.77). La

représentation schématique de la corrélation est présentée dans le Graphique 5-10.

Graphique 5-10 Corrélation entre la taille catégorielle et la productivité des composés A-N

020406080100120140

1606-1694 1695-1798 1799-1872 1873-192000.0010.0020.0030.0040.0050.006

T P

En fait, il apparaît que cette anomalie est la seule exception au parton inverse entre les

mesures P et T. Dans le cas des composés N-de-N, la mesure de productivité P est en relation

inverse à la taille catégorielle T où le niveau le plus bas de la taille catégorielle est corrélé au

niveau le plus haut de productivité (P3 = 0.1000 vs T3 = 3.08 et P1 = 0.0180 vs T1 = 3.32)

(voir les zones ombrées du Tableau 5-11). Néanmoins, il faut prendre en considération le fait

que la mesure P n’est pas disponible pour deux des quatre périodes.

157

En résumé, sauf pour les A-N (1799-1872), le patron de la corrélation inverse a été observé

dans toutes les structures analysées : la taille catégorielle la plus élevée correspond au taux

de productivité la plus basse.

Le rapport entre la taille catégorielle de la famille morphologique et la productivité des

formes recensées peut aussi être examiné en fonction de la position de la tête morphologique.

Les résultats de cette analyse sont résumés dans le Tableau 5-959.

Tableau 5-9 Corrélation entre la taille catégorielle et la productivité des composés réguliers selon la position de la tête morphologique Période Tête à gauche Tête à droite Exocentriques Appositionnels

T P T P T P T P Composés N-N

1606-1694 13.37 0.0385 27.89 0.1515 2.53 - 1695-1798 15.76 0.0248 33.28 0.0064 3.18 0.0060 1799-1872 18.30 0.0023 40.14 0.0014 3.91 - 1873-1920 18.98 - 40.49 0.0008 4.12 -

Moyenne 16.60 0.0219 35.45 0.0400 3.44 0.0060 Composés A-N

1606-1694 70.59 0.0027 9.14 1.0000 1695-1798 85.72 0.0006 11.88 0.0577 1799-1872 104.00 0.0009 15.78 0.0111 1873-1920 98.72 0.0002 12.82 0.0037

Moyenne 89.76 0.0011 12.41 0.2681 Composés N-A

1606-1694 10.68 0.0263 2.52 1.0000 1695-1798 12.69 0.0025 2.89 0.5000 1799-1872 13.62 - 3.51 0.1667 1873-1920 13.94 - 3.66 -

Moyenne 12.73 0.0144 3.15 0.5556 Composés N-de-N

1606-1694 2.28 0.0192 - - 1.04 - 1695-1798 2.28 - - - - - 1799-1872 2.38 - 0.70 1.0000 - - 1873-1920 2.42 - - - 1.38 -

Moyenne 2.34 0.0192 0.70 1.0000 1.21 -

59

Les zones ombrées représentent les corrélations inverses les plus marquées (le niveau le plus bas de la taille catégorielle vs le niveau le plus haut de productivité) pour tous les types de composés selon la position de la tête morphologique.

158

Concernant les composés N-N réguliers tant avec la tête à gauche qu’à droite, la taille

catégorielle de la famille morphologique la plus petite correspond au niveau de productivité

le plus grand. Par contre, les composés A-N réguliers ne suivent pas toujours la même

tendance ; la taille catégorielle la plus élevée des formes avec la tête à droite ne coïncide pas

avec le niveau de productivité le plus bas (voir les chiffres en caractères gras). Ce

phénomène est aussi remarqué dans les composés A-N exocentriques réguliers.

Quant aux composés N-A, la corrélation inverse est observée dans les N-A avec la tête à

gauche et les N-A exocentriques, une observation à prendre avec réserve dû au manque de

données entre 1799 et 1920. Les lacunes sont encore plus importantes pour les N-de-N

réguliers et les appositionnels.

Enfin, le patron inverse entre les mesures P et T est clairement présenté dans les structures

ayant la tête à gauche (trois types de composés sur trois). En ce qui concerne les structures

avec la tête à droite, on y observe une seule exception : le type A-N pendant la période 1799-

1872. Quant aux exocentriques réguliers, la corrélation inverse est observée dans les types

A-N et N-A.

En conclusion, les résultats montrent que globalement, même si la corrélation n’est pas

toujours parfaite, l’abaissement de la taille catégorielle de la famille morphologique élève le

niveau de productivité des formes recensées, indépendamment du type de composé et de la

position de la tête morphologique.

5.4 Productivité et fréquence relative Pour mesurer la fréquence relative des composés N-N, A-N, N-A et N-de-N j’ai recours à la

mesure de Hay (2003) (cf. section 4.3.5) adaptée aux noms composés comme suit :

(4) frelative = fcomposé / fbase.

L’analyse quantitative de la fréquence relative des noms composés français est basée sur

quatre variantes de la base (cf. section 4.3.3) :

a) B1 = la fréquence de la base est la fréquence du constituant qui est la tête ;

159

b) B2 = la fréquence de la base est la fréquence du constituant qui n’est pas la tête ;

c) B3 = la fréquence de la base est la somme des fréquences des constituants ;

d) B4 = la fréquence de la base est la moyenne des fréquences des constituants.

Quant au taux de la fréquence relative, il sera calculé en suivant le modèle suivant :

(5) a. FR1 = fcomposé / fbase où B1 = tête b. FR2 = fcomposé / fbase où B2 = non-tête c. FR3 = fcomposé / fbase où B3 = B1+ B2 d. FR4 = fcomposé / fbase où B4 = (B1+ B2) divisé par 2

Ainsi, la mise à l’épreuve des quatre variantes de la mesure FR mentionnées ci-dessus

permettra de préciser, en comparaison aux autres mesures, la notion de la base qui donne les

meilleurs résultats pour la mesure FR dans les noms composés. Tel que mentionné dans la

section 4.3.5, chaque constituant du mot composé a été considéré comme la base.

Néanmoins, il faut noter que la notion de la base est uniquement importante en dérivation, où

les mots dérivés sont formés lorsqu’un élément de la classe ouverte (i.e. la base) est combiné

à une catégorie de classe fermée (i.e. l’affixe). Comme les constituants du composé font

partie d’une classe ouverte d’éléments morphologiques, la référence à la base en composition

n’a pas vraiment de statut théorique.

Rappelons que l’étude pilote sur la fréquence relative des composés garde-x n’a pas

confirmé la corrélation entre la fréquence relative et la productivité (cf. § 4.5). Néanmoins,

en tenant pour acquis la découverte de Hay (2003 : 151), je voudrais tester la présence de

cette corrélation en composition en utilisant un corpus plus grand. Ma prédiction est la

suivante : le niveau de productivité des composés N-N, A-N, N-A et N-de-N est en relation

inverse à celui de la fréquence relative.

5.4.1 Fréquence relative des composés N-N

L’étude de 72 composés N-N (54 réguliers et 18 irréguliers) révèle qu’environ 90 % des

formes recensées (65 composés) sont moins fréquentes que leurs bases, indépendamment de

la variante FR utilisée. Ces résultats permettent de considérer ces structures comme

décomposables et potentiellement productives. Cependant, pour sept composés (10 %), la

160

mesure FR2 est égale à 1.0000 lorsqu’on choisit la base B2, soit le constituant non-tête du mot

composé. La liste de ces composés est la suivante :

(6) a. agnus-castus (1695-1798) b. bien-disance (1606-1694)

c. chou-rave (1873-1920) d. épine-vinette (1695-1798 ; 1873-1920) e. gomme-gutte (1695-1798 ; 1799-1872 ; 1873-1920)

f. loup-cervier (1799-1872 ; 1873-1920) g. loup-garou (1606-1694 ; 1695-1798)

Parmi les formes en (6), six sont des structures endocentriques, dont cinq ont la tête

morphologique à gauche ; un composé a la tête à droite (bien-disance) et un autre est un

exocentrique irrégulier (agnus-castus). Les composés N-N appositionnels ne font pas partie

de ce groupe.

Le nombre total d’occurrences de la mesure FR (FR1, FR2, FR3 et FR4) dans le type N-N est

de 728, dont 556 sont réguliers et 172 irréguliers. Ainsi, le pourcentage de la mesure

FR2 = 1.0000 est assez petit : 1.6 % (12 cas sur 728).

Dans le Tableau 5-10, je compare les résultats obtenus pour la mesure FR selon les quatre

variantes disponibles (FR1, FR2, FR3, FR4) et l’aspect régulier/irrégulier des composés.

Puisque la taille catégorielle (T) a seulement été calculée pour les composés réguliers,

l’analyse de la corrélation entre les mesures FR, P et T est possible seulement pour les

composés N-N réguliers60.

60

Dans les Tableaux 5-10 à 5-13, les zones ombrées représentent les corrélations inverses les plus marquées entre le niveau le plus bas de la taille catégorielle (T), le niveau le plus bas de la fréquence relative (FR1, FR2, FR3, FR4) et le niveau le plus élevé de la productivité P par période.

161

Tableau 5-10 Fréquence relative moyenne, productivité et taille catégorielle des composés N-N

Mesure

Composés réguliers Composés irréguliers 1606-1694

1695-1798

1799-1872

1873-1920

1606-1694

1695-1798

1799-1872

1873-1920

FR1 0.0349 0.0455 0.0427 0.0296 0.0363 0.0253 0.0360 0.0267 FR2 0.2501 0.2268 0.1506 0.1855 0.1004 0.1812 0.0958 0.0305 FR3 0.0099 0.0188 0.0129 0.0118 0.0189 0.0210 0.0198 0.0133 FR4 0.0199 0.0376 0.0257 0.0218 0.0378 0.0420 0.0396 0.0265

P 0.0770 0.0100 0.0014 0.0012 0.0364 0.0469 0.0204 0.0112 T 43.78 52.22 62.35 63.59

Pour les composés N-N réguliers, le niveau de productivité le plus élevé (P1 = 0.0770)

correspond à la fréquence relative la plus basse si on considère la mesure FR3 = 0.0099 et la

taille catégorielle de la famille morphologique la plus basse (T1 = 43.78). En tenant compte

du fait qu’elle se base sur la somme des fréquences des deux constituants, la mesure FR3 sera

toujours plus basse que FR1, FR2 et FR4.

Afin que la mesure FR3 coïncide parfaitement avec la corrélation inverse de Hay (2003 :151)

en composition, cette corrélation devrait suivre le schéma suivant pour les composés N-N

réguliers :

(7) a. FR3 période 1→P1 (0.0099 vs 0.0770) → FR3 le plus petit correspond au P le plus grand. b. FR3 période 4→P2 (0.0118 vs 0.0100) → le deuxième FR3 le plus petit correspond au deuxième P le plus grand.

c. FR3 période 3→P3 (0.0129 vs 0.0014) → le troisième FR3 le plus petit correspond au troisième P le plus grand.

d. FR3 période 2→P4 (0.0188 vs 0.0012) → FR3 le plus grand correspond au P le plus petit.

Les chiffres du Tableau 5-10 illustrent clairement que la corrélation n’est pas parfaite :

seulement deux des quatre périodes correspondent au schéma en (7) : 1606-1694 (7a) et

1799-1872 (7c). La mesure FR4 présente les mêmes résultats que la mesure FR3, soit un

résultat attendu parce que FR4 est la moyenne basée sur la mesure FR3 (le total des bases B1

162

et B2). En ce qui concerne la mesure FR1, le patron en question apparaît seulement pendant la

troisième période 1799-1872 (FR3 = 0.0427 vs P3 = 0.0014). Quant à la mesure FR2, elle ne

présente aucune corrélation inverse.

Pour les composés N-N irréguliers, le taux de productivité le plus grand (P2 = 0.0469) est

celui de la deuxième période et la fréquence relative la plus petite (FR3 = 0.0133) est celle de

la quatrième : il n’y a donc pas de corrélation inverse générale. Néanmoins, la corrélation

inverse pour la mesure FR3 et donc, pour FR4, coïncide pour la première période et la

troisième.

Il ressort également que, dans le groupe de composés N-N irréguliers, la corrélation inverse

apparaît dans la mesure FR1 durant la deuxième période (FR1 = 0.0253 vs P2 = 0.0469) et la

troisième (FR1 = 0.0360 vs P3 = 0.0204). En revanche, il apparaît que dans la mesure FR2, la

corrélation inverse n’est pas présente parmi les composés N-N irréguliers.

En résumé, les résultats obtenus indiquent que, pour le type N-N, les meilleures variantes de

mesure sont FR3 et, en conséquence, FR4. Les mesures FR3 et FR4 apparaissent au total dans

huit cas sur onze (quatre cas réguliers ; quatre cas irréguliers) dont quatre correspondent à la

mesure FR3 et quatre à la mesure FR4. Le Graphique 5-11 récapitule la corrélation entre la

mesure de la fréquence relative FR3 et la productivité P des composés N-N réguliers et

irréguliers.

Graphique 5-11 Corrélation entre la mesure FR3 et la productivité P des composés N-N

163

Les périodes où l’on observe la corrélation inverse entre les mesures FR et P sont : 1606-

1694 (quatre fois), 1799-1872 (six fois) et 1695-1798 (une fois). Dans le groupe de composés

N-N, le patron de la corrélation inverse n’apparaît jamais pendant la quatrième période 1873-

1920.

Dans le groupe des composés réguliers, j’ai aussi comparé la mesure FR en fonction de la

taille catégorielle. Étant donné que l’accroissement de la taille catégorielle de la famille

morphologique et l’accroissement de la fréquence relative sont chacun liés à l’abaissement

du niveau de productivité, la fréquence relative et la taille catégorielle doivent être corrélées

positivement. Ainsi, puisque les mesures T et P sont en corrélation inverse parfaite pour les

composés réguliers, les corrélations directes entre les mesures FR et T doivent être

présentées dans les mêmes cas que les corrélations inverses entres les mesures FR et P (i.e.

sur un total de cinq, deux cas correspondent à la mesure FR3, deux cas à la mesure F4 et un

cas à la mesure FR1). Le schéma de cette corrélation positive est résumé en (8) :

(8) a. FR3 période 1 → T1 (0.0099 vs 43.78) b. FR4 période 1 → T1 (0.0199 vs 43.78) c. FR3 période 3 → T3 (0.0129 vs 63.59) d. FR4 période 3 → T3 (0.0257 vs 63.59) e. FR1 période 3 → T3 (0.0427 vs 63.59)

Comme le montrent les données ci-dessus, le patron de la corrélation directe est présent

pendant deux périodes seulement : la troisième (60 % ou trois cas sur cinq) et la première

(40 % ou deux cas sur cinq).

Enfin, la comparaison des résultats obtenus sur la fréquence relative des composés N-N au

total et des N-N réguliers et irréguliers pris séparément, aboutit aux conclusions suivantes.

Dans le groupe général de composés N-N, la corrélation inverse entre FR et P a été observé

dans 11 cas sur 32 possibles (34 %). Parmi ces 11 corrélations (100 %), quatre cas (36 %)

correspondent à la mesure FR3 ; quatre autres cas (36 %) à la mesure FR4 et trois cas (28 %)

à la mesure FR1. Dans le groupe de composés N-N réguliers, le patron inverse est présent

dans cinq cas (31 %) sur seize possibles (100 %), dont deux cas (40 %) sont corrélés à la

mesure F3, deux cas (40 %) à la mesure F4 et un cas (20 %) à la mesure F1. En ce qui

concerne les N-N irréguliers, la corrélation inverse est observée dans six cas sur 16 (38 %) ;

164

où deux cas correspondent à chacune des mesures FR3, FR4 et FR1. Ainsi, l’on pourrait

penser que, pour les composés N-N, les meilleures variantes pour calculer la mesure FR sont

les mesures FR3 et FR4.

Étant donné que les mesures FR3 et FR4 sont les plus fiables, les deux variantes de la base qui

peuvent être utilisées pour calculer la fréquence relative des composés N-N sont : a) B3 = la

fréquence de la base est la somme des fréquences des constituants ; b) B4 = la fréquence de la

base est la moyenne des fréquences des constituants.

Finalement, je peux constater que pour les composés N-N, l’hypothèse avancée en 5.1,

concernant une corrélation inverse entre les mesures P et FR, n’a été pas confirmée. Ainsi, le

patron inverse n’est pas toujours présenté comme un facteur constant : par exemple, dans le

groupe des composés réguliers, il n’apparaît pas du tout pendant la deuxième (1695-1798) et

la quatrième (1873-1920) période, soit deux périodes sur quatre (50 %).

5.4.2 Fréquence relative des composés A-N

Les composés A-N constituent le groupe le plus grand. Parmi les 137 formes recensées (102

régulières et 35 irrégulières), 133 composés (97 %) sont moins fréquents que leurs bases

indépendamment de la mesure FR utilisée, ce qui permet de les envisager comme

décomposables et potentiellement productifs. Pour quatre composés (3 %), la valeur de la

mesure FR = 1.000 (trois cas de FR1 et un cas de FR2) où la fréquence de la base et celle du

composé sont les mêmes. La liste de ces composés, qui inclut la période où ils apparaissent,

est présentée en (9).

(9) a. faux-saunage (FR1 → 1695-1798) b. franc-tireur (FR1 → 1873-1920) c. sainte-nitouche (FR1 → 1695-1798 ; FR2 →1799-1872) d. bonne-voglie (FR2 → 1695-1798)

Le nombre total d’occurrences de la mesure FR dans le type A-N est de 876 cas (548

réguliers et 328 irréguliers). Donc, la mesure FR = 1.0000 constitue seulement 0.6 % du total

des composés A-N.

Le Tableau 5-11 compare les résultats obtenus pour les mesures FR (quatre variantes

disponibles), P et T selon l’aspect régulier/irrégulier.

165

Tableau 5-11 Fréquence relative moyenne, productivité et la taille catégorielle des composés A-N

Mesure


1695-1798

1799-1872

1873-1920

1606-1694

1695-1798

1799-1872

1873-1920

FR1 0.0338 0.0831 0.0752 0.0802 0.0112 0.0114 0.0063 0.0042 FR2 0.0311 0.0241 0.0191 0.0231 0.0850 0.1554 0.0638 0.0613 FR3 0.0063 0.0065 0.0069 0.0078 0.0080 0.0051 0.0044 0.0036 FR4 0.0123 0.0127 0.0137 0.0157 0.0162 0.0101 0.0087 0.0072

P 0.0050 0.0009 0.0010 0.0003 0.0058 0.0018 - 0.0022 T 79.73 97.60 119.77 111.54

Premièrement, dans les composés A-N réguliers, le niveau de productivité le plus élevé

(P1 = 0.0050) correspond à la fréquence relative la plus basse FR3 = 0.0063 et la taille

catégorielle de la famille morphologique la plus petite (T1 = 79.73). Par contre, dans les

composés A-N irréguliers, cette tendance générale n’est pas présente.

Afin que la mesure FR3 coïncide parfaitement avec la corrélation inverse de Hay (2003 :151)

en composition, cette corrélation devrait suivre le schéma suivant pour les composés A-N

réguliers :

(10) a. FR3 période 1→P1 (0.0063 vs0.0050) → FR3 le plus petit correspond au P le plus grand.

b. FR3 période 2→P3 (0.0065 vs 0.0010) → le deuxième FR3 le plus petit correspond au deuxième P le plus grand.

c. FR3 période 3→P2 0.0069 vs 0.0009) → le troisième FR3 le plus petit correspond au troisième P le plus grand.


Telle qu’indiquée au Tableau 5-11, seulement deux des quatre périodes correspondent au

schéma en (10), tant pour FR3 que FR4 qui en est dérivée : 1606-1694 (10a : période 1) et

1873-1920 (10d : période 4).

En ce qui concerne la mesure FR1, le patron inverse apparaît pendant la première période

1606-1694 (FR1 = 0.0338 vs P1 = 0.0050) et la troisième 1799-1872 (FR1 = 0.0427 vs

166

P3 = 0.0014). Quant à la mesure FR2, la corrélation inverse est présente dans les années

1695-1798 (FR2 = 0.0241 vs P2 = 0.0009).

Pour les composés A-N irréguliers, le taux de productivité le plus grand (P1 = 00.0058) est

celui de la première période et la fréquence relative la plus petite (FR3 = 0.0036) est celle de

la quatrième : il n’y a donc pas de corrélation inverse générale. Néanmoins, la corrélation

inverse pour la mesure FR3 (et FR4) coïncide avec la deuxième période 1695-1798

(FR3 = 0.0051 vs P2 = 0.0018). Quant aux mesures FR1 et FR2, le patron de la corrélation

inverse n’est pas présent parmi les composés A-N irréguliers.

En bref, les périodes où l’on observe la corrélation inverse entre les mesures FR et P sont :

1606-1694 (trois fois : A-N réguliers), 1695-1798 (5 fois : deux cas A-N réguliers ; 3 cas

A-N irréguliers) et 1873-1920 (deux fois : A-N réguliers). Dans le groupe des A-N réguliers,

le patron inverse apparait dans chaque période sauf la troisième (1799-1872). Par contre,

dans les A-N irréguliers, il n’y a qu’une seule période (1695-1798) où cette tendance est

visible.

Pour ce qui est du rapport entre FR et T, la corrélation directe entre FR et T est distribuée de

la manière suivante :

(11) a. FR3 période 1 → T1 (0.0063 vs 79.73) b. FR4 période 1 → T1 (0.0123 vs 79.73)

c. FR1 période 1 → T1 (0.0338 vs 79.73) d. FR2 période 2 → T2 (0.0241 vs 97.60) e. FR3 période 4 → T4 (0.0078 vs 111.54) f. FR4 période 4 → T4 (0.0157 vs 111.54)

On voit que le niveau le plus bas de FR correspond à celui le plus petit de T si on considère

les variantes FR3 et FR4. Cette corrélation apparait durant la première période (50 % ou trois

cas sur six) et la quatrième (33 % ou deux cas sur six).

Finalement, les chiffres du Tableau 5-14 permettent de conclure que, globalement, la

corrélation inverse entre les mesures FR et P dans les A-N réguliers et irréguliers est observé

dans 10 cas sur 28 possibles ce qui constitue 36 % (rappelons que dans les A-N irréguliers,

les données sur P ne sont pas disponibles pour la troisième période). Parmi les dix

167

corrélations ressorties (100 %), quatre cas (40 %) correspondent à la mesure FR3 ; quatre cas

(40 %) à la mesure FR4 et deux cas (20 %) à la mesure FR1.

Par ailleurs, si on analyse la corrélation inverse dans les deux groupes (réguliers et

irréguliers) séparément, on remarque aussi une dominance des mesures FR3 et FR4. Ainsi,

dans les A-N réguliers, le patron inverse est présent dans sept cas sur seize possibles (44 %),

dont six cas (86 %) coïncident avec les mesure F3, et F4 et un cas avec la mesure FR1 (14 %).

En tenant compte de ces nombres, on peut constater que les meilleures variantes de la mesure

FR pour les composés A-N sont celles FR3 et FR4.

Le Graphique 5-12 fait la synthèse des observations ci-dessus.

Graphique 5-12 Corrélation entre la mesure FR3 et la productivité P des composés A-N réguliers et irréguliers

En résumé, je peux constater que l’hypothèse concernant une corrélation inverse entre les

mesures P et FR avancée en 5.1, n’a pas reçu de forte confirmation dans les composés A-N :

36 % des cas marqués dans le groupe général (réguliers et irréguliers) et 44 % dans le groupe

des composés réguliers. De plus, il est à noter que le patron inverse n’est pas un facteur

constant : dans le groupe de composés réguliers il apparaît dans chaque période analysée sauf

la troisième (1799-1872), alors que dans les A-N irréguliers il n’apparaît que dans une seule

période (1695-1798).

168

5.4.3 Fréquence relative des composés N-A

L’analyse du type N-A a été basée sur 39 composés (16 réguliers et 23 irréguliers) dont 35

composés (90 %) sont moins fréquents que leurs bases indépendamment de la variante FR

utilisée. Ainsi, ils peuvent être envisagés comme décomposables et potentiellement

productifs. Quatre composés (10 %), ont une fréquence relative égale à 1.000 :

(12) a. arc-boutant (1606-1695 ; 1695-1798 ; 1799-1872) b. acquit-patent (1695-1798) c. criste-marine (1799-1872 ; 1873-1920) d. pie-grièche (1695-1798 ; 1873-1920)

L’examen des exemples en (12) montre que toutes ces structures sont des formes

endocentriques. Deux composés (acquit-patent, criste-marine) sont corrélés à la mesure FR1

et deux autres à la mesure FR2 (arc-boutant, pie-grièche). Toutefois, dans les composés N-A,

le phénomène de FR = 1.000 est assez rare. Sur 456 cas (196 réguliers et 260 irréguliers), le

nombre d'occurrences de FR = 1.000 constitue seulement 0.9 % (4 cas sur 456). Dans les

N-A irréguliers, cette tendance n’est pas observée. Le Tableau 5-12 compare les résultats

obtenus entre les mesure FR, P et T en termes de l’aspect régulier/irrégulier.

Tableau 5-12 Fréquence relative moyenne, taille catégorielle et productivité des composés N-A

Mesure


1695-1798

1799-1872

1873-1920

1606-1694

1695-1798

1799-1872

1873-1920

FR1 0.0435 0.1469 0.1894 0.2238 0.0112 0.0140 0.0162 0.0141 FR2 0.2138 0.2939 0.3111 0.3366 0.0163 0.0460 0.0321 0.0264 FR3 0.0119 0.0141 0.0345 0.0241 0.0021 0.0084 0.0083 0.0060 FR4 0.0238 0.0283 0.0689 0.0481 0.0042 0.0169 0.0167 0.0119

P 0.0348 0.0051 0.0012 - 0.0374 0.0023 - 0.0037 T 13.19 15.57 17.13 17.59

Dans les N-A réguliers, le taux de productivité le plus élevé (P1 = 0.0348) correspond à la

fréquence relative la plus basse si on considère la mesure FR3 = 0.0119 et à la taille

catégorielle de la famille morphologique la plus petite (T1 = 13.19).

Pour présenter une corrélation inverse parfaite, FR3 devrait suivre le schéma suivant :

169

(13) a. FR3 période 1→ P1 (0.0119 vs 0.0348) → FR3 le plus petit correspond au P le plus grand. b. FR3 période 2→ P2 (0.0141vs 0.0051) → le deuxième FR3 le plus petit correspond au deuxième P le plus grand. c. FR3 période 3→ P3 (0.0345 vs 0.0012) → FR3 le plus grand correspond au P

le plus petit.

Les données du Tableau 5-12 révèlent qu’en fait, le patron de la corrélation inverse

fonctionne parfaitement pour les N-A réguliers si on considère la mesure FR3. La mesure

FR4 présente évidemment les mêmes résultats que la mesure FR3. En ce qui concerne les

mesures FR1 et FR2, le patron inverse apparaît pendant la première et la deuxième période.

Pour les N-A irréguliers, le taux de productivité le plus grand (P1 = 0.0374) est celui de la

première période, où la fréquence relative est la plus petite (FR3 = 0.0021) ; donc, la

corrélation inverse générale y est visible. Le patron inverse pour la mesure FR3 (et FR4) est

aussi présent pendant la deuxième période 1695-1798 (FR3 = 0.0084 vs P2 = 0.0023) et la

quatrième 1873-1920 (FR3 = 0.0060 vs P4 = 0.0037). Quant à la mesure FR2, la corrélation

inverse est constatable pendant les mêmes périodes. Par contre, la mesure FR1 est en relation

inverse à la mesure P seulement pendant la première période (FR1 = 0.0112vs P1 = 0.0374).

En résumé, les résultats obtenus indiquent que, pour le type N-A, les meilleures variantes de

la mesure FR sont FR3 et FR4. Les mesures F3 et F4 apparaissent au total dans 12 cas sur 20

(six cas réguliers ; six cas irréguliers) dont six cas correspondent à la mesure FR3 et six cas à

la mesure FR4. Le Graphique 5-13 récapitule cette corrélation pour les composés N-A.

Graphique 5-13 Corrélation entre la mesure FR3 et la productivité P des composés N-A réguliers et irréguliers

170

On voit que la corrélation inverse dans les composés N-A apparaît dans chaque période

étudiée : 1606-1694 (huit fois), 1695-2798 (sept fois), 1799-1872 (deux fois) ; 1873-1920

(trois fois). Toutefois, dans les N-A réguliers, le patron inverse entre FR et P n’apparaît pas

pendant la quatrième période ; dans les N-A irréguliers, il n’est pas visible pendant la

troisième période.

Finalement, dans le groupe des N-A réguliers, j’ai déduit les cas où la mesure FR est en

relation directe à la mesure T. Les données en (14) ci-dessous révèlent que la corrélation

directe entre FR et T est parfaite si on considère les variantes FR1 et FR2 (huit cas sur huit),

mais non significative avec FR3 et FR4, puisqu’on l’observe dans 50 % de cas (quatre cas sur

huit).

(14) a. FR1 période 1 → T1 (0.0435 vs 13.19) b. FR1 période 2 → T2 (0.1469 vs 15.57) c. FR1 période 3 → T3 (0.1894 vs 17.13) d. FR1 période 4 → T4 (0.2238 vs 17.59) e FR2 période 1 → T1 (0.2138 vs 13.19) f. FR2 période 2 → T2 (0.2939 vs 15.57) g. FR2 période 3 → T3 (0.3111 vs 17.13) h. FR2 période 4 → T4 (0.3366 vs 17.59) i. FR3 période 1 → T1 (0.0119 vs 13.19) j. FR3 période 2 → T2 (0.0141 vs 15.57) k. FR4 période 1 → T1 (0.0238 vs 13.19) l. FR4 période 2 → T2 (0.0283 vs 15.57)

Enfin, la corrélation inverse entre FR et P a été observée dans 20 cas sur 24 possibles ce qui

constitue 83 % malgré des données lacunaires pour P. Parmi les 20 corrélations ressorties

(100 %), six cas (30 %) correspondent à la mesure FR3 ; six cas (30 %) à FR4, cinq cas

(25 %) à FR2 et trois cas (15 %) à FR1. Ces résultats semblent révéler que les meilleures

variantes de la mesure FR pour les composés N-A sont encore une fois FR3 et FR4.

Il est intéressant de remarquer que la répartition des mesures FR dans les N-A réguliers et

irréguliers est similaire : le patron inverse est présenté dans dix cas sur douze possibles.

En tenant compte des données présentées ci-dessus, je peux constater que pour les composés

N-A, l’hypothèse, avancée en 5.1, concernant une corrélation inverse entre les mesures P et

FR a généralement été confirmée. Ainsi, la probabilité d’apparition de la corrélation inverse

171

entre les mesures FR et P dans les composés N-A est plus élevé (83 %) en comparaison aux

composés N-N (34 %) et A-N (36 %).

5.4.4 Fréquence relative des composés N-de-N

Les composés N-de-N constituent le groupe le plus petit (27 composés) dont cinq formes

sont régulières et 22 irrégulières. Le nombre total d’occurrences de la mesure FR dans le type

N-de-N est de 232 cas (44 réguliers et 188 irréguliers). Un composé régulier mestre de camp

possède le même niveau de fréquence que sa base (FR1 = 1.000) pendant la période 1873-

1920. Ainsi, la mesure FR1 = 1.0000 constitue seulement 0.4 % du nombre total des N-de-N.

La majorité absolue des composés N-de-N (99.6 %) sont moins fréquents que leurs bases,

indépendamment de la variante FR utilisée, ce qui permet de les considérer comme

potentiellement décomposables et productifs.

Le Tableau 5-13 montre les résultats généraux du calcul de différentes mesures de

productivité pour ce type de composés.

Tableau 5-13 Fréquence relative moyenne, taille catégorielle et productivité des composés N-de-N

Mesure


1695-1798

1799-1872

1873-1920

1606-1694

1695-1798

1799-1872

1873-1920

FR1 0.4031 0.4331 0.0975 0.3493 0.0082 0.0175 0.0092 0.0096 FR2 0.0168 0.0252 0.0061 0.0018 0.0457 0.1206 0.0435 0.0820 FR3 0.0159 0.0230 0.0015 0.0017 0.0047 0.0077 0.0044 0.0052 FR4 0.0319 0.0461 0.0030 0.0033 0.0094 0.0153 0.0088 0.0103

P 0.018 - 0.1000 - 0.0354 0.0043 0.0032 0.0046 T 3.32 2.28 3.08 3.80

Pour les N-de-N réguliers, le taux de productivité le plus élevé (P3 = 0.1000) correspond à la

fréquence relative la plus basse FR3 = 0.0015 (et FR4 = 0.0030). Quant à la mesure FR1, le

patron inverse coïncide aussi avec la troisième période 1799-1872 (FR1 = 0.0975 vs

P3 = 0.1000) alors que dans le cas de la mesure FR2, la corrélation inverse n’est pas

présente. En général, à cause de données lacunaires liées à la mesure P pour la deuxième

172

période (1695-1798) et la quatrième (1873-1920), il est difficile de dégager une corrélation

fiable entre les mesures FR et P pour ce type de composés.

Quant aux composés N-de-N irréguliers, le taux de productivité le plus grand (P1 = 0.0354)

de la première période correspond à la fréquence relative la plus petite (FR3 = 0.0044) de la

troisième : il n’y a donc pas de corrélation inverse générale. Afin que la mesure FR3 coïncide

parfaitement avec une corrélation inverse, elle devrait suivre le schéma :

(15) a. FR3 période 3→P1 (0.0044 vs 0.0354) → FR3 le plus petit correspond au P le plus grand. b. FR3 période 1→P4 (0.0047 vs 0.0046) → le deuxième FR3 le plus petit correspond au deuxième P le plus grand.

c. FR3 période 4→P2 (0.0052 vs 0.0043) → le troisième FR3 le plus petit correspond au troisième P le plus grand


Dans les N-de-N irréguliers, la corrélation inverse entre FR et P n’apparaît pas dans les

mesures FR3 et FR4. Néanmoins, la corrélation inverse pour la mesure FR1, coïncide avec la

première période (FR1 = 0.0082 vs P1 = 0.0354). En fait, c’est le seul cas de corrélation

visible dans les N-de-N irréguliers. Ainsi, il apparaît que le patron de corrélation inverse est

complètement absent dans les mesures FR2, FR3 et FR4.

Le Graphique 5-14 récapitule la corrélation entre la mesure FR (FR1, FR2, FR3, FR4) et P

dans les composés N-de-N.

Graphique 5-14 Corrélation entre les mesures FR et la productivité P des composés N-de-N réguliers et irréguliers

173

Les périodes où l’on observe clairement la corrélation inverse entre les mesures FR et P

sont : 1799-1872 (3 cas) dans les N-de-N réguliers et 1606-1694 (un cas) dans les N-de-N

irréguliers. Par conséquent, la probabilité d’apparition du patron inverse dans les composés

N-de-N est de 17 % (quatre cas sur vingt-quatre cas possibles). Parmi quatre corrélations

marquées, un cas correspond à la mesure FR3 (les N-de-N réguliers), un cas à la mesure

FR4 (les N-de-N réguliers) et deux cas à la mesure FR1 (un cas régulier et un cas irrégulier).

Ainsi, vis-à-vis des résultats obtenus, il est difficile de déduire la meilleure variante FR pour

ce type de composés.

Quant à l’hypothèse de la corrélation inverse entre les mesures P et FR, elle ne peut pas être

confirmée ou rejetée pour cause de données lacunaires liées à la mesure P. Toutefois, il est

quand même possible de faire une analyse comparative entre les mesures FR et T pour les

N-de-N réguliers. Les résultats de cette étude sont résumés en (16) de la façon suivante :

(16) a. FR1 période 1 → T1 (0.4031 vs 3.32) b. FR2 période 3 → T3 (0.0061 vs 3.08) c. FR2 période 1 → T1 (0.0168 vs 3.32) d. FR3 période 1 → T1 (0.0159 vs 3.32) e. FR4 période 1 → T1 (0.0319 vs 3.32)

La corrélation directe entre FR et T apparaît dans cinq cas sur huit (63 %) dont deux

correspondent à la mesure FR2. Quant aux mesures FR1, FR3 et FR4, seulement un cas de

corrélation directe entre FR et T y est observé. Il faut noter que dans les N-de-N, ce

phénomène est réalisé généralement durant la première période (quatre cas sur cinq).

5.4.5 Sommaire

Dans la section 5.4, j’ai examiné une corrélation possible entre la fréquence relative (FR), la

productivité (P) et la taille catégorielle (T) de la famille morphologique des composés N-N,

A-N, N-A et N-de-N. La recherche a révélé que la majorité des formes recensées (94.2 %)

sont moins fréquents que leurs bases. Donc, selon l’aspect qualitatif de productivité, ces

formes sont décomposables et associées à des patrons productifs (Bauer 2001 ; Hay 2001 ;

Baayen et Lieber 1991).

Pour déterminer la meilleure variante de la mesure FR, 108 combinaisons entre FR et P

(N-N : 32 cas ; A-N : 28 cas ; N-A : 24 cas ; N-de-N : 24 cas) ont été analysées au moyen des

174

quatre variantes de FR retenues (FR1, FR2, FR3, FR4). Globalement, les mesures FR3 et FR4

correspondent mieux à la corrélation attendue, où la fréquence relative la plus basse

correspond au taux de productivité le plus élevé.

En effet, la corrélation inverse avec les mesures FR3 et FR4 a été observée pour 73 % des

composés N-N (huit cas sur onze dont quatre cas sont réguliers et quatre cas irréguliers),

80 % des A-N (huit cas sur dix dont six cas sont réguliers et deux cas irréguliers) et 60 % des

N-A (12 cas sur 20, soit six pour chaque type). Toutefois, pour les composés N-de-N, la

corrélation inverse entre les mesures FR et P ne peut pas être évaluée de façon fiable pour

cause de données lacunaires de P. Néanmoins, dans ce type de composés, la corrélation

inverse entre FR et P est observée dans quatre cas (trois cas réguliers, un cas irrégulier) dont

deux cas correspondent aux mesures FR3 et FR4. Ainsi, les mesures FR3 et FR4 constituent

67 % de tous les cas marqués de la corrélation inverse (30 cas sur 45). La variante FR1 a été

remarquée dans 10 cas sur 45 (22 %), dont six cas sont réguliers et quatre sont irréguliers.

Quant à la mesure FR2, elle apparait dans 5 cas sur 45 ou 11 % (deux réguliers et trois

irréguliers). Au total, la corrélation inverse entre les mesures FR et P a été constatée dans

42 % des cas analysés (45 cas sur 108).

En général, la chance d’apparition de la corrélation inverse entre les mesures FR et P (y

inclus toutes variantes de FR) est assez élevée dans les composés N-A (83 %). Néanmoins, à

l’opposé de ce qu’on observe en dérivation, l’hypothèse de la présence de cette corrélation

n’a pas été confirmée dans les composés N-N et A-N (34 % et 36 % respectivement). Quant

aux composés N-de-N, ce phénomène ne peut pas être évalué à cause de données lacunaires

liées à la mesure P.

La corrélation inverse entre FR et P fonctionne mieux pendant la première période (36 % ou

16 cas sur 45), la deuxième (29 % ou 13 cas sur 45) et la troisième (24 % ou 11 cas sur 45),

étant très basse pour la quatrième période (11 % ou 5 cas sur 45).

L’étude sur la fréquence relative a aussi révélé l’existence de la corrélation directe entre la

mesure de la fréquence relative (FR) et la taille catégorielle (T) de la famille morphologique.

Ce phénomène est surtout observé dans les composés N-A (75 % ou 12 cas sur 16).

Toutefois, la corrélation directe entre FR et T apparaît rarement dans les composés A-N

175

(38 % ou six cas sur seize), N-N et N-de-N (31 % ou cinq cas sur seize dans chaque

type). Quant aux périodes, ce type de corrélation est observée surtout lors des années 1606-

1694 (46 % ou 13 cas sur 28). Pendant les autres périodes analysées, la corrélation directe

entre FR et T apparaît plutôt rarement : 1799-1872 (21 % ou 6 cas sur 28) ; 1695-1798 (18 %

ou 5 cas sur 28) et 1873-1920 (14 % ou 4 cas sur 28).

En somme, je peux constater que les corrélations FR-P et FR-T sont surtout observées au

cours des années 1606-1694 (36 % et 46 % respectivement). Par contre, la probabilité

d’apparition de ces corrélations lors de la quatrième période est assez basse (11 % et 14 %

respectivement).

Finalement, j’ai aussi relevé un petit groupe de 16 composés dont la fréquence relative est

égale à 1.000. Cette valeur de FR apparaît si on calcule la variante FR1 (0.3 % ; 7 emplois sur

un total de 2292) et FR2 (0.9 % ; 20 emplois sur un total de 2292). Il est à noter que ce

phénomène est présent dans chaque types de composés en constituant 5.8 % du nombre total

des structures analysées (16 composés sur 275). Étant donné le très petit pourcentage (1 %)

de ces composés, ils ne seront pas analysés dans mon travail. D’ailleurs, dans son étude

consacrée à la fréquence relative, Hay (2003 :105) traite les formes ayant la fréquence

relative égal à 1.000 comme données non fiables, et par conséquent, les élimine.

5.5 Discussion Dans les sections 5.2-5.4, la productivité des formes recensées a été examinée en fonction de

trois facteurs différents : la position de la tête morphologique, l’aspect régulier/irrégulier et le

type de composé.

L’étude a révélé l’importance du critère de la position de la tête morphologique lié à la

productivité. Étant donné qu’en français moderne les composés avec la tête à gauche sont

généralement considérés comme les plus productifs en synchronie (Brousseau 2001 ; Gross

1996 ; Mathieu-Colas 1994), certains résultats obtenus sont imprévus. D’un point de vue

global, il apparaît que les structures les plus productives sont les composés exocentriques

réguliers (P = 0.0257), suivis des formes dont la tête est à gauche (P = 0.0039). Le taux de

productivité des exocentriques réguliers est 6.6 fois plus élevé que celui des composés ayant

176

la tête à gauche et 21 fois plus élevé que celui des formes avec la tête à droite (P = 0.0012).

Bien que la productivité des formes appositionnelles (P = 0.0020) est plus élevée que celle

des composés avec la tête à droite, ces chiffres sont à interpréter avec précaution à cause des

lacunes persistantes des données pour les trois périodes.

Par ailleurs, le groupe de composés exocentriques inclut deux types de structures (cf. section

5.1). Le premier est formé des exocentriques réguliers dont le taux de productivité est le plus

élevé (P = 0.0257). Le deuxième groupe inclut les exocentriques irréguliers dont le niveau de

productivité (P = 0.0037) est inférieur à celui des formes avec la tête à gauche (P = 0.0039)

et surtout à celui des exocentriques réguliers (<7 fois). Ainsi, au regard de ces résultats, la

première hypothèse avancée en 5.1 disant que ‘Les structures avec la tête morphologique à

gauche et les structures régulières sont les formes les plus productives’ a été partiellement

confirmée.

La haute productivité des exocentriques réguliers peut être expliquée par le fait que le

nombre d’occurrences de ce type dans le corpus Frantext est assez bas (N = 701) en

comparaison aux autres structures (i.e. tête à gauche = 2833 ; tête à droite = 25 618 ;

exocentriques irréguliers = 9675). Donc, le diviseur N dans la formule n1/N utilisée pour

calculer la productivité P, est beaucoup plus petit pour ce type de composés, ce qui aboutit à

une valeur de P fortement élevée. Le Tableau 5-14 résume la distribution des valeurs N, n1 et

P dans les composés analysés.

Tableau 5-14 Productivité, fréquence d’occurrences et le nombre d’hapax selon la position de la tête morphologique dans tous les composés

Position de la tête morphologique

N n1 P

Tête à gauche 2833 11 0.0039

Tête à droite 25 618 31 0.0012

Exocentriques réguliers 701 18 0.0257

Exocentriques irréguliers 9675 36 0.0037

Appositionnels 506 1 0.0020

Dans sa récente étude sur la productivité, Bauer (2008 : 71) avance l’idée que dans certaines

langues, la formation des composés exocentriques réguliers peut être envisagée comme

177

procédé productif. Il suggère qu’en français, le processus de formation de ce type de

composés peut être productif 61. Ainsi, au regard de la productivité élevée des exocentriques

réguliers, les résultats obtenus confirment l’hypothèse de Bauer (2008).

En ce qui concerne l’aspect régulier/irrégulier, l’étude a abouti aux résultats prévus. Le

niveau de productivité le plus élevé a été observé dans les formes régulières. Les

exocentriques réguliers sont les structures les plus productifs (P = 0.0257), suivis par les

formes avec tête à gauche (P = 0.0039), les exocentriques irréguliers (P = 0.0037), les

appositionnels (P = 0.0020) et les formes avec la tête à droite (P = 0.0012).

Toutefois, la productivité élevée des exocentriques irréguliers (or-sol, toute-table, coup de

barre, etc.) est plutôt inattendue. Comme cela a été discuté dans plusieurs travaux théoriques

(Bauer 2001, 2008 ; Hay 2003 : 72 ; Jackendoff 1975 ; Lyons 1977 : 546 ; Plag 1999 : 37),

les formes irrégulières ne forment pas de patrons productifs ; il n’existe aucune règle de

formation de mots à partir de laquelle ces mots pourraient avoir été créés. Les résultats

obtenus peuvent en partie être expliqués par le fait que le nombre d’hapax (n1 = 36)

comparativement au nombre d’occurrences (9675) dans ce type de composés est

considérablement plus élevé que celui des autres types analysés (cf. Tableau 5-14).

Le fait que la mesure P au sens strict ne peut pas être considérée comme un outil

complètement fiable lorsqu’utilisée seule peut être illustré au moyen du Graphique 5-15, qui

montre la distribution de la valeur N. Rappelons que l'indice P dépend de deux valeurs : le

nombre total d'occurrences N et le nombre d’hapax n1. Plus grand est le nombre

d'occurrences N, plus petite est la valeur de P.

61 Bauer indique que malgré l’existence de différents patrons de formation (rouge-gorge, gratte-ciel, pour-boire, savoir-faire), les composés exocentriques français sont de genre masculin, en dépit du fait que le nom ‘gorge’, par exemple, est de genre féminin. Ces observations amènent à considérer que le genre des composés exocentriques en français provient de sa structure. (Bauer 2008 : 71)

178

Graphique 5-15 Distribution de la valeur N dans les composés N-N, A-N, N-A et N-de-N selon l’aspect régulier/irrégulier

Dans tous les composés réguliers (sauf le type N-de-N), le nombre d'occurrences N est trois

fois plus élevé que celui dans les composés irréguliers (29 665 vs 9675) alors que le nombre

d’hapax n1 ne diffère pas beaucoup (57 vs 36). Ainsi, l’inéquation significative dans la valeur

N des composés réguliers et irréguliers peut contribuer au résultat incohérent où la

productivité des composés irréguliers (P = 0.0037) est plus élevée que celle des réguliers

(P = 0.0019) (cf. Tableau 5-7).

Ainsi, les données du Graphique 5-15 et celles des Tableaux 5-7 et 5-14 indiquent que

l'indice P dépend non seulement de la taille du corpus utilisé, mais aussi du nombre de

structures analysées qui doit être relativement similaire dans le cas d'une étude comparée de

différents types de composés. Donc, le nombre inégal de structures examinées pour chaque

type de composés peut également amener à des résultats non fiables.

La deuxième hypothèse énoncée en 5.1 concerne la corrélation entre le taux de productivité

et à la structure interne du composé. J’ai prédit que les types N-N et N-de-N seraient les

structures les plus productives. Les résultats obtenus appuient cette hypothèse : le processus

de composition est plus productif dans les structures N-N (P = 0.0201) (e.g. chou-fleur,

arrière-pensée) indépendamment de la période analysée. Quant aux composés N-de-N (e.g.

belle-de-jour, pou-de-soie), bien que leur productivité soit assez élevée (P = 0.0105), ces

résultats sont certainement à interpréter avec précaution à cause des nombreuses lacunes de

179

données. Par ailleurs, le taux de productivité de ce type de composés est similaire à celui des

N-A (P = 0.0104).

Il semble aussi pertinent d’analyser la distribution des hapax parmi les types analysés. Les

données statistiques sur la répartition de vrais hapax, le type de composés et l’aspect

régulier/irrégulier sont récapitulées dans le Tableau 5-15.

Tableau 5-15 Distribution des formes avec de vrais hapax selon le type de composés

Type de composé

1606-1694 1695-1798 1799-1872 1873-1920 Total

Composés réguliers (56) N-N 7 6 2 1 16 A-N 15 6 9 2 32 N-A 4 2 1 - 7 N-de-N 1 - 1 - 2

Composés irréguliers (36) N-N 2 3 3 1 9 A-N 5 2 - 2 9 N-A 4 2 - 2 8 N-de-N 4 1 2 3 10

On voit que le nombre d’hapax le plus élevé apparaît dans le type A-N (41 cas, 44 %), suivi

par les composés N-N (25 cas, 27 %). Par contre, ce nombre est beaucoup plus bas dans les

composés N-A (15 cas, 16 %) et les N-de-N (12 cas, 13 %). Au total, entre 1606-1920 (275

composés), 92 composés (33 %) ont été ressortis comme de vrais hapax dont la majorité

(61 %) sont des formes régulières (56 cas) ; les irréguliers y constituent 39 % (36 formes).

Ceci soutient une des idées liées à l’aspect qualitatif de la productivité, selon lequel les

formes régulières sont aptes à former des patrons productifs (Bauer 2001 : 147). En

conséquence, l’hypothèse #1 selon laquelle les structures régulières sont les formes les plus

productives reçoit une confirmation plus solide.

L’étude a aussi révélé la présence de composés dont le taux de productivité est égal à 1.000

(43 formes sur 92 représentant de vrais hapax). La plupart de ces composés (40 % ou 17 cas)

apparaissent pendant la période 1606-1694 dans le type N-A (arc-A, acquit-A, bec-A, porc-A,

bouillon-A, cul-A, ver-A) et A-N (bel-N, claire-N, saint-N, double-N, gros-N). Entre 1695 et

1798, le nombre de composés avec P = 1.000 diminue légèrement (35 % ou 15 cas) ; le type

180

le plus représentatif (neuf cas) est celui N-N (bien-N, chou-N, gomme-N, lord-N, rêve-N,

taupe-N, bout-N, côte-N, mont-N). Vers les années 1799-1872, les formes 100 % productives

deviennent plus rares (21 % ou neuf cas) ; les composés qui y apparaissent le plus souvent

sont les N-N (tiers-N, huppe-N, patte-N, trique-N). Pendant la période 1873-1920, les

composés possédant P = 1.0000 sont presque disparus.

En dépit de la présence des formes semblant être 100 % productives, ce phénomène soulève

beaucoup de discussions dans les travaux théoriques consacrés à la productivité

morphologique (Aronoff et Fudeman 2005 ; Bauer 2001, 2003, 2005 ; Štekauer et

Lieber 2005). La plupart des linguistes pensent qu’il n’existe pas de processus de formation

de mot complètement productifs ou non-productifs ; quelques processus sont plus productifs

que d’autres62.

Bauer (2003 : 72) suggère que théoriquement, il est possible de parler de productivité totale

si le processus morphologique en question peut être utilisé chaque fois sans exception quand

les conditions de l’input ont été atteintes. Autrement dit, le patron morphologique est

complètement productif seulement dans les cas où il peut être appliqué à chaque base

appropriée respectant des restrictions spécifiques de types différents (Bauer 2003 : 83).

Ainsi, le problème soulevé par la notion de productivité totale concerne essentiellement les

bases qui peuvent être utilisées dans un processus morphologique. En dérivation, la

productivité morphologique est vue comme la productivité des affixes qui remplissent

généralement la fonction de tête et qui sélectionnent la base pour satisfaire une gamme de

restrictions phonétiques, morphologiques, sémantiques, etc. Seules les bases qui respectent

ces contraintes peuvent fonctionner comme bases potentielles pour un processus

morphologique dérivationnel particulier (Bauer 2001 : 139).63 Par ailleurs, en dérivation, le

nombre de bases qui répondent aux contraintes spécifiques est limité. Par contre, en

62 Aronoff, Fudeman (2005 : 231) indiquent que “… productivity is not absolute. Morphological processes do not fall into two neat categories, productive and unproductive. They are best seen as being spread out along a scale, with some more productive than others. This is a view of the majority of scholars”. (voir aussi Bauer 2001 : 126) 63 Toutefois, Bauer (2003 : 83) indique qu’il est extrêmement difficile de déterminer toutes les bases disponibles autant que toutes les contraintes concernant leurs applications.

181

composition, il n’y a pas de restrictions sur les bases puisque la tête ne sous-catégorise pas

un élément non-tête et elle ne le sélectionne pas.

Conséquemment, les formes mentionnées ci-dessus ne peuvent pas être considérées comme

100 % productives pour plusieurs raisons. En premier lieu, la notion de base n’est pas

clairement déterminée en composition. En deuxième lieu, selon la majorité des linguistes, la

productivité ne peut pas être déterminée de façon absolue; certains processus sont plus ou

moins productifs que les autres (Aronoff et Fudeman 2005 : 231).

Ainsi, l’utilisation de la mesure P au sens strict révèle encore une fois des faiblesses. Il est

possible que selon cette mesure, les composés ayant été évalués comme complètement

productifs, ne possèdent pas réellement de niveau de productivité égal à 100 %.

Dans l’hypothèse #3, j’ai prédit que la croissance de la taille catégorielle de la famille

morphologique diminue le niveau de productivité des composés analysés. Globalement, les

résultats de l’étude ont appuyé cette prédiction. Dans la majorité de types (N-N, N-A,

N-de-N), le taux de productivité le plus élevé coïncide avec la taille catégorielle la plus basse

indépendamment de la période analysée. La seule exception est liée au cas des composés

A-N pendant la période 1799-1872 où il y a d’une part, la croissance du niveau de

productivité (P3 = 0.0010) ; et de l’autre, l’augmentation de la taille catégorielle de la famille

morphologique (T3 = 119.77). Cette exception peut être expliquée par les faits suivants.

Premièrement, la différence entre les valeurs de P pour les périodes 1695-1798 et 1799-1872

est minimale (P2 = 0.0009 vs P3 = 0.0010). Deuxièmement, le nombre d’occurrences des

exocentriques réguliers dans les A-N entre 1695 et 1798 est considérablement plus bas que

celui de la période 1799-1872 (52 vs 360). De plus, le nombre total d’occurrences des A-N

réguliers entre 1695-1798 est 1.4 fois plus bas que celui de la période 1799-1872 (N2 = 6293

vs N3 = 9008). Ainsi, l’application de la mesure P dans le cas des composés A-N semble

présenter ses limites encore une fois.

Cependant, bien que la corrélation inverse ait été observée dans les composés N-de-N, ce

résultat doit être interprété avec précaution. En premier lieu, l’analyse complète de la

corrélation entre les mesures P et T n’est pas possible à cause de lacunes de données

statistiques liées à la mesure P. En deuxième lieu, le groupe de composés N-de-N réguliers

182

est trop petit (cinq composés) pour que les données obtenues soient fiables (rappelons que

seulement les composés réguliers ont été analysés en fonction de la taille catégorielle de leur

famille morphologique).

En somme, on peut conclure qu’il existe une corrélation inverse entre le niveau de

productivité et la taille catégorielle de la famille morphologique dans le domaine de

composition en français, même si cette corrélation n’est pas parfaite (N-N = 100 % ;

A-N = 75 % N-A = 100 % ; N-de-N = 100 %). Alors, l’hypothèse #3 se voit donc confirmée,

renforçant ainsi la fiabilité générale de la mesure P.

Il ressort de la présente étude qu’en dépit du fait que dans les recherches précédentes le rôle

de la taille de la famille morphologique n’a été pas toujours examiné dans le contexte de la

productivité morphologique, cette mesure doit être prise en compte. D'ailleurs, la mesure de

la taille catégorielle de la famille morphologique peut être considérée comme un facteur utile

complémentaire à la mesure quantitative P au sens strict. Elle peut être particulièrement utile

lorsque la valeur de P est absente (pas d’hapax). C'est le cas des composés N-de-N où on

observe les données lacunaires de P pour les périodes 1695-1798 et 1873-1920.

Enfin, la troisième mesure utilisée dans l’évaluation de la productivité des formes recensées

est celui de la fréquence relative introduite par Hay (2003). Selon la quatrième hypothèse

avancée dans la section 5.1, le taux de productivité des composés N-N, A-N, N-A et N-de-N

est inverse à celui de la fréquence relative : les composés avec une fréquence relative plus

basse sont plus productifs que ceux dont la fréquence relative est plus élevée.

L’étude a révélé une faible présence d’une corrélation inverse entre les mesures FR et P

(42 % ou 45 cas sur 108). Il apparaît également que les mesures FR3 et FR4 constituent 67 %

de tous les cas marqués de la corrélation inverse (30 cas sur 45), dont chaque variante

représente 33.5 %. Il est relativement rare de trouver un exemple de patron inverse dans les

variantes FR1 (22 % ; 10 cas) et FR2 (11 % ; 5 fois). Par conséquent, les mesures FR3 (la

somme des fréquences des constituants d’un mot composé) et FR4 (la moyenne des

fréquences des constituants) peuvent être considérées comme les mesures les plus fiables

pour le calcul de la fréquence relative des composés N-N, A-N, N-A et N-de-N. Étant donné

183

que la mesure FR4 est un dérivé de la mesure FR3, la mesure FR3 est envisagée comme la

meilleure variante pour évaluer la fréquence relative en composition.

Les résultats obtenus montrent que la corrélation inverse entre P et FR3 n’est pas parfaite :

pour les composés N-N (réguliers et irréguliers) elle apparaît dans deux périodes sur quatre :

1606-1694 et 1799-1872 (cf. 5.4.1). En ce qui concerne les A-N, le patron de la corrélation

inverse coïncide avec les années 1606-1694, 1695-1798 et 1873-1920 pour les A-N

réguliers ; toutefois, pour les A-N irréguliers, il est observé uniquement pendant la deuxième

période (1695-1798) (cf. 5.4.2). Quant aux composés N-A, la corrélation inverse entre P et

FR3 fonctionne parfaitement pour les N-A réguliers ; pour les N-A irréguliers, elle apparaît

pendant la deuxième période (1695-1798) et la quatrième (1873-1920) (cf. 5.4.3).

Finalement, vis-à-vis des composés N-de-N, la corrélation entre P et FR3 apparaît seulement

entre 1799 et 1872 pour les N-de-N réguliers, alors que dans les N-de-N irréguliers il n’y a

pas de corrélation inverse entre FR3 et P (cf. 5.4.4). Ainsi, compte tenu de 27 cas possibles de

corrélation inverse, la mesure F3 apparait dans 15 cas ou 56 % : le plus souvent dans les

années 1695-1798 et 1799-1872 (cinq cas respectivement) et 1606-1694 (quatre cas) ; elle est

rarement observée entre 1872 et 1920 (un cas). En outre, on voit que la corrélation entre P et

FR3 fonctionne beaucoup mieux avec les composés réguliers (10 cas ou 67 %), alors que

dans les irréguliers ce phénomène est moins marqué (5 cas ou 33 %).

Donc, à l’opposé de ce qu’on observe en dérivation, la corrélation inverse entre FR et P n’est

pas explicitement présente en composition (le pourcentage des cas confirmés de FR3 est

moins de 60 %). Par suite, la mesure de la fréquence relative ne peut pas être considérée

comme un facteur complètement fiable dans l’évaluation du niveau de productivité des noms

composés ; le critère FR3 sert plutôt à établir la présence de la productivité (i.e. la

décomposition du composé), mais il ne démontre pas son degré. Ainsi, l’hypothèse #4

concernant la corrélation inverse entre le taux de la fréquence relative FR et la productivité P

n’a pas été confirmée pour les composés N-N, A-N, N-A et N-de-N en français.

Par ailleurs, du fait que la mesure FR3 est ressortie dans l’étude comme la meilleure variante

de la fréquence relative, découle l’idée d'identifier plus clairement la notion de la base en

composition (cf. § 2.2.5 ; § 4.3.5). Rappelons que dans les travaux théoriques contemporains

184

(Bauer 1983, 2001 ; Dressler 2006 ; Spenser 1991 ; Krott et all. 1999), la base dans les mots

composés n’est pas définie d’une manière explicite. Théoriquement, la base peut être

identifiée de deux façons différentes : soit le morphème libre qui n'est pas la tête du

composé, soit tout morphème libre (tous les constituants du composé peuvent être des bases).

Vu que la mesure FR3 correspond à la somme des fréquences des constituants d’un mot

composé, je suggère qu’en composition chaque constituant du mot composé peut être

considéré comme base, du moins aux fins d’analyses quantitatives de la productivité.

Finalement, dans mon travail, j’essayais de fournir une réponse à la question suivante : la

mesure P au sens strict, est-elle suffisamment fiable comme un seul moyen de calcul de la

productivité des noms composés ?

En tenant compte des données obtenues dans les sections 5.2-5.4, je suis parvenue à la

conclusion suivante. La mesure de productivité P au sens strict ne peut pas être envisagée

comme étant suffisamment fiable en tant qu’unique méthode d’évaluation de la productivité

en composition. Cette conclusion est basée sur les résultats suivants de l’étude : a) les

composés exocentriques réguliers se révèlent comme les structures plus productives que les

endocentriques ; b) selon l’aspect régulier/irrégulier des composés, les formes irrégulières

sont souvent plus productives que les formes régulières. Ainsi, on peut conclure qu’il existe

certaines limites dans l’utilisation de la mesure P ; par conséquent, elle ne peut pas être

considérée comme un seul moyen dans l’évaluation du taux de productivité en composition.

Néanmoins, utilisée en combinaison avec la mesure T de la taille catégorielle de la famille

morphologique, la mesure P peut offrir des résultats assez fiables dans le calcul de la

productivité des mots composés. Rappelons que la recherche a révélé une corrélation inverse

presque parfaite entre P et T sauf un cas pour les composés A-N. En conséquence, quand la

corrélation entre P et T est visible, la mesure P peut être bien appliquée.

D’ailleurs, le fait que l’utilisation de la mesure P amène parfois à des résultats paradoxaux

suggère quelques réflexions importantes. En premier lieu, les données obtenues peuvent être

liées à la taille du corpus analysé. Bien que le corpus Frantext a une taille plus que suffisante

(plus de 170 millions de mots), la taille de chaque sous-corpus analysé diffère

considérablement d’une période à l’autre (1606-1694 = 17 303 466 mots ; 1695-

185

1798 = 34 393 102 mots ; 1799-1872 = 40 823334 ; 1873-1920 = 27 568 502 mots). Ainsi,

alors que les corpus de la deuxième et de la troisième période sont assez comparables, celle

de la première période est considérablement plus petite (2 fois < deuxième période ; 2.4 fois

< troisième période ; 1.6 fois < troisième période). Pourtant, concernant la présence des

hapax, la première période est la période la plus fructueuse (42 hapax ou 45 % du nombre

total d’hapax enregistrés). Théoriquement, la quantité d’hapax doit diminuer vers la fin de la

recherche (ce qui a été confirmé dans la présente étude) ; néanmoins, la question de la

compatibilité de la taille des sous-corpus analysés semble être un facteur important dans

l’application de la mesure P.

Le deuxième facteur pouvant influencer les résultats innatendus peut être lié à la liste de

composés analysés. Bien que la liste de 530 composés N-N, A-N, N-A et N-de-N créée à

partir du Dictionnaire de Littré initialement soit assez représentative, n’ont été retenus que

275 composés (177 réguliers et 98 irréguliers). La réduction de 48 % du corpus initial était

liée à l’absence de plusieurs formes de la liste de Littré dans Frantext. Ainsi, il est possible

que la liste de Littré ne soit pas complètement représentative pour les années 1606-1920. En

conséquence, il peut arriver qu’il existe des composés qui n’ont pas été dépouillés. Par

exemple, le phénomène de productivité élevé des composés exocentriques irréguliers

pourrait être expliqué par le fait que les composés réguliers ne soient pas suffisamment

représentés sur la liste de Littré.

Outre cela, la dernière période (1873-1920) comporte possiblement des néologismes qui

n’apparaissent pas du tout dans la recherche. Le dictionnaire de Littré (édition de 1877-1878)

reflète un état de la langue française classique et du bon usage littéraire entre le XVIIe et le

XIXe siècle, jusqu’aux les années 1830. Ainsi, il reste un problème de représentativité dans la

liste de composés de Littré : pour la période de 1830 à 1920 il peut exister des composés

dans Frantext qui, parce qu’absents du Littré, n’étaient pas pris en compte dans la recherche.

Cela pourrait influencer certains résultats liés à la corrélation entre les mesures FR et P d’un

côté et les mesures FR et T de l’autre. Par exemple, les lacunes de données de P liées à la

troisième période (1799-1872) pourraient avoir un effet sur la corrélation entre FR et P dans

le cas des composés A-N. En ce qui concerne la quatrième période (1873-1920), la

186

corrélation entre FR et P pourrait être différente dans le cas des composés N-A réguliers et

N-de-N réguliers.

5.6 La productivité en diachronie Dans cette section, je présente une étude diachronique sur l’évolution de la productivité des

composés français N-N, A-N, N-A et N-de-N qui sera abordée en trois étapes. Dans un

premier temps, la productivité des formes recensées sera analysée par période selon le type et

la position de la tête morphologique (section 5.6.1). Ensuite, l’évolution générale des

composés N-N, A-N, N-A et N-de-N sera examinée (section 5.6.2). Dans la section 5.6.3,

j’analyserai les combinaisons lexicales qui apparaissent de façon récurrente au cours des

quatre périodes analysées (arrière-N, bien-N, colin-N, bas-N, beau-N, bec-de-N, etc.). Enfin,

je terminerai cette section par une brève conclusion.

Pour évaluer l’évolution de la productivité des composés N-N, A-N, N-A et N-de-N, j’aurai

recours à la mesure de productivité P au sens strict. En ce qui concerne les formes N-de-N,

j’utiliserai aussi la mesure de la taille catégorielle T de la famille morphologique à cause de

données fort lacunaires de P pour ce type de composés. La mesure T me servira d'un outil

additionnel pour garantir la fiabilité des résultats sur la productivité de ce type par période.

Par contre, le critère FR n’a pas été retenu dû au fait que la corrélation inverse entre FR et P

n’a pas été confirmée (42 %) au cours de ma recherche (cf.§ 5.5).

5.6.1 Évolution de la productivité par types et position de la tête

L’évolution de chaque type de composés sera examinée selon la position de la tête

morphologique et l’aspect régulier/irrégulier.

5.6.1.1 Les composés N-N par période

L’évolution générale de la productivité du type N-N (réguliers et irréguliers), selon la mesure

de productivité morphologique P au sens strict, est résumée dans le Tableau 5-1664.

64

Dans les Tableaux 5-18 à 5-21, les zones ombrées représentent le niveau de productivité le plus élevé pour chaque type de composés. Elles identifient donc la période où un type donné était le plus productif.

187

Tableau 5-16 Productivité P des composés N-N par période Composés 1606-1694 1695-1798 1799-1872 1873-1920

Réguliers 0.0770 0.0100 0.0014 0.0012

Irréguliers 0.0364 0.0469 0.0153 0.0112

Total 0.0616 0.0136 0.0032 0.0021

Les composés N-N réguliers sont les plus productifs entre 1606 et 1694 (voir les zones

ombrées). À partir des années 1695, le taux de leur productivité diminue considérablement

par rapport à la première période (P2 = < 7.7 fois ; P3 = <55 fois ; P4 = < 64 fois). Par

contre, dans les composés N-N irréguliers, le taux de productivité le plus élevé est observé

lors de la deuxième période 1695-1798. Entre 1606 et 1694, ce type de composés est

légèrement moins productif (P1 = < 1.2 fois). Le changement du taux de productivité des

N-N irréguliers entre 1799 et 1920 n’est pas tellement significatif par rapport à la période la

plus productive (P3 = <3 fois ; P4 = < 4 fois). Le Graphique 5-16 récapitule l’évolution

globale de la productivité P des composés N-N réguliers et irréguliers selon la position de la

tête morphologique.

Graphique 5-16 Évolution globale des composés N-N (réguliers et irréguliers) selon la position de la tête morphologique

Pendant la première période (1606-1694), les formes N-N dont la tête est à droite (arrière-

main, arrière-neveu, bien-fonds, tiers-point, etc.) possèdent le niveau de productivité le plus

élevé (P1 = 0.1515). Les composés N-N avec la tête à gauche (croix-pile, chou-fleur, rêve-

creux) sont considérablement moins productifs (P1 = < 4 fois) à cette époque. Aucun hapax

188

n’apparaît pas dans les N-N appositionnels (fille-mère, lord-lieutenant, roman-feuilleton,

etc.). Enfin, il est intéressant de noter que le taux de productivité des N-N exocentriques

irréguliers (reine-claude, côte-rôtie, huppe-col, etc.) est similaire à celui des N-N dont la tête

est à gauche (P1 = 0.0364 vs P1 = 0.0385).

Entre 1695 et 1799, les N-N exocentriques irréguliers deviennent les formes les plus

productives (P2 = 0.0469) suivies par les formes dont la tête est à gauche (P2 = = < 2 fois).

Par contre, le taux de productivité des N-N avec la tête à droite diminue beaucoup (P2 = < 7

fois). La productivité des N-N appositionnels est similaire à celle des N-N avec la tête à

droite et elle s’abaisse par rapport aux exocentriques irréguliers (P2 = < 7.8 fois).

La période 1799-1872 se caractérise par une diminution du niveau de productivité pour

toutes les structures N-N analysées. Toutefois, les N-N exocentriques irréguliers restent les

formes les plus productives (P3 = 0.0153). Le taux de productivité des N-N avec la tête à

gauche et surtout avec la tête à droite subit une régression visible (P3 = = < 6.7 fois vs P3 =

< 11 fois). Quant aux N-N appositionnels, des hapax n’y font pas partie entre 1799 et 1920.

Finalement, dans les années 1873-1920, seulement les N-N avec la tête à droite et les N-N

exocentriques irréguliers se révèlent productifs ; néanmoins, leur niveau de productivité est

plutôt bas.

5.6.1.2 Les composés A-N par période

Le changement de la productivité des composés A-N (réguliers et irréguliers) en

diachronique selon la mesure de productivité P est récapitulé dans le Tableau 5-17.

Tableau 5-17 Productivité P des composés A-N par période

Composés 1606-1694 1695-1798 1799-1872 1873-1920

Réguliers 0.0050 0.0010 0.0010 0.0003

Irréguliers 0.0058 0.0018 - 0.0022

La productivité la plus élevée des A-N réguliers a été enregistrée pendant la première période

(voir les zones ombrées). Elle s’abaisse considérablement durant les années 1695-1872

(P2<5 fois et P3 = <5 fois), et surtout au cours des années 1873-1920 (P4 = <17 fois).

189

En ce qui concerne les A-N irréguliers, le taux de productivité le plus élevé est aussi observé

pendant la première période 1606-1694 (voir les zones ombrées). Au cours des années 1695-

1798, leur productivité s’abaisse par rapport à la première période (P2 = = <3 fois) en

augmentant un peu pendant la quatrième période (P4 = >1.2 fois). Aucun hapax n’apparaît

dans ce type de composés entre 1799-1872.

L’évolution diachronique des composés A-N selon la position de la tête morphologique est

résumée dans le Graphique 5-17.

Graphique 5-17 Évolution globale des composés A-N (réguliers et irréguliers) selon la position de la tête morphologique

Les séries de courbes ci-dessus révèlent quelques phénomènes intéressants concernant

l’évolution des composés A-N. Premièrement, le niveau de productivité le plus élevé a été

observé dans les formes exocentriques régulières tout au long des années 1606-1920. En fait,

il apparaît qu’entre 1606 et 1694, le taux de productivité P des composés clair-N (claire-

voie), courte-N (courte-boule, courte-pointe, courte-queue), haut-N (haute-taille), saint-N

(sainte-nitouche) était égal à 1.0000. Deuxièmement, le taux de productivité des A-N est

notablement plus bas par rapport aux A-N exocentriques réguliers (P1 = <37 fois ; P2 = <96

fois ; P3 = <12 fois ; P4 = <19 fois). Pour les A-N exocentriques irréguliers, leur niveau de

productivité est nettement plus élevé que celui des A-N endocentriques (P1 = >2.1 fois ;

P2 = >3 fois ; P4 = >11) ; néanmoins, il est plus bas que celui des exocentriques réguliers.

190

5.6.1.3 Les composés N-A par période

Comme dans le cas des composés N-N et A-N, l’étude diachronique de l’évolution de la

productivité du type N-A est réalisée selon l’aspect régulier/irrégulier et la position de la tête

morphologique. Les données statistiques de cette étude sont résumées dans le tableau ci-

dessous et le graphique 5-18.

Tableau 5-18 Productivité P des composés N-A par période

Composés 1606-1694 1695-1798 1799-1872 1873-1920

Réguliers 0.0348 0.0051 0.0012 -

Irréguliers 0.0374 0.0023 - 0.0037

On peut voir que lors des années 1606-1694, le taux de productivité des N-A réguliers et

celui des irréguliers sont assez similaires (P1 = 0.0348 vs P1 = 0.0374) où chaque type

représente le taux le plus élevé (voir les zones ombrées). Par contre, les années 1695-1798

(P2 = <7 fois) et surtout, les années 1799-1872 (P3 = <29 fois) sont caractérisées par la chute

considérable de la productivité des N-A réguliers. Par ailleurs, l’absence des hapax parmi les

N-A réguliers durant la quatrième période (1873-1920), indique que ce type de composés

n’est pas productif. Il apparaît également que le taux de productivité des N-A irréguliers

diminue beaucoup entre 1695-1798 (P2 = <16 fois). Toutefois, il augmente encore une fois

vers la quatrième période par rapport aux années 1695-1798 (P4 = >1.6 fois).

Le Graphique 5-18 récapitule l’évolution diachronique des composés N-A en termes de la

position de la tête morphologique.

Graphique 5-18 Évolution des composés N-A réguliers et irréguliers selon la position de la tête morphologique

191

Comme le montre le graphique ci-dessus, les N-A exocentriques réguliers (bec-cornu, pic-

vert, pied-bleu, etc.) sont beaucoup plus productifs que les formes endocentriques tout au

long des années 1606-1872. Toutefois, leur taux de productivité, égal à 1.000, durant les

années 1606-1695, est à interpréter avec précaution (cf § 5.5).

Il apparaît également que, relativement aux N-A exocentriques réguliers, les N-A

endocentriques sont considérablement moins productifs (P1 = <38 fois ; P2 = <200 fois).

Pour la troisième et la quatrième période on voit une grande insuffisance de données

statistiques pour le type N-A avec la tête à gauche. Le taux de productivité des exocentriques

irréguliers est similaire à celui des N-A avec la tête à gauche ; cependant il reste

considérablement plus bas que celui des exocentriques réguliers (P1 = <3 fois ; P2 = <217

fois). Ainsi, en dépit du nombre élevé d’occurrences du type N-A endocentrique entre 1799

et 1920, on n’y trouve pas d’hapax. Ce fait permet de conclure que la productivité des N-A

endocentriques à cette époque est assez basse.

5.6.1.4 Les composés N-de-N par période

Le dernier groupe de composés à analyser est le type N-de-N (belle-de-jour, belle-de-nuit,

mestre de camp, etc.). Étant donné que ce groupe est assez petit (27), et que plusieurs

données manquent, je compare les valeurs de P et T pour ce groupe. Rappelons que la valeur

T a été calculée uniquement pour les formes régulières. Le Tableau 5-19 résume les données

de cette étude (où N = le nombre total d’occurrences ; n1 = nombre d’hapax ; P =

productivité morphologique au sens strict ; T = taille catégorielle de la famille

morphologique).

Tableau 5-19 Productivité des composés N-de-N réguliers par période (mesures P, T)

Période N n1 P T 1606-1694 56 1 0.0180 3.32 1695-1798 101 - - 2.28 1799-1872 10 1 0.1000 3.08 1873-1920 3 - - 3.80

Contrairement à ce qu’on a observé précédemment dans les types N-N, A-N et N-A, le taux

de productivité des N-de-N réguliers est le plus élevé pendant la troisième période (voir les

192

zones ombrées). Toutefois, ce résultat est à interpréter avec précaution à cause du petit

nombre d’occurrences (N = 10). Entre 1606 et 1694, le niveau de productivité des composés

N-de-N est considérablement plus bas en comparaison avec la période 1799-1872 la plus

fructueuse (P1 = <6 fois). Aucun hapax n’apparaît dans ce type de composés pendant la

deuxième (1695-1798) et la quatrième (1873-1920) période.

En ce qui concerne la mesure T, les résultats obtenus varient légèrement d’une période à

l’autre pour ce type de composés. Il apparaît que la taille catégorielle T de la famille

morphologique la plus petite coïncide avec la deuxième période ; elle augmente un peu dans

les années 1799-1872 (T3 = >1.4 fois), 1606-1694 (T1 = >1.5 fois) et 1873-1920 (T4 = >1.7

fois).

Pour examiner l’évolution des composés N-de-N réguliers et irréguliers, je recours à

l’analyse comparative de la valeur P selon la position de la tête morphologique. Les résultats

de cette étude sont récapitulés dans le Graphique 5-19.

Graphique 5-19 Évolution des composés N-de-N réguliers et irréguliers selon la position de la tête morphologique

La seule structure qui possède un taux de productivité assez élevé est le type N-de-N avec la

tête à droite. Néanmoins, ce résultat ne peut pas être considéré comme fiable à cause du petit

nombre d’occurrences (N = 1) et d’hapax (n1 = 1). En outre, cette structure n’apparaît que

durant une seule période dans Frantext (1799-1872). Le seul type qui apparaît dans Frantext

au cours des quatre périodes est les N-de-N exocentriques irréguliers dont le taux de

productivité le plus élevé est noté entre 1606 et 1694. Leur productivité diminue de façon

193

considérable au cours des années 1799-1872 (P3 = <11 fois), en restant presque identique

pendant la deuxième et la quatrième période.

Les composés N-de-N avec la tête à gauche apparaissent dans Frantext uniquement pendant

la première période, en révélant un taux de productivité plus bas que celui des N-de-N

exocentriques irréguliers (P1 = <1.8 fois). En tenant compte des résultats présentés ci-dessus,

je peux conclure qu’il est impossible de faire une analyse fiable de l’évolution des composés

N-de-N réguliers en termes de la position de la tête morphologique.

5.6.2 Évolution globale de la productivité des composés

Dans cette section, la mesure P est utilisée pour déterminer les types et les structures les plus

productives d’une manière globale.

Premièrement, l’évolution générale de la productivité des composés N-N, A-N, N-A et

N-de-N (réguliers et irréguliers) est examinée tout au long des années 1606-1920. Les

résultats sont résumés dans le Tableau 5-2065 (où P = productivité au sens strict ;

Pélevée = changement du niveau de productivité par rapport à la valeur de P la plus élevée ;

Ppér. = changement du niveau de productivité par rapport à la valeur de P de la période

précédente).

Tableau 5-20 Évolution globale de la productivité des composés (mesure P) Période N-N A-N N-A N-de-N

P Pélevée Ppér. P Pélevée Ppér. P Pélevée Ppér. P Pélevé. Ppér. 1606-1694 0.0616 0.0052 0.0360 0.0296

1695-1798 0.0136 0.0011 0.0031 0.0030

-78 % -78 % -79 % -79 % -91 % -91 % -90 % -90 %

1799-1872 0.0032 0.0008 0.0005 0.0047

-95 % -76 % -85 % -27 % -99 % -84 % -84 % +57 %

1873-1920 0.0021 0.0005 0.0019 0.0046

-97 % -34 % -90 % -38 % -95 % +280 % -85 % -2 %

Moyenne 0.0201 0.0019 0.0104 0.0105

65

Dans les tableaux 5-19 à 5-21, les zones ombrées représentent le niveau de productivité le plus élevé pour chaque type de composés. Elles identifient donc la période où un type donné était le plus productif.

194

La période 1606-1694 est la période la plus fructueuse pour le processus de composition en

français (voir les zones ombrées). À partir des années 1695-1798, le taux de productivité

subit une baisse allant de 78 % à 91 % pour tous les types recensés. Vers 1873-1920, le

déclin le plus considérable a été constaté dans les types N-N (-97 %) et N-A (-95 %), et ce

par rapport à la première période qui est la plus fructueuse.

En outre, le taux de productivité le plus élevé a été observé dans les structures N-N tout au

long des deux premières périodes. Par ailleurs, le niveau moyen de productivité des

composés N-N (Pm = 0.0201) reste aussi le plus élevé entre 1606 et 1920 ; suivi par les

valeurs presque identiques des composés N-de-N (Pm = 0.0105) et N-A (Pm = 0.0104). Le

taux moyen de productivité des composés A-N est considérablement plus bas.

À partir des années 1799-1872, le type N-de-N devient le type le plus productif

(P3 = 0.0047 ; P4 = 0.0046). Toutefois, ces résultats sont à interpréter avec précaution parce

que ce groupe de composés est assez petit (cinq réguliers et 22 irréguliers), avec un nombre

d’occurrences notablement faible, et que les données sont très lacunaires (cf. 5.6.1.4).

En général, l’évolution globale de la productivité des quatre types recensés a été distribuée

de la façon suivante au cours des quatre périodes analysées.

Durant les années 1606-1694, le taux de productivité le plus élevé est observé dans le type

N-N suivi par les N-A et les N-de-N dont la productivité est assez similaire (voir les zones

ombrées). Le type A-N possède le niveau de productivité le plus bas (P = 0.0052).

Entre 1695 et 1789, les composés N-N restent les structures les plus productives, tandis que

le niveau de productivité des autres types est notablement plus bas. Toutefois, en

comparaison avec la première période la plus fructueuse le taux de productivité des N-N

s’abaisse fortement (-78 %). L’évolution de la productivité des N-A et des N-de-N est

presque identique (P2 = 0.0031 vs P2 = 0.0030). Cependant, la diminution du taux de leur

productivité par rapport à la première période est énorme (P2 = -91 % et P2 = -90 %

respectivement). Le type le moins productif au cours des années 1695 et 1789 est le type

A-N (P = 0.0011). Par contre, l’abaissement du taux de sa productivité est moins marqué

(-79 %) que celui des types N-A et N-de-N.

195

Les années 1799-1872 se caractérisent par un abaissement considérable de la productivité des

types N-A et N-N (P3 = -99 % et P3 = -95 % respectivement) vis-à-vis de la période la plus

féconde. Cet abaissement n’est cependant pas aussi important que celui de la période

précédente (N-A→ -84 % ; N-N→ -76 %) ; période pendant laquelle le taux de productivité

des composés N-de-N augmente (P3→ +57 %). Les composés A-N restent toujours peu

productifs ; toutefois le niveau de leur productivité est légèrement plus élevé (P = 0.0008)

que celui des N-A (P = 0.0005). En comparaison avec les autres formes recensées, le type

A-N subit le déclin de productivité le plus faible (-27 %) entre 1799 et 1872.

Finalement, au cours de la dernière période (1873-1920), les composés N-de-N restent le

type le plus productif (P = 0.0046). Toutefois, ces résultats sont à interpréter avec précaution

à cause de plusieurs lacunes de données statistiques. Relativement à la première période la

plus fructueuse, la productivité du type N-de-N régresse de 85 %. Néanmoins, en

comparaison avec la période précédente, l’abaissement du taux de productivité de ce type est

assez faible (-2 %).

Il ressort également du Tableau 5-20 que durant les années 1873-1920, la productivité des

composés N-N et N-A est plus de deux fois inférieure à celle du type N-de-N. Par rapport à

la période précédente, la productivité du type N-N diminue de 34 %, alors que celle du type

N-A augmente énormément (+280 %). Il faut noter que c’est le cas de croissance le plus

élevé de P parmi les formes recensées. Il s’avère que le type le moins productif au cours des

années 1873-1920 est le type A-N (P = 0.0005) dont le taux de productivité est neuf fois plus

bas que celui des composés N-de-N.

En bref, la période 1606-1694 est la plus productive pour le processus de composition en

français, car c’est pendant cette période-là que le taux de productivité de tous les types de

composés est le plus élevé ; on voit bien la forte chute de productivité pour tous les types

analysés entre 1695 et 1920. Toutefois, le type N-N est celui qui est globalement le plus

productif.

En outre, j’ai également évalué la productivité des formes régulières et irrégulières

séparément pour définir le type et la structure les plus productifs par période. Le Tableau

196

5-21 fait la synthèse de l’évolution des composés réguliers N-N, A-N et N-A, le type

N-de-N étant exclu à cause de données lacunaires pour P.

Tableau 5-21 Évolution de la productivité des composés réguliers N-N, A-N, N-A (mesure P)

Période N-N A-N N-A

P Pélevée Ppér. P Pélevée Ppér. P Pélevée Ppér.

1606-1694 0.0770 0.0050 0.0348

1695-1798 0.0100 0.0009 0.0051

-87 % -87 % -82 % -82 % -85 % -85 % 1799-1872 0.0014 0.0010 0.0012

-97 % -86 % -80 % +11 % -97 % -76 % 1873-1920 0.0012 0.0003

-98 % -14 % -94 % -70 %

Moyenne 0.0224

0.0018 0.0137

En premier lieu, on voit que la période 1606-1994 est la période la plus productive pour le

processus de composition régulière (voir les zones ombrées). Par contre, entre les années

1695-1798, le niveau de productivité les trois types recensés diminue entre 82 % et 87 %. La

chute la plus forte par rapport à la première période (la plus productive) a été observée dans

les N-N (-98 %) entre 1873 et 1920 et les N-A (-97 %) durant les années 1799 et 1872.

En deuxième lieu, il apparaît que le taux moyen de productivité des N-N réguliers

(Pm = 0.0224) est plus élevé ; celui des N-A réguliers est légèrement plus bas (Pm<1.6 fois),

alors que celui des A-N réguliers est considérablement inférieur (Pm<12 fois) à celui des

N-N réguliers.

Enfin, en dépit de l’abaissement progressif du niveau de productivité des types N-N et

N-A entre1799-1872, la productivité des A-N réguliers a modérément augmenté (Ppér.>

+11 %) durant la même période ; en fait, c’est la seule exception par rapport à la dégression

générale de P dans les types analysés.

Finalement, au cours de la dernière période (1873-1920), seuls deux types de composés

peuvent être évalués, soit N-N et A-N ; le type N-N régulier étant le plus productif des deux.

Ces deux types subissent une chute considérable du taux de productivité par rapport à la

197

première période, étant la plus fructueuse (P4 = <-98 % et P4 = <-94 % respectivement).

Toutefois, en comparaison avec la période précédente, l’abaissement du niveau de

productivité dans les N-N régulier est plus faible (-14 %), relativement aux A-N réguliers

dont la chute de productivité est plus considérable (-70 %).

Ainsi, en termes de la composition régulière en français, la période 1606-1694 est la période

la plus productive pour les trois types analysés, où le type N-N représente la structure la plus

productive.

Les données statistiques sur l’évolution de la productivité des composés irréguliers N-N,

A-N, N-A et N-de-N sont résumées dans le Tableau 5-22.

Tableau 5-22 Évolution de la productivité des composés irréguliers N-N, A-N, N-A, N-de-N (mesure P) Période N-N A-N N-A N-de-N

P Pélevée Ppér. P Pélevée Ppér. P Pélevée Ppér. P Pélevée Ppér.

1606- 1694

0.0364 0.0058 0.0374 0.0354

1695- 1798

0.0469 0.0018 0.0023 0.0043

+29 % +29 % -69 % -69 % -94 % -94 % -88 % -88 %

1799- 1872

0.0153 - - 0.0032

-58 % -67 % -91 % -26 %

1873- 1920

0.0112 0.0022 0.0037 0.0046

-69 % -27 % -62 % +22 % -90 % +61 % -87 % +44 %

Moyenne 0.0275

0.0033

0.0145 0.0119

On voit que la majorité des types irréguliers (A-N ; N-A ; N-de-N) sont les plus productifs

pendant la première période analysée (voir les zones ombrées). Dans ce groupe de composés,

la chute la plus considérable de la productivité par rapport à la première période la plus

fructueuse a été observée dans les années 1695-1798, surtout dans les N-A (-94 %) et les

N-de-N irréguliers (-88 %). Par contre, le niveau de productivité des N-N irréguliers

augmente (+29 %) au cours de la même période. Contrairement aux N-N réguliers dont le

taux de productivité est le plus élevé durant les années 1606-1695, le type N-N irrégulier est

le plus productif entre 1695 et 1798 (voir les zones ombrées).

En fonction de la productivité moyenne, les N-N irréguliers représentent le type le plus

productif (Pm = 0.0275) suivi par les N-A et les N-de-N irréguliers qui possèdent un taux de

198

productivité 1.9 fois et 2.3 fois plus bas que celui du type N-N irrégulier. La productivité

moyenne des A-N irréguliers est fortement plus basse (Pm<8.3 fois) en comparaison avec

celle des N-N irréguliers.

En dépit de l’abaissement progressif du niveau de productivité des types A-N et N-A

irréguliers entre 1695 et 1798, et des N-de-N irréguliers dans les années 1695-1872, on

constate une croissance considérable de leur productivité durant la quatrième période 1873-

1920 : A-N (P4 = +22 %), N-A (P4 = +61 %) et N-de-N (P4 = +44 %). Par contre, dans le

type N-N irrégulier, on observe une chute de 27 % du taux de productivité au cours de la

même période.

Ainsi, en ce qui concerne les composés irréguliers, il semble que la période 1606-1694 est la

période la plus productive pour la majorité des types analysés, sauf les N-N irréguliers dont

le niveau de productivité est le plus élevé dans les années 1695-1798. Entre 1873 et 1920,

après une phase de déclin, le taux de productivité de trois types irréguliers (A-N ; N-A et

N-de-N) augmente encore une fois.

En général, l’ordre décroissant du niveau de productivité dans les types N-N, A-N et N-A

(réguliers et irréguliers) se distribue de façon différente au cours de quatre périodes

analysées sauf les années 1695-1798 en (17b) et (18b) où le type N-N étant le plus productif

des trois. Par contre, les composés A-N représentent le type le moins productif lors de quatre

périodes analysées. Cependant, la distribution des types réguliers et irréguliers ne peut pas

être analysée au complet à cause de lacunes de données statistiques entre 1799-1872 et 1873-

1920.

(17) Distribution du niveau de productivité dans les types réguliers : a. 1606-1694 : N-N, N-A, A-N

b. 1695-1798 : N-N, N-A, A-N c. 1799-1872 : N-N, N-A, A-N d. 1873-1920 : N-N, A-N (18) Distribution du niveau de productivité dans les types irréguliers :

a. 1606-1694 : N-A, N-N, (N-de-N), A-N, b. 1695-1798 : N-N, (N-de-N), N-A, A-N c. 1799-1872 : N-N, (N-de-N) d. 1873-1920 : N-N, (N-de-N), N-A, A-N

199

L’évolution globale de la productivité des formes recensées régulières et irrégulières a aussi

été analysée en fonction de la position de la tête morphologique (Tableau 5-23). Les

composés appositionnels ont été éliminés de cette étude à cause de données fort lacunaires de

P pour la majorité de périodes (trois sur quatre).

Tableau 5-23 Évolution globale des composés N-N, A-N, N-A, N-de-N réguliers et irréguliers selon la position de la tête morphologique (mesure P)

Période Tête à gauche Tête à droite Exocentriques réguliers Exocentriques irréguliers

P Pélevée Ppér. P Pélevée Ppér. P Pélevée Ppér. P Pélevé. Ppér.

1606- 1694

0.0275 0.0043 0.6667 0.0132

1695- 1798

0.0065 0.0009 0.0741 0.0035

-76 % -76 % -79 % -79 % -89 % -89 % -73 % -73 %

1799- 1872

0.0008 0.0011 0.0137 0.0012

-97 % -88 % -74 % +22 % -98 % -82 % -91 % -66 %

1873- 1920

- 0.0003 0.0037 0.0037

-93 % -73 % -99 % -73 % -72 % +208 %

Moyenne 0.0116 0.0017 0.1896 0.0054

Conformément à la position de la tête morphologique, la période 1606-1694 est la période la

plus productive pour le processus de composition en français (voir les zones ombrées). Par

ailleurs, l’étude a révélé le taux élevé des composés exocentriques réguliers lors des quatre

périodes analysées en comparaison avec les autres structures analysées dont la productivité

reste considérablement basse. Il apparaît également que la deuxième structure la plus

productive est celle dont la tête est à gauche, suivie étonnamment par les exocentriques

irréguliers.

En général, entre les années 1695-1920, le taux de productivité de toutes les structures

recensées diminue entre 66 % et 99 %. Toutefois, il y a deux exceptions : pendant la période

1799-1872, la productivité des composés avec la tête à droite augmente modérément

(P3 = +22 %) ; alors que celle des exocentriques irréguliers grandit considérablement

(P4 = +208 %) dans les années 1873-1920 par rapport aux périodes précédentes. Vers 1873-

1920, le déclin le plus considérable du niveau de productivité, par rapport à la première

période, a été constaté dans les exocentriques réguliers (P4 = <99 %) et les composés avec la

tête à droite (P4 = < 93 %).

200

Globalement, l’évolution de la productivité des types N-N, A-N, N-A et N-de-N réguliers et

irréguliers a été répartie de la manière suivante selon la position de la tête morphologique.

Entre 1606 et 1694, on voit la dominance des exocentriques réguliers dont le taux de

productivité est considérablement plus élevé que celui des endocentriques avec la tête à

gauche (P1 = <24 fois), et surtout des structures dont la tête est à droite (P1 = <155 fois).

En ce qui concerne la période 1695-1798, la productivité des exocentriques réguliers reste

supérieure à celle des autres structures. Le taux de productivité des endocentriques avec la

tête à gauche (P2 = <11 fois) et surtout celui des structures avec la tête à droite est

notamment plus bas (P2 = <82 fois). Toutefois, il apparaît que la chute la plus marquée du

niveau de productivité est observée dans les exocentriques réguliers (P2 = <-89 %) ; dans les

autres structures, l’abaissement du taux de la productivité, par rapport à la première période,

est assez similaire (entre 73 % et 79 %).

Les années 1799-1872 se caractérisent par l’abaissement considérable du taux de

productivité de toutes les structures, surtout des exocentriques réguliers (P3 = <98 %), des

composés avec la tête à gauche (P3 = <97 %) et des exocentriques irréguliers (P3 = <91 %).

Par contre, la productivité des composés avec la tête à droite augmente (P3 = >22 %)

relativement à la période précédente. En somme, les exocentriques réguliers restent les

structures les plus productives ; la productivité des endocentriques avec la tête à gauche,

celle des endocentriques avec la tête à droite et des exocentriques irréguliers sont très

similaires (P3 = 0.0008 ; P3 = 0.0011 ; P3 = 0.0012 respectivement).

Finalement, au cours de la dernière période (1873-1920), seulement trois structures

apparaissent dans Frantext. Le taux de productivité des exocentriques réguliers et celui des

exocentriques irréguliers est identique (P3 = 0.0037), alors que la productivité des

endocentriques avec la tête à droite est considérablement plus basse (P4 = <12 fois). En

général, cette période se caractérise par la décroissance significative du niveau de

productivité de toutes les structures face à la première période fructueuse (entre -72 % et

-93 %) et par l’imposante croissance du taux de productivité des exocentriques irréguliers par

rapport à la période précédente (P4 = >208 %).

201

Ces résultats sont assez imprévus parce qu’en français moderne, les composés

endocentriques, particulièrement ceux avec la tête est à gauche, sont généralement

considérées comme les plus productifs en opposition aux formes exocentriques (Brousseau

2001 ; Gross 1996 ; Mathieu-Colas 1994). Alors, on peut supposer que les exocentriques

irréguliers subissent une évolution massive au cours des années 1873-1920. De cette façon,

les résultats obtenus confirment de façon empirique l’hypothèse de Bauer (2008), selon

laquelle les composés exocentriques peuvent être envisagés comme des formations

productives en français.

Finalement, le bilan général de l’évolution de la productivité des formes recensées (tous

types inclus) est récapitulé dans le Tableau 5-24 (où les zones ombrées représentent les

périodes les plus productives).

Tableau 5-24 Évolution globale de la productivité des composés N-N, A-N, N-A, N-de-N de 1606 à 1920 Période N n1 P Pélevée Ppér.

1606-1694 4390 42 0.0096

1695-1798 9685 22 0.0023

+121 % -48 % -76 % -76 % 1799-1872 15 268 18 0.0012

+58 % -18 % -88 % -48 % 1873-1920 9997 11 0.0011

-35 % -39 % -89 % -8 %

Le tableau ci-dessus révèle que la période 1606-1694 est dominante au regard de la

productivité du processus de composition en français. À partir des années 1695-1798, la

productivité général du processus de composition baisse considérablement (P2 = <-76 %) ;

alors que la chute la plus marquée est observée pendant la troisième période 1799-1872

(P3 = < -88 %) et la quatrième (P3 = < -89 %).

Par ailleurs, par rapport à la période précédente, on voit l’abaissement du taux de

productivité le plus visible entre 1695-1798 (P2 = < -76 %) ; cette tendance est plus modérée

202

lors des années 1799-1872 (P3 = < -48 %). Finalement, entre 1873 et 1920, le

développement du processus de composition se stabilise en comparaison avec la période

précédente (P4 = <-8 %).

En ce qui concerne la distribution des hapax, leur nombre diminue progressivement entre la

première période la plus fructueuse (n1 = 42) et les années 1799-1872 (n1 = 18) ; la

décroissance la plus considérable du nombre d’hapax est observée pendant la quatrième

période (n1 = 11 ou -89 %). Toutefois, il faut noter que le nombre élevé d’hapax pendant la

première période peut être expliqué par le facteur suivant: tous les hapax révélés au cours de

cette période sont traités comme de vrais hapax. Par contre, dans les trois périodes suivantes,

les formes n’apparaissant qu’une seule fois sont traités comme de vrais hapax seulement s’il

s’agit de leur première occurrence. Les hapax des périodes subséquentes qui figuraient dans

le corpus de la première période (comme hapax ou non) ont été éliminés des calculs,

réduisant ainsi le nombre de n1.

5.6.3 Combinaisons lexicales les plus courantes

Parmi les 275 composés analysés, plusieurs combinaisons lexicales apparaissent de façon

récurrente dans Frantext, soit pendant trois ou quatre périodes. Ainsi, les composés N-N

présentent huit combinaisons récurrentes, alors que le type A-N en inclut 18 :

(19) Combinaisons N-N (8) a. Périodes 1-4 : arrière-N ; bien-N ; colin-N ; loup-N ; reine-N

b. Périodes 2-4 : chat-N ; chef-N ; chou-N

(20) Combinaisons A-N (18)

a. Périodes 1-4 : bas-N ; beau-N ; blanc-N ; bon-N ; court-N ; demi-N ; double-N ; grand-N ; gros-N ; haut-N ; mort-N ; petit-N ; saint-N ; tout-N b. Périodes 2-4 : dur-N ; faux-N ; franc-N ; vide-N

L’examen des composés N-A révèle six combinaisons récurrentes :

(21) Combinaisons N-A (6) a. Périodes 1-4 : bec-A ; fer-A ; pied-A ; sang-A ; terre-A

b. Périodes 1, 3, 4 : cul-A

Finalement, les combinaisons récurrentes du type N-de-N se présentent comme suit :

203

(22) Combinaisons N-de-N (8) a. Périodes 1-4 : bec-de-N ; cou-de-N ; cul-de-N ; eau-de-N ; mestre-de-N

b. Périodes 2-4 : belle-de-N ; gorge-de-N c. Périodes 1, 2, 4 : haut-de-N

Les exemples en (19) - (22) montrent que le type A-N contient le plus grand nombre de

combinaisons lexicales récurrentes, dont 14 apparaissent durant quatre périodes et quatre

autres ressortent dans trois périodes.

La réapparition des combinaisons lexicales dans les types N-N (8), N-de-N (8) et surtout

N-A (6) est beaucoup plus faible. La distribution des combinaisons les plus courantes, tous

types confondus, est résumée dans le Tableau 5-25 (où les formes en gras représentent de

vrais hapax).

Tableau 5-25 Distribution des combinaisons lexicales les plus courantes

Nombre de récurrences

Combinaisons lexicales (exemples) 1606-1694

1695-1798

1799-1872

1873-1920

22 arrière-N (arrière-bouche, arrière-boutique, arrière-main, arrière-chœur,)

x x x x

16 bas-N (bas-fond, bas-latin, bas-métier, bas-ventre)

x x x x

13 beau-N (beau-chasseur, belle-de-jour, bel-esprit)

x x x x

12 demi-N (demi-brigade ; demi-dame ; demi-frère)

x x x x

11 bec-de-N (bec-de-cane ; bec-de-cigogne ; bec-de-cygne)

x x x x

10 bon-N (bon-air ; bon-tour ; bonne-vilaine) x x x x

9 court-N (court-bouillon ; courte-lettre) x x x x

8 saint-N (saint-augustin ; saint-gall ; sainte-barbe)

x x x x

7 bec-A (bec-allongé ; bec-cornu ; bec-dur) x x x x

7 double-N (double-bec; double-chaîne ; double-main)

x x x x

6 franc-N (franc-fief ; franc-maçon ; franc-tireur)

x x x

6 petit-N (petit-bouc ; petit-fils ; petit-fond) x x x x

6 tout-N (tout-ensemble ; toute-bonté ; toute-table)

x x x x

5 blanc-N (blanc-bec ; blanc-bois ; blanc-manteau)

x x x x

204

Nombre de récurrences

Combinaisons lexicales (exemples) 1606-1694

1695-1798

1799-1872

1873-1920

5 haut-N (haut-fond ; haute-bonté ; haute-tail x x x x 4 cul-de-N (cul-de-lampe, cul-de-jatte, cul-de

poule, cul-de-sac) x x x x

4 grand-N (grand-compte ; grand-croix ; grand-oncle)

x x x x

4 gros-N (gros-bec ; gros-colas ; gros-jean ; grosse-gorge)

x x x x

3 faux-N (faux-saunage ; faux-monnayeur ; faux-saunier

x x x

3 mort-N (mort-bois, mort-gage morte-saison)

x x x x

3 pied-A (pied-bleu ; pied-droit ; pied-fort) x x x x

3 vide-N (vide-bouteille ; vide-gousset ; vide-poches)

x x X

2 belle-de-N (belle-de-jour, belle-de-nuit) x x x

2 bien-N (bien-disance, bien-fonds) x x x x

2 chat-N (chat-cervier, chat-tigre) x x x

2 chef-N (chef-lieu, chefs-plaids x x x

2 chou-N (chou-fleur, chou-rave) x x x

2 cou-de-N (coup de pied, coup de poing) x x x x

2 colin-N (colin-maillard, colin-tampon) x x x x

2 cul-A (cul-bas, cul-blanc) x x x

2 dur-N (dur-bec, dur-mère) x x x

2 loup-N (loup-cervier, loup-garou) x x x X

2 sang-A (sang-froid, sang-gris) x x x X

2 terre-A (terre-plein) x x x x

1 eau-de-N (eau-de-vie) x x x x

1 fer-A (fer-blanc) x x x x

1 gorge-de-N (gorge-de-pigeon) x x x

1 haut-de-N (haut-de-chausses) x x x

1 mestre-de-N (mestre de camp) x x x x

1 reine-N (reine-claude) x x x x

On voit que la majorité de combinaisons lexicales récurrentes (31 sur 40) apparaissent dans

chaque période étudiée ; neuf combinaisons sont observées dans trois périodes sur quatre

205

(franc-N, faux-N, vide-N, belle-de-N, chat-N, chef-N, chou-N, dur-N, gorge-de-N). Sauf les

composés cul-A et haut-de-N, ces combinaisons lexicales ne se révèlent pas entre 1606-1694.

D'ailleurs, la plupart de ces combinaisons sont formées de constituants de haute fréquence

(e.g. arrière-bouche → arrière (N = 3512), bouche (N = 5353) ; bas-fond → bas

(N = 13 553), fond (N = 14 749) ; beau-fils → beau (N = 15 003), fils (N = 14 668) ; petit-

enfant → petit (N = 20 466), enfant (N = 12 248) ; bec-pointu → bec (N = 728), pointu

(N = 224 ; etc.).

En outre, la majorité (24 sur 40) de ces combinaisons lexicales inclut un adjectif comme

premier/deuxième élément de leur structure (i.e. bas-fond, beau-chasseur, court-bouillon,

sainte-barbe, fer-blanc, dur-bec, etc.).

Finalement, la plupart des combinaisons lexicales récurrentes appartiennent à de grandes

familles morphologiques (e.g. blanc-manger a 26 membres ; bas-justicier a 21 membres,

etc.).

Chaque membre supplémentaire d'une famille morphologique contribue à l’augmentation de

la taille catégorielle de leur famille morphologique. Donc, comme le montre la recherche, les

formes appartenant aux grandes familles morphologiques possèdent la taille catégorielle la

plus élevée, ce qui contribue à leur niveau de productivité plus bas. En conséquence, dans

plusieurs combinaisons lexicales récurrentes les hapax n’apparaissent pas. D'ailleurs, les

formes avec de vrais hapax constituent 45 % de toutes les combinaisons lexicales récurrentes

(18 sur 40).

Par contre, les composés formés avec des constituants de basse fréquence (e.g. acquit-patent,

taupe-grillon, volte-face, bec-cornu, ver-coquin, etc.) apparaissent seulement pendant une ou

deux périodes dans Frantext. Ces combinaisons lexicales forment les familles

morphologiques plus petites, alors, leur niveau de productivité est plus élevé.

5.6.4 Sommaire

L’étude de l’évolution diachronique de la productivité des composés N-N, A-N, N-A et

N-de-N révèle la dominance de la période 1606-1694 vis-à-vis du taux élevé de

206

productivité ; ce phénomène est observable indépendamment du type de composés ou la

position de la tête morphologique. En ce qui concerne les années 1695-1798, toutes les

formes recensées ont subi une chute considérable de la productivité, soit entre 78 % et 91 %.

Lors des années 1799-1872, la productivité des types N-N, A-N, N-A, N-de-N connaît un

autre affaiblissement de 48 %. Finalement, au cours de la période 1873-1920, le

développement du processus de composition se stabilise en démontrant un petit déclin (<-

8 %).

En ce qui concerne la structure interne des formes recensées, il apparaît que les composés

N-N représentent le type le plus productif tout au long des années 1606-1920, suivi par les

N-A et les A-N. Par contre, le taux élevé de productivité des composés N-de-N réguliers,

envisagées en général parmi les plus productifs (Brousseau 2001 : 347 ; Gross 1996 : 31),

doit être considéré en précaution à cause de données fort lacunaires de la mesure P (i.e. le

manque de données pour les périodes 1695-1798 et 1873-1920).

Par ailleurs, au regard de la position de la tête morphologique, les résultats obtenus révèlent

la productivité élevée des composés exocentriques réguliers étant la structure la plus

productive lors de quatre périodes analysées. Ils sont suivis par les structures dont la tête est

à gauche et les exocentriques irréguliers. Les composés avec la tête à droite et, surtout, les

appositionnels représentent les structures les moins productives. Entre 1695-1920, le niveau

de productivité de toutes les structures diminue d'un taux allant de 66 % à 99 %. Outre cela,

deux résultats imprévus apparaissent au cours de l’étude. En premier lieu, la productivité des

composés avec la tête à droite, par rapport aux périodes précédentes, augmente modérément

pendant la troisième période (+22 %). En deuxième lieu, les exocentriques irréguliers

révèlent une augmentation de productivité considérable pendant la quatrième période 1873-

1920 (P4 = +208 %).

Finalement, l’analyse des combinaisons lexicales récurrentes met en évidence le fait que la

majorité de ces combinaisons lexicales sont formées d’éléments de haute fréquence, qui sont

associés à des familles morphologiques assez grandes. Dans la plupart de ces combinaisons,

un des constituants est représenté par un adjectif.

207

5.7 Conclusion Dans ce chapitre, la productivité morphologique des composés français N-N, A-N, N-A et

N-de-N a été examinée en fonction de trois facteurs différents, soit le type de composés

(structure), la position de la tête morphologique et l’aspect régulier/irrégulier. L’utilisation de

trois mesures de productivité (P, T et FR) a permis de raffiner les résultats de la recherche et

de clarifier les méthodes quantitatives qui peuvent être utilisées pour l’évaluation de la

productivité en composition, de façon générale comme pour le français en particulier.

Quatre hypothèses ont été traitées dans ce chapitre. La première vise à vérifier si le taux de

productivité dépend de la position de la tête morphologique et du statut régulier/irrégulier des

composés. Je m’attendais à ce que les structures avec la tête à gauche et les structures

régulières soient les formes les plus productives, comme c’est le cas en français

contemporain en syncronie (Brousseau et Nikiema 2001 ; Gross 1996 ; Mathieu-Colas 1994).

Par contre, les résultats obtenus montrent que ce sont les composés exocentriques réguliers

qui représentent la structure la plus productive ; ils sont suivis par les structures dont la tête

est à gauche et les exocentriques irréguliers. Les formes avec la tête à droite et les

appositionnels sont les structures les moins productives. En ce qui concerne l’aspect

régulier/irrégulier, l’étude révèle des résultats prévus : le taux de productivité le plus élevé a

été observé dans les formes régulières parmi lesquelles les exocentriques réguliers sont les

plus productifs suivis par les endocentriques avec la tête à gauche. Donc, la productivité

élevée des composés exocentriques réguliers confirme l’hypothèse de Bauer (2008), selon

laquelle ces structures peuvent être envisagées comme des formations productives en

français. Ainsi, l’hypothèse #1 a été partiellement confirmée.

La deuxième hypothèse, liée à la structure interne des formes recensées, prédit que les types

N-N et N-de-N sont les structures les plus productives. Cette hypothèse a été confirmée par

les résultats obtenus qui ont mis en évidence le taux élevé de productivité de la structure

N-N, indépendamment de la période analysée. Le deuxième type le plus productif est le type

N-A, suivi par les A-N. Quant aux composés N-de-N, la productivité élevée de ce type est à

interpréter avec précaution. D’une part, l’étude a révélé les données fort lacunaires de P pour

ce type de composés (pour deux périodes sur quatre). D’autre part, le nombre total des

composés N-de-N est assez réduit (27).

208

En ce qui concerne la troisième hypothèse, j’ai cherché à vérifier une corrélation inverse

entre la productivité et la taille catégorielle de la famille morphologique : la croissance de la

taille catégorielle de la famille morphologique devait correspondre à un taux de productivité

plus bas. Globalement, cette hypothèse a été confirmée : dans trois types sur quatre (N-N,

N-A, N-de-N) le taux de productivité le plus élevé coïncide avec la taille catégorielle la plus

basse, indépendamment de la période analysée. La seule exception est liée au cas des

composés A-N dans les années 1799-1872.

La quatrième hypothèse vise à établir une corrélation possible entre la fréquence relative FR

et le niveau de productivité P. En me basant sur l’hypothèse de Hay (2003) en dérivation, j’ai

prédit que les mots composés dont la fréquence relative est plus basse sont plus productifs

que ceux dont la fréquence relative est plus élevée. Toutefois, les données de l’étude

indiquent que cette tendance n’est pas confirmée en composition française (le pourcentage

total des cas attestés est de 42 %). Il apparaît également que les mesures FR3 et FR4

constituent 67 % de tous les cas marqués de la corrélation inverse. Étant donné que la mesure

FR4 est un dérivé de la mesure FR3, j’ai suggéré de considérer la mesure FR3 comme la

meilleure variante pour le calcul de la fréquence relative dans les composés français. Le

travail révèle en effet que la corrélation inverse entre les mesures P et FR3 est apparemment

plus marquée pour les composés réguliers (67 %) que pour les irréguliers (33 %). Ce résultat

est donc cohérent avec les données obtenues pour la mesure T calculée uniquement pour les

formes régulières et qui montrent clairement l’existence de la corrélation inverse presque

parfaite entre P et T. Toutefois, l’hypothèse #4 concernant une corrélation possible entre les

mesures FR et P n’a pas été confirmée pour le processus de composition en français puisque

le pourcentage de cas confirmés pour la mesure FR3 est moins de 60 %.

En tenant compte du fait que la mesure FR3 a été définie comme le meilleur moyen de

mesurer la fréquence relative des composés, il est possible d'identifier plus clairement la base

en composition (Bauer 1983, 2001 ; Dressler 2006 ; Spenser 1991 ; Krott et all. 1999) (cf.

§ 2.2.5 ; § 4.3.5). Comme la mesure FR3 correspond à la somme des fréquences des

constituants du mot composé, il semble qu’en composition chaque constituant du mot

composé peut être considéré comme base, du moins aux fins d’analyses quantitatives de la

productivité.

209

Une des questions à laquelle j’ai essayé de répondre dans ma recherche était la suivante : la

mesure P au sens strict, est-elle suffisamment fiable comme seul moyen de calcul du taux de

productivité des noms composés ? Les résultats obtenus révèlent que la mesure P utilisée en

combinaison avec la mesure de la taille catégorielle T de la famille morphologique offre des

résultats assez fiables pour l’évaluation de la productivité en composition. D'ailleurs, la

corrélation inverse entre P et T est presque parfaite mis à part un cas dans les composés A-N.

Ainsi, quand la corrélation entre P et T est visible, la mesure P peut être appliquée avec

confiance. Toutefois, la productivité élevée des composés exocentriques irréguliers soulève

des questions concernant l’utilisation de la mesure P au sens strict. D’un coté, selon la notion

qualitative de productivité (Bauer 2001 ; Hay 2001 ; Baayen et Lieber 1991), les composés

irréguliers sont envisagés comme des formes indécomposables qui ne forment pas de patrons

productifs ; ils doivent être stockées dans la mémoire. Par contre, l’étude a montré que selon

la mesure P, les composés irréguliers sont productifs.

D’ailleurs, l’application de la mesure P avec la mesure T révèle une corrélation inverse

presque parfaite. Pour expliquer ce paradoxe, deux hypothèses peuvent être envisagées : soit

la mesure P et la mesure T ne sont pas valides, soit le statut de certains composés irréguliers

doit être reconsidéré. Si on accepte l’idée de l’invalidité des mesures P et T, le phénomène de

la corrélation inverse obtenue dans le présent travail et dans le travail antérieur de Baayen et

Hay (2002) reste inexpliqué. La corrélation apparaît alors comme une coïncidence qui se

répète systématiquement, ce qui est improbable. La deuxième hypothèse semble être plus

plausible : il est possible que certains composés irréguliers puissent être réanalysés comme

réguliers. Pour conclure, je pense que la mesure P est une mesure solide qui fournit de bons

résultats dans le domaine de la productivité en composition, particulièrement lorsqu’elle est

utilisée en conjonction avec d’autres mesures qui permettent d’en confirmer les résultats.

L’étude de l’évolution de la productivité des formes recensées en diachronie révèle la

période 1606-1694 comme la période la plus productive pour le processus de composition en

français. Rappelons qu’à cette époque, en France, le latin avait commencé à perdre de son

importance et la langue française avait été largement introduite dans la vie quotidienne par

l’intermédiaire de plusieurs néologismes. L’invention de l’imprimerie favorise aussi

l’utilisation du français: « …les imprimeurs et les auteurs cherchent désormais à atteindre la

210

clientèle la plus vaste possible » (Burney 1962 : 12). C’est une époque de la création des

écoles françaises et de la correspondance française entre les étrangers (Burney 1962 : 13). La

langue française s’impose également en Europe (en Angleterre, en Allemagne, en Pologne,

aux Pays-Bas, etc.). Cette période se caractérise aussi par la création de l'Académie française

(1635) et l’apparition des premiers dictionnaires entièrement français (Dictionnaire de

Richelet 1680, Dictionnaire Universel de Furetière 1690, etc.). Vers la fin du XVIIe siècle,

l'orthographe française s'unifie sous l'influence des différentes autorités, des dictionnaires, et

des imprimeurs. Beaucoup de mots composés français ont été créés à cette époque-là en

France ; le grand nombre d’hapax dans le corpus Frantext reflète ce phénomène.

À partir des années 1695-1798, toutes les formes recensées ont subi une chute considérable

du niveau de productivité, variant entre 78 % et 91 %. Par ailleurs, du point de vue de la

langue, c’est une période marquée par l’apparition de la première édition du Dictionnaire de

l'Académie française (1694) ; le développement de l'enseignement du français et la création

les normes linguistiques présentées par l'Académie française. Celle-ci a modifié plusieurs

milliers de mots dans ses éditions de 1740, 1762 et 1798 en abandonnant ‘l'ancienne

orthographe’ et mettant en place celle qui est devenue l’orthographe contemporaine. Le

XVIIIe siècle « a vu les plus grands triomphes de la langue des rois » (Burney 1962 : 14) en

Russie, en Allemagne et en Italie. Dans sa dissertation l’Universalité de la langue française,

Rivarol (1784 ; cité dans Burney 1962 : 17) indique : « … la langue française c’est la langue

humaine…» Pendant cette période, le français reçoit le statut de langue diplomatique

internationale.

Durant les années 1799-1872, la productivité du processus de composition des types N-N,

A-N, N-A, N-de-N connaît un autre affaiblissement de 48 %. Malgré le déclin dans la

productivité des formes recensées, les années 1799-1872 représentent une période

d’épanouissement du vocabulaire français et l’apparition d’un grand nombre de néologismes.

Cette époque se caractérise par l’apparition de la sixième édition du dictionnaire de

l'Académie française (1835), du Grand dictionnaire universel de Larousse (1865) et du

Dictionnaire de la langue française de Littré (1872). La Révolution de 1789 et Le Premier

Empire (1804-1814) font apparaître des classes moyennes et populaires qui se prononcent

contre la ‘langue des rois’. Néanmoins, « Au XIXe siècle, la langue française, dans l’usage

211

des lettres et du bon gout, du droit, de la diplomatie et des traités internationaux maintient

‘l’ordre du monde’ » (Blancpain et Reboullet 1976 : 94). À cette époque, beaucoup de mots

composés ont été créés dans les domaines de la science, de la presse et des affaires.

Enfin, pendant la période 1873-1920, le développement du processus de composition se

stabilise en démontrant un petit déclin (P4 = <-8 %) par rapport à la période précédente.

C’est la période du français contemporain, caractérisée par l’unité linguistique de la France,

l’enrichissement du vocabulaire et la réforme de l’orthographe. Toutefois, au commencement

du XXe siècle, dans les échanges commerciaux, techniques et scientifiques, on voit

l’influence de l’anglais. Ainsi, cette époque est significative dans l’histoire de la langue

française dû à l’introduction d’un grand nombre de mots nouveaux liés aux médias, aux

technologies, aux sciences, etc. dans le domaine de mots composés.

Finalement, l’examen des combinaisons lexicales récurrentes montre que la majorité de ces

formes apparaissent dans chaque période étudiée. En général, elles sont formées à partir de

constituants de haute fréquence qui sont associés à des familles morphologiques de bonne

taille. Dans la plupart de ces combinaisons lexicales, un des constituants du mot composé est

représenté par un adjectif.

Dans la section suivante (Conclusion générale), je présenterai une synthèse des résultats de

mon travail, les difficultés rencontrées et les questions qui demeurent en suspens.

212

CHAPITRE 6

Conclusion

En guise de conclusion, je propose une synthèse des résultats obtenus au cours de la

recherche en discutant les problèmes rencontrés, les découvertes intéressantes, les questions

qui restent en suspens et les perspectives de recherche.

6.1 La productivité morphologique en composition Dans ce travail, j’ai étudié la productivité des noms composés en français selon l’approche

quantitative développée dans Baayen (1992, 1993), Baayen et Hay (2002) ; Baayen et Lieber

(1991), Baayen et Renouf (1996), Krott et al. (1999) et les travaux ultérieurs.

Le phénomène de la productivité morphologique est assez bien étudié en dérivation, surtout

en ce qui concerne l’anglais (Aronoff 1976 ; Baayen 1992, 2001 ; Bauer 1988, 2001, 2003 ;

Hay 2003 ; Plag 1999 ; Baayen et Hay 2002 ; Cowie et Dalton-Puffer 2002). Quelques

recherches ont également été effectuées sur la productivité des affixes en français,

notamment Corbin (1975, 1987), Dal (2003), Namer (2003), Grabar et al. (2006). Toutefois,

la productivité en composition est un domaine de recherche très peu exploré (Bauer 2008 ;

Estopà 2009 ; Fernandez-Dominguez 2007, 2009), surtout en français.

Dans le Chapitre 3, j’ai présenté la description de différentes théories de la productivité

morphologique qui existent actuellement. En général, la notion de productivité

morphologique peut être abordée sous un angle qualitatif ou quantitatif. D’un point de vue

qualitatif, la productivité est vue comme la capacité des règles morphologiques à former de

nouveaux lexèmes à partir de la disponibilité du processus morphologique (Bauer 2001 ; Dal

et al. 2008). Quant à l’aspect quantitatif, plusieurs méthodes à base de corpus ont été

proposées pour mesurer des aspects différents de la productivité (Baayen 1992, 1993 ;

Baayen et Hay 2002 ; Baayen et Lieber 1991 ; Baayen et Renouf 1996 ; Krott et al.1999).

213

En dérivation, la productivité morphologique est envisagée comme la capacité d’un affixe à

se joindre à des bases différentes visant à satisfaire une gamme de restrictions phonétiques,

morphologiques, sémantiques et syntaxiques. Par contraste, en composition, la sélection de la

base n’est pas reconnue comme étant importante, alors, il n’y a pas de restrictions sur les

bases ; la tête ne sous-catégorise pas un élément non-tête et elle ne le sélectionne pas.

Conséquemment, la productivité morphologique en composition est considérée plutôt comme

l’aptitude d’un type (gabarit) à créer de nouvelles unités lexicales.

Dans le Chapitre 4 j’ai présenté trois modèles quantitatifs qui ont été retenus pour mesurer

les différents aspects de la productivité des composés N-N, A-N, N-A et N-de-N dans un

grand corpus textuel. La première mesure utilisée est celle de la productivité P au sens strict

représentée par la formule P = n1/N. Elle est basée sur la notion d’hapax legomenon, soit une

forme qui n’apparaît qu’une fois dans un grand corpus (Baayen 1992, 1993, 2008 ; Baayen et

Lieber 1991 ; Baayen et Renouf 1996). Cette mesure appelée ‘indice de productivité’ prend

en considération le rapport entre le nombre d’hapax et le nombre total d’occurrences : plus

grand est le nombre d’hapax, plus productif est considéré le processus de composition. Ainsi,

le nombre d’hapax correspond à la probabilité de rencontrer de nouveaux types de lexèmes

qui n’ont pas été enregistrés dans les échantillons précédemment analysés (Baayen 1993).

La deuxième mesure est celle de la fréquence relative (Hay 2003), élaborée pour les mots

composés comme frelative = fcomposé / fbase. Cette mesure est basée sur le rapport entre la

fréquence du composé et la fréquence de ses constituants (les bases) : un niveau moins élevé

de FR indique que le composé représente une structure décomposable et potentiellement

productive (selon l’analogie avec la dérivation). En outre, utilisée en conjonction avec la

mesure P, la fréquence relative sert à raffiner l’interprétation des résultats obtenus et à

déduire la meilleure variante de FR pour les formes recensées. D’ailleurs, la mesure FR a

seulement été appliquée au processus de composition dans le travail de Fernandez-

Dominguez (2009) sur la productivité des composés N-N en anglais, qui s’est soldée par des

résultats peu concluants.

Enfin, la troisième mesure utilisée n’a jamais été appliquée à l’évaluation de la productivité

en composition ; c’est celle de la taille catégorielle T de la famille morphologique proposée

214

dans Baayen et Hay (2002) en dérivation. Elle considère la somme des tailles de la famille

morphologique des mots affixés formés avec un affixe particulier. Baayen et Hay (2002)

montrent en effet que l’augmentation de la taille de la famille catégorielle de l’affixe un- est

corrélée à l’abaissement du niveau de productivité morphologique des dérivés formés avec

cet affixe. Cette approche adaptée pour le calcul de la productivité en composition me permet

de mieux évaluer la productivité des formes recensées, en offrant une mesure supplémentaire

dont les résultats peuvent être comparés avec ceux obtenus pour les mesures P et FR.

6.2 Méthodes et corpus Pour mener à bien ma recherche sur la productivité en diachronie, j’ai choisi de travailler sur

un grand corpus textuel Frantext qui m’a permis de repérer un grand nombre de noms

composés et d’effectuer tous les calculs nécessaires à l’aide des mesures quantitatives

retenues.

6.2.1 Facteurs d’identification des mots composés en français

Dans le Chapitre 2, j’ai examiné quelques traits caractéristiques des mots composés français

qui ont été retenus pour la recherche. En premier lieu, pour différencier les formes recensées

des syntagmes nominaux (après-soinN vs soin après traitementSN) et des expressions

idiomatiques (mange-disqueN vs manger ses mots), j’ai eu recours au critère de l’atomicité

syntaxique proposé dans Di Sciullo et Williams (1987) et développé dans Brousseau et

Nikiema (2001). Selon ce critère, les constituants du mot composé ne peuvent pas être

conjoints, remplacés par une anaphore ou être modifiés.

En deuxième lieu, étant donné que la productivité des composés a été examinée en termes de

la position de la tête morphologique, j’ai utilisé le critère de l’hyponymie (Brousseau et

Nikiema 2001 ; Rainer et Varela 1992) pour identifier la tête des formes recensées.

Conformément à ce critère, la tête du mot composé est un hyperonyme du mot et le composé

est un hyponyme de sa tête. En outre, pour déterminer les formes exocentriques régulières,

j’ai fait appel à la notion de transparence/opacité sémantique en composition d’après laquelle

la tête logique de ce type de composés se trouve à l'extérieur du composé (e.g. blanc-

manteau est un religieux qui porte des vêtements blancs).

215

La productivité des formes recensées a été examinée en termes de leur structure interne et de

leur aspect régulier/irrégulier. Ainsi, deux groupes de composés ont été étudiés. Le premier

est formé de composés primaires dont la structure est sémantiquement transparente et

compositionnelle (chat-tigre, bel-outil, mestre de camp) et de composés exocentriques

réguliers dont la tête morphologique externe peut être inférée (claire-voie, blanc-manteau).

Le deuxième groupe inclut des exocentriques irréguliers dont la signification ne peut pas être

générée à partir des propriétés sémantiques et syntaxiques de leurs constituants (e.g. reine-

claude est une sorte de prune).

Finalement, l’identification de la base dans les formes recensées s’est avérée essentielle au

cours du travail puisque deux des trois mesures statistiques retenues devaient calculer la

fréquence de la base. Le Chapitre 2 expose la problématique de l’identification de la base en

composition qui n’est pas clairement définie dans les travaux récents en linguistique. Dans le

Chapitre 4, j’ai proposé d’explorer deux variantes possibles : l’une où la base est le

morphème libre qui n’est pas la tête du composé (par analogie avec les formes affixées) et

l’autre où tous les morphèmes libres sont considérés comme des bases.

6.2.2 Corpus et choix méthodologiques

Dans le Chapitre 4, j’ai décrit quelques procédures préparatoires de ma recherche. D’abord, à

l’étape initiale, j’ai créé une liste préliminaire de 1970 composés à trait d’union formée à

partir du Dictionnaire de la langue française de Littré (1877-1878). Ensuite, cette liste a été

réduite à 275 composés (177 réguliers et 98 irréguliers) de façon à éliminer les types

marginaux, peu représentatifs ou présentant des problèmes d’analyse, soit les emprunts

(aqua-toffana, horse-guard, etc.), les composés savants (gastro-conjonctivite, phréno-

glottisme, etc.), les mots dérivés par préfixation (mi-fruit, post-consulat, etc.), les composés à

plus de deux termes (e.g. non-plus-ultra, soupe-tout-seul, etc.), les composés V-N (porte-

plume, essuie-mains, etc.) et les composés peu courants (N-à-N, Adv-N, A-A, Dét-N, N-V,

Prép-N). Enfin, la liste définitive a regroupé quatre types de composés soumis aux

différentes mesures : N-N, A-N, N-A et N-de-N.

Pour valider la fréquence des formes recensées, j’ai eu recours à un grand corpus textuel

Frantext (plus de 170 millions de mots) dont 80 % sont des textes littéraires et 20 % sont des

216

textes techniques. Nous avons vu au Chapitre 4 que l’utilisation d’un corpus de grande taille

comme Frantext est cruciale pour appliquer les mesures quantitatives retenues. De plus, cette

base de données est très représentative puisqu’elle reflète des niveaux et des registres

différents de la langue française.

La fréquence d’occurrences des formes recensées a été calculée dans le corpus Frantext tant

de façon globale que pour les quatre périodes historiques établies à partir de jalons

importants dans l’histoire de la langue française (1606-1694 ; 1695-1798 ; 1799-1872 ; 1873-

1920). Le niveau de productivité des types N-N, A-N, N-A et N-de-N a été examiné en

termes de trois mesures retenues (P, T, FR).

Dans cette thèse j’ai soulevé la question d’une corrélation possible entre les différentes

mesures de productivité, soit P et T d’un côté, et P et FR de l’autre. Concernant les mesures

P et T, cette idée découle d'une nouvelle approche quantitative basée sur la taille de la famille

morphologique proposée précédemment en dérivation dans Baayen et Hay (2002), Moscoso

del Prado Martin et al. (2004), De Jong, Schreuder et Baayen (2000). Rappelons que selon

Baayen et Hay (2002), l’augmentation de la taille de la famille catégorielle de l’affixe un- est

corrélée à l’abaissement du niveau de productivité morphologique des dérivés formés avec

cet affixe. Quant au lien entre les mesures P et FR, il provient de l’hypothèse de Hay (2003)

en dérivation qui suggère que la fréquence relative plus basse entre le dérivé et sa base est un

indice de la décomposition du mot dérivé et de sa productivité morphologique plus élevée.

Pour vérifier les corrélations possibles entre les trois mesures de productivité retenues, j’ai

mené une étude-pilote basée sur 34 composés garde-x extraits de la base de données Gallica

(cf. le Chapitre 4).

En premier lieu, l’étude-pilote n’a pas révélé de corrélation entre la productivité P et la taille

catégorielle T de la famille morphologique pour ce type de composés. Le rapport direct entre

les mesures P et T (i.e. les formes possédant le niveau de productivité P le plus élevé

correspondent à la mesure de la taille catégorielle T la plus grande), a seulement été observé

dans 50 % des cas, soit pour deux périodes sur quatre (1695-1798 et 1873-1920).

217

En deuxième lieu, contrairement aux résultats de Hay (2003) obtenus en dérivation, aucun

rapport, direct ou indirect, entre les mesures P et FR n’a été observé dans les composés

garde-x. De la même manière la recherche n’a pas révélé de lien significatif entre la mesure

T et le critère FR pour ce type de composés. Ainsi, la corrélation directe entre ces mesures

(i.e. le taux FR le plus faible correspond à la mesure T la plus petite) a été observée au cours

des années 1606-1694 et 1799-1872, soit dans 50% de cas analysés.

Par conséquent, l’étude-pilote a soulevé la question suivante : est-ce qu’il existe une

corrélation possible entre les différentes mesures de productivité en composition ? J’ai

suggéré que les résultats peu concluants de l’étude-pilote peuvent s’expliquer soit par le

nombre réduit de formes analysées (34) soit par le fait qu’un seul sous-type de composés ait

été examiné.

6.2.3 Problèmes rencontrés

Parmi les problèmes rencontrés au cours de mon travail, l’identification de la base a

représenté une difficulté majeure.

Rappelons que contrairement à la dérivation où la notion de la base est établie d’une manière

claire comme un morphème libre qui, dans la plupart des cas, n'est pas la tête morphologique

du mot affixé, il n’existe pas de consensus sur ce qui constitue une base en composition.

Théoriquement, en prenant comme point de départ les propriétés de la base dans les mots

dérivés, la base en composition peut être identifiée de deux façons différentes : soit le

morphème libre qui n'est pas la tête du composé, soit tout morphème libre. En conséquence,

j’ai décidé de tester toutes les variantes de bases disponibles dans le calcul de la fréquence

relative, pour finalement retenir la variante FR3.

En fait, comme on l’a vu au Chapitre 5, il s’est avéré difficile de déduire un rapport fiable

entre les mesures FR et P. Même si le critère FR peut être pertinent pour évaluer la

productivité en composition selon Hay (2003) (cité dans Fernandez-Dominguez 2009 :142),

l’interprétation des résultats statistiques est très peu documentée et peu étudiée. En fait, à

l’exception du présent travail, le facteur FR n’a été utilisé qu’une seule fois dans l’étude de la

productivité des composés N-N en anglais (Fernandez-Dominguez 2009 :145). Son

218

application a révélé des résultats contradictoires : les composés formés au moyen des

prédicats HAVE et MAKE, considérés généralement comme productifs, sont ressortis parmi

les moins productifs.

Ce problème est en partie lié au fait que les deux mesures s’appliquent à des objets

différents : dans le présent travail, la mesure P a été évaluée par types (i.e. il était impossible

de mesurer la productivité de chaque forme recensée séparément à cause du nombre trop

petit d’hapax observés). Par contre, le critère FR a été d’abord évalué pour chaque composé

particulier (e.g. chou-fleur), puis les valeurs moyennes de FR ont été comparées avec les

mesures P (i.e. la fréquence relative moyenne du type N-N a été comparée avec son niveau

de P par période). En outre, contrairement à la dérivation, où la fréquence de la base est

souvent plus basse que celle du dérivé, dans la majorité des formes recensées (96.2 %) les

bases sont plus fréquentes que le mot composé ; dans 5.8 % des cas, la fréquence des bases et

celle du mot composé sont égales. Aucun cas où la fréquence des bases est inférieure à celle

du composé n’a été observé. Ainsi, la différence concernant le ratio entre la fréquence de la

base et celle du mot complexe en dérivation et composition peut expliquer l’absence de

corrélation inverse entre les mesures FR et P dans les composés analysés.

En conséquence, étant donné qu’en composition la productivité P de chaque forme ne peut

pas être évaluée isolément, et que plusieurs sous-types sont formés d’une seule forme (i.e.

croix-N ; épine-N ; claire-N ; rond-N ; arc-N ; eau-de-N ; etc.), il n’y avait pas de meilleure

façon de procéder pour établir les corrélations possibles entre les mesures FR et P.

Finalement, au regard des difficultés d’analyse du niveau de productivité des formes

recensées, il faut mentionner le cas du type N-de-N. En premier lieu, ce groupe de composés

était peu fréquent dans le corpus (cinq formes régulières et 22 formes irrégulières), ce qui

suggère à priori que les résultats obtenus doivent être considérés avec prudence, voir même

ignorés. Selon Sigley (1997), pour que les propriétés de P soient mathématiquement

significatives, le total des formes analysées doit être minimalement au nombre de 50. En

deuxième lieu, il apparaît que les données liées à la mesure P pour les composés N-de-N

réguliers sont assez lacunaires (i.e. le manque de données pour deux périodes sur quatre), ce

qui a rendu difficile l’examen de la corrélation entre P et T d’un côté, et P et FR de l’autre.

219

En outre, la majorité des composés N-de-N étaient irréguliers, donc considérés non-

productifs selon la notion qualitative de productivité (Bauer 2001).

Parmi les autres cas où N est inférieur à 50 il faut mentionner surtout les composés qui

apparaissent dans les années 1606-1694 : les N-N avec la tête à droite (N1 = 33) ; les A-N

exocentriques réguliers (N1 = 7), les N-A exocentriques réguliers (N1 = 1) et les

appositionnels (N1 = 6).

Le problème soulevé par un nombre de composés dont N est inférieur à 50 tient à la formule

P = n1/N. Le dénominateur N correspond au nombre total d’occurrences des formes

recensées ; donc, si N est inférieur à 50, il est possible que le taux de productivité de ces

formes soit surestimé à cause du nombre faible d’occurrences. Notons également que dans

deux cas sur trois où on observe le manque de la corrélation inverse entre les mesures P et T,

le nombre d’occurrences N est inférieur à 50.

Ainsi, je suggère que tous les cas où la valeur N est inférieure à 50 ne doivent pas être pris en

compte pour le calcul de la mesure P. En fait, Gaeta et Ricca (2003 : 95-99) proposent une

approche à corpus variable (cité aussi dans Dal et al. 2008 : 1527) selon laquelle on mesure

la productivité des formes recensées en utilisant de sous-corpus dont le nombre

d’occurrences est comparable pour chaque procédé morphologique étudié (ce qui en fait est

difficile à réaliser).

En outre, je pense que les données fort lacunaires de la mesure P dans le cas des N-de-N

réguliers (i.e. le manque de données pour les périodes 1695-1798 et 1873-1920) peuvent

également fausser les résultats. Les mesures pour les N-de-N ne devraient pas non plus être

pris en considération.

6.3 Résultats Pour analyser le rôle de différents facteurs dans la productivité des formes recensées (i.e. la

position de la tête morphologique, le statut régulier/irrégulier, la structure interne, la taille de

la famille morphologique) et établir les corrélations possibles entre les trois mesures de

productivité retenues (i.e. P, T, FR), quatre hypothèses ont été avancées au chapitre 5.

220

6.3.1 Les hypothèses

La première hypothèse concerne le lien entre la productivité des composés, leur statut

régulier/irrégulier et la position de la tête morphologique. Selon cette hypothèse, les

composés avec la tête à gauche et les composés réguliers sont les formes les plus

productives. Cette hypothèse est liée à l’aspect qualitatif de productivité, selon lequel les

formes irrégulières ne forment pas de patrons productifs et elles doivent être stockées dans la

mémoire (Bauer 2001). En outre, en synchronie, la plupart de composés français ont la tête

morphologique à gauche et ils sont généralement considérés comme ayant la plus forte

productivité que ceux dont la tête est à droite (Gross 1996 ; Mathieu-Colas 1994 ; Brousseau

et Nikiema 2001).

En fait, il est apparu que l’hypothèse #1 a été confirmée partiellement. L’étude a révélé que

contrairement au concept qualitatif de productivité, les exocentriques réguliers (i.e. des

formes moins transparentes que les endocentriques) sont les structures les plus productives.

Le taux de productivité de ce type de composés est considérablement plus élevé que celui des

endocentriques: 6.6 fois plus haut que celui des endocentriques avec la tête à gauche66 et 21

fois plus haut que celui des endocentriques avec la tête à droite. Les appositionnels

représentent les formes les moins productives. Ces résultats inattendus confirment

l’hypothèse de Bauer (2008) selon laquelle, les composés exocentriques réguliers en français

peuvent être productifs (cf. 5.5). Toutefois, rappelons que les données obtenues sont à

interpréter avec une certaine précaution. En effet, le nombre d’occurrences des exocentriques

réguliers A-N et N-A est souvent inférieur à 50 (i.e. les A-N (1606-1694) ; les N-A (1606-

1694, 1695-1798, 1799-1872). Finalement, la productivité élevée des exocentriques réguliers

peut être expliquée par leur nombre d’occurrences assez bas (N = 701) dans Frantext en

comparaison avec d’autres types de composés : 2833 composés avec la tête à gauche, 25 618

composés avec la tête à droite et 9675 exocentriques irréguliers. Ainsi, l’indice de N

particulièrement bas a pu contribuer à une valeur de P exagérément élevée pour ce type de

composés.

66 Par contre, dans la base de données de Bourque (2012), le nombre d’unités polylexicales endocentriques avec la tête à gauche constitue 80% (voir http ://polylexical.com).

221

Quant à l’aspect régulier/irrégulier, j’ai établi que les formes régulières sont plus productives

que les formes irrégulières dans les composés analysés, tel que prédit par l’hypothèse #1.

Ainsi, ces résultats confirment la notion qualitative de la productivité, selon laquelle les

formes régulières forment des patrons productifs.

La deuxième hypothèse porte sur le lien entre la productivité des mots composés et leur

structure interne. Selon cette hypothèse, les types N-N et N-de-N sont les structures les plus

productives. Cette hypothèse provient des travaux de Mathieu-Colas (1994), Brousseau et

Nikiema (2001) et Bourque (2012)67 qui considèrent ces structures comme les plus

productives en synchronie. J’ai montré que l’hypothèse #2 a été appuyée partiellement par

les résultats de l’étude. Le type N-N est effectivement le type le plus productif

indépendamment de la période analysée, mais les données lacunaires ne permettent pas de

statuer sur les N-de-N réguliers.

La troisième hypothèse prédit une corrélation inverse entre la productivité et la taille

catégorielle de la famille morphologique : le taux de productivité le plus élevée coïncide avec

la taille catégorielle la plus basse. Cette hypothèse découle des travaux de Baayen et Hay

(2002), De Jong, Schreuder et Baayen (2000), Moscoso del Prado Martin et al. (2004). À

l’examen, il est apparu que l’hypothèse # 3 a été confirmée globalement : 12 cas sur 13, soit

92% (trois des 16 cas n’ont pas de valeur pour P) et même à 100 % pour trois types sur

quatre. La seule exception est le type A-N pour la période 1799-1872, où la croissance du

niveau de productivité (P3 = 0.0010) coïncide avec l’augmentation de la taille catégorielle de

la famille morphologique (T3 = 119.77). L’application des deux mesures de productivité (P

et T) a permis de raffiner les résultats obtenus, chaque mesure confirmant l’autre, pour les

cas où le nombre d’occurrences N est inférieur à 50.

Enfin, la quatrième hypothèse visait à établir une corrélation possible entre P et FR. J’ai

prédit que les composés dont la fréquence relative est plus basse sont plus productifs que

ceux dont la fréquence relative est plus élevée (par analogie avec la dérivation). Cette

67 Le nombre de ces structures dans la base de données de Y. Bourque (2012) se distribue de la façon suivante : 4133 N-N et 2668 N-de-N sur un total de 10,471 mots composésa (voir http ://polylexical.com).

222

hypothèse n’a pas été confirmée dans cette étude. Les résultats montrent que la meilleure

variante pour le calcul de la fréquence relative en composition est la mesure FR3 (i.e. la

somme des fréquences des deux constituants) qui apparait dans 56 % de cas possibles de

corrélation inverse entre P et FR. En outre, la corrélation entre P et FR3 est plus présente

(67 %) pour les composés réguliers que pour les irréguliers. D’une part, ce résultat coïncide

bien avec la notion qualitative de productivité (Bauer 2001 ; Hay 2001 ; Baayen et Lieber

1991) selon laquelle seulement les formes régulières (i.e. les formes décomposables) peuvent

former des patrons productifs. D’autre part, ce résultat correspond de façon cohérente à celui

obtenu pour la mesure T qui a révélé la présence de la corrélation inverse presque parfaite

entre P et T pour les composés réguliers. Donc, en dépit du fait que l’hypothèse #4

concernant une corrélation entre FR et P ne soit pas confirmée en composition (i.e. le

pourcentage de cas marqués pour la mesure FR3 est moins de 60 %), les données obtenues

permettent d’offrir une réponse à la question de l’identification de la base en composition

(Bauer 1983, 2001 ; Dressler 2006 ; Spenser 1991 ; Krott et all. 1999) (cf. § 2.2.5 ; § 4.3.5).

Étant donné que la corrélation entre P et FR3 est plus marquée pour les composés réguliers

(67%) et que la recherche a révélé la présence de la corrélation inverse presque parfaite

(92%) entre P et T pour le même type de composés, je suggère qu’en composition chaque

constituant du mot composé doit être considéré aux fins du calcul de la fréquence relative.68

Toutefois, le critère FR3 sert plutôt à établir la présence de la productivité (i.e. la

décomposition du composé) qu’à évaluer son degré.

La question centrale de cette thèse est celle de la fiabilité de la mesure de productivité P au

sens strict. En fait, cette mesure a beaucoup été critiquée en termes de taille et de

représentativité du corpus utilisé (Bauer 2001), de disponibilité du processus morphologique

analysé (Bauer 2001), de représentativité des formes analysées (van Marle 1992) et du choix

même des hapax (Dal 2003) comme correspondant à des néologismes (et non pas des mots

rares). Ainsi, la recherche visait à répondre à la question suivante : la mesure P au sens strict

68 Toutefois, la notion de la base est uniquement importante en dérivation, où les mots dérivés sont formés d’un élément de la classe ouverte (i.e. la base) combiné à une catégorie de classe fermée (i.e. l’affixe). Les constituants du composé font partie d’une classe ouverte d’éléments morphologiques ; donc, la référence à la base en composition n’a pas vraiment de statut théorique.

223

est-elle suffisamment fiable comme seul moyen de calcul de la productivité en composition?

Compte tenu de quelques résultats imprévus (i.e. la productivité élevée des composés

exocentriques irréguliers, la productivité élevée des composés dont le nombre d’occurrences

est inférieur à 50), je suggère la réponse suivante à cette question : en composition, il est

risqué d’utiliser P comme seule mesure d’évaluation de la productivité. Cette mesure doit

être complétée, confirmée par au moins une autre mesure, au moins dans les cas où les

nombres en présence ne sont pas assez élevés.

Ce problème se pose lorsque le nombre d’occurrences est inférieur à 50. Il est apparu que

dans tous les cas où le nombre d’occurrences de formes recensées est inférieur à 50, le

niveau de productivité P est trop élevé. C'est le cas, par exemple, des composés N-N avec la

tête à droite (N1 = 33 vs P1 = 0.1515) ; des exocentriques réguliers A-N (N1 = 7 vs

P1 = 1.0000) ; des exocentriques réguliers N-A (N1 = 1 vs P1 = 1.0000 ; N2 = 2 vs

P2 = 0.5000 ; N3 = 6 vs P3 = 0.1667) et des composés N-de-N avec la tête à droite (N1 = 1

vs P3 = 1.0000). Toutefois, d’après Sigley (1997), toutes les données où N est inférieur à 50

doivent être considérées avec prudence. Donc, dans les cas mentionnés ci-dessus, il est

crucial d’avoir une autre mesure, soit la mesure T, pour garantir des résultats fiables.

D’ailleurs, comme le travail l’a montré, la mesure P utilisée conjointement avec la mesure T

augmente la fiabilité des résultats de l’étude (i.e. la corrélation inverse entre P et T est

presque parfaite sauf un cas dans les composés A-N au cours de la période 1799-1872). Par

conséquent, une proposition clé qui découle de la présente étude est la suivante : quand la

corrélation entre P et T est visible, la mesure P peut être utilisée avec confiance, même si le

nombre d’occurrences est relativement bas. Donc, la réponse à la question centrale de cette

thèse est que la mesure P fonctionne adéquatement pour évaluer la productivité des mots

composés en français.

Il semble que la raison pour laquelle la mesure T fonctionne presque parfaitement avec la

mesure P est que le concept sémantique d’une famille morphologique (i.e. mesure T)

coïncide très bien avec la notion qualitative de productivité (cf.3.1). Ainsi, chaque

constituant du composé contribue à l’activation des autres membres de sa famille

morphologique dans le lexique. Par ailleurs, chaque nouveau mot formé avec le mot de base

224

(constituant) via la dérivation ou la composition contribue au traitement lexical du composé

(i.e. sa décomposition) et au niveau de sa productivité globale. Par conséquent, la capacité

des règles morphologiques à former de nouveaux lexèmes (i.e. patrons productifs) est liée

aux différentes représentations des membres d'une famille morphologique. Néanmoins, dans

le présent travail, seulement les composés réguliers ont été évalués par rapport à la

corrélation entre la productivité P et la taille catégorielle T de la famille morphologique.

Donc, pour conclure sur la productivité des irréguliers, il faudrait comparer leurs mesures P

et T. Étant donné que la mesure T est liée à l’aspect qualitatif de productivité, je suggère

qu’il n’y aura pas de corrélation inverse entre les mesures P et T : l’augmentation de la taille

de la famille catégorielle ne coïncidera pas avec l’abaissement de productivité du composé.

Cette question doit certainement être étudiée davantage.

Par ailleurs, la corrélation inverse associée au critère de la fréquence relative FR n’a pas été

confirmée en composition. Je propose que ce phénomène puisse être expliqué par les faits

suivants. En premier lieu, la mesure FR est plutôt basée sur l’aspect quantitatif de

productivité (i.e. le quotient entre la fréquence du dérivé et celle de sa base). En deuxième

lieu, contrairement à la dérivation où la fréquence de la base est généralement moins élevée

que celle d’un mot affixé, en composition, la fréquence de la base dépasse celle du mot

composé. En outre, la productivité des mots affixés est envisagée comme l’aptitude d’un

affixe à s’attacher à des bases différentes dont la sélection est limitée par certaines

restrictions phonétiques, morphologiques, sémantiques et syntaxiques. Par contre, en

composition, ces restrictions n’existent pas ; la tête ne sous-catégorise pas un élément non-

tête et elle ne le sélectionne pas. Conséquemment, la productivité des mots composés dépend

plutôt de la capacité du patron (type) productif de créer de nouvelles unités lexicales.

Ainsi, le fait que dans le présent travail le facteur FR ne fonctionne ni pour les formes

régulières ni irrégulières et que l’application de la mesure FR dans le travail de Fernández-

Domínguez (2009) aboutit à des résultats inconcluants, permet de tirer la conclusion

suivante : le statut de FR est différent en composition et en dérivation. Bien qu’en dérivation

le facteur FR sert à mesurer le taux de productivité des affixes dérivationnels, en

composition, la mesure FR peut être envisagée plutôt comme un critère permettant de

225

percevoir la différenciation entre les formes potentiellement productives (i.e. décomposables)

et les formes non-productives, lexicalisées (i.e. non-décomposables).

En guise de conclusion, je suggère que la mesure T est cruciale pour renforcer la mesure P,

mais que le critère FR ne joue pas un grand rôle dans l’évaluation du taux de productivité en

composition.

6.3.2 Étude diachronique des composés

Dans le Chapitre 5, j’ai montré que le processus de composition en français était le plus

productif au cours des années 1606-1694, indépendamment du type de composés ou de la

position de la tête morphologique. Plusieurs néologismes ont été créés à cette époque-là en

France ; le grand nombre d’hapax dans le corpus Frantext reflète ce phénomène. Pourtant, le

nombre élevé d’hapax au XVIIe siècle est en quelque manière exagéré : cela est dû au fait

que tous les hapax de cette période ont été traités comme de vrais hapax, ce qui n’est pas le

cas pour les autres périodes. Par ailleurs, les années 1695-1798 étaient aussi assez favorables

pour la langue française (i.e. l’apparition du Dictionnaire de l'Académie française (1694) ; la

création de normes linguistiques par l'Académie française), néanmoins, toutes les formes

recensées ont subi une chute considérable de productivité, variant entre 78 % et 91 %. Quant

à la période 1799-1872, la productivité des noms composés y connaît un autre

affaiblissement de 48 % malgré l’épanouissement du vocabulaire français dans les domaines

de la science, de la presse et des affaires. Finalement, la période 1873-1920 se caractérise par

une stabilisation: en comparaison avec la période précédente, le niveau de productivité

s’abaisse très légèrement (-8 %). Néanmoins, vu que le vocabulaire présenté dans le

dictionnaire de Littré est limité par l’année 1830, la quatrième période est certainement sous-

représentée par rapport à l’occurrence des néologismes.

Quant à la structure interne des formes recensées, le type N-N apparaît comme le type le plus

productif tout au long des années 1606-1920, suivi par les composés N-A et A-N. En

revanche, les données sur la productivité des composés N-de-N n’ont pas permis de

confirmer leur statut productif (Bourque 2012; Brousseau 2001 ; Gross 1996) de façon fiable

à cause de données fort lacunaires pour la mesure P et un nombre réduit (27) de formes

analysées.

226

En ce qui concerne la position de la tête morphologique, l’étude a révélé la productivité

élevée des composés exocentriques réguliers tout au cours de quatre périodes analysées, un

résultat qui a de quoi surprendre. Globalement, le taux de productivité de toutes les structures

recensées diminue progressivement entre 66 % et 99 % au cours des années 1695-1920.

Néanmoins, des résultats imprévus ont également été observés. En premier lieu, la période

1799-1872 se caractérise par la modification la plus marquée du niveau de productivité des

composés avec la tête à gauche. Cette structure généralement considérée comme étant la plus

productive en synchronie (Mathieu-Colas 1994 ; Brousseau et Nikiema 2001) se révèle la

deuxième plus productive dans les années 1606-1798. Elle subit une baisse considérable de

productivité (-88 %) dans les années 1799-1872, devenant la structure la moins productive.

En outre, la productivité des exocentriques irréguliers augmente énormément (+208 %) au

cours des années 1873-1920.

Quant à la productivité élevée des exocentriques réguliers, elle peut être expliquée par

l’hypothèse de Bauer (2008) selon laquelle ces structures peuvent être envisagées comme des

formations productives en français. Par contre, leur fréquence d’occurrences assez basse tout

au cours de quatre périodes analysées doit nous inciter à la prudence dans l’interprétation des

résultats. Par ailleurs, le changement considérable dans la productivité des endocentriques

avec la tête à gauche pendant la troisième période est un résultat imprévu. D’une part, la

troisième période se caractérise par un nombre assez élevé d’occurrences (i.e. N = 1251) et le

nombre réduit d’hapax, ce qui résulte se solde par une productivité réduite. D’autre part, je

suggère que le décalage considérable de la productivité des endocentriques avec la tête à

gauche dans les années 1799-1872 est possiblement causé par un changement diachronique

dans la structure interne des patrons productifs (i.e. des endocentriques vers des

exocentriques).

Finalement, la productivité élevée des exocentriques irréguliers, surtout pendant la quatrième

période, soulève quelques questions importantes. Premièrement, selon la notion qualitative

de productivité (Bauer 2001 ; Hay 2001 ; Baayen et Lieber 1991), les exocentriques

irréguliers sont considérés comme des formes opaques (indécomposables) qui ne forment pas

de patrons productifs. En outre, ces structures sont à priori envisagées comme non-

productives en synchronie (Brousseau 2001 ; Gross 1996 ; Mathieu-Colas 1994). De plus,

227

selon la théorie du stockage exhaustif de Butterworth (1983), les formes irrégulières

lexicalisées sont stockées dans la mémoire et elles sont reconnues de façon globale.

Il semble important, surtout en ce qui concerne l’étude diachronique, de niveler la taille des

corpus à l’intérieur des types de composés différents (i.e. réguliers vs irréguliers) en prenant

en compte leur nombre d’occurrences N. En fait, l’étude a révélé que le nombre total de

composés réguliers (N=29 665) est 3 fois plus élevé que celui des irréguliers (N=9675) (cf.

5.2.5.3). Ce phénomène est surtout observé pour les N-N et A-N irréguliers dont le nombre

d’occurrences dans Frantext est respectivement sept fois (404 vs 2944) et cinq fois (4802 vs

24 696) plus bas que celui des réguliers. Conséquemment, la basse valeur générale de N et

l’absence de grande différence entre le nombre d’hapax pour les réguliers (n1=57) et

irréguliers (n1=36) peuvent expliquer une valeur de P exagérée pour les composés irréguliers.

Enfin, les résultats pour la quatrième période, où les néologismes sont clairement sous-

représentés (vu que le vocabulaire du Littré est limité par l’année 1830), ne représentent

certainement pas le taux réel de productivité des exocentriques irréguliers à cette époque-là.

Quant aux combinaisons lexicales récurrentes parmi les formes recensées, j’ai montré que

ces structures sont généralement formées avec des constituants de haute fréquence qui sont

associés avec de grandes familles morphologiques. Dans la plupart de ces combinaisons, un

des constituants est un adjectif. La majorité de combinaisons lexicales récurrentes (31 sur 40)

ressort dans chaque période étudiée. Neuf combinaisons (franc-N, faux-N, vide-N, belle-de-

N, chat-N, chef-N, chou-N, dur-N, gorge-de-N) sont observées pendant trois périodes

successives (1695-1798 ; 1799-1872 ; 1873-1920). Les combinaisons lexicales récurrentes

apparaissent plus rarement dans les années 1606-1694 (i.e. la période dont la taille du corpus

est la plus petite). La suggestion suivante découle de ces résultats : du point de vue

quantitatif, il est important non seulement de considérer la taille du corpus de départ, mais

également de garder la cohérence et l’uniformisation quantitatives des sous-corpus utilisés.

Pour conclure, l’étude diachronique m’a permis de raffiner le statut d’hapax en distinguant

les vrais hapax (i.e. des néologismes potentiels) des faux hapax (i.e. des mots rares).

Conséquemment, l’étude diachronique a contribué à la fiabilité de la mesure P en éliminant,

228

pour trois des quatre périodes, le problème des mots rares, un problème soulevé par (Dal

2003).

6.4 Questions et futures pistes de recherche À l’issue de ce travail, quelques questions restent en suspens et ouvrent des pistes pour les

recherches futures.

Une perspective qui mérite d'être explorée concerne l’application de la mesure de

productivité P selon un nombre spécifique de structures analysées. Il découle de ce travail

que l’indice P dépend fortement de la taille des sous-corpus utilisés et, potentiellement, du

nombre de formes examinées. D’ailleurs, il est apparu que les composés N-de-N envisagés

préalablement comme des structures assez productives, du moins en synchronie, représentent

le type le moins productif. Il suit de mon analyse que ces résultats peuvent potentiellement

être liés au nombre assez petit de structures analysées dans ce type de composés (i.e. il est

trois fois plus petit que celui des N-N et cinq fois inférieur à celui des A-N).

Conséquemment, il est possible que ces données puissent être différentes si le nombre de

composés N-de-N était relativement similaire à celui des autres structures analysées. Donc, la

question liée au nombre de structures dans chaque type analysé doit être explorée davantage.

En outre, il serait intéressant de pouvoir examiner le rôle de la taille de sous-corpus dans le

calcul de la productivité des formes recensées. En effet, les tailles des sous-corpus ne sont

pas homogènes : 1606-1694 = 17 303 466 mots ; 1695-1798 = 34 393 102 mots ; 1799-1872

= 40 823 334 mots ; 1873-1920 = 27 568 502 mots. La première et la quatrième période

représentent un nombre de mots inférieur aux autres. Le nombre élevé d’hapax (n1 = 42)

pendant la première période peut être lié au fait que tous les hapax de cette période ont été

traités comme de vrais hapax. Pour la quatrième période (n1 = 11), le nombre de

néologismes recensés est certainement inférieur à ce que le corpus contient réellement vu que

seuls les mots du Littré (limités par l’année 1830) ont été retenus. Alors, une étude sur la

productivité des composés N-N, A-N, N-A et N-de-N en utilisant des sous-corpus de tailles

comparables pourrait être considérée comme un autre pôle d’investigation de la recherche

future.

229

Le corpus textuel Frantext est formé principalement de textes littéraires (80%), alors que les

composés productifs représentent généralement des formations lexicales quotidiennes. Il

serait intéressant de comparer les résultats obtenus à ceux qui proviennent d’un corpus du

français journalistique. Toutefois, ce type de corpus n’existe pas pour les périodes antérieures

à 1920. Les deux corpus du français journalistique les plus utilisés actuellement sont: Le

Corpus Chambers-Rostand du français journalistique (environ 1 million mots) qui inclut des

articles parus en 2002-2003 dans les journaux Le Monde, L'Humanité, La Dépêche du Midi

et un corpus du journal Le Monde (plus de 25 millions mots) constitué des articles parus en

1995. Du point de vue de la recherche future, l’utilisation de deux types de corpus

comparables (littéraire et journalistique) (à partir du XXe siècle) est souhaitable, car cela

permettrait d’explorer l’influence de la langue littéraire et de la langue journalistiques sur la

l’usage de néologismes en composition française.

La productivité élevée des exocentriques réguliers doit être explorée davantage dans la

recherche future. Il est possible que certains composés exocentriques soient réanalysés

comme endocentriques (Scalise, Fábregas et Forza 2009 ; Scalise et Fábregas 2010). Selon

Scalise et al. (2009), pour que le composé soit défini comme endocentrique il suffit, qu’une

seule propriété soit transmise de la tête au composé. Conséquemment, ils proposent qu’il

existe trois types de composés exocentriques basés sur les propriétés catégorielles,

sémantiques et morphologiques de la tête (i.e. les composés catégoriellement exocentriques,

morphologiquement exocentriques et sémantiquement exocentriques). Scalise et al. (2009),

suggérèrent que l’aspect sémantico-exocentrique est indépendant des deux autres types

Compte tenu des limites de cette étude, je n'ai pas analysé les composés exocentriques selon

l’approche de Scalise et al. (2009), Scalise et Fábregas (2010). Cependant, cette approche

concernant la définition des composés exocentriques mérite certainement de pouvoir être

explorée dans les recherches futures. Il me semblerait intéressant, dans l'avenir, d’appliquer

cette méthode pour une réanalyse possible de certaines formes exocentriques.

Le niveau de productivité des composés N-N réguliers avec la tête à droite lors des années

1606-1694 a été un résultat inattendu. Il se peut que les composés français aient subi un

changement diachronique dans leur structure interne (de la tête à droite vers la tête à gauche)

dans les années 1695-1798. Étant donné que la période 1695-1798 englobe plus de cent ans,

230

il est souhaitable de déterminer plus précisément le moment quand ce changement

diachronique s’est passé au XVIIIe siècle. Il me semblerait intéressant, dans l'avenir,

d'explorer la productivité des composés N-N avec la tête à droite par rapport aux années

antérieures (1500-1605) et pendant les différentes décennies du XVIIIe siècle. Cette question

est sans doute à garder pour les recherches futures.

En outre, la question reste encore ouverte de savoir si la différence entre la productivité des

composés N-A (plus productifs) et des A-N (moins productifs) peut être lié aux propriétés

syntaxiques des syntagmes nominaux équivalents. La majorité de composés A-N sont formés

à partir d’une liste restreinte d’adjectifs qui sont les modifieurs employés en position pré-

nominal dans la syntaxe (i.e. petit, grand, court, haut, etc.). Certaines de ces formes

représentent des composés listés (bel-outil, basse-cour, petit pain, haut-parleur, etc.). Par

contre, la plupart des adjectifs dans le type N-A (coffre-fort, comédie musicale, terre-plein,

etc.) s’emploient toujours en position postnominale en syntaxe et ils ne font pas partie de la

liste restreinte d’adjectifs.

De plus, parmi les combinaisons lexicales les plus courantes, le nombre de combinaisons

lexicales N-A (6) est de trois fois inférieur à celui des combinaisons A-N (18). Ainsi, les

composés formés avec des adjectifs de basse fréquence (i.e. arc-boutant, aigue-marine, bec-

courbe, etc.) forment des familles morphologiques plus petites; conséquemment, leur niveau

de productivité est plus élevé. Enfin, l’absence de restriction selon la position dans la syntaxe

combinée à la basse fréquence de la majorité des adjectifs dans les structures N-A contribue

potentiellement au niveau de productivité plus élevé pour ce type de composés en

comparaison avec le type A-N.

L’analyse de la corrélation entre les mesures P et T proposée dans cette thèse a abordé

uniquement les composés réguliers. Il serait intéressant d’appliquer les mesures P et T aux

composés irréguliers et de comparer les résultats avec les données obtenues pour les

composés réguliers.

En conclusion, rappellons que le phénomène de la productivité est très peu étudié en

composition. J’espère avoir apporté une contribution significative à l’étude des mots

composés en français, à l’évolution diachronique de leur productivité, ainsi qu’à l’utilisation

231

de différentes méthodes statistiques pour mesurer la productivité morphologique en

composition. D’ailleurs, la richesse et la diversité de données présentées en annexe

pourraient constituer une bonne piste de recherche pour une étude approfondie de la

productivité des composés français qui n’ont pas été inclus dans ce travail.

232

Références bibliographiques Amiot, Dany. 2005. Between Compounding and Derivation : Elements of Word Formation

Corresponding to Prepositions. Dans Morphology and its Demarcations : Selected Papers from the 11th Morphology Meeting, Vienna, February 2004, sous la direction de Wolfgang U. Dressler, Dieter Kastofsky et Franz Rainer, 183-196. Amsterdam : John Benjamins.

Amiot, Dany et Georgette Dal. 2008. La composition néoclassique en français et ordre des constituants. Dans La composition dans les langues, sous la direction d'Amiot Dany, 89-113. Arras : Artois Presses Université.

Anshen, Frank et Mark Aronoff. 1989. Morphological Productivity, Word Frequency and the Oxford English Dictionary. Dans Language Change and Variation, sous la direction de Ralph Fasold et Deborah Schriffin, 197-202. Amsterdam/Philadelphie : John Benjamins.

Anshen, Frank et Mark Aronoff. 1998. Morphology and the Lexicon : Lexicalization and Productivity. Dans The Handbook of Morphology, sous la direction de Andrew Spenser et Arnold Zwicky, 237-247. Oxford : Blackwell.

Anscombre, Jean-Claude. 1990. Pourquoi un moulin à vent n’est pas un ventilateur. Langue Française 86 : 103-125.

Arnaud, Pierre J. L. 2003. Les composés timbre-poste. Lyon : Presses Universitaires de Lyon.

Aronoff, Mark. 1976. Word Formation in Generative Grammar. Cambridge, MA : The MIT Press.

Aronoff, Mark. 1980. The Relevance of Productivity in a Synchronic Theory of Word Formation. Dans Historical Morphology, sous la direction de Fisiak Jacek, 71-83. La Haye : Mouton.

Aronoff, Mark. 1983. Potential Words, Actual Words, Productivity and Frequency. Dans Proceedings of the 13th International Congress of Linguistics, sous la direction de Hattori Shiro et Inoue Kazuko, 163-171. Tokyo : The Linguistic Society of Japan.

Aronoff, Mark et Kirsten Fudeman. 2005. What is Morphology? Oxford : Blackwell.

Assink, Egbert et Sandra Dominiek. 2003. Reading Complex Words : Cross-Language Studies. New York : Kluwer/Plenum.

Ayres-Bennett, Wendy. 2004. Sociolinguistic Variation in Seventeenth-Century France : Methodology and Case Studies. Cambridge : Cambridge University Press.

Baayen, Harald R. 1992. Quantitative Aspects of Morphological Productivity. Dans Yearbook of Morphology, sous la direction de Geert Booij et Jaap van Marle, 109-149. Dordrecht : Kluwer.

Baayen, Harald R. 1993. On Frequency, Transparency and Productivity. Dans Yearbook of Morphology, sous la direction de Geert Booij et Jaap van Marle, 181-208. Dordrecht : Kluwer.

233

Baayen, Harald R. 1994. Productivity in Language Production. Language and Cognitive Processes 9 : 447-469.

Baayen, Harald R. 2005. Data Mining at the Intersection of Psychology and Linguistics. Dans Twenty-First Century Psycholinguistics : Four Cornerstones, sous la direction de Anne Cutler, 69-83. Hillsdale, NJ : Erlbaum.

Baayen, Harald R. 2009. Corpus Linguistics in Morphology : Morphological Productivity. Dans Corpus Linguistics : An International Handbook, sous la direction de Anke Lüdeling et Merja Kytö, 900-919. Berlin : Mouton De Gruyter.

Baayen, Harald R. et Jennifer Hay. 2002. Affix Productivity and Base Productivity. Communication présentée au Morphological Productivity Seminar, ESSE 6, Strasbourg.

Baayen, Harald R. et Rochelle Lieber. 1991. Productivity and English Derivation : A Corpus-Based Study. Linguistics 29 : 801-43.

Baayen, Harald R. et Antoinette Renouf. 1996. Chronicling the Times : Productive Lexical Innovations in an English Newspaper. Language 72 : 69-96.

Baayen, Harald R. et Robert Schreuder. 1999. War and Peace : Morphemes and Full Forms in a Noninteractive Activation Parallel Dual-Route Model. Brain and Language 68 : 27-32.

Bauer, Laurie. 1978. The Grammar of Nominal Compounding. Odense : Odense University press.

Bauer, Laurie. 1979. On the Need for Pragmatics in the Study of Nominal Compounding. Journal of Pragmatics 3 : 45-50.

Bauer, Laurie. 1983. English Word-Formation. Cambridge : Cambridge University Press.

Bauer, Laurie. 1998. When is a Sequence of Noun + Noun a Compound in English? English Language and Linguistics 2 : 65-86.

Bauer, Laurie. 2001. Morphological Productivity. Cambridge : Cambridge University Press. Bauer, Laurie. 2003. Introducing Linguistic Morphology. 2e édition. Washington, D.C. :

Georgetown University Press. Bauer, Laurie. 2003a. The Productivity of (Non-)Productive Morphology. Rivista di

Linguistica 15 : 7-16. Bauer, Laurie. 2005. The Borderline Between Derivation and Compounding. Dans

Morphology and its Demarcations : Selected Papers from the 11th Morphology Meeting, Vienna, February 2004, sous la direction de Wolfgang U. Dressler, Dieter Kastofsky et Franz Rainer, 97-108. Amsterdam : John Benjamins.

Bauer, Laurie. 2008. Exocentric Compounds. Morphology 18 : 51-74.

Bauer, Laurie. 2009. Typology of Compounds. Dans The Oxford Handbook of Compounding, sous la direction de Rochelle Lieber et Pavol Štekauer, 343-356. Oxford : Oxford University Press.

Bauer, Laurie et Antoinette Renouf. 2001. A Corpus-Based Study of Compounding in English. Journal of English Linguistics 29 : 101-123.

234

Beard, Robert. 1995. Lexeme-Morpheme Base Morphology : A General Theory of Inflection and Word. Albany : State University of New York Press.

Béchade, Hervé. 1992. Phonétique et morphologie du français moderne et contemporain. Paris : Presses Universitaires de France.

Benczes, Reka. 2006. Creative Compounding in English : The Semantics of Metaphorical and Metonymical Noun-Noun Combinations. Amsterdam : John Benjamins.

Benveniste, Émile. 1974. Problèmes de linguistique générale II. Paris : Gallimard. Bernet, Charles et Gisèle Kahn. 2010. Frantext 4, base catégorisée, entités grammaticales :

aide au chercheur. École normale supérieure de Lyon. http ://cid.ens-lyon.fr/aide/ac_article.asp?fic = frantext_categentites.asp

Berry-Rogghe, Godelieve. 1973. The Computation of Collocations and their Relevance in Lexical Studies. Dans The Computer and Literary Studies, sous la direction d’Adam Jack Aitken et Neil Hamilton-Smith, 103-112. Édimbourg : Edinburgh University Press.

Bertram, Raymond, Robert Schreuder et Harald R. Baayen. 2000. The Balance of Storage and Computation in Morphological Processing : The Role of Word Formation Type, Affixal Homonymy and Productivity. Journal of Experimental Psychology : Learning, Memory, and Cognition 26 : 489-511.

Bien, Heidrun, Willem J. M. Levelt et Harald R. Baayen. 2005. Frequency Effects in Compound Production. Dans Proceedings of the National Academy of Sciences of USA 102(49) : 17876-17881. http ://www.pnas.org/content/102/49/17876.full

Blancpain, Marc et André Reboullet. 1976. Une langue : le français aujourd’hui dans le monde. Paris : Hachette.

Booij, Geert. 1992. Compounding in Dutch. Rivista di Linguistica 4 : 37-59. Booij, Geert. 2005. Compounding and Derivation : Evidence for Construction Morphology.

Dans Morphology and Its Demarcations : Selected Papers from the 11th Morphology Meeting, Vienna, February 2004, sous la direction de Wolfgang U. Dressler, Dieter Kastovsky, Oskar. E. Pfeiffer et Franz Rainer, 97-132. Amsterdam : John Benjamins.

Booij, Geert, Christian Lehman et Joachim Mugdan. 2000. Morphology : An International Handbook on Inflection and Word-Formation. Vol. 1. Berlin/New York : Walter de Gruyter.

Brousseau, Anne-Marie. 1989. Les noms composés en haïtien : pour une définition intrinsèque de tête morphologique. Revue québécoise de linguistique 18 : 11-39.

Brousseau, Anne-Marie. 2011. Mesure de la productivité morphologique des créoles : au-delà des méthodes quantitatives. Canadian Journal of Linguistics/Revue canadienne de linguistique 56 : 61-86.

Brousseau, Anne-Marie et Emmanuel Nikiema. 2001. Phonologie et morphologie du français. Montréal : Fides.

Burney, Pierre. 1962. Les langues internationales. Paris : Presses Universitaires de France.

Butterworth, Brian. 1983. Lexical Representation. Dans Language Production II, sous la direction de Brian Butterworth, 257-294. New York : Academic Press.

235

Chialant, Doriana et Alfonso Caramazza. 1995. Where is Morphology and How is it Processed? Dans Morphological Aspects of Language Processing, sous la direction de Laurie Beth Feldman, 55-78. Hillsdale : Lawrence Erlbaum Associates.

Chomsky, Noam. 1970. Remarks on Nominalization. Dans Readings in English transformational grammar, sous la direction de Roderick A. Jacobs et Peter S. Rosenbaum, 184-221. Waltham, MA : Ginn.

Chomsky, Noam. 1986. Knowledge of Language : Its Nature, Origin, and Use. New York : Praeger.

Chung, Karen Steffen. 2006. Mandarin Compound Verbs. Taipei : Crane. Corbin, Danielle. 1975. La notion de néologisme et ses rapports avec l’enseignement du

lexique. Bulletin de recherche sur l’enseignement du français 4 : 41-57. Corbin, Danielle. 1987. Morphologie dérivationnelle et structuration du lexique. 2 vol.

Tübingen : Max Niemeyer Verlag. Corbin, Danielle. 1991. La morphologie lexicale : bilan et perspectives. Travaux de

linguistique. Revue Internationale de Linguistique Française 23 : 33-56. Corbin, Danielle. 1992. Hypothèses sur les frontières de la composition nominale. Cahiers de

grammaire 17 : 26-55. Corbin, Danielle et Martine Temple. 1994. Le monde des mots et des sens construits :

catégories sémantiques, catégories référentielles. Cahiers de lexicologie 65 : 213-236. Cowie, Claire et Christiane Dalton-Puffer. 2002. Diachronic Word-Formation Over Time :

Theoretical and Methodological Considerations. Dans A Changing World of Words : Studies in English Historical Lexicography, Lexicology and Semantics, sous la direction de Javier E. Díaz Vera, 410-437. Amsterdam : Rodopi.

Dal, Georgette. 2003. Productivité morphologique : définitions et notions connexes. Langue française 140 : 3-23.

Dal Georgette, Bernard Fradin, Natalia Grabar, Stéphanie Lignon, Fiammetta Namer, Clément Plancq, Pierre Zweigenbaum et Yvon François. 2008. Quelques préalables au calcul de la productivité des règles constructionnelles et premiers résultats. Dans Actes du Congrès mondial de linguistique française, sous la direction de Jacques Durand, Benoît Habert et Bernard Laks, 1513-1526. Paris : Institut de Linguistique Française.

Dalton-Puffer, Christiane. 1996. The French Influence on Middle English Morphology : A Corpus-Based Study of Derivation. Berlin : Mouton de Gruyter.

Dantier, Bernard. 2003. La langue entre lexicographie et linguistique : introduction à la préface au Dictionnaire de la langue française d’Émile Littré. http ://classiques.uqac.ca/contemporains/dantier_bernard/Intro_a_Littre/texte_intro_a_littre.html

Darmesteter, Arsène. 1875. Traité de la formation des mots composés dans la langue française comparée aux autres langues romanes et au latin. Paris : Librairie Honoré Champion.

236

De Jong, Nivja, Laurie Feldman, Robert Schreuder, Matthew Pastizzo et Harald R. Baayen. 2002. The Processing and Representation of Dutch and English Compounds : Peripheral Morphological and Central Orthographic Effects. Brain and Language 81 : 555-567.

De Jong, Nivja, Robert Schreuder et Harald R. Baayen. 2000. The Morphological Family Size Effect and Morphology. Language and Cognitive Processes 15 : 329-365.

Di Sciullo, Anne Marie. 1990. Formal Relations and Argument Structure. Dans Contemporary Morphology, sous la direction de Wolfgang U. Dressler, Hans C. Luschutzky, Oskar E. Pfeiffer et John R. Rennison, 61-68. Berlin/New York : Mouton de Gruyter.

Di Sciullo, Anne Marie. 2005. Decomposing Compounds. SKASE Journal of Theoretical Linguistics 2 : 14-33.

Di Sciullo, Anne Marie et Edwin Williams. 1987. On the Definition of Word. Cambridge, MA : The MIT Press.

Dressler, Wolfgang U. 2006. Compound Types. Dans The Representation and Processing of Compound Words, sous la direction de Gary Libben et Gonia Jarema, 23-44. Oxford : Oxford University Press.

Dressler, Wolfgang U. et Maria Ladanyi. 2000. Productivity in Word Formation : A Morphological Approach. Acta Linguistica Hungarica 47 : 103-144.

Dubois, Jean et Mathée Giacomo. 2002. Dictionnaire de linguistique. Paris : Larousse-Bordas.

Eloy, Jean-Michel. 2007. Collateral Languages and Digital Corpus. Dans Corpus-Based Perspectives in Linguistics, sous la direction de Yuji Kawaguchi, Toshihiro Takagaki et Nobuo Tomimori, 115-130. Amsterdam : John Benjamins.

Estopà, Rosa. 2009. Les composés populaires de la langue catalane : étude diachronique de la néologie. Meta : journal des traducteurs /Meta : Translators' Journal 54 : 551-565.

Fabb, Nigel. 1984. Syntactic Affixation. Thèse de doctorat, Massachusetts Institute of Technology.

Fabb, Nigel. 1998. Compounding. Dans Handbook of Morphology, sous la direction de Andrew Spencer et Arnold Zwicky, 66-83. Malden, MA : Blackwell.

Fabb, Nigel. 2005. Sentence Structure. Londres : Routledge.

Fabre, Cécile et Pascal Sébillot. 1994. Interprétation sémantique des composés nominaux anglais et français sans constituant déverbal. Dans Proceedings of the Workshop on Compound Nouns : Multilingual Aspects of Nominal Composition, sous la direction de Pierrette Bouillon et Dominique Estival, 108-124. ISSCO, Université de Genève.

Fernández-Domínguez, Jesús. 2006. A Corpus-Based Study of Morphological Productivity Measurements in Present-Day English Word-Formation. Mémoire de maîtrise. Université de Jaén, Espagne.

Fernández-Domínguez, Jesús. 2009. Productivity in English Word-Formation : An Approach to N+N Compounding. Berne : Peter Lang.

237

Fernández-Domínguez, Jesús, Ana Díaz-Negrillo et Pavol Štekauer. 2007. How is Low Morphological Productivity Measured? Atlantis, Revista de la Asociación Española de Estudios Anglo-Norteamericanos 29: 29-54.

Frauenfelder, Uli et Robert Schreuder. 1992. Constraining Psycholinguistics Models of Morphological Processing and Representation : The Role of Productivity. Dans Yearbook of Morphology, sous la direction de Geert Booij et Jaap van Marle, 165-185. Dordrecht : Kluwer.

Frege, Gottlob. 1892. On Sense and Reference. Dans Translations from the Philosophical Writings of Gottlob Frege, sous la direction de Peter Thomas Geach et Max Black, 25-50. Oxford : Blackwell.

Gaeta, Livio et Davide Ricca. 2003. Italian Prefixes and Productivity : A Quantitative Approach. Acta Linguistica Hungarica 50 : 93-112.

Goosse, André. 1991. Mélanges de grammaire et de lexicologie françaises, 357- 366. Louvain-la-Neuve : Peeters.

Grabar, Natalia, Georgette Dal, Bernard Fradin, Nabil Hathout, Stéphanie Lignon, Fiammetta Namer, Clément Plancq, Delphine Tribout, François Yvon et Pierre Zweigenbaum. 2006. Productivité quantitative de la suffixation par -able dans un corpus journalistique du français. Lexicometria : Actes de JADT 2006 : 473-486. http ://lexicometrica.univ-paris3.fr/jadt/jadt2006/tocJADT2006.htm

Grevisse, Maurice. 1969. Le bon usage. Grammaire française avec des remarques sur la langue française d'aujourd'hui. 9e édition. Gembloux : Duculot.

Gross, Gaston. 1988. Degré de figement des noms composés. Langage 90 : 57-72.

Gross, Gaston. 1990. Définition des noms composés dans un lexique-grammaire. Langue Française 87 : 84-90.

Gross, Gaston. 1996. Les Expressions figées en français : noms composés et autres locutions. Paris : Ophrys.

Guilbert, Louis. 1973. Théorie du néologisme. Cahiers de l’Association Internationale des Études françaises 25 : 9-29.

Habert, Benoît. 2001. Autour de la constitution des corpus. Dans Linguistique sur corpus : études et réflexions, sous la direction de Mireille Bilger, 11-58. Perpignan : Presses Universitaires de Perpignan.

Habert, Benoît, Adeline Nazarenko et André Salem. 1997. Les linguistiques de corpus. Paris : Arman Colin.

Hale, Kenneth et Jay S. Keyser. 2002. Prolegomenon to a Theory of Argument Structure. Cambridge, MA : The MIT Press.

Halle, Morris et Alec Marantz. 1993. Distributed Morphology and the Pieces of Inflection. Dans The View from Building 20, sous la direction de Kenneth Hale and Samuel Jay Keyser, 111-176. Cambridge : The MIT Press.

Hay, Jennifer. 2001. Lexical Frequency in Morphology : Is Everything Relative? Linguistics 39 : 1041-1070.

238

Hay, Jennifer. 2003. Causes and Consequences of Word Structure. New York : Routledge. Hay, Jennifer et Harald R. Baayen. 2002. Parsing and Productivity. Dans Yearbook of

Morphology, sous la direction de Geert Booij et Jaap van Marle, 203-235. Dordrecht : Kluwer.

Hay, Jennifer et Harald R. Baayen. 2003. Phonotactics, Parsing and Productivity. Revista di Linguistica 15 : 99-130.

Hoch, Philippe. 1994. Frantext, autour d'une base de données textuelles, témoignages d'utilisateurs et voies nouvelles. Le Bulletin des bibliothèques de France 1 : 122-124.

van Jaarsveld, Henk, Riet Coolen et Robert Schreuder. 1994. The Role of Analogy in the Interpretation of Novel Compounds. Journal of Psycholinguistic Research 23 : 111-137.

Jackendoff, Ray. 1975. Morphological and Semantic Regularities in the Lexicon. Language 51 : 639-671.

Jespersen, Otto. 1942. A Modern English Grammar on Historical Principles. Vol. 6. Londres : Allen et Unwin.

Kastovsky, Dieter. 1986. The Problem of Productivity in Word Formation. Linguistics : An Interdisciplinary Journal of the Language Sciences 24 : 585-600.

Kavka, Stanislav. 2009. Compounding and Idiomatology. Dans The Oxford Handbook of Compounding, sous la direction de Rochelle Lieber et Pavol Štekauer, 26-47. Oxford : Oxford University Press.

Kayne, Richard. 1994. The Antisymmetry of Syntax. Cambridge, MA : The MIT Press.

Kiparsky, Paul. 1982. Lexical Phonology and Morphology. Dans Linguistics in the Morning Calm, Selected papers from SICOL-1981, sous la direction de la Linguistic Society of Korea, 3-91. Séoul : Hanshin.

Krott, Andrea, Robert Schreuder et Harald R. Baayen. 1999. Complex Words in Complex Words. Linguistics 37 : 905-926.

Leech, Geoffrey. 1974. Semantics :The Study of Meaning. Harmondsworth : Penguin Books.

Lees, Robert B. 1960. The Grammar of English Nominalizations. La Haye : Mouton de Gruyter.

Lehmann, Alise et Françoise Martin-Berthet. 2008. Introduction à la lexicologie : sémantique et morphologie. 3e édition. Paris : Armand Colin.

Levi, Judith. 1978. The Syntax and Semantics of Complex Nominals. New York : Academic Press.

Libben, Gary. 1998. Semantic Transparency in the Processing of Compounds : Consequences for Representation, Processing, and Impairment. Brain and Language 61 : 30-44.

Libben, Gary. 2005. Everything is Psycholinguistics : Material and Methodological Considerations in the Study of Compound Processing. Canadian Journal of Linguistics/ Revue canadienne de linguistique 50 : 267-283.

239

Libben, Gary. 2006. Why Study Compounds : An Overview of the Issues. Dans The Representation and Processing of Compound Words, sous la direction de Gary Libben and Gonia Jarema, 1-21. Oxford : Oxford University Press.

Lieber, Rochelle. 1992. Deconstructing Morphology : Word Formation in Syntactic Theory. Chicago/Londres : The University of Chicago Press.

Lieber, Rochelle. 2004. Morphology and Lexical Semantics. Cambridge : Cambrige University Press.

Lieber, Rochelle. 2009. A Lexical Semantic Approach to Compounding. Dans The Oxford Handbook of Compounding, sous la direction de Rochelle Lieber et Pavol Štekauer, 78-104. Oxford : Oxford University Press.

Lüdeling, Anke et Nivja de Jong. 2002. German Particle Verbs and Word Formation. Dans Explorations in Verb-Particle Constructions, sous la direction de Nicole Dehé et Ray Jackendoff, 315-333. Berlin : Mouton der Gruyter.

Lyons, John. 1977. Semantics. Vol. 2. Cambridge : Cambridge University Press.

McQueen, James et Anne Cutler. 1998. Morphology in Word Recognition. Dans The Handbook of Morphology, sous la direction de Andrew Spencer et Arnold Zwicky, 406-427. Oxford : Blackwell.

van Marle, Jaap. 1992. The Relationship Bertween Morphological Productivity and Frequency : A Comment on Baayen’s Performance-Oriented Conception of Morphological Productivity. Dans Yearbook of Morphology, sous la direction de Geert Booij et Jaap Van Marle, 151-163. Dordrecht : Kluwer.

Marantz, Alec. 2001. Words. Ms., 1-29. Cambridge, MA : The MIT Press.

Martinet, André. 1967. Syntagme et synthème. Paris : Presses Universitaires de France. Martinet, André. 1985. Syntaxe générale. Paris : Armand Colin.

Mathieu-Colas, Michel. 1994. Les mots à trait d’union. Paris : Didier Erudition. Mathieu-Colas, Michel. 1995. Un dictionnaire électronique des mots à trait d'union. Langue

française 108 : 76-85. Mathieu-Colas, Michel. 2010. Flexion des noms à trait d'union, HAL de Université de Paris

13. http ://hal-univ-paris13.archives-ouvertes.fr/hal-00486060/fr/ Meunier, Louis-Francis. 1875. Les composés qui contiennent un verbe à un mode personnel

en français, en italien et en espagnol. Paris : Imprimerie nationale. Miller, George A. 1978. Semantic Relations among Words. Dans Linguistic Theory and

Psychological Reality, sous la direction de Morris Halle, Joan Bresnan et George A. Miller, 60-118. Cambridge, MA : The MIT Press.

Miller, George, A. 1999. On Knowing a Word. Annual Review of Psychology 50 : 1-19. Mitterand, Henri. 1968. Les mots français. Paris : Presses Universitaires de France.

Moro, Andrea. 2000. Dynamic Antisymmetry. Cambridge, MA : The MIT Press.

240

Moscoso del Prado Martín, Fermín, Raymond Bertram, Tuomo Häikiö, Robert Schreuder et Harald R. Baayen. 2004. Morphological Family Size in a Morphologically Rich Language : The Case of Finnish Compared With Dutch and Hebrew. Journal of Experimental Psychology : Learning, Memory, and Cognition 30 : 1271-1278.

Moscoso del Prado Martín, Fermín, Avital Deutsch, Ram Frost, Robert Schreuder, Nivja De Jong et Harald R. Baayen. 2005. Changing Places : A Cross-Language Perspective on Frequency and Family Size in Dutch and Hebrew. Journal of Memory and Language 53 : 496-512.

Mourlet, Michel. 2003. Littré au XXIe siècle : le colloque du bicentenaire. Clichy-la-Garenne : France-Univers.

Namer, Fiammetta. 2003. Productivité morphologique, représentativité et complexité de la base : le systême MoQuête. Dans Langue Française : la productivité morphologique en questions et en expérimentations, sous la direction de Georgette Dal, 79-101. Paris : Larousse.

Plag, Ingo. 1999. Morphological Productivity : Structural Constraints in English Derivation. Berlin/New York : Mouton de Gruyter.

Plag, Ingo. 2004. Productivity. Dans Encyclopedia of Language and Linguistics. 2e édition, sous la direction de Keith Brown, 121-128. Amsterdam : Elsevier.

Pruvost, Jean. 2003. Les néologismes. Paris : Presses Universitaires de France. Pruvost, Jean. 2006. Les dictionnaires français : outils d'une langue et d'une culture. Paris :

Ophrys. Pustylnikov, Olga et Karina Schneider-Wiejowski. 2009. Measuring Morphological

Productivity. Dans Studies in Quantitative Linguistics 5 : Issues in Quantitative Linguistics, sous la direction de Reinhard Köhler, 106-125.

Pylkkanen, Liina, Sophie Feintuch, Emily Hopkins et Alec Marantz. 2004. Neural Correlates of the Effects of Morphological Family Frequency and Family Size : An MEG Study. Cognition 91 : B35-B45.

Rainer, Franz et Soledad Varela. 1992. Compounding in Spanish. Rivista di Linguistica 4 : 117-142.

Riegel, Martin. 1988. Les séquences composées N1-N2 : une catégorie floue. Studia Romanica Posnaniensia 13 : 129-138.

Riegel, Martin. 1991. Ces noms dits composés, arguments et critères. Studia Romanica Posnaniensia 16 : 148-161.

Roeper, Thomas. 1988. Compound Syntax and Head Movement. Dans Yearbook of Morphology, sous la direction de Geert Booij et Jaap van Marle, 187-228. Dordrecht : Foris.

Roeper, Thomas. 1999. Leftward Movement in Morphology. MIT Working papers in Linguistics 34 : 35-66. Cambridge, MA : Massachusetts Institute of Technology.

Roeper, Thomas et Muffy E.A. Siegel. 1978. A Lexical Transformation for Verbal Compounds. Linguistic Inquiry 9 : 197-260.

241

Roger, Coralie. 1998. Les mots composés à élément initial garde-. Mémoire de maîtrise, Université Paris X.

Savary, Agata. 2000. Recensement et description des mots composés : méthodes et applications. Thèse de doctorat, Université de Marne-la-Vallée.

Scalise, Sergio et Antonietta Bisetto. 2009. The Classification of Compounds. Dans The Oxford Handbook of Compounding, sous la direction de Rochelle Lieber et Pavol Štekauer, 49-82. Oxford : Oxford University Press.

Scalise Sergio et Antonio Fábregas. 2010. The Head in Compounding. Dans Cross-Disciplinary Issues in Compounding, sous la direction de Sergio Scalise et Irene Vogel, 109-126. Amsterdam/Philadelphie : John Benjamins.

Scalise Sergio, Antonio Fábregas et Francesca Forza. 2009. Exocentricity in compounding. Gengo Kenkyu 135: 49-84.

Schreuder, Robert et Harald R. Baayen. 1997. How Complex Simple Words Can Be. Journal of Memory and Language 37 : 118-139.

Selkirk, Elizabeth. 1982. The Syntax of Words. Cambridge, MA : The MIT Press. Spencer, Andrew. 1991. Morphological Theory : An Introduction to Word Structure in

Generative Grammar. Cambridge, MA : Wiley-Blackwell. Štekauer, Pavol. 2000. English Word-Formation : A History of Research (1960-1995).

Tübingen : Gunter Narr Verlag. Taft, Marcus. 1979. Recognition of Affixed Words and the Word Frequency Effect. Memory

and Cognition 7 : 263-272. Tognini-Bonelli, Elena. 2004. Corpus Linguistics at Work. Amsterdam : John Benjamins.

Trips, Carola. 2009. Lexical Semantics and Diachronic Morphology : The Development of -hood, -dom and -ship in the History of English. Tübingen : Niemeyer.

Villoing, Florence. 2002. Les mots composés [VN]N/A du français : réflexions épistémologiques et propositions d’analyse. Thèse de doctorat, Université Paris X-Nanterre.

Williams, Geoffrey. 2005. La linguistique de corpus. Rennes : Presses Universitaires de Rennes.

Zwanenburg, Wiecher. 1990. Argument Structure in Derivation and Compounding. Recherches de linguistique française et romane d’Utrecht 9 : 37-42.

Zwanenburg, Wiecher. 1992. Compounding in French. Rivista di linguistica 4 : 221-240.

Corpus Frantext : University of Chicago. ARTFL Project. http://artfl-project.uchicago.edu

Gallica : Bibliothèque Nationale de France. http ://gallica.bnf.fr

242

Ouvrages lexicographiques Dictionnaire Le Littré. CD-ROM. Paris : Redon, 2003.

Imbs, Paul, dir. 1971-94. Trésor de la langue française : Dictionnaire de la langue du XIXe et du XXe siècle (1789-1960). 16 vol. Paris : Centre national de la recherche scientifique.

Littré, Émile. 1972. Dictionnaire de la langue française. 7 vol. Paris : Gallimard/Hachette.

243

Appendice 1 Corpus Littré – liste des noms composés

Composés V-N (615 formes) abat-faim, abat-foin, abat-jour, abat-sons, abat-vent, abat-voix, accroche-coeur, accroche-plats, appui-main, arrache-sonde, arrête-boeuf, assemble-nuages, attache-bossette, attrape-lourdaud, attrape-minon, attrape-mouche, attrape-niais, attrape-nigaud, attrape-parterre, attrape-vilain, baille-blé, borde-plats, bouche-trou, boute-charge, boute-feu, boute-hache, boute-hors, boute-lof, boute-selle, brise-cou, brise-glace, brise-image, brise-lames, brise-lunette, brise-mur, brise-os, brise-pierre, brise-raison, brise-scellé, brise-tout, brise-vent, brûle-amorce, brûle-bout, brûle-gueule, brûle-maison, brûle-parfum, brûle-queue, cache-cou, cache-entrée, cache-folie, cache-lumière, cache-marée, cache-museau, cache-nez, cache-peigne, cache-pot, cache-poussière, cache-tampon, casse-aiguille, casse-bouteille, casse-bras, casse-cou, casse-croûte, casse-cul, casse-fil, casse-lunette, casse-motte, casse-museau, casse-noisette, casse-noix, casse-noyaux, casse-pierre, casse-poitrine, casse-pot, casse-tête, casse-vessie, chasse-bondieu, chasse-bosse, chasse-carrée, chasse-chien, chasse-coquin, chasse-cousin, chasse-crapaud, chasse-diable, chasse-ennui, chasse-goupille, chasse-gueux, chasse-marée, chasse-mouche, chasse-mulet, chasse-neige, chasse-noix, chasse-partie, chasse-pierres, chasse-poignée, chasse-pointe, chasse-punaise, chasse-rage, chasse-rivet, chasse-rondelle, chasse-roue, chasse-vase, chauche-branche, chauche-poule, chauffe-assiettes, chauffe-chemise, chauffe-cire, chauffe-linge, chauffe-lit, chauffe-pieds, chausse-pied, chausse-trape, cherche-fiche, cherche-pointe, claque-oreille, cligne-musette, cloche-pied, compte-fils, compte-gouttes, compte-pas, conforte-main, couche-point, coule-sang, coupe-ballot, coupe-bourgeon, coupe-bourse, coupe-cercle, coupe-choux, coupe-cors, coupe-cul, coupe-faucille, coupe-foin, coupe-gazon, coupe-gorge, coupe-jarret, coupe-lande, coupe-légumes, coupe-paille, coupe-pâte, coupe-queue, coupe-racines, coupe-séve, coupe-tête, couvre-chef, couvre-face, couvre-feu, couvre-giberne, couvre-joint, couvre-lit, couvre-lumière, couvre-pied, couvre-plat, couvre-platine, crève-chassis, crève-chien, crève-cœur, crève-vessie, croque-abeilles, croque-lardon, croque-mitaine, croque-mort, croque-moutons, croque-noisette, croque-note, croque-sol, cure-dent, cure-feu, cure-langue, cure-môle, cure-oreille, cure-pied, dompte-venin,

emporte-pièce, enfle-bœuf, essuie-main, étrangle-chien, étrangle-loup, ferme-bourse, ferme-circuit, fesse-cahier, fesse-maille, fesse-mathieu, fesse-pinte, fouille-merde, frappe-main, frappe-plaque, fripe-lippe, fripe-sauce, gagne-denier, gagne-pain, gâte-bois, gâte-enfant, gâte-maison, gâte-ménage, gâte-métier, gâte-papier, gâte-pâte, gâte-sauce, gobe-dieu, gobe-goujons, gobe-moucherie, gobe-moucherons, gobe-mouches, gobe-mouton, gratte-boësse, gratte-cul, gratte-menton, gratte-paille, gratte-papier, griche-dents, grippe-argent, grippe-chair, grippe-coquin, grippe-fromage, grippe-sou, guide-âne, guide-main,

244

hache-écorce, hache-légumes, hale-boulines, hale-breu, hale-croc, hausse-col, hausse-pied, hausse-queue, hume-vent,

lave-main, lève-gazon, lève-nez, lever-dieu, mâche-bouchons, mâche-dru, mâche-laurier, monte-charge, monte-courroie,monte-jus, monte-ressort, moque-dieu, noie-chien,

pare-feu, passe-appareil, passe-avant,passe-balle, passe-buse, passe-campane, passe-canal, passe-carreau, passe-cheval, passe-cicéron, passe-colère, passe-corde, passe-cordon, passe-droit, passe-fleur, passe-folle, passe-garde, passe-lacet, passe-lit, passe-marinière, passe-méteil, passe-montagne, passe-mur, passe-musc, passe-muscat, passe-parole, passe-passe, passe-peintre, passe-perle, passe-pied, passe-pierre, passe-poil, passe-pomme, passe-port, passe-rose, passe-rosée, passe-satin, passe-soie, passe-temps, passe-velours, passe-violet, passe-vogue, passe-volant, perce-chaussée, perce-crâne, perce-feuille, perce-forêt, perce-langue, perce-lettre, perce-meule, perce-muraille, perce-neige, perce-oreille, perce-pierre, perce-pot, perce-roche, perce-ronde, perce-terre, pèse-acide, pèse-esprit, pèse-lait, pèse-lettres, pèse-liqueur, pèse-moût, pèse-nitre, pèse-sel, pèse-sirop, pèse-vin, pince-balle, pince-lisière, pince-maille, pique-assiette, pique-bœuf, pique-bois, pique-broc, pique-feu, pique-mine, pique-mouche, pique-nique, pique-notes, pique-pouille, pique-véron, pisse-chien, pisse-froid, pisse-sang, pisse-vinaigre, pleure-misère, pleure-pain, ploye-ressort, porte-affiche, porte-aigle, porte-aiguille, porte-aiguillon, porte-allume, porte-allumettes, porte-amarre, porte-arquebuse, porte-assiette, porte-aune, porte-baguette, porte-baïonnette, porte-balance, porte-balle, porte-barres, porte-battant, porte-bec, porte-bobéche, porte-bonheur, porte-bonnet, porte-bossoir, porte-bouchoir, porte-bougie, porte-bouquet, porte-bourdon, porte-bourse, porte-bouteilles, porte-broche, porte-carabine, porte-cartes, porte-caustique, porte-chaîne, porte-chaise, porte-chandelier, porte-chapeau, porte-charbon, porte-cierge, porte-cigare, porte-clapet, porte-clefs, porte-col, porte-collier, porte-cordeau, porte-coton, porte-couteau, porte-crête, porte-croix, porte-crosse, porte-cure-dent, porte-dais, porte-dieu, porte-drapeau, porte-écuelle, porte-enseigne, porte-épée, porte-éperon, porte-éponge, porte-étendard, porte-étriers, porte-étrivières, porte-fenêtre, porte-fer, porte-feu, porte-flambeau, porte-foret, porte-fort, porte-giberne, porte-glaive, porte-graine, porte-guidon, porte-hache, porte-haillons, porte-haubans, porte-huile, porte-lacs, porte-lame, porte-lance, porte-lettres, porte-liqueurs, porte-lof, porte-loupe, porte-lyre, porte-maillot, porte-malheur, porte-manchon, porte-masse, porte-mèche, porte-mesure, porte-miroirs, porte-montre, porte-montre, porte-mouchettes, porte-mousqueton, porte-nitrate, porte-nœud, porte-objet, porte-original, porte-page, porte-pièce, porte-pierre, porte-plume, porte-plumet, porte-pompon, porte-queue, porte-rame, porte-râteau, porte-respect, porte-scie, porte-singe, porte-soie, porte-sonde, porte-sonnette, porte-suif, porte-tapisserie, porte-tarière, porte-tolets, porte-trait, porte-vent, porte-verge, porte-vis, porte-voix, porte-crayon, pousse-broche, pousse-café, pousse-cailloux, pousse-cambrure, pousse-cul, pousse-fiche, pousse-goupille, pousse-navette, pousse-pied, pousse-pointe, presse-artère, presse-citrons, presse-étoffe, prie-dieu,

rabat-eau, rabat-joie, racle-denier, rallie-papier, ramasse-miettes, ratisse-caisse, relève-gravure, relève-moustache, relève-quartier, remue-ménage, remue-queue, réveille-matin, rince-bouche, rogne-cul, rogne-pied, rompt-pierre, ronge-bois, ronge-maille,

245

saute-bouchon, saute-mouton, saute-ruisseau, sauve-l’honneur, sauve-rabans, sauve-vie, serre-bois, serre-bosse, serre-bras, serre-ciseaux, serre-cou, serre-feu, serre-file, serre-fine, serre-frein, serre-gouttière, serre-malice, serre-nez, serre-nœud, serre-papiers, serre-pédicule, serre-point, serre-tête, songe-creux, songe-malice, souffre-bonheur, souffre-douleur,

taille-crayon, taille-mèche, taille-mer, taille-plume, taille-pré, tâte-poule, tâte-vin, tire-balle, tire-barbe, tire-bonde, tire-bord, tire-botte, tire-bouchon, tire-boucler, tire-bourre, tire-bouton, tire-braise, tire-cartouche, tire-cendre, tire-clou, tire-d’aile, tire-dent, tire-fausset, tire-feu, tire-filet, tire-fond, tire-fusée, tire-gargousse, tire-goret, tire-laine, tire-laisse, tire-langue, tire-larigot, tire-ligne, tire-lisse, tire-lopin, tire-moelle, tire-paille, tire-pavé, tire-pièce, tire-pied, tire-plomb, tire-poil, tire-point, tire-sac, tire-séve, tire-sou, tire-terre, tire-teston, tire-tête, tire-veille, tire-verge, titre-planche, torche-cul, torche-fer, torche-nez, torche-pertuis, torche-pin, torche-pinceautorche-pot, tord-nez, tourne-case, tourne-feuille, tourne-fil, tourne-gants, tourne-motte, tourne-oreille, tourne-pierres, tourne-soc, tourne-vent, trace-bouche, trace-roulis, trace-vague, traîne-buisson, traîne-charrue, traîne-malheur, traîne-potence, traîne-rapière, tranche-gazon, tranche-montagne, tranche-papier, tranche-tête, tremble-terre, trompe-cheval, trompe-conscience, trompe-l’œil, trompe-la-mort, trompe-valet, trotte-chemin, trouble-fête, trouble-ménage, trousse-barre, trousse-galant, trousse-pète, trousse-pied, trousse-queue, trousse-traits, tue-brebis, tue-chien, tue-loup, tue-mouche, tue-teignes, tue-tête, tue-vent.

Composés P-N (430 formes)

à-coup, à-propos, après-coup, après-dîné, après-dînée, après-dîner, après-midi, après-soupée, avant-bouche, avant-bras, avant-brise, avant-cale, avant-coeur, avant-corps, avant-cour, avant-coureur, avant-courrier, avant-courrière, avant-creuset, avant-duc, avant-fossé, avant-garde, avant-glacis, avant-goût, avant-jeu, avant-lait, avant-main, avant-mur, avant-part, avant-pêche, avant-pied, avant-poignet, avant-port, avant-poste, avant-projet, avant-propos, avant-quart, avant-règne, avant-scène, avant-terrasse, avant-terre, avant-toit, avant-train, avant-veille, co-sujet, contre-accusation, contre-allée, contre-amiral, contre-amour, contre-appel, contre-approches, contre-arc, contre-archet, contre-arêtier, contre-assemblée, contre-attaque, contre-aube, contre-augment, contre-aveu, contre-avis, contre-bande, contre-basse, contre-bassier, contre-bassiste, contre-basson, contre-batterie, contre-biseau, contre-bittes, contre-bordée, contre-bourgeon, contre-boutant, contre-bretêche, contre-caniveau, contre-carre, contre-cart, contre-caution, contre-change, contre-charge, contre-châssis, contre-chevron, contre-civadière, contre-clavette, contre-clef, contre-coeur, contre-cornière, contre-coup, contre-coupe, contre-courant, contre-courbe, contre-course, contre-critique, contre-dame, contre-déclaration, contre-défense, contre-dégagement, contre-dénonciation, contre-digue, contre-écaille, contre-écart, contre-échange, contre-écorage, contre-édit, contre-effort, contre-émail, contre-empoise, contre-empreinte, contre-enquête, contre-entreprise, contre-épaulette, contre-épreuve, contre-espalier, contre-estampe, contre-étambot, contre-étrave, contre-expertise, contre-extension, contre-fanon, contre-fasce, contre-fendis, contre-fenêtre, contre-fente, contre-feu, contre-fiche, contre-fil, contre-fin, contre-finesse, contre-foc, contre-forces, contre-fort, contre-fracture, contre-frasagecontre-fruit, contre-fugue, contre-garde, contre-gatte, contre-hachure, contre-hâtier, contre-heurtoir, contre-hus, contre-indication, contre-institution, contre-jambage, contre-jet, contre-jour, contre-jumelles, contre-lames, contre-

246

latte, contre-lattoir, contre-lettre, contre-ligne, contre-ligue, contre-maille, contre-maître, contre-mandat, contre-manoeuvre, contre-marc, contre-marche, contre-marque, contre-marqueur, contre-mine, contre-mineur, contre-mission, contre-mot, contre-motif, contre-moulage, contre-moule, contre-mur, contre-ongle, contre-opération, contre-opposition, contre-ordre, contre-ouverture, contre-paroi, contre-partie, contre-pas, contre-pente, contre-pétition, contre-pied, contre-planche, contre-poids, contre-poil, contre-poinçon, contre-point, contre-pointe, contre-pointiste, contre-poison, contre-police, contre-porte, contre-poseur, contre-position, contre-potence, contre-pouce, contre-pression, contre-programme, contre-projet, contre-promesse, contre-propos, contre-proposition, contre-protestation, contre-puits, contre-quille, contre-raison, contre-retable, contre-revers, contre-révolution, contre-rivure, contre-ronde, contre-ruse, contre-saison, contre-salut, contre-sangle, contre-sanglon, contre-sens, contre-signal, contre-signataire, contre-signeur, contre-sol, contre-sommation, contre-sommier, contre-son, contre-sortie, contre-stimulation, contre-sujet, contre-sûreté, contre-table, contre-taille, contre-tasseau, contre-temps, contre-tenant, contre-terrasse, contre-timbrage, contre-timbre, contre-trahison, contre-trame, contre-tranchée, contre-vapeur, contre-vengeance, contre-verge, contre-vérité, contre-visite, contre-volte, contre-vue,

en-dessous, en-dessus, en-tête, entre-bâillement, entre-bande, entre-bat, entre-cent, entre-choquement, entre-colonne, entre-côte, entre-coupe, entre-cours, entre-croisement, entre-cuisse, entre-fesses, entre-fesson, entre-festoiement, entre-feuille, entre-filets, entre-ligne, entre-maillade, entre-mangerie, entre-modillon, entre-nerf, entre-noeud, entre-parleur, entre-plant, entre-pont, entre-rail, entre-sabords, entre-sol, entre-suite, entre-temps, entre-trave, entre-voie,

hors-fonds, hors-ligne, outre-passe,

par-dessus, rez-mur,

sans-coeur, sans-culotte, sans-culotterie, sans-culottide, sans-culottisme, sans-dent, sans-façon, sans-fleur, sans-gêne, sans-peau, sans-souci, sauf-conduit, sous-acétate, sous-affrétement, sous-affréteur, sous-âge, sous-aide, sous-ambassade, sous-amendement, sous-arbrisseau, sous-argousin, sous-arrondissement, sous-aumônier, sous-azoture, sous-bail, sous-bailleur, sous-bande, sous-barbe, sous-bibliothécaire, sous-bief, sous-bois, sous-bourgeon, sous-brigadier, sous-camérier, sous-cap, sous-cape, sous-carbonate, sous-chantre, sous-chapelain, sous-chargé, sous-chaussure, sous-chef, sous-chevron, sous-chlorure, sous-classe, sous-collet, sous-comite, sous-commis, sous-commissaire, sous-commission, sous-comptoir, sous-couche, sous-cuisse, sous-dataire, sous-détail, sous-diaconat, sous-diacre, sous-directeur, sous-dominante, sous-doublis, sous-doyen, sous-économe, sous-égalisage, sous-égalisoir, sous-élément, sous-entente, sous-enveloppe, sous-espèce, sous-établi, sous-étage, sous-face, sous-faîte, sous-ferme, sous-fermier, sous-fief, sous-garde, sous-genre, sous-gorge, sous-gouvernante, sous-gouverneur, sous-gueule, sous-hyponitrite, sous-inféodation, sous-intendance, sous-intendant, sous-introducteur, sous-jupe, sous-lieutenance, sous-lieutenant, sous-locataire, sous-location, sous-main, sous-maître, sous-médecin, sous-médiante, sous-membre, sous-mentonnière, sous-ministre, sous-molécule, sous-moucheur, sous-nappe, sous-nitrure, sous-noix, sous-normale, sous-oeil, sous-officier, sous-ordre, sous-phosphate, sous-pied, sous-portier, sous-poutre, sous-précepteur, sous-préfecture, sous-

247

préfet, sous-preneur, sous-pression, sous-prieur, sous-principal, sous-promoteur, sous-prote, sous-quartier, sous-race, sous-répartition, sous-résine, sous-rive, sous-roi, sous-roitelet, sous-sacristain, sous-secrétaire, sous-secrétariat, sous-sel, sous-signature, sous-sol, sous-système, sous-tangente, sous-tendante, sous-tirot, sous-titre, sous-traitant, sous-traité, sous-tyran, sous-vassal, sous-vente, sous-ventrière, sous-verge, sous-vicaire, sous-vicariat, sur-andouiller.

Composés N-N (229 formes)

agnus-castus, ante-bois, aqua-tinta, arc-doubleau, arrière-alliance, arrière-ban, arrière-bec, arrière-bouche, arrière-boutique, arrière-cabinet, arrière-cadet, arrière-caution, arrière-chambre, arrière-change, arrière-charte, arrière-choeur, arrière-corps, arrière-cour, arrière-faix, arrière-fente, arrière-fermier, arrière-fief, arrière-fleur, arrière-foin, arrière-froidure, arrière-garant, arrière-garde, arrière-goût, arrière-graisse, arrière-main, arrière-molaire, arrière-narines, arrière-neveu, arrière-nièce, arrière-panage, arrière-pensée, arrière-plan, arrière-point, arrière-radier, arrière-rang, arrière-saison, arrière-sens, arrière-train, arrière-vassal, arrière-vassalité, arrière-vieillesse, arrière-voussure, aube-vigne,

baille-blé, bateau-boeuf, bat-filière, battant-l’oeil, batte-lessive, batte-mare, batte-plate, batte-queue, bec-fin, belle-dame, belle-fille, belle-fleur, belle-mère, belle-pucelle, belle-soeur, bêque-bois, bèque-fleur, bien-disance, bien-fonds, bouille-abaisse, bout-dehors, cache-cache, caillot-rosat, cerf-volant, chape-chute, charme-houblon, chat-cervier, chat-rochier, chat-tigre, chef-lieu, chef-magistrat, chefs-plaids, chiche-face, chien-loup, chiffre-taxe, choche-pierre, choche-poule, chou-chou, chou-fleur, chou-pille, chou-rave, christe-marine, colin-maillard, colin-tampon, coq-héron, côte-rôtie, crête-marine, cric-crac, cri-cri, croix-pile, criste-marine, cuisse-madame,

demi-aigrette, demi-air, demi-amazone, demi-anglaise, demi-aune, demi-autour, demi-bain, demi-bande, demi-bastion, demi-battoir, demi-bau, demi-bosse, demi-botte, demi-brigade, demi-case, demi-ceint, demi-ceintier, demi-cercle, demi-chaîne, demi-clef, demi-course, demi-dame, demi-fortune, demi-frère, demi-lit, demi-lune, demi-monde, demi-moulinet, demi-soeur, demi-soldier, épine-vinette, épuise-volante, extracto-résine,

faim-calle, faim-valle, fibre-cellule, fibro-cartilage, fibro-chondrite, fille-mère, fin-or, fleur-feuille, force-vivier, fourmi-lion, franc-alleu, franc-bord, franc-fief, franc-funin, franc-maçon, franc-maçonnerie, franc-quartier, franc-tillac, franc-tireur, gage-mort, gastro-bronchite, gastro-colite, gomme-gutte, gorge-fouille,

hale-breu, huppe-col, livret-police, lord-lieutenance, lord-lieutenant, loup-cerve, loup-cervier, loup-garou, loup-loup, main-levée, malle-poste, marche-palier, menthe-coq, menu-pensée, mont-joie, mouille-bouche, nacro-culture, naque-mouche, natu-majorité, nègres-cartes, nerf-férure, noix-chandelle,

oiseau-cloche, omphalo-phlébite, orang-outang, or-sol,

248

pal-fer, palma-christi, palpe-mâchoire, patte-fiche, piano-forte, pie-mère, plante-éponge, plui-plui, poing-clos, pont-levis, potron-jaquet, prône-misère,

quartier-maître, quartier-mestre, rat-baillet, reine-claude, reine-marguerite, rêve-creux, roman-feuilleton, rond-point, rose-croix, semper-virens, sénatus-consulte, sud-ouest,

table-bureau, taupe-grillon, taureau-cerf, teint-vin, terre-noix, terret-bourret, tierce-rime, tiers-point, tiers-poteau, tissu-éponge, titan-cotte, toc-feu, tonne-mètre, touille-boeuf, tou-tou, trachée-artère, trique-balle, trique-madame, vache-biche, veau-laq, ver-coquin, volte-face.

Composés A-N (199 formes) arc-boutant,

bas-bord, bas-feuillet, bas-fond, bas-grec, bas-justicier, bas-latin, bas-mât, bas-métier, bas-relief, basse-cour, basse-courier, basse-étoffe, basse-fosse, basse-lisse, basse-lissier, basse-marche, basse-taille, basse-vergue, basse-voile, bas-siége, bas-ventre, beau-chasseur, beau-fils, beau-frais, beau-frère, beau-père, bel-esprit, bel-outil, blanc-aune, blanc-bec, blanc-bois, blanc-bourgeois, blanc-cul, blanc-étoc, blanche-coiffe, blanche-queue, blanche-raie, blanc-manger, blanc-pendard, blanc-ployant, blanc-rhasis, blancs-manteaux, blanc-tapis, bleu-manteau, bon-air, bon-chrétien, bon-fieux, bonne-dame, bonne-encontre, bonne-ente, bonne-grâce, bonne-main, bonne-vilaine, bonne-voglie, bon-quart, bon-tour,

chaude-chasse, chauve-souris, chiche-face, claire-étoffe, clair-obscuriste, claire-soudure, claire-voie, court-bandage, court-bâton, court-bouillon, court-bouton, court-côté, court-cureau, courte-botte, courte-boule, courte-épée, courte-épine, courte-graisse, courte-haleine, courte-lettre, courte-paume, courte-pointe, courte-pointier, courte-queue, court-tour,

double-aubier, double-bec, double-bécassine, double-bouche, double-bulbe, double-canon, double-chaîne, double-chaloupe, double-feuille, double-front, double-macreuse, double-main, doux-ballon, dur-bec, dure-mère, dure-peau, électro-puncture, extrême-onction,

faux-marcher, faux-monnayeur, faux-saunage, faux-saunier, franche-mulle, franc-taupin, gauche-fer, grand-chambrier, grand-compte, grand-croix, grand-oncle, grand-père, grise-bonne, gris-farinier, gris-pendart, gros-bec, gros-colas, gros-jean, gros-miaulard, gros-pinson, grosse-gorge,

haute-bonté, haute-taille, haut-fond, haut-le-coeur, haut-le-corps, haute-lissier, libre-échangiste, long-grain, longue-épine, longue-langue,

menu-vair, métallo-thérapie, micro-organisme, mort-bois, mort-chien, morte-eau, morts-flats, mort-gage, morte-paye, mort-plain, morte-saison, mort-terrain,

néo-catholicisme, néo-christianisme, néo-platonisme, noir-museau, notre-dame,

249

petit-bouc, petite-fille, petite-olonne, petit-fils, petit-fond, petit-gris, petits-enfants, petit-venise, plate-bande, plate-face, plate-forme, plate-longe,

quasi-contrat, quasi-délit, quasi-légitimité, quasi-restauration, rouge-aile, rouge-queue, rousse-tête,

sage-femme, saint-aubinet, saint-augustin, saint-cyrien, sainte-anne, sainte-barbe, sainte-nitouche, saint-gall, saint-germain, saint-leu, saint-simonisme, surdi-mutité,

toute-bonté, toute-épice, tout-ensemble, toute-présence, toute-puissance, toute-saine, toute-science, toute-table, tragi-comédie,

vert-monnier, vide-bouteille, vide-citrons, vide-gousset, vide-poches, vide-pomme, vide-pommier, vieux-catholique, vif-argent.

Composés N-A (72 formes) acquit-patent, aigue-marine, arrière-pointeuse,

bec-allongé, bec-cornu, bec-courbe, bec-dur, bec-ouvert, bec-plat, bec-pointu, becque-cornu, bec-rond, bec-tranchant, bouillon-blanc, bout-perdu, bout-rimé, bout-saigneux, branc-ursine, branche-ursine, branle-bas, caméra-lucida, carême-prenant, chasse-fleurée, chat-brûlé, chauffe-double, coffre-fort, cou-jaune, criste-marine, cul-bas, cul-blanc, cul-rouge, cul-rousselet, cul-rousset, demi-coupé, demi-double,

fer-blanc, fer-chaud, foi-mentie, fourche-fière, franc-réal, gagne-petit, garde-bourgeoise,

hale-bas, jean-le-blanc,

lait-battu, main-forte, main-militaire, marie-galante, martin-sec, martin-sucré, mont-dore, mont-joli,

patte-pelu, pic-vert, pied-bleu, pied-droit, pied-fort, pie-grièche, plat-allemand, pont-neuf, porc-épic, procès-verbal,

rêve-creux, risque-tout, roux-vieux, sang-froid, sang-gris, souris-chauve,

terre-neuve, terre-neuvier, terre-plein.

Composés garde-N (51 formes)

garde-barrière, garde-boeuf, garde-bois, garde-bonnet, garde-boutique, garde-bras, garde-cendre, garde-chaîne, garde-charrue, garde-chasse, garde-chiourme, garde-collet, garde-corde, garde-corps, garde-côte, garde-crotte, garde-étalon, garde-feu, garde-filet, garde-fou, garde-fourneau, garde-frasier, garde-grève, garde-ligne, garde-magasin, garde-main, garde-malade, garde-manche, garde-manger, garde-marge, garde-marteau, garde-ménagerie, garde-meuble, garde-nappe, garde-noble, garde-note, garde-pêche, garde-platine, garde-port, garde-

250

robe, garde-robier,garde-rôle, garde-sacs, garde-salle, garde-scel, garde-scellés, garde-temps, garde-vaisselle, garde-vente, garde-verges, garde-vue.

Composés N-de-N (49 formes) bec-d’âne, bec-d’argent, bec-d’oie, bec-d’oiseau, bec-de-cane, bec-de-canon, bec-de-cigogne, bec-de-cire, bec-de-corbeau, bec-de-corbin, bec-de-crosse, bec-de-cygne, bec-de-faucon, bec-de-grue, bec-de-hache, bec-de-héron, bec-de-lézard, bec-de-lièvre, bec-de-perroquet, bec-de-pigeon, bec-de-vautour, belle-de-jour, belle-de-nuit, belle-d’onze-heures, belle-d’un-jour, bris-d’huis, chef-d’oeuvre, cou-de-pied, coup de poing, crête-de-coq, cul-de-four, cul-de-jatte, cul-de-lampe, cul-de-pot, cul-de-poule, cul-de-sac, eau-de-vie, fleur-de-mai, gorge-de-pigeon, haut-de-chausses, main-d'oeuvre, mestre de camp, noyé-d’eau, pain-d’épicier, patte-d’oie, pied-d’étape, pou-de-soie, salve-d’honneur, sang-de-dragon.

Composés Adv-N (36 formes)

moins-value, non-activité, non-âge, non-combattant, non-conciliation, non-conformisme, non-conformiste, non-conformité, non-couleur, non-délicatesse, non-existence, non-intervention, non-jouissance, non-lieu, non-mitoyenneté, non-noble, non-payement, non-pensant, non-permanence, non-présence, non-prix, non-résidence, non-réussite, non-sens, non-succès, non-toxicité, non-usage, non-valeur, non-vente, non-viabilité, non-vue, nord-est, plus-pétition, plus-value, sus-pied, tôt-fait.

Composés A-A (30 formes) blanc-poudré, blanc-signé, blanc-soudant, bon-plein, chassé-croisé, chasse déchassé, chaud-froid, clair-obscur, court-vite, douce-amère, doux-vert, faux-fuyant, fort-vêtu, franc-saure, grand-beau, gras-double, gras-fondu, gris-gris, gros-argentin, gros-bis, gros-blanc, gros-noir, mort-plain, petit-gris, quasi-faux, roux-vieux, sourd-muet, tout-blanc, tout-venu, toute-bonne.

Composés Nombre-N (28 formes)

cent-suisses, deux-dents, deux-ponts, huit-pieds, mille-canton, mille-feuille, mille-fleurs, mille-graines, mille-pertuis, mille-pieds, mille-points, quarante-langues, quatre-cornes, quatre-nations, quatre-oeil, quatre-pieds, quatre-quint, quatre-temps, sept-oeil, six-blancs, six-clefs, six-doigts, trois-épines, trois-étoiles, trois-mâts, trois-pieds, trois-ponts, trois-quarts.

Composés N-V (11 formes)

adieu-va, bien-être, bien-faire, bien-mourir, faire-valoir, mal-être, renvoi-instruire, savoir-faire, savoir-vivre, tarton-raire, velci-aller.

Composés Adv-A (9 formes) bien-disant, bien-tenant, bien-tenue, mal-jugé, non-noble, non-tolérant, plus-payé, trop-bu, trop-plein.

Composés V-A (7 formes)

boit-tout, brûle-tout, chante-clair, couvre-vite, mange-tout, passe-bleu, revenant-bon.

251

Composés Npropre-N (7 formes) bégler-bec, marie-salope, martin-bâton, martin-chasseur, martin-pêcheur, martin-sire, robert-macaire.

Composés N-à-N (6 formes)

bout-à-port, bric-à-brac, hale-à-bord, pied-à-terre, touche-à-tout, valet-à-patin.

Composés A-V (6 formes)

beau-partir, beau-revoir, blanc-seing, noir-ployant, tout-venant, vu-arriver.

Composés V-Nombre (2 formes)

chassez-huit, passe-dix.

252

Appendice 2 Noms composés mesurés (Frantext)

Tableau 1 Frantext : fréquence des composés N-N (réguliers) composé 1606-1694 1695-1798 1799-1872 1873-1920

1. arrière-ban 2 37 16 12

2. arrière-bouche - - 30 -

3. arrière-boutique 1 7 81 50

4. arrière-cabinet - 18 1 1

5. arrière-chambre - - 3 3

6. arrière-choeur - - 4 -

7. arrière-cour - 8 26 2

8. arrière-faix - - 6 2

9. arrière-fief - 9 - -

10. arrière-garde 13 66 182 49

11. arrière-goût - - 21 16

12. arrière-main 1 1 1 -

13. arrière-molaire - - 2 -

14. arrière-narines - - 10 -

15. arrière-neveu 1 2 4 1

16. arrière-pensée 1 3 158 122

17. arrière-plan - - 4 30

18. arrière-saison 1 3 19 29

19. arrière-sens - - - 1

20. arrière-train - - 9 19

21. arrière-vassal - 4 1 1

22. arrière-vieillesse - - 2 -

23. bien-disance 4 - - -

24. bien-fonds - 1 12 3

25. chape-chute 2 - 7 1

253

composé 1606-1694 1695-1798 1799-1872 1873-1920

26. chat-cervier - 2 - -

27. chat-tigre - - 13 4

28. chef-lieu - 75 134 128

29. chefs-plaids - - 2 -

30. chien-loup 3 2 10 2

31. chou-fleur - 1 1 9

32. chou-rave - - 1 1

33. coq-héron - - 13 1

34. croix-pile 1 - - -

35. épine-vinette - 4 4 6

36. fille-mère - 4 4 9

37. fourmi-lion - 4 2 10

38. gomme-gutte - 1 2 6

39. lord-lieutenant - 1 - 1

40. loup-cervier 5 5 33 3

41. loup-garou 21 20 18 15

42. main-levée 8 19 23 31

43. malle-poste - - 66 16

44. pont-levis 11 39 99 31

45. reine-marguerite 9 21 15 25

46. rêve-creux - 1 - 2

47. roman-feuilleton - - 8 8

48. sénatus-consulte - 56 33 24

49. sud-ouest 6 162 192 87

50. table-bureau - - 2 22

51. taupe-grillon - 1 - -

52. tiers-point - - 1 4

53. trachée-artère - 16 74 1

54. volte-face 1 7 35 81

254

Tableau 2 Frantext : fréquence des composés N-N (irréguliers) composé 1606-1694 1695-1798 1799-1872 1873-1920

1. agnus-castus - 3 2 -

2. bec-fin - - 4 -

3. bout-dehors - 1 3 2

4. cache-cache 1 3 16 35

5. colin-maillard 5 40 19 6

6. colin-tampon - - 2 1

7. côte-rôtie - 1 3 1

8. fin-or 17 8 3 2

9. huppe-col - - 1

10. mont-joie - 1 1 -

11. or-sol - - - 1

12. outre-passe 2 - 2 -

13. patte-fiche - - 1 -

14. quartier-maître - 4 116 14

15. reine-claude 1 2 4 5

16. rose-croix 29 1 16 22

17. semper-virens - - 2 -

18. trique-madame - - 1 -

255

Tableau 3 Frantext : fréquence des composés A-N (réguliers

composé 1606-1694 1695-1798 1799-1872 1873-1920

1. bas-fond - 8 24 10

2. bas-justicier - - 1 -

3. bas-latin - - 4 2

4. bas-mât - - 5 -

5. bas-métier - - 1 3

6. bas-relief 3 39 118 54

7. bas-ventre 4 39 90 24

8. basse-cour 29 92 105 130

9. basse-étoffe - 1 - -

10. basse-fosse 2 16 21 21

11. basse-marche - 2 - 3

12. basse-vergue - - 2 -

13. beau-chasseur 5 10 10 1

14. beau-fils 33 37 28 16

15. beau-frais - - 2 1

16. beau-frère 88 404 467 305

17. beau-père 84 437 588 255

18. bel-esprit 311 418 137 34

19. bel-outil 1 - - -

20. belle-dame 147 158 157 56

21. belle-fille 294 287 287 241

22. belle-fleur 20 33 31 15

23. belle-mère 62 554 556 283

24. belle-soeur 85 318 318 169

25. blanc-bois - 1 - -

26. blanc-manger 1 7 2 1

27. blanc-manteau - - 1 2

256

composé 1606-1694 1695-1798 1799-1872 1873-1920

28. bon-air 46 101 91 43

29. bon-chrétien 10 74 26 26

30. bon-quart 7 17 29 15

31. bon-tour 18 19 27 23

32. bonne-dame 41 108 92 78

33. bonne-encontre - 2 - -

34. bonne-grâce 94 325 237 158

35. chauve-souris 17 31 150 61

36. claire-voie 1 6 66 53

37. court-bâton - - - 1

38. court-bouillon - 37 3 5

39. court-côté - - 1 -

40. courte-boule 1 - - -

41. courte-épée - 5 4 -

42. courte-haleine 8 2 - 2

43. courte-lettre 1 3 5 7

44. courte-pointe 1 6 13 4

45. courte-queue 1 2 6 1

46. demi-aune 4 2 5 -

47. demi-autour - - 1 -

48. demi-bosse - - 1 -

49. demi-brigade - 147 57 1

50. demi-cercle 12 60 103 77

51. demi-dame - - - 2

52. demi-fortune - 2 13 1

53. demi-frère 1 - 2 -

54. demi-lune 7 15 25 15

55. demi-monde - - 7 32

56. demi-soeur - 1 1 6

257

composé 1606-1694 1695-1798 1799-1872 1873-1920

57. double-canon 1 - 1 -

58. double-chaîne 1 3 9 5

59. double-feuille - - 2 -

60. double-front 2 1 2 -

61. double-macreuse - - 4 -

62. extrême-onction 14 36 51 32

63. faux-monnayeur - - 8 4

64. faux-saunage - 4 - -

65. faux-saunier - - 1 -

66. franc-alleu - 3 3 -

67. franc-fief - 6 3 1

68. franc-funin - - 1 -

69. franc-maçon - 7 15 46

70. franc-maçonnerie - 6 55 45

71. franc-tireur - - - 8

72. grand-oncle 10 39 104 40

73. grand-père 44 422 893 765

74. grosse-gorge - 1 1 -

75. haut-fond - 3 3 1

76. haut-le-corps 1 7 28 25

77. haute-taille 1 10 112 116

78. libre-échangiste - - 3 13

79. longue-langue - 1 3 -

80. menu-vair - - 6 3

81. mort-bois 1 - - -

82. mort-gage 1 - - -

83. morte-saison - - 7 15

84. noir-museau - - - 1

85. notre-dame 94 297 859 659

258

composé 1606-1694 1695-1798 1799-1872 1873-1920

86. petit-fils 116 605 373 233

87. petit-fond 2 3 2 4

88. petits-enfants 52 98 504 424

89. petite-fille 98 503 1131 1017

90. rond-point - - 62 42

91. sage-femme 29 48 44 111

92. saint-leu - 18 60 5

93. sainte-mitouche - 2 - -

94. sainte-nitouche 1 1 6 17

95. tout-ensemble 775 387 286 142

96. toute-bonté 14 10 15 8

97. toute-présence - - 15 5

98. toute-puissance 180 313 255 236

99. toute-science 16 27 91 93

100. tragi-comédie 18 9 22 9

101. vide-poches - - 1 2

102. vif-argent 83 34 53 23

259

Tableau 4 Frantext : fréquence des composés A-N (irréguliers)

composé 1606-1694 1695-1798 1799-1872 1873-1920

1. bas-bord - 3 - 1

2. basse-lisse - - 2 -

3. basse-taille 3 6 30 4

4. belle-pucelle 3 - - -

5. blanc-bec - 14 17 14

6. blanc-tapis - - 2 1

7. bleu-manteau - - 2 -

8. bonne-main 40 22 7 6

9. bonne-vilaine 1 - - -

10. bonne-voglie - 1 - -

11. chiche-face 1 1 - -

12. double-bec 1 - - -

13. double-main - 17 1 -

14. dur-bec - - - 1

15. dure-mère - 6 43 -

16. grand-compte - - 14 27

17. grand-croix 3 - 5 4

18. gros-bec - 2 5 2

19. gros-colas - 1 - -

20. gros-jean 1 13 25 12

21. haut-le-coeur - - 3 20

22. haute-bonté 5 1 1 2

23. longue-épine - 15 1 -

24. mort-dieu 8 6 20 4

25. petit-bouc 1

26. petit-gris 6 10 9 2

27. rouge-queue - - 6 -

260

composé 1606-1694 1695-1798 1799-1872 1873-1920

28. saint-augustin 417 394 406 243

29. saint-augustin 417 394 406 243

30. saint-gall 1 11 23 24

31. saint-germain 354 517 1218 409

32. sainte-anne 15 68 65 80

33. sainte-barbe - - 25 40

34. toute-table - - - 1

35. vide-bouteille - 2 - 1

36. vide-gousset - - 2 2

261

Tableau 5 Frantext : fréquence des composés N-A (réguliers)

composé 1606-1694 1695-1798 1799-1872 1873-1920

1. arc-boutant 1 6 15 10

2. acquit-patent 1 1 - -

3. aigue-marine - - 12 6

4. bec-cornu 1 1 - -

5. bout-rimé 4 4 8 -

6. branle-bas - 3 12 29

7. coffre-fort 7 80 49 48

8. criste-marine - 1 2 1

9. fer-blanc 16 29 123 83

10. pic-vert - 1 5 -

11. pie-grièche - 5 9 2

12. pied-bleu - - 1 -

13. pont-neuf 70 108 172 64

14. porc-épic 1 7 92 16

15. terre-plein 2 11 20 34

16. procès-verbal 12 138 285 247

262

Tableau 6 Frantext : fréquence des composés N-A (irréguliers)

composé 1606-1694 1695-1798 1799-1872 1873-1920

1. 4 bec-allongé - 1 - 1

2. 6 bec-courbe - - - 1

3. 7 bec-dur - - - 1

4. 8 bec-ouvert - 2 4 12

5. 9 bec-pointu - - 6 4

6. 1 bec-tranchant - 2 3 -

7. 1 bord-opposé 2 11 27 1

8. 1 bouillon-blanc 1 3 4 4

9. 1 carême-prenant 8 7 5 4

10. cerf-volant - 31 26 18

11. 1 cou-jaune - 1 - -

12. 2 cul-bas 1 - - -

13. 2 cul-blanc - - 2 2

14. 2 fer-chaud 10 27 22 16

15. 2 main-forte 42 46 67 51

16. mont-dore 2 1 6 14

17. pied-droit 8 27 37 44

18. pied-fort 4 5 4 1

19. risque-tout - 12 5 13

20. sang-froid 25 666 1002 311

21. sang-gris 1 - - -

22. terre-neuve 2 46 86 41

23. ver-coquin 1 - 1 1

263

Tableau 7 Frantext : fréquence des composés N-de-N (réguliers)

Nom composé Périodes

1606-1694 1695-1798 1799-1872 1873-1920

1. belle-de-jour 1 - - -

2. belle-de-nuit - 25 2 1

3. cul-de-jatte 4 - - 1

4. mestre de camp 51 76 7 1

5. pou-de-soie - - 1 -

264

Tableau 8 Frantext : fréquence des composés N-de-N (irréguliers)

composé 1606-1694 1695-1798 1799-1872 1873-1920

1. bec-d’âne 3 - 3 -

2. bec-de-cane 1 - 3 2

3. bec-de-cigogne - - - 2

4. bec-de-corbeau - - - 2

5. bec-de-corbin - 8 1 11

6. bec-de-cygne - - - 1

7. bec-de-faucon - - 1 1

8. bec-de-grue - - - 1

9. bec-de-lézard - - - 1

10. bec-de-perroquet - - 3 2

11. bec-de-vautour - - 5 3

12. cou-de-pied 1 - - 1

13. coup de poing 16 41 158 215

14. crête-de-coq - - 3 4

15. cul-de-lampe 3 - - -

16. cul-de-poule - 1 1 11

17. cul-de-sac 1 7 - -

18. eau-de-vie 85 173 433 388

19. fleur-de-mai - - 1 2

20. gorge-de-pigeon - 2 14 6

21. haut-de-chausses 2 1 - 1

22. sang-de-dragon 1 1 - -

265

APPENDICE 3 Noms composés non-mesurés (Littré)

Composés V-N, P-N, Adv-N, Nombre-N

Voir l'Appendice 1 pour les listes de ces quatre types de compossés.

Composés EMPRUNTS (10 formes)

alto-basso, aqua-toffana, arrow-root, bégler-beg, horse-guard, nam-nam, porc-épic, tac-tac, tohu-bohu, ylang-ylang.

Composés SAVANTS (29 formes) aqua-tinta, électro-puncture, gastro-conjonctivite, gastro-encéphalite, gastro-hépatite, incito-motricité, inter-ars, métallo-thérapie, micro-organisme, mylo-glosse, nacro-culture, néo-catholicisme, néo-christianisme, néo-platonisme, nihil-album, omphalo-phlébite, orang-outang, palma-christi, palmi-phalangiens, phréno-glottisme, proto-médecin, proto-médicat, quasi-contrat, quasi-délit, quasi-légitimité, quasi-restauration, semen-contra, surdi-mutité, vade-mecum.

Composés Préfixe-N (63 formes)

anti-bois, mi-fruit, mi-laine, mi-partition,

non-noble, post-consulat, pré-succession, pseudo-cobalt, pseudo-continuité, pseudo-cristal, pseudo-croup, pseudo-émeraude, pseudo-malachite, pseudo-médecin, pseudo-membrane, pseudo-périptère, pseudo-platane, pseudo-saphir, pseudo-science,

semi-animiste, semi-arianisme, semi-arien, semi-brève, semi-colon, semi-pite, semi-preuve, semi-ton, semi-voyelle, servo-moteur,

thermo-baromètre, thermo-cautère, thermo-diffusion, thermo-électricité, thermo-lampe, ultra-libéralisme,

ultra-royalisme, ultra-royaliste, vice-amiral, vice-amirauté, vice-bailli, vice-camérier, vice-cardinal, vice-chancelier, vice-consul, vice-consulat, vice-dieu, vice-empereur, vice-gérance, vice-gérant, vice-gérent, vice-légat, vice-légation, vice-préfet, vice-présidence, vice-président, vice-procureur, vice-recteur, vice-reine, vice-roi, vice-royauté, vice-sénéchal.

Composés à PLUS DE DEUX TERMES (81 formes)

à-bon-compte, acquit-à-caution, arc-en-ciel, arc-en-terre, arrière-demi-file, arrière-petit-fils, arrière-petits-enfants, auto-da-fé, avale-tout-cru, avant-chemin-couvert, avoir-du-poids,

266

bat-à-bourre, bec-en-ciseaux, bec-en-fourreau, bec-en-scie, belle-à-voir, belle-d’onze-heures, belle-petite-fille, bernard-l’hermite, boute-en-courroie, boute-en-train, boute-tout-cuire, bric-à-brac, chat-en-jambes, chie-en-lit, coq-à-l’âne, croc-en-jambe,

doux-aux-guêpes, eau-de-vie,

faux-du-corps, fouille-au-pot, grosse-de-fonte,

haut-à-bas, haut-à-haut, haut-de-chausses, hors-d’œuvre, in-cent-vingt-huit, in-cent-vingt-huit, in-quatre-vingt-seize,

jean-de-gand, jean-de-janten, jean-le-blanc, laisse-tout-faire,

meurt-de-faim, meurt-de-soi, mille-au-godet, monte-au-ciel, non-plus-ultra, nord-nord-est, nord-nord-ouest,

paille-en-queue, pare-à-faux, passe-tout-grain, pent-à-col, perd-sa-queue, pet-en-gueule, pet-en-l’air, porte-cure-dent,

ramasse-ton-bras, rez-de-chaussée, riquet à la houpe, riz-pain-sel, saute-à-l’œil, saute-en-barque, saute-en-bas, sauve-qui-peut, sept-en-gueule, sept-et-le-va, soupe-tout-seul, tâte-au-pot, tiers-sur-taux, tourne-à-gauche, tout-ou-rien,

va-de-pied, va-et-vient, va-te-laver, vade-in-pace, vade-in-pace, vaque-à-tout, venez-y-voir, vert-de-gris.

Composés AUTRES (38 formes) La fréquence d’occurrence de chaque forme dans ce groupe de composés est inférieure à 10. Le Tableau 9 présente ces formes et les raisons de leur exclusion.

267

Tableau 9 Corpus Littré : noms composés AUTRES

nom composé structure interne raison de l'exclusion

1. cailleu-tassart N-N composé latin francisé (constituants inexistants en isolation)

2. cri-cri N-N onomatopée

3. cric-crac N-N onomatopée

4. tiou-tiou N-N onomatopée

5. bon-henri A-Npropre nom propre

6. dame-aubert N-Npropre nom propre

7. dame-jeanne N-Npropre nom propre

8. pêche-bernard N-Npropre nom propre

9. pêche-martin N-Npropre nom propre

10. chasse-avant V-P structure incluant une catégorie mineure (préposition)

11. chasse-derrière V-P structure incluant une catégorie mineure (préposition)

12. frappe-devant V-P structure incluant une catégorie mineure (préposition)

13. hale-avant V-P structure incluant une catégorie mineure (préposition)

14. va-devant V-P structure incluant une catégorie mineure (préposition)

15. haute-contre A-P structure incluant une catégorie mineure (préposition)

16. hale-dedans V-Adv structure incluant une catégorie mineure (adverbe)

17. hale-dehors V-Adv structure incluant une catégorie mineure (adverbe)

18. passe-partout V-Adv structure incluant une catégorie mineure (adverbe)

19. passe-debout V-Adv structure incluant une catégorie mineure (adverbe)

20. va-outre V-Adv structure incluant une catégorie mineure (adverbe)

268

nom composé structure interne raison de l'exclusion 21. va-outre V-Adv structure incluant une catégorie

mineure (adverbe)

22. mieux-disant Adv-V structure incluant une catégorie mineure (adverbe)

23. mieux-être Adv-V structure incluant une catégorie mineure (adverbe)

24. non-recevoir Adv-V structure incluant une catégorie mineure (adverbe)

25. rendez-vous V-Pron structure incluant une catégorie mineure (pronom)

26. vas-tu V-Pron structure incluant une catégorie mineure (pronom)

27. chassé-huit V-Nombre structure incluant une catégorie mineure (nombre)

28. deux-quatre Nombre-Nombre structure incluant deux catégories mineures (nombre)

29. trois-six Nombre-Nombre structure incluant deux catégories mineures (nombre)

30. entre-deux P-Nombre structure incluant deux catégories mineures (préposition et nombre)

31. tré-sept Adv-Nombre structure incluant deux catégories mineures (adverbe et nombre)

32. non-moi Adv-Pron structure incluant deux catégories mineures (adverbe et pronom)

33. semper-virens Adv-N forme latine (formée de semper, ‘toujours’ et virens ‘qui est vert’)

34. veni-mecum V-Pron-P forme latine (formée de veni ‘viens’, me ‘je’ et cum, ‘avec’)

35. velci-aller V-Pron-V forme réduite de syntagme (vois-le-ci-aller)

36. chassez-déchassez V-V type de composé dont la fréquence est trop basse

37. laissez-passer V-V type de composé dont la fréquence est trop basse

38. voir-venir V-V type de composé dont la fréquence est trop basse

269

APPENDICE 4 Étude pilote – composés garde-x

Tableau 10 Composés garde-x/x-garde (corpus Gallica)

mot composé structure interne

1. arrière-garde N-N

2. avantgarde P-N

3. avant-garde P-N

4. bien-garde A-N

5. cent-garde N-N

6. chien-de-garde N-de-N

7. chien de garde N-de-N

8. contre-garde P-N

9. contregarde P-N

10. corps de garde N-de-N

11. donnée-de-garde N-de-N

12. ex-garde Préf-N

13. garde-barrière N-N

14. garde-cendre N-N

15. garde champêtre N-N

16. garde-chasse N-N

17. garde-chiourme N-N

18. garde-côtes N-N

19. garde de cavalerie N-de-N

20. garde de chasse N-de-N

21. garde de mareschal N-de-N

22. garde de santé N-de-N

23. garde de police N-de-N

24. garde de service N-de-N

270


25. garde-des-sceaux N-de-N

26. garde-du-corps N-de-N

27. garde du corps N-de-N

28. garde-feu N-N

29. garde-forestier N-N

30. garde-fou N-A

31. garde-général N-N

32. garde-infante N-N

33. garde-jambes N-N

34. garde-magasin N-N

35. garde-main N-N

36. garde-malade N-N

37. garde-manger N-N

38. gardes-marine N-N

39. garde-meuble N-N

40. gardemeuble N-N

41. garde-noble N-A

42. garde-notes N-N

43. garde-pêche N-N

44. garde-pipe N-N

45. garderobbe N-N

46. garde-robbe N-N

47. garderobe N-N

48. garde-robe N-N

49. garde-sac N-N

50. garde-sel N-N

51. garde-finage N-N

52. garde-pompes N-N

53. garde-temps N-N

271


54. garde-voie N-N

55. garde-vue N-N

56. homme de garde N-de-N

57. point de gardes N-de-N

58. sar-des-gardes N-de-N

59. sauvegarde V-N

60. sauve-garde V-N

272

Tableau 11 Familles morphologiques des composés garde-x (Frantext)

mot composé nombre de membres de famille par période

1606-1694 1695-1798 1799-1872 1873-1920

garde garderie x gardeur x x x gardeuse x x x gardian x gardien x x x x gardienne x x x x gardiennage x x garde-barrière x barre x barrer x barrage x barreur x garde-cendre x x cendrier x x cendré x x cendreux x x garde champêtre x x champ x x garde-chasse x x x chasseur x x x chasseresse x x x chasseur x x chasseuse x x chasser x x x pourchasser x x x rechasser x chasse-neige x x chasse-clous x garde-côtes x x x coté x x x coter x x x cotiser x x cotisation x x cotisant x x garde-feu x x x enfeu x pique-feu x garde-finage x

273


1606-1694 1695-1798 1799-1872 1873-1920

garde-forestier x x forêt x x garde-fou x x x fol x x x folle x x x folie x x x folichon x x folâtre x x follement x x x affoler x x x folle-blanche x x garde-général x x généralement x x généralité x x généraliser x x généralisation x x généralisable x généralisateur x x garde-infante x infant x infantile x infantilisme x garde-jambes x jambage x jambon x jambière x enjamber x garde-magasin x x x magasiner x magasinier x magasinage x x x garde-main x x maintenir x x maintien x x mainlevée x x garde-malade x x x maladie x x x maladif x x x maladive x x x maladivement x x garde-manger x x x x mangeable x x x x

274


1606-1694 1695-1798 1799-1872 1873-1920

mangeoire x x x x mangeur x x x x mangerie x x x x remanger x x blanc-manger x x x x mange-tout x x x x gardes-marine x x x marin x x x marinier x x x marinière x x x marina x x sous-marin x x loup-marin x x x garde-meuble x x x x ameublir x x x ameublissement x x immeuble x x x x ameublement x x x x démeubler x x x x meubler x x x x remeubler x x x x essuie-meubles x garde-noble x x x noblement x x x noblesse x x x anoblir x x x anoblissement x x x ennoblir x x x ennoblisseur garde-notes x x noter x x notation x x annoter x annotation x x notaire x x notamment x x garde-pêche x pêcher x pêcheur x repêcher x pêcherie x martin-pêcheur x

275


1606-1694 1695-1798 1799-1872 1873-1920

garde-pipe x pipette x pipeau x garde-pompes x pomper x pompant x pompeux x repomper x garde-robe x x x x enrober x x x x rober x x robin x x x x garde-sac x sachet x sacoche x saccage x saccager x cul-de-sac x garde-sel x salé x salant x saleur x saler x salière x saloir x dessaler x garde-temps x x temporaire x x contretemps x x printemps x x printanier x x longtemps x x temporel x x entre-temps x x passe-temps x x garde-voie x avoyer x voyer x voirie x contre-voie x garde-vue x x x voir x x x

276


1606-1694 1695-1798 1799-1872 1873-1920

entrevoir x x x revoir x x x voyance x x x voyeur x x x longue-vue x x x passe-vue x x x

la productivité des noms composés en français...je suis très reconnaissante aux professeurs...

Documents