Download - Acp Tutoriel
www.deenov.com
Alain Morineau Page 1 DeeNov
Préambule ................................................................................................................... 2
INTRODUCTION ................................................................................................................. 2 BREF HISTORIQUE DE L’ACP ............................................................................................ 4 DOMAINE D'APPLICATION ................................................................................................. 5 INTERPRETATIONS GEOMETRIQUES ................................................................................... 6
a - Pour les n individus .............................................................................................. 6
b - Pour les p variables ............................................................................................... 7
c - Notion d’éléments actifs et illustratifs ................................................................... 7 ANALYSE DU NUAGE DES INDIVIDUS ................................................................................. 9
a - Comment voir les distances entre individus ? ....................................................... 9
b - Comment trouver les plans de projection ............................................................ 10
c - Principe de l'ajustement ....................................................................................... 11
d - Distance entre individus ...................................................................................... 13
e - Matrice à diagonaliser......................................................................................... 14
f - Composantes Principales ..................................................................................... 15 PROJECTIONS DES VARIABLES ........................................................................................ 17
a - Nature de la projection ........................................................................................ 17
b - Facteur de taille .................................................................................................. 20
c - Les matrices implicites des distances .................................................................. 20 INDIVIDUS ET VARIABLES SUPPLEMENTAIRES ................................................................. 21
a - Individus supplémentaires ................................................................................... 22
b - Contribution d’un individu à la fabrication d’un axe .......................................... 22
c - Qualité du positionnement d’un point .................................................................. 23
d - Notion de représentation simultanée en ACP ...................................................... 25
e - Détails sur la représentation simultanée ............................................................. 25
f - Variables continues supplémentaires ................................................................... 28
g - Variables nominales supplémentaires ................................................................. 30 LA CARACTERISATION STATISTIQUE PAR LES VALEURS-TEST ......................................... 33
a - Principe ............................................................................................................... 33
b - La valeur-test pour la caractérisation des modalités .......................................... 34
c - La valeur-test pour la caractérisation des axes ................................................... 36
d - Les valeurs-tests et le Data mining. ..................................................................... 37 ACP NON NORMEE .......................................................................................................... 40
Retenir l’essentiel ..................................................................................................... 42 RELATIONS ENTRE LES AJUSTEMENTS DES 2 NUAGES ..................................................... 43 RECONSTITUTION APPROCHEE. COMBIEN D’AXES RETENIR ? .......................................... 45 GLOSSAIRE SUCCINCT ..................................................................................................... 47 QUELQUES REFERENCES ................................................................................................. 49
www.deenov.com
Alain Morineau Page 2 DeeNov
Préambule
Ce document, téléchargeable sur le site www.deenov.com, illustre les
différents aspects de l’analyse en composantes principales, ses
fondements, ses caractéristiques techniques et pratiques, ses domaines
d’application et ses règles d’interprétation. Il constitue aussi une
introduction à l’utilisation de la méthode et comporte les principaux
développements techniques.
En complément, on pourra se procurer, à la page Formation du site
www.deenov.com, un support de formation à cette technique. Ce
support inclut plus de 100 diapositives animées, réparties en plusieurs
chapitres et largement commentées de vive voix.
La formation en question s’appuie sur une présentation visuelle
accompagnée d’un commentaire audio complet. Le texte peut être
visualisé en même temps que les commentaires des diapos seront
écoutés. L’utilisateur navigue librement entre les chapitres, les réécoute
à volonté et fait les pauses qui lui conviennent.
Introduction
Le contexte L’analyse en composantes principales, souvent notée ACP, fait partie des techniques descriptives multidimensionnelles. Elle appartient aussi au domaine du Data mining tel qu’il est mis en œuvre par exemple dans le logiciel SPAD dont nous avons dirigé le développement jusqu’en 2004. Ces techniques d’exploration sont exécutées dans le cadre d'enchaînements de procédures complémentaires de visualisation et de synthèse utilisées pour démêler la complexité et la redondance des données brutes et faire émerger des informations cachées dans les données. L'opération de l'Analyse de Composantes Principales consiste à passer d’un tableau des données brutes, contenant toute l'information recueillie sur le phénomène que nous souhaitons étudier, à certaines représentations visuelles des données. Cette opération entraînera une certaine perte "d'information" que l’on essaie de minimiser. En échange, on obtient un gain en "signification", en particulier grâce aux représentations graphiques. Autrement dit, on passe du "magma" des données d’origine à des graphiques interprétables par l'utilisateur. Pour l'interprétation, il est important d'avoir un minimum de connaissances sur le fonctionnement de l'ACP et la naturevdes résultats qu'elle produit. On trouvera une présentation détaillée des méthodes dans les ouvrages cités en bibliographie : "Technique de la Description Statistique" (Lebart, Morineau, Tabard, 1977), et "Traitement des Données Statistiques" (Lebart, Morineau, Piron, 1995, 2006). L'ouvrage "Multivariate Descriptive Statistical Analysis" (Lebart, Morineau, Warwick, 1984) est un manuel en anglais comportant des exemples d'application et incluant la description des techniques.
www.deenov.com
Alain Morineau Page 3 DeeNov
Les techniques multidimensionnelles Le développement de ces techniques procède de l'effet conjugué de plusieurs facteurs : la possibilité de traiter des tableaux de données complexes et de grandes tailles, le regain d'intérêt suscité par de tels tableaux, la possibilité d’exécuter des algorithmes complexes et le désir de s'affranchir d’hypothèses techniques de commodité souvent irréalistes. Schématiquement, ces techniques comprennent deux familles de méthodes: les méthodes faisant appel à l'algèbre linéaire, désignées en France sous le nom de méthodes factorielles, et les techniques de classification automatique.
A. MorineauA. Morineau 33 ©© DeeNovDeeNov, 2005, 2005
F1
F2
Visualisationdans le "meilleur"
espace réduitClassification
(dans l'espace complet)
Présentationinvisible dans l'espacecomplet
Ana. factorielles
et
Classifications
Les techniques factorielles Il est toujours possible de calculer des distances entre lignes et entre colonnes d'un tableau rectangulaire de valeurs numériques. Ces distances peuvent s'interpréter en termes de corrélations ou de similarités. En revanche, il n'est pas possible de visualiser ces distances de façon exacte: il est nécessaire de procéder à des transformations ou à des approximations pour en obtenir une représentation plane. C'est l'une des tâches dévolues à l'analyse factorielle : opérer une réduction de dimension de certaines représentations "multidimensionnelles".
A. MorineauA. Morineau 44 ©© DeeNovDeeNov, 2005, 2005
VisualisationVisualisation et Ana. de et Ana. de donndonnééeses
•• EclairageEclairage dd’’un un objetobjet 3D et 3D et sasa visualisationvisualisation sursur des des plans de projectionplans de projection
•• CertainesCertaines ““projectionsprojections””apportentapportent plus plus dd’’informationinformation quequedd’’autresautres
•• La La clcléé de de ll’’anayseanaysefactoriellefactorielle estest dansdans le le choixchoix des des ““meilleuresmeilleures””projectionsprojections
www.deenov.com
Alain Morineau Page 4 DeeNov
Les techniques factorielles reposent toutes sur une propriété mathématique des tableaux rectangulaires : la décomposition aux valeurs singulières (décomposition due à Eckart et Young). Cette propriété qui concernera le tableau de données lui-même, et non pas seulement la matrice de corrélation ou un tableau de distances construit à partir des données, a ceci de remarquable qu'elle implique de façon similaire les lignes et les colonnes du tableau, et donc en général les individus (lignes) et les variables (colonnes). Cette "restitution des individus à la statistique", essentiellement due à Jean-Paul Benzécri, induit une attitude nouvelle vis-à-vis des traitements statistiques des données multidimentionnelles.
Bref historique de l’ACP
Conçue par Karl Pearson en 1901, intégrée à la statistique
mathématique par Harold Hotelling en 1933, l'analyse en composantes
principales (ACP) n'est vraiment utilisée que depuis la large diffusion
des moyens de calcul informatique.
La technique d'analyse en composantes principales peut être présentée
de divers points de vue. Pour le statisticien classique, il s'agit de la
recherche des axes principaux de l'ellipsoïde d'une distribution normale
multidimensionnelle, ces axes étant estimés à partir d'un échantillon.
C'est la présentation initiale de Hotelling (l933), puis celle des manuels
classiques d'analyse multivariée.
Pour le factorialiste classique, il s'agit d'un cas particulier de la méthode
d'analyse factorielle des psychométriciens (cas de variances spécifiques
nulles ou égales).
Enfin, du point de vue plus récent des analystes de données, il s'agit
d'une technique de représentation des données, ayant un caractère
optimal selon certains critères algébriques et géométriques, et que l'on
utilise en général sans référence à des hypothèses de nature statistique
ni à un modèle particulier.
Ce point de vue, fort répandu actuellement est peut-être le plus ancien.
C'est celui qui avait été adopté par Pearson (1901). Bien entendu, il ne
s'agissait pas de l'analyse en composantes principales telle que nous la
présentons, mais les idées essentielles de la méthode étaient déjà
présentées par cet auteur.
L'analyse en composantes principales présente de nombreuses variantes
selon les transformations apportées au tableau de données : le nuage
des points-individus peut être centré ou non, réduit ou non. Parmi ces
variantes, l'analyse en composantes principales normée (nuage centré-
réduit) est certainement la plus utilisée et c'est celle-ci que nous
choisissons pour présenter les principes de l'analyse.
www.deenov.com
Alain Morineau Page 5 DeeNov
Domaine d'application
L'utilisateur de l'analyse en composantes principales se trouve dans la situation suivante : il possède un tableau rectangulaire de mesures, dont les colonnes figurent des variables à valeurs numériques continues (des mensurations, des taux, etc.) et dont les lignes représentent les individus sur lesquels ces variables sont observées.
D'une manière générale, la condition que doivent remplir ces tableaux numériques pour être l'objet d'une description par l'analyse en composantes principales est la suivante : l'une au moins des dimensions du tableau (les lignes en général) est formée d'unités ayant un caractère répétitif, l'autre pouvant être éventuellement plus hétérogène.
Les lignes (qui ont ce caractère répétitif) sont désignées en général sous le nom d'individus ou d'observations, les colonnes étant désignées sous le nom de variables.
A titre d’esemple, nous considérons le tableau X des mesures prises sur quelques milliers d’individus actifs concernant leurs temps d'activités quotidiennes. On dispose par exemple de 16 variables décrivant des temps d'activité, en minutes par jour (sommeil, repos, repas chez soi, etc.).
A. MorineauA. Morineau 11 ©© DeeNovDeeNov, 2005, 2005
Tableau des donnTableau des donnééeses
Individus
statistiques
(centaines, milliers)
continues
nominales
ordinales
textuelles
etc. ...
Variables
(dizaines, centaines)
X
(n,p)
Le tableau X aura donc en colonne les mesures caractérisant ces observations. Le terme général xij de ce tableau décrit la durée de
l'activité j de l’individu i. L’objectif est de donner une idée de la structure de l'ensemble des 16 activités, ainsi que des similitudes éventuelles de comportement entre les groupes d'individus.
www.deenov.com
Alain Morineau Page 6 DeeNov
Interprétations géométriques
Les représentations géométriques entre les lignes et entre les colonnes du tableau de données permettent de visualiser les proximités entre les individus et entre les variables.
A. MorineauA. Morineau 1111 ©© DeeNovDeeNov, 2005, 2005
Principe gPrincipe gééomoméétrique de ltrique de l’’ACPACP
X(n,p)
Rn
Liaisons entre variables
Rp
Ressemblance entre individus
i
i'
j j'
a - Pour les n individus
Dans l'espace à p coordonnées où se trouvent les individus, les n(n-1) distances attachées aux couples de points individus ont une interprétation directe pour l'utilisateur :
2 2
'
1
( , ) ( )p
ij i j
j
d i i x x
Il s'agit ici de la distance euclidienne classique. Deux points sont très voisins si, dans l'ensemble, leurs p coordonnées sont très proches. Les deux individus concernés sont alors caractérisés par des valeurs presque égales pour chaque variable. Dans l'exemple évoqué ci-dessus, deux individus représentés par des points proches consacrent les mêmes temps aux mêmes activités.
A. MorineauA. Morineau 1212 ©© DeeNovDeeNov, 2005, 2005
Similitude entre individusSimilitude entre individus
•• La La «« meilleuremeilleure »» image approchimage approchéée du nuage en e du nuage en
projection sur une droite H : respecter au mieux les projection sur une droite H : respecter au mieux les
interinter--distances entre tous les couples distances entre tous les couples ……
Nuage de n
points
individus
dans Rp
22
'
1
, 'p
ij i j
j
d i i x x
(H)
2
'
, 'H H
i i
Max d i i
www.deenov.com
Alain Morineau Page 7 DeeNov
b - Pour les p variables
Si les valeurs prises par deux variables particulières sont très voisines pour tous les individus, ces variables seront représentées par deux points très proches dans l’espace à n coordonnées où elles se trouvent. Cela peut vouloir dire que ces variables mesurent une même chose ou encore qu'elles sont liées par une relation particulière.
Toutefois la définition de ces proximités dans les deux espaces est assez fruste. Des problèmes d'échelle de mesure se posent d'emblée : par exemple, le temps consacré au sommeil est toujours beaucoup plus important que le temps passé à la lecture.
A. MorineauA. Morineau 1313 ©© DeeNovDeeNov, 2005, 2005
Liaisons entre les variablesLiaisons entre les variables
•• Une variable est dUne variable est dééfinie par les n valeurs qufinie par les n valeurs qu’’elle elle prend sur les individusprend sur les individus
•• Les variables sont centrLes variables sont centréées res rééduitesduitesOn a donc pour la variable On a donc pour la variable «« jj »» ::
•• CC’’est lest l’é’équation dquation d’’une sphune sphèère de rayon 1 : les re de rayon 1 : les vecteurs variables sont donc des points sur la vecteurs variables sont donc des points sur la surface dsurface d’’une sphune sphèère dans re dans nn
n2 21
i 1
( , ) 1ind O j x
Par ailleurs, dans un cadre plus général, comment calculer la distance entre deux variables si l'une est exprimée en centimètre et l'autre en kilogramme? Comment interpréter un éloignement moyen
dans Rp? Est-ce que deux individus assez proches dans Rp ont des valeurs assez voisines pour chacune des variables, ou au contraire très proches pour certaines et éloignées pour d'autres? L'analyse en composantes principales normée permet de donner des éléments de réponses à ces questions.
c - Notion d’éléments actifs et illustratifs
Le tableau de données contient une assez grande quantité de variables, ce qui est une caractéristique habituelle des études appliquées. En fait les variables peuvent se regrouper selon des thèmes. Si l’analyse cherche à comparer des villes en fonction des caractéristiques de leur population, on trouvera une série de variables relatives aux dépenses sur différents postes (vêtement, loyer, véhicule, services, etc.) dont l’ensemble doit concourrir à
www.deenov.com
Alain Morineau Page 8 DeeNov
donner une idée de la cherté de la vie. D'autres variables informent sur le niveau des salaires, répartis selon 12 professions. Enfin, d'autres variables donnent plutôt une idée du mode de vie, comme les congés payés, les jours de travail, etc.
Pour comparer les villes entre elles, il est certes possible de prendre en compte toutes les variables disponibles. Cela conduira ici à comparer les villes en tenant compte simultanément du niveau des prix, des salaires, des impôts, des heures nécessaires pour acquérir un hamburger, etc. Les différences observées entre les villes sont alors difficiles à interpréter car elles peuvent avoir des causes multiples et de nature très différentes.
Il est plus raisonnable de sélectionner un groupe de variables, ce groupe étant homogène par rapport à un thème bien défini, et cohérent avec l'objectif propre de l'étude. Un thème, c’est-à-dire un groupe de variables, définit un certain point de vue choisi par l’utilisateur pour comparer les individus (ici les villes). Ce faisant, l'interprétation des proximités entre éléments sera plus facile à interpréter.
Les variables choisies, appelées variables actives, constituent donc les seuls éléments utilisés pour comparer les éléments entre eux. Cela ne signifie pas que le reste de l'information soit abandonné: il servira ensuite à illustrer ou peut-être suggérer des “explications” pour les similitudes et différences observées entre les éléments. C'est pour cela que l’on appelle illustratives ou supplémentaires les autres variables.
Toute analyse statistique commence donc par le choix des éléments actifs.
p=40
n=51
Variables
Variables actives
Variables illustratives
Vill
es
Choix du thème actif et des variables illustratives
Dans ce qui suit on s’intéresse aux éléments actifs seuls. Les éléments illustratifs sont introduits plus tard.
www.deenov.com
Alain Morineau Page 9 DeeNov
Analyse du nuage des individus
Nous considérons tout d'abord le nuage des n individus (non pondérés ou pondérés suivant les nécessités de l’analyse). Nous voulons, dans l'espace des variables, ajuster le nuage de n points par un sous-espace à une, puis deux dimensions, de façon à obtenir sur un graphique une représentation visuelle la plus fidèle possible des proximités existant entre les n individus vis-à-vis des p variables.
a - Comment voir les distances entre individus ?
Situé dans un espace de dimension élevée, le nuage des points-lignes (comme celui des points-colonnes) n’est pas visible. L’essentiel de l’analyse en composantes principales réside dans la recherche d’un plan (appelé premier plan factoriel) sur lequel on projette le nuage de telle sorte que la configuration des points projetés sur ce plan soit aussi semblable que possible à la configuration réelle des points dans l’espace complet.
Nous y parviendrons en rendant globalement les distances entre les points projetés sur ce plan aussi proches que possible des distances réelles entre les points de l'espace d'origine.
Considérons par exemple le nuage des n points-individus dans l’espace où chaque axe représente une variable d'origine. La figure schématise la situation dans le cas de 3 variables seulement.
••
•
•
••
•
• •
•
•i
i'
var3
•
•
•
•
•
•
••
•
•
•
i i'
Espace d'origine Espace factoriel
(plan de projection)
var2
var1
F2
F1
dX(i,i')
dF(i,i')
Représentation du nuage des points- lignes
dans le premier plan factoriel
Il s'agit de trouver le plan tel que, globalement, l’ensemble des
dF(i, i ' ) mesurés dans le plan pour tous les couples de points, se
rapproche autant que possible des distances réelles dX (i, i ' ) mesurées
dans l'espace d'origine.
www.deenov.com
Alain Morineau Page 10 DeeNov
b - Comment trouver les plans de projection
L’objectif est de choisir le sous-espace de dimension réduite qui fournisse le maximum d'information sur la configuration du nuage d'origine. Quel plan choisir ? Quel critère d'ajustement entre les distances réelles et les distances projetées peut-on utiliser pour déterminer le plan de projection? On cherche le plan qui maximise la dispersion (l’étalement) des points projetés:
Max d i iH Hii
2 ( , ' )'
formule où H représente le sous-espace de projection. On peut montrer que la somme des carrés des distances entre tous les couples de points est égale à la somme des carrés des distances au centre de gravité (multipliée par 2n). Pour la recherche du maximum, on a :
Max d i i Max n d i GH H H Hiii
2 22( , ' ) ( , )'
Ainsi, maximiser la somme des distances projetées revient à maximiser la dispersion autour du centre de gravité dans le plan de projection. La formule, qui n’est autre que l’expression du théorème de Pythagore, décompose la dispersion du nuage (une quantitée fixe), en deux termes: la dispersion dans le plan de projection et un terme complémentaire qui est la somme des distances des points au plan de projection (voir la figure).
G
i
HiH
d(i,G)
•
•
d i GH
( , )
d i GH ( , )
Décomposition de la distance d'un point- ligne au centre de gravité du nuage.
Ainsi, le plan de projection qui assure la dispersion maximale des points est aussi le plan qui passe au plus près du nuage (au sens du critère des moindres carrés).
www.deenov.com
Alain Morineau Page 11 DeeNov
C’est ce qu’exprime l’égalité :
d i G d i G d i Gi
Hi
Hi
2 2 2( , ) ( , ) ( , )
Par conséquent :
Max d i G Min d i GHi
Hi
2 2 ( , ) ( , )
c - Principe de l'ajustement
On va chercher à rendre maximum la somme des carrés des distances entre tous les couples d'individus :
Max(H )
dH2
( i, i' )i'
n
i
n
La droite d'ajustement H1 que l’on cherche doit passer au plus près
du nuage de points sans être astreinte à passer par l'origine.
••
•
•
•• •
•
•
•
• •
•
•
espace Rp
O
• •• •
H0
H1•
• •
• •
•
Droite d'ajustement du nuage de n points individus
Si hi et hi' désignent les valeurs des projections de deux points-
individus i et i' sur H1, on a la relation classique :
d2(i,i' )
i ,i'
n
(hi hi' )2
i,i'
n
n hi2
i ,i'
n
n hi'2
i,i'
n
2 hii
n
hi'i'
n
2n2(1
nhi
2
i
n
h 2) 2n (hi
i
n
h )2
H1
•
i•
d(i,i')
d (i,i')H 1
hi
• hi'
•
i'•
O
Projections sur H1
www.deenov.com
Alain Morineau Page 12 DeeNov
où h désigne la moyenne des projections des n individus :
h 1
nhi
i
n
et correspond à la projection sur H1 du centre de gravité G du nuage
dont la jème coordonnée vaut :
r j 1
nrij
i
n
Par conséquent, on a :
d2(i,i' )
i ,i'
n
2n d2
i
n
(i,G)
A. MorineauA. Morineau 77 ©© DeeNovDeeNov, 2005, 2005
X
xi
u
y
yi = xi’u
xi
yi
u0
F
Analyse GAnalyse Géénnéérale : problrale : problèèmeme
y = Xu
Maximiser {u’X’Xu}
avec u’u = 1
Rendre maximum la somme des carrés des distances entre tous les couples d'individus revient à maximiser la somme des carrés des distances entre les points et le centre de gravité du nuage G :
Max( H ) dH2
(i, i' )i , i
n
est équivalent à :
Max( H ) dH2
(i,G)i
n
Si l'origine est prise en G, la quantité à maximiser sera à nouveau la somme des carrés des distances à l'origine.
Le sous-espace cherché résulte de l'analyse générale du tableau transformé X, de terme général (données brutes notées r) :
x ij rij r j
www.deenov.com
Alain Morineau Page 13 DeeNov
A. MorineauA. Morineau 55 ©© DeeNovDeeNov, 2005, 2005
Meilleur plan de projectionMeilleur plan de projection
x
y
zNuage
Meilleur plan
A. MorineauA. Morineau 66 ©© DeeNovDeeNov, 2005, 2005
Axes factorielsAxes factoriels
Facteur n°1
Facteur n°2
d - Distance entre individus
La distance entre deux individus i et i' est la distance euclidienne usuelle.
Il peut exister des valeurs de j pour lesquelles les variables correspondantes sont d'échelles très diverses, (exemple : temps passé au sommeil, temps passé à la lecture) ; on veut que la distance entre deux points soit indépendante des unités sur les variables.
Par ailleurs, on peut désirer, surtout lorsque les unités de mesures ne sont pas les mêmes, faire jouer à chaque variable un rôle identique dans la définition des proximités entre individus : on parle alors d'analyse en composantes principales normée.
Pour cela on corrige les échelles en adoptant la distance :
d2(i,i' ) (
rij ri' j
sj n)2
j1
p
sj désignant l'écart-type de la variable j :
s j2
1
n(rij r j)
2
i1
n
Finalement, nous retiendrons que l'analyse normée dans Rp du tableau brut R est l'analyse du tableau X des données centrées er réduites, de terme général :
xij rij r j
sj n
Toutes les variables ainsi transformées sont "comparables" et ont
même dispersion : s2(xj ) = 1
www.deenov.com
Alain Morineau Page 14 DeeNov
Les variables sont centrées réduites, ce qui signifie qu’on mesure l'écart à la moyenne en nombre d'écarts-types de la variable j.
e - Matrice à diagonaliser
L'analyse du nuage des points-individus dans Rp nous a amené à effectuer une translation de l'origine au centre de gravité de ce nuage et à changer, dans le cas de l'analyse normée, les échelles sur les différents axes. L'analyse du tableau transformé X nous conduit à diagonaliser la matrice C = X'X.
Le terme général cjj' de cette matrice s'écrit :
cjj ' xij xij 'i
n
soit :
cjj ' 1
n
(rij r j)(rij ' r j' )
sjsj'i
n
c'est-à-dire :
c jj ' cor( j, j' )
cjj' n'est autre que le coefficient de corrélation entre les variables j et
j' (d'où l'utilité du coefficient n introduit au dénominateur dans la transformation des données). La matrice à diagonaliser est donc la matrice de corrélations.
A. MorineauA. Morineau 1616 ©© DeeNovDeeNov, 2005, 2005
Distance entre variablesDistance entre variables
2 , 2 1 ,d j k cor j k Distance basée sur
la corrélation
cor(j,k) 1
d(j,k) 0
( d² 0 )
cor(j,k) -1
d(j,k) 2
( d² 4 )
cor(j,k) 0
d(j,k) 2
( d² 2 )
kk
k
j jo o o
j
Corrélations et distances entre points-variables
www.deenov.com
Alain Morineau Page 15 DeeNov
f - Composantes Principales
Nous allons considérer en premier lieu le nuage de points-ligne. Dans cet espace, il s'agit de décomposer l'inertie de ce nuage selon une série de directions orthogonales.
Nous allons commencer par le sous-espace le plus simple, c'est à dire une ligne droite. Nous pouvons imaginer une droite définie par un vecteur de longueur unité u. Nous essayerons de définir u de telle manière que les projections des points sur cette direction aient une inertie maximale (voir la figure). Les distances représentées entre couples de points doivent être aussi proches que possible des distances réelles entre points.
La projection (ou coordonnée) d'un point sur la direction définie par le vecteur unitaire u, est égale à:
i ij jj
p
x u
1
par conséquent, l'inertie (ou variance) de tous les points projetés sur u sera :
pi ii
n 2
1
•
•
••
•
•
•
•
•
•
Matrice des données
i
u
u
i
ii
Projection d'un point-ligne sur la direction définie par un vecteur unitaire
Il s'agit donc de chercher la droite u qui rende maximale la valeur de
.
Si on appelle X le tableau des données (données centrées), cela conduit à diagonaliser la matrice X'X. Cette matrice est égale à la matrice de corrélations entre les variables dans le cas d'une ACP normée, et elle est égale à la matrice des covariances dans le cas d'une ACP non normée.
Le vecteur unitaire recherché u est le vecteur propre associé à la plus grande valeur propre obtenue dans la diagonalisation de X'X
.
www.deenov.com
Alain Morineau Page 16 DeeNov
L'opération de diagonalisation consiste à chercher les directions de la dispersion maximale de l'ellipsoïde défini par X'X. Le résultat de l'opération de diagonalisation est q vecteurs propres ( axes d'inertie de l'ellipsoïde) et q valeurs propres (inertie de chaque axe), où q est le rang de X'X..
De manière analogue, la direction orthogonale à u, qui en même temps maximise l'inertie projetée, correspond au vecteur propre associé à la seconde valeur propre obtenue en diagonalisant la matrice X'X. Cette inertie projetée est égale à la seconde valeur propre, et ainsi de suite.
Diagonalisation de X'X
Valeurs propres Vecteurs propres
1 u1
2 u2
p up
Les valeurs propres donnent directement les inerties projetées sur chacune des directions que nous cherchons.
L'addition de toutes les valeurs propres est la somme de l'inertie sur les directions orthogonales et, elle est égale à l'inertie du nuage de points.
Ip
var(j) T 1 2 pjp
ee
e
RS|T|
en ACP norm
en ACP non norm e
Les vecteurs propres donnent les directions d'inertie maximale, que nous appellons les axes factoriels.
Sur ces directions se projettent les individus, obtenant ce que nous appelons les composantes principales. Ces composantes principales s'obtiennent donc comme combinaisons linéaires particulières des variables d'origine. Leur variance est égale à leur valeur propre.
u1x1 upxp
var( )
L'Analyse en Composantes Principales consiste donc à passer des p variables d'origine xj, chacune d'elles avec une importance mesurée par sa variance, à p nouvelles variables combinaisons linéaires de celles d'origine, chacune avec une importance mesurée par sa variance, égale à le valeur propre (voir la figure).
www.deenov.com
Alain Morineau Page 17 DeeNov
Variables
Axes factorielsVar3
Axe 1
Axe 2
Var2
Var1
Changement de base et réduction de la dimentionnalité
Projections des Variables
a - Nature de la projection
De même que nous avons réalisé l'ajustement des points-lignes, nous pouvons procéder à l'ajustement des points-colonnes (les variables) dans un espace de dimension réduit qui préserve au mieux les distances d'origine (les corrélations).
Mathématiquement, cela conduit à diagonaliser la matrice XX’.
X=
Matrice
de
Données
n
pX'X
XX'
p
p
n
n
Ajustement des points-lignes
Ajustement des points-colonnes
Diagonaliser
Matrices à diagonaliser dans les deux ajustements.
Comme précédemment, on obtient la décomposition de l'inertie selon les directions définies par les vecteurs propres de la matrice XX'. L'inertie projetée sur chaque direction est égale à la valeur propre associée.
www.deenov.com
Alain Morineau Page 18 DeeNov
A. MorineauA. Morineau 1717 ©© DeeNovDeeNov, 2005, 2005
Nuage des variablesNuage des variables
•• Nuage des p variables (approximation dans Nuage des p variables (approximation dans RRnn))
•• Un plan factoriel (v1,v2) coupe la sphUn plan factoriel (v1,v2) coupe la sphèère suivant un re suivant un
grand cercle (de rayon 1)grand cercle (de rayon 1)
•• Les pointsLes points--variables tombent variables tombent àà ll’’intintéérieurrieur
F2
F1
2
1
34
F1
F2
4
3
2
1
Espace Rn
Projection
de quatre
variables
Représentation de la sphère et du cercle des corrélations
La droite d'inertie maximale se trouve définie par le vecteur propre v
(définissant la direction F1), associé à la plus grande valeur propre. Le plan d'inertie maximale s'obtient en ajoutant à cette droite, la direction F2 du vecteur propre associé à la seconde valeur propre, et ainsi de suite.
ind1
ind2
ind3
v1
v3
v4v2
Axe 1
Axe 2
Nuage des variables et axes factoriels dans l’espace des individus.
La représentation des variables sur un axe s'obtient par projection des points variables sur le vecteur unitaire v qui définit la direction de l'axe.
Soit j la coordonnée de la variable j sur l’axe . On aura:
jij
ji
n
i
x x
sv
1
www.deenov.com
Alain Morineau Page 19 DeeNov
•
v1
v3
v4v2
Axe 1
Axe 2
•
•• •
Axe 1
Axe 2
v1
v4
v3
v2
Projection des variables sur le premier plan factoriel.
L'inertie des projections de tous les points variables sur un axe s'obtient par addition des inerties de chaque point. En ACP, il n’existe pas de pondération des points-variables (les variables jouent un rôle qui est fonction de leurs variances).
jj
p2
1
On remarque que l'inertie des points-variables projeté sur un axe est la même que celle des points-lignes sur l’axe de même rang (mathématiquement, on dira que les valeurs propres non nulles de XX' sont identiques à celles de X'X.)
Entre les axes factoriels des deux nuages de points, il existe des relations qui permettent, connaissant les directions dans un espace, obtenir les directions dans l'autre espace. On les appelle relations de transition.
Dans la pratique, il suffit de réaliser un seul ajustement; à partir de celui-ci, on obtient l’autre.
On réalise en général l'ajustement de plus faible coût, celui du nuage de points-lignes (on diagonalise une matrice plus petite). On obtient la projection des points-lignes par la formule. La projection des variables est calculée en fonction des axes factoriels du nuage des points-ligne :
j ju
Cette formule permettra ultérieurement d'interpréter la représentation simultanée des villes et des variables (lignes et colonnes du tableau).
Il est clair que le nuage de points-variable n'est pas centré. Il arrive que tous les points-variables soient situés du même côté par rapport à l’origine sur le premier axe.
www.deenov.com
Alain Morineau Page 20 DeeNov
On peut voir que, dans le cas d’une analyse normée, la coordonnée d’une variable sur un axe coïncide avec la corrélation de cette variable avec la composante principale (projection des individus sur l’axe factoriel de même rang):
j cor( , )x j
Cette formule joue un rôle important pour l'interprétation des résultats. Elle met en relation les représentations des points-lignes avec les représentations des points-colonnes.
Une corrélation élevée indique que la disposition des individus sur l'axe factoriel est semblable à l'ordonnance des individus selon la variable (la corrélation unité signifierait que la composante principale est fonction linéaire de la variable). Une corrélation proche de zéro indique qu'il n'y a pas d'association linéaire entre la composante principale et la variable.
b - Facteur de taille
Dans certains cas, la première composante principale nait de la forte corrélation entre les variables actives. La première composante se situe alors au milieu du faisceau des variables actives.
Cette situation peut s’interprêter de la façon suivante. D’une façon générale, si une valeur est forte pour une variable, les valeurs sont fortes pour l’ensemble des variables. C’est la généralité de cette observation sur l’ensemble du tableau qui constitue dans ce cas la structure la plus forte des données et engendre le premier facteur.
C'est la raison pour laquelle nous appelons facteur de taille la composante principale obtenue.
Ce résultat est assez fréquent en ACP. Dans ce cas, la matrice de corrélations des variables ordonnées selon leur projection sur ce facteur, présente une structure particulière: corrélations élevées près de la diagonale et décroissantes quand on s’éloigne de la diagonale (on obtient une sériation des corrélations).
c - Les matrices implicites des distances
Les matrices des distances existent mais on ne les calcule pas explicitement.
Les lignes sont situées dans un espace usuel où la distance se mesure par une formule classique. Dans le cas de l'analyse normée:
d2 (i , i' ) xij xi' j
sj
j1
p
2
www.deenov.com
Alain Morineau Page 21 DeeNov
et pour l'analyse non normée:
d2 (i , i' ) (xij xi ' j )2
j1
p
Dans le nuage des points-variables, la distance est définie pour l'analyse normée par la formule :
))',(1(2)',(2 jjcorjjd
et, pour l'analyse non normée, par:
d2 ( j, j ' ) var( j) var( j ') 2cov( j, j ' )
Toutes ces distances peuvent être rassemblées dans des matrices carrées: matrice (n,n) des distances entre lignes et matrice (p,p) des distances entre colonnes. L'analyse factorielle pourrait être appliquée directement à ces matrices de distances. Dans ce cas, les configurations graphiques des nuages de points-lignes et de points-colonnes sont identiques à celles fournies par l'ACP du nuage des points-lignes et l'ACP du nuage des points-colonnes.
Individus et variables supplémentaires
Dans l’exemple de l'analyse des temps d'activités des personnes actives regroupées en catégories, on dispose de nombreuses autres informations complémentaires. Par exemple, on veut enrichir cette analyse par une série d'indicateurs concernant les habitudes de fréquentation-média (constituant des variables continues) et par le niveau d'éducation, le sexe et l'âge (qui sont des variables nominales). On désire également positionner, dans le nuage analysé, des groupes spécifiques de femmes actives, que l'on va mettre en lignes supplémentaires.
Le tableau de données brutes R peut être ainsi complété en colonne
par un tableau à n lignes et ps colonnes R+ et en ligne par un tableau
R+ à ns lignes et p colonnes. Remarque : il n'est pas nécessaire de
connaître le tableau R
à ns lignes et ps colonnes croisant individus
et variables supplémentaires.
Les tableaux R+ et R+ vont être respectivement transformés en
tableaux X+ et X+ de façon à rendre ces nouvelles lignes et colonnes
comparables à celles de X.
www.deenov.com
Alain Morineau Page 22 DeeNov
X X+
X+
R+R
p
n
p s
R + R++
n s
Lignes et colonnes supplémentaires
Dans l'espace Rn les ps points-variables supplémentaires peuvent
être continues ou nominales.
a - Individus supplémentaires
Pour situer les individus supplémentaires par rapport aux autres
dans l'espace Rp, il est nécessaire de les positionner par rapport au centre de gravité du nuage (calculé sur les n individus actifs) et de diviser les coordonnées par les écarts-types des variables (calculés sur les n individus actifs). D'où la transformation :
x ij rij r j
sj
Les coordonnées des nouveaux points-individus sont donc les ns
lignes du vecteur Xu .
En appelant Xs le tableau
X
X
on obtient simultanément les n + ns
coordonnées des individus analysés et supplémentaires en effectuant le produit matriciel Xsu.
b - Contribution d’un individu à la fabrication d’un axe
Si i est la coordonnée du point-ligne i sur l’axe , nous pouvons mesurer la part d'inertie d'un point-ligne par le quotient :
CTR ipi i( , )
2
100
Il s'agit de la contribution du point i à la fabrication de l'axe .
Les contributions des points-lignes servent à détecter les éléments qui contribuent le plus à la formation des axes factoriels.
www.deenov.com
Alain Morineau Page 23 DeeNov
Si tous les éléments avaient la même contribution, celle-ci devrait osciller autour d’une valeur moyenne (100% divisé par le nombre d’éléments).
Quand la valeur d'une contribution est-elle "élevée"?
La réponse n'est pas simple. Une contribution sera jugée élevée quand, en la comparant au reste des contributions, elle aura une valeur "anormalement" grande.
A. MorineauA. Morineau 11 ©© DeeNovDeeNov, 2005, 2005
•• Dans quelle proportion chaque point contribueDans quelle proportion chaque point contribue--tt--il il àà ll’’inertie inertie du du nuage projetnuage projetéé sur lsur l’’axe axe uu??
•• Pour donner une signification Pour donner une signification àà un axe, sun axe, s’’intintééresser surtout aux resser surtout aux points ayant une forte contribution. (Ils fixent la position de points ayant une forte contribution. (Ils fixent la position de ll’’axe axe dans dans RRpp))
2
.
u = direction de plusAxe factoriel u
max. grande inertie du
u nuage autour de G.i i
i
f
Influence des individus : les Influence des individus : les
contributionscontributions
i'G i'G i'G
'ca i ca i 'ca i ca i 'ca i ca i
Utilité
i iiG G G
c - Qualité du positionnement d’un point
Les cosinus carrés sont utilisables pour apprécier la qualité du positionnement des points en représentation factorielle comparé à leur configuration réelle.
En effet, les images obtenues sont des approximations de la configuration réelle. Il y aura des distances entre couples de points bien représentées, tandis que d'autres ne reflèteront pas fidèlement la distance réelle entre les points.
Si deux points sont proches du plan factoriel, alors la distance représentée sera une bonne approximation à la distance réelle. Mais si au moins un point est éloigné du plan de projection, alors la distance réelle peut être différente de celle représentée sur le plan.
www.deenov.com
Alain Morineau Page 24 DeeNov
Cette proximité du plan factoriel de projection est mesurée par les cosinus carrés de chaque point avec les axes factoriels. La figure illustre la définition :
G
i
d(i,G)
Axe
i
. Le cosinus carré comme mesure de proximité
COS id i G
i22
2( , )
( , )
Un cosinus carré égal à 1 indique que l’élément se trouve situé sur l'axe (l'angle est nul). Un cosinus carré égal à 0 indique que l’élément est dans une direction orthogonale à l'axe.
En additionnant les cosinus carrés par rapport aux p axes factoriels, nous obtiendrons l'unité, car il faut utiliser tous les axes factoriels pour positioner exactement le point dans l'espace complet.
COS ip
2
1
1( , )
A. MorineauA. Morineau 2222 ©© DeeNovDeeNov, 2005, 2005
QualitQualitéé de reprde repréésentation des individus :sentation des individus :
les cosinus carrles cosinus carrééss
•• Le point (i) dans Le point (i) dans RRpp est plus ou moins est plus ou moins «« procheproche »» de chaque axe (de chaque axe () )
de projection.de projection.
•• En projection, la proximitEn projection, la proximitéé entre points est dentre points est d’’autant plus autant plus
«« vvééridiqueridique »» que les points sont proches de lque les points sont proches de l’’axe de projection.axe de projection.
•• Pour analyser les proximitPour analyser les proximitéés entre points, ss entre points, s’’intintééresser surtout aux resser surtout aux
points ayant un fort cosinus carrpoints ayant un fort cosinus carréé. (Proximit. (Proximitéés peu modifis peu modifiéées en es en
projection.)projection.)
uG
(i)
uG
(i)
Utilité
cos 0
est mal
représenté
sur u
i
i
cos 1
est bien
représenté
sur u
i
i
www.deenov.com
Alain Morineau Page 25 DeeNov
L'addition des cosinus carrés d'un point sur différents axes, donne, en pourcentage, la "qualité" de la représentation du point sur le sous-espace défini par ces axes.
A partir de quelle valeur des cosinus carrés dira-t-on qu'un point est "bien représenté" sur le plan factoriel ?
Comme pour les contributions, la réponse n'est pas simple. On appréciera une valeur par rapport à l'ensemble des autres valeurs. Nous devrons comparer les cosinus carrés (ou leur somme sur les deux premiers axes si nous travaillons sur le premier plan factoriel) pour pouvoir répondre à cette question.
d - Notion de représentation simultanée en ACP
Le nuage des individus et celui des variables ne sont pas superposables, n’ayant aucun point commun. On peut cependant représenter, au sein du nuage des individus, les directions des anciens axes porteurs des variables : ce sont des individus « fictifs » supplémentaires. Dans la représentation simultanée, ces axes indiquent dans quelle direction la variable correspondante est croissante.
A. MorineauA. Morineau 1919 ©© DeeNovDeeNov, 2005, 2005
X
(j)
Individu (i)
0 0 0 1 0 0 0 0
1 0 0 0 0 0 0 0
Variable (j)
Variable
(1)
Variables en reprVariables en repréésentation simultansentation simultanééee
•• Les variables sont Les variables sont
des individus des individus
particuliers qui en particuliers qui en
caractcaractéérisent les risent les
directionsdirections
•• Ces individus valent Ces individus valent
1 dans la direction 1 dans la direction
de la variable de la variable
et 0 dans les autres et 0 dans les autres
directions directions
e - Détails sur la représentation simultanée
Dans l'Analyse en Composantes Principales les deux nuages sont définis dans des espaces différents, avec des origines différentes et des bases distinctes. Pour le nuage des points-lignes, l'origine est le centre de gravité des individus. Le nuage est dans un espace de
dimension p et nous désignons par u la base des axes factoriels.
Pour le nuage des points-colonnes, l'origine des coordonnées est le point zéro, il est par construction dans un espace de dimension n
www.deenov.com
Alain Morineau Page 26 DeeNov
(mais les variables actives définissent un sous-espace de dimension p) et nous désignons les axes factoriels par v .
Les points-lignes et les points-colonnes étant donc dans des espaces différents, il est a priori impossible de les visualiser ensemble dans un espace qui respecterait les proximités internes des 2 nuages.
Cependant, nous pouvons représenter les directions définies par chaque variable d'origine sur la base des axes factoriels u.
F1
F2
u2
u1
Ancienne basedes variablesd’origine
e
Nouvelle base orthogonaledes axes factorielsRp
x1
x3
x2
e3
e2
e1
Ancienne base de Rp et la nouvelle base constituée par les axes factoriels.
Les vecteurs qui définissent les directions des variables d'origine sont les vecteurs (1,0,0,0,...), (0,1,0,0,...), (0,0,1,0,...), etc.
Soit ej le j-ème vecteur de cette base. Sa projection sur la base définie par les u est définie par le produit scalaire des deux vecteurs
e uj' u j (2.21)
C'est la j-ème composante du vecteur u.
Ainsi la projection des anciens axes porteurs des variables d’origine sur la nouvelle base est donnée par les composantes des vecteurs propres u de l'analyse des points-lignes.
Un ancien axe j, porteur de la j-ème variable d’origine, peut être considéré comme un individu “artificiel” dans l’espace des individus: il a la coordonnée 1 sur le j-ème axe et des coordonnées nulles ailleurs. A ce titre le point-variable j peut apparaître au sein des individus dans toute représentation factorielle. L’interprétation s’en déduit. Ce point j est l’extrémité du vecteur unitaire qui définit, au sein du nuage des individus, la direction de croissance de la variable j.
Notons qu’il n’y a pas d’unité commune entre la longueur 1 du vecteur unitaire qui porte la variable j et les valeurs des coordonnées des individus sur un axe. Puisque seule la direction compte, on aura
www.deenov.com
Alain Morineau Page 27 DeeNov
tout loisir de dilater ces vecteurs unitaires pour que les directions soient clairement lisibles dans le nuage des individus.
Ainsi il apparait que les p variables sont des points aux extrémités de p vecteurs-unitaires situés au sein du nuage des individus, et représentent en fait la translation du repère d’origine au point-moyen du nuage des individus. Ces p points sont sur une hypersphère de rayon unité.
Sur le premier plan factoriel du nuage des individus, ces p vecteurs unitaires vont apparaître à l’intérieur d’un cercle de rayon unité comme “écrasement” du repère orthonormé des variables d’origine.
x3
x1
x2O
e1
e2
e3
F1
F2
.
•
•
•
•
•
•
•
•
•
•
•
•
•
• •
•
•
Projection sur le plan factoriel des axes de la base d'origine avec le nuage de points-lignes
Il est clair que ce nouveau nuage de points-variable diffère du nuage des points-variable étudié plus haut, dans lequel l’angle entre j et j’ était une mesure de la corrélation entre les deux variables (ici tous les angles sont droits, et on observe en fait la projection de ces angles droits sur le plan factoriel).
Si l’extrémité d’un point-variable est assez proche du cercle de rayon unité, la direction de croissance de cette variable est bien définie dans le plan factoriel que l’on étudie: les individus proches du centre prennent des valeurs proches de la moyenne de cette variable; les individus éloignés dans la direction indiquée ont des valeurs très fortes; ceux à l’opposé auront des valeurs très faibles.
C’est aussi qu’est définie et interprétée la représentation simultanée des individus et des variables en ACP.
Noter que si tous les vecteurs-unitaires, dans cette représentation simultanée, forment un fasceau assez étroit autour du premier axe factoriel, on identifiera un facteur taille: dans la direction du premier axe, toutes les variables croissent simultanément et décroissent simultanément.
www.deenov.com
Alain Morineau Page 28 DeeNov
Remarque sur les deux représentations des points-variables.
Considérons le nuage des points-variable d’une ACP normée. La coordonnée de la variable j sur l’axe est :
u j
Considérons la coordonnée sur l’axe du point représentant la direction de croissance de la variable j dans le graphique d’une représentation simultanée :
u j
Le rapprochement de ces deux formules nous assure que les deux représentations des variables vont en réalité être graphiquement assez semblables (à une dilatation prés le long de chaque axe).
Cette similitude graphique conduit parfois à des abus d’interprétation sur les graphiques de la représentation simultanée (où l’on mélange analyse des angles et analyse des directions de croissance).
Dans ce cadre, on notera qu’il est interdit de faire apparaître une variable illustrative dans une représentation simultanée des variables et des individus en ACP. Les variables illustratives ne participent pas au repère d’origine du nuage des individus et ne peuvent donc pas être représentées par une direction de croissance au sein du nuage des individus.
Pour toute ACP, on retiendra qu’il y a:
la représentation du nuage des points-variables: ce sont des directions (vecteurs unitaires si l’ACP est normée) et on étudie les angles entre ces directions.
la représentation simultanée des individus et des variables actives: les points-variables sont les extrémités de vecteurs unitaires orthogonaux indiquant les directions dans lesquelles les variables correspondantes prennent des valeurs croissantes dans le nuage des individus.
f - Variables continues supplémentaires
Dans Rn, pour que les distances entre variables s'interprètent encore en termes de corrélations, ces variables doivent être à valeurs numériques continues et il est indispensable d'effectuer la transformation de centrage et réduction des données brutes :
xij
r ij r j
s j
www.deenov.com
Alain Morineau Page 29 DeeNov
On calcule donc les nouvelles moyennes et les nouveaux écarts-types correspondant aux variables supplémentaires, pour positionner celles-ci sur la sphère de rayon unité.
Les coordonnées des ps variables supplémentaires sur cet axe sont
donc les ps lignes du vecteur X+'v et correspondent chacune au
coefficient de corrélation entre la variable et l’axe (appelé le facteur, colonne à n coordonnées).
Les variables continues illustratives sont positionnées en utilisant les mêmes formules que pour les variables actives. Dans le cas de l'ACP normée, on utilise la corrélation avec les composantes principales.
j cor en ACP normee( , ) x j
(l’exposant + indique qu'il s'agit de variables illustratives).
La position des variables par rapport aux axes factoriels s'interprète comme pour les variables actives. La position d'une variable illustrative dans le plan factoriel permet de visualiser la relation de la variable avec l'ensemble des variables actives par l'intermédiaire des axes factoriels.
On notera cependant qu'aucune distance n'a été définie entre deux variables illustratives. Leurs positions relatives ne présupposent aucune corrélation entre ces variables. Cependant, dans la mesure où les variables illustratives sont bien représentées sur le premier plan factoriel et proches l'une de l'autre, on peut s’attendre à ce que la similitude de leurs corrélations avec les axes (similitude de leurs coordonnées) soit la conséquence d'une forte corrélation entre elles.
Régression visualisée.
Le positionnement d'une variable continue en élément supplémentaire est assimilable à une "régression visuelle": la variable illustrative joue le rôle de variable de réponse (ou endogène) et le sous-espace de projection (constitué par les premiers axes factoriels), joue le rôle des variables explicatives (ou exogènes). L'analogie est illustrée par la figure.
Dans une régression, on s'intéresse essentiellement à la valeur des coefficients des variables (coordonées sur les variables d'origine): il s'agit de savoir si les variables d'origine permettent de bien "prévoir" la variable y.
www.deenov.com
Alain Morineau Page 30 DeeNov
y
variable continue illustrative
Régression
x1
x2
•
•
Axe 1
Axe 2
Projection en supplémentaire
^y
b1
b2
Équivalence entre la régression et la projection en supplémentaire
Dans une ACP, les variables de type "y" sont souvent nombreuses. Leurs projections sur le premier plan factoriel indiquent rapidement celles qui sont globalement bien ou mal liées à l'ensemble des variables actives. Leurs positions relatives aux axes fournit par ailleurs des éléments d'interprétation des axes (car la coordonnée est égale à la corrélation).
Qualité de la représentation des variables illustratives.
Nous pouvons calculer la qualité de la représentation pour les variables illustratives grâce aux cosinus carrés avec les différents axes. Nous devons néanmoins prendre en compte que maintenant, la somme complète des cosinus carrés sur les p axes sera en générale inférieure à l'unité.
2 2cos ( , ) { (variable,facteur)}j cor
Pour positionner une variable illustrative dans l'espace d'origine, on a besoin de ses n composantes (ses valeurs pour les n individus). Il en est de même pour une variable active, mais l'ensemble des variables actives se trouve dans un sous-espace de dimension p (le rang de X, ou encore de X'X). Donc en réalité les coordonnées sur les p axes factoriels permettent de situer exactement toute variable active. Cette propieté n'est pas vraie pour les variables illustratives.
Il n'y a pas lieu de calculer les contributions des variables illustratives à l'inertie des axes, car ces variables ne sont pas intervenues dans la formation des axes.
g - Variables nominales supplémentaires
Si la variable à mettre en supplémentaire est nominale, on ne peut plus effectuer la même transformation.
www.deenov.com
Alain Morineau Page 31 DeeNov
Dans ce cas, on ramène la variable nominale ayant m modalités, à m groupes d'individus définis par les modalités de la variable. On traite ensuite ces m groupes d'individus comme des individus supplémentaires. Ce sont les centres de gravité de ces groupes
d'individus qui vont être positionnés dans l'espace Rp.
Toute variable nominale définit une partition des individus en autant de groupes que la variable possède de modalités.
On peut représenter avec des symboles différents ces groupes d'individus définis par chaque modalité. Pour chaque groupe de points, nous pouvons calculer son point moyen ou centre de gravité (voir la figure).
Données
actives
Variable nominalesupplémentaireà 2 modalités
•
•
•
•
Partition du nuage des points-ligne en deux groupes (•=1, =2)
G2
1
1
2
1
2
2
1
G1
Partition définie par une variable nominale.
La figure fournit donc une simplification du nuage des points-individus vu du point-de-vue de la variable nominale choisie. La configuration des points-modalités permet en général de qualifier certaines zones du graphique. Elle peut suggérer des éléments d’interprétation des directions factorielles.
Supposons, par exemple, que l'on mesure la taille et le poids de 10 individus et que l'on désire mettre en supplémentaire la variable sexe. Nous disposons des mesures représentées dans le tableau plus bas.
On calcule alors la taille et le poids moyens des hommes (177; 75) et celui des femmes (167; 59). Ce sont ces points moyens qui vont être positionnés parmi les points-individus.
www.deenov.com
Alain Morineau Page 32 DeeNov
177 75
167 59
150 45 2
168 68 1
175 72 1
178 70 2
185 70 1
160 53 2
165 49 2
180 90 1
175 65 2
174 72 2
variable nominale
supplémentaire
à 2 modalités
variables
continues
actives
taille p o id s sex e
1
i
10
lignes
supplém.
168 68
175 72
185 70
180 90
177 75
150 45
178 70
160 53
165 49
175 65
174 72
167 59
modalité 1 (h o mme)
modalité 2 ( femme)
taille p o id s taille p o id s
Les modalités de la variable nominale supplémentaire sont des individus supplémentaires
La représentation par deux points G1 et G2 d'une variable nominale à
deux modalités est esquissée sur la figure ci-dessus.
•••
•
•
•
••
••
••
•••
•
•
•
•
•
•
•
•
•
••••
•
•
•
••
•
•
•
•
••
•
•
•
••
•
•
•
•
• ••
•
F1
F2
G
*°
°
*
°
°
°°
°°
°°
°°°
°
°
°
°
*
°
°
°
°
**°
**
°
*
*
°
*
*
*
*
**
*
*
*
**
*
°
°
°
° °°
*
F1
F2
G
G 2
G1•
•
°*
: hom: fem
Représentation d'une variable nominale supplémentaire
L'analyse d'une variable nominale supplémentaire ne se fait donc
pas dans Rn mais dans Rp. La figure schématise le positionnement des modalités supplémentaires comme points moyens des individus qui les composent.
www.deenov.com
Alain Morineau Page 33 DeeNov
La caractérisation statistique par les valeurs-test
a - Principe
La position d'une modalité est calculée comme position de l'individu moyen de ce groupe. Cette position peut être plus ou moins proche du centre de gravité de tous les individus (origine des coordonnées factorielles).
Une bonne proximité avec le centre de gravité global suggère que le groupe d’individus correspondant est tiré au hasard parmi tous les individus. Au contraire, l’éloignement entre une modalité et le point moyen global suggère une relation forte entre certaines variables actives et la modalité (Noter qu’une modalité sera d'autant plus proche du centre de gravité global, qu'un nombre important d'individus l'auront choisie. Si tous les individus l'avaient choisie, elle coïnciderait avec le centre de gravité global).
On veut évaluer dans quelle mesure une modalité (un groupe d’individus) signale, par sa position, une zône intéressante dans le plan factoriel.
Le centre de gravité général étant le lieu d’attraction des points moyens de tout groupe d’individus tirés au hasard, on va provilégier les points moyens qui diffèrent “significativement” du centre de gravité global: les individus qui forment un tel groupe seront assez typés et assez semblables entre eux pour s’écarter suffisamment du centre de gravité.
Supposons que nous sélectionnions au hasard un groupe de nj individus parmi les n individus disponibles. L'image graphique de ces individus sur le premier plan factoriel sera celle d’une répartition aléatoire sur le plan.
Le point moyen de ces nj individus ne va différer de la moyenne globale, représentée par l'origine des coordonnées, que par des fluctuations aléatoires (voir la figure).
•
•
•
• ••
•
•••
•
•
•
G
•
•
•
•
•
•
•
•
•
Axe 1
Axe 2
Tirage au hasard d'un groupe d'individus.
www.deenov.com
Alain Morineau Page 34 DeeNov
Supposons que nous répétions plusieurs fois le tirage aléatoire de nj individus et le calcul du point moyen des individus sélectionnés. Le centre de ces individus coïncidera, aux fluctuations près, avec le centre de gravité global.
Supposons maintenant que les nk individus ne sont pas sélectionnés au hasard. Ils sont situés dans une certaine zône du plan factoriel (voir la figure).
•
•
•
• ••
•
•••
•
•
•
Gmod
•
•
•
•
•
•
•
••
Axe 1
Axe 2
Groupe d'individus définis par une modalité
Calculons le point moyen de ces individus et sa distance au centre de gravité global. La position de ce point-moyen est-elle compatible avec l’hypothèse que les individus sont tirés au hasard? Plus le non sera catégorique (en terme statistique), plus on trouvera intéressante la modalité pour caractériser la zône du plan factoriel oú elle se trouve.
b - La valeur-test pour la caractérisation des modalités
On procède comme pour un test statistique classique. L'hypothèse "nulle", notée H0, est l'hypothèse d'un tirage au hasard des nk valeurs parmi les n observations. Le tirage est supposé sans remise car chacune des nk valeurs est une et une seule des observations. Avec cette hypothèse de travail, on calcule la probabilité d'observer une configuration de valeurs au moins aussi extrême que celle de l'échantillon. C'est la probabilité critique associée au test de l'hypothèse nulle H0 (on dit aussi p-value). Plus cette probabilité est faible, plus on est amené à mettre en cause l'hypothèse du tirage au hasard. En effet c'est cette hypothèse utilisée dans le calcul qui donne à l'événement réalisé une probabilité aussi faible de réalisation.
Pour classer les variables par ordre d'importance, on les range en fonction des probabilités critiques. La variable la plus typique du groupe est celle qui correspond à la plus petite probabilité.
www.deenov.com
Alain Morineau Page 35 DeeNov
La "valeur-test" est un outil qui participe à l'approche exploratoire et descriptive des grands tableaux numériques (A. Morineau, "Note sur la Caractérisation Statistique d'une Classe et les Valeurs-tests", Bulletin Technique Centre Statistique Informatique Appliquées., Vol 2, n° 1-2, p 20-27, 1984). Le logiciel SPAD dédié au traitement statistique des grands tableaux en fait un usage intensif.
On considère l'écart entre la moyenne des coordonnées dans le groupe k et la moyenne générale. Plus cet écart est "significatif", mieux la variable caractérise le groupe k. Soit m la moyenne des coordonnées (nulle ici) et s2 la variance empirique calculées sur les n observations. Elle est égale à la valeur-propre de l’axe correspondant. Soit mk la moyenne des nk observations du groupe. Appelons Mk la variable aléatoire "moyenne des nk tirages". Sous l'hypothèse H0 d'un tirage uniforme et sans remise, on a:
E
Var
H k
H kk
k
k
M
Mn n
n ns
0
0
0
1
2
Si n et nk ne sont pas très petits, le théorème de la limite centrale s'applique (bien que les tirages ne soient pas indépendants) et dans ce cas la variable:
UM m
s
k
k
suit approximativement une loi normale centrée réduite.
La probabilité critique associée à cette variable est donc la probabilité pour une loi normale de dépasser la valeur numérique u calculée dans l'échantillon pour la variable U ci-dessus.
On obtient les modalités les plus typiques pour un axe en sélectionnant les plus petites probabilités critiques. Il est équivalent de sélectionner les modalités correspondant aux plus grandes valeurs prises par la variable normale:
um m
s
k
k
(2.18)
Cette quantité est appelée valeur-test. Elle est exprimée en nombre d'écarts types d'une loi normale.
Elle s'interprète de la façon suivante: la probabilité d'un écart aussi grand entre les deux moyennes est égale aux chances d'atteindre ce nombre d'écarts types pour une loi normale. On évalue en quelque sorte la distance entre la moyenne générale et la moyenne dans le groupe, en nombre d'écarts types d'une loi normale. C'est cette unité
www.deenov.com
Alain Morineau Page 36 DeeNov
commune qui permet les comparaisons entre les modalités et conduit aux tris par ordre d'importance.
La position du point moyen du groupe d'individus permet donc d’évaluer la vraisemblance de l'hypothèse de tirage au hasard de ces individus (figure).
G Gmod
Probabilité critique
Axe 1
valeur-test
V-test associée à une probabilité critique.
Plus la valeur-test est grande (en valeur absolue), plus il est clair que le groupe d'individus occupe une position significative et caractérise la zône du graphique où il se trouve.
Pour les tableaux de taille « raisonnable », nous utilisons souvent le seuil de 2 écarts-types pour juger si la position d'une modalité est significative. Les valeurs supérieures à 2 indiquent des valeurs peu probables sous l'hypothèse d'extraction au hasard. Nous pouvons donc penser que ces individus gardent une certaine relation avec l'ensemble des variables actives qui les font apparaître en positions excentriques du nuage.
Cependant, il faut tenir compte du nombre total d'individus. Ce nombre peut être très grand (problèmes de data mining). Noter qu’il suffit de doubler indéfiniment le tableau des données pour rendre les valeurs-test aussi grandes que l’on veut.
La valeur-test est en réalité utilisée comme simple critère pour ordonner les modalités selon leur association avec les axes factoriels (et non formellement pour rejeter ou non une hypothèse nulle).
c - La valeur-test pour la caractérisation des axes
On a vu comment la v-test est un critère permettant de ranger par ordre d'importance les variables continues caractéristiques d'un groupe d'individus (c'est-à-dire caractéristiques d'une certaine modalité). Si maintenant on fixe la variable continue, le même critère permet de ranger l'ensemble des modalités susceptibles de caractériser cette variable.
www.deenov.com
Alain Morineau Page 37 DeeNov
En analyse de données, la "variable" dont les valeurs sont les abscisses des individus sur un axe factoriel peut être assimilée à une variable continue. A ce titre, on peut chercher quels sont les groupes d'individus (les modalités "j") qui caractérisent au mieux un facteur (où un plan factoriel, par l’intermedière de la caractérisation de ses deux axes).
Appelons i la coordonnée de l'individu i sur l'axe numéro , et j la coordonnée de la modalité j sur ce même axe. Une modalité est le point moyen des individus qui la composent:
j
ki
in
1
Sous l'hypothèse nulle d'un tirage au hasard, l'espérance de i est nulle et sa variance est égale à . Pour un tirage sans remise de n
j
valeurs, la variance d'une moyenne doit être corrigée par ( ) ( )n n nj 1 . On a donc:
E
Var
H j
H j
j
j
n n
n n
0
0
0
1
1
La v-test associée à la modalité j sur l'axe sera donc:
un n
n nj j
j
j
( )1
Elle évalue, en nombre d'écarts types d'une loi normale, la distance sur l'axe de la modalité j au centre du graphique. On caractérise donc l'axe en rangeant les modalités "j" dans l'ordre décroissant des v-test.
d - Les valeurs-tests et le Data mining.
Les v-tests constituent un outil rapide pour le Data mining (débroussaillage) aussi bien des données brutes que des résultats des analyses factorielles ou des classifications. Dans les grands tableaux de données et pour la lecture des analyses multidimensionnelles complexes, le rangement des éléments par valeurs-tests décroissantes fait apparaître les traits saillants au premier coup d'œil, montre rapidement où sont les cohérences et permet l'accumulation progressive des connaissances.
Toute information disponible dans le tableau des données peut être rangée par sa v-test sur un plan factoriel. Ainsi dans une enquête par exemple, parmi les attributs utilisables on peut introduire
www.deenov.com
Alain Morineau Page 38 DeeNov
l'ensemble des paramètres techniques ou instrumentaux de l'enquête: l'heure de l'entrevue ou le croisement sexe-âge du couple enquêteur-enquêté. Ces attributs, positionnés sur les plans factoriels et accompagnés des v-tests les plus significatives, constituent souvent un moyen de validation des résultats de l'enquête. La figure montre le positionnement de l'heure d'entrevue et de l'âge de l'enquêteur. Dans une enquête d’opinion par exemple, le point "interview du soir" par exemple est le centre de gravité des personnes ayant été enquêtées le soir.
Positionnement de paramètres techniques
Les v-tests permettent détecter toutes les liaisons significatives mais ne tiennent pas compte des dépendances entre les éléments. Ce trait est d'ailleurs à l'origine des redondances multiples et donc des effets accumulateurs de connaissance. On voit ici la complémentarité avec les analyses exploratoires multidimensionnelles dont le principal objectif est de tirer le meilleur parti du tissu des dépendances.
Considérons à titre d'exemple la trajectoire dans un plan factoriel des catégories d'âge de personnes enquêtées et supposons que celle-ci s'allonge régulièrement le long du premier axe. La Figure schématise cette situation avec les groupes 1 à 4. La forme de cette trajectoire résulte de l'ensemble des liaisons existant entre les éléments actifs dans l'analyse.
Il est probable que les v-tests associées à la position des catégories extrêmes 1 et 4 seront élevées. Cependant les catégories plus centrales 2 et 3 n'apparaîtront pas distinctes de l'origine au vu de
* *
* *
* *
*
*
*
*
*
*
*
*
Interview du soir
Interview de jour
Enquêteur < 40 ans
Enquêteur > 40 ans *
*
*
*
*
*
*
*
*
* *
*
*
*
* *
*
*
*
*
* *
*
*
*
* *
* *
*
* *
*
*
*
*
*
*
* *
*
*
* * *
*
*
*
*
*
*
*
* *
* * *
* *
* * *
* *
* *
*
*
*
*
* *
* *
*
* *
*
*
*
*
*
www.deenov.com
Alain Morineau Page 39 DeeNov
valeurs-tests trop faibles. Doit-on cependant ignorer ces catégories "non-significatives", alors que leur alignement dans la trajectoire montre la cohérence de leur position?
°
°
°°
°
°
°
°
°
°
°
°
°°
°
°
°
°
°
°
°
°
°°°
°
°°
°
°
°
°
°
°°
°
°
°
°
°
°
°
°
°°
°
°
°
°
°
°
°
°
°°
°
°
°
° °
°
°
°° Groupe 2
°
°
°
*
**
*
°
°°
°°
°
° °
°°
° °
Groupe 1Groupe 4
Groupe 3
°
°
°°
°
°
°
°
Cohérence sur une trajectoire
On voit qu'une notion de cohérence est contenue dans le tissu proprement dit des liaisons entre les données, alors que les éléments pris isolément peuvent avoir des v-tests faibles et donc ne pas se révéler directement significatifs.
Remarque
La proximité entre les modalités A et B de deux variables peut être le résultat de deux effets distincts. Soit les deux modalités ont une majorité d’individus en commun, ce qui assure la proximité des points-moyens; soit les individus sont différents mais ils sont dans la même zône du graphique. Dans tous les cas on interprète la proximité en terme de similitude des individus constituant les groupes.
••
•
•
•
•
•
••
•
A
•
•
•
•
•
Les mêmes individuspartagent les deux modalités
Les individus sont semblables mais distincts
B A B
Proximité de 2 modalités.
www.deenov.com
Alain Morineau Page 40 DeeNov
C’est ainsi que 2 catégories d’âge peuvent être proches, bien qu’elles concernent des individus distincts. D’un autre coté, les personnes qui votent de telle façon seront dans la même zône graphique que les personnes qui consomment tel produit, parce qu’ils ont globalement le même profil socio-culturel, sans être exactement les mêmes individus.
ACP non normée
Dans une ACP, l'inertie du nuage d'origine est décomposée dans des directions orthogonales successives prenant en compte à chaque fois une part d’inertie maximale.
Quelle est la contribution de chaque variable à l’inertie totale du nuage? La formule de distance entre points-variables fait que la contribution de chaque variable à l'inertie totale est la même et égale à 1/p.
En effet, on va voir que l'inertie du nuage de points-variables par rapport à l'origine est égale au nombre de variables actives.
2
1
( ,0)p
T
j
I d j p
Il suffit de travailler avec les données centrées et réduites définies par:
zij xij x j
sj
où x j est la moyenne de la variable j et
s j est son écart type. Nous
parlons alors d'analyse en composantes principales normée. Dans ce cas, la distance de chaque variable à l'origine est égale à l'unité:
d2 ( j ,0) 1
n
xij x j
sj
i1
n
2
1n
(xij x j )2
i
sj2 1
Tous les points-variables sont situés à une même distance de l'origine (sur une hyper-sphère de rayon unité) et participent de façon égale à l'inertie totale.
Cette situation n’est pas toujours justifiée. Par exemple, dans une analyse réalisée pour le compte d'une entité banquaire, il sera intéressant de donner plus de poids aux produits qui contribuent le plus au volume de ses dépôts. Autrement dit, l'importance accordée aux différentes variables doit être conforme aux objectifs de l’analyse.
www.deenov.com
Alain Morineau Page 41 DeeNov
Si l’on travaille avec des données brutes (simplement centrées, sans avoir réalisé la réduction par l’écart-type), nous pouvons voir quelle serait la contribution à l'inertie totale de chaque variable. La distance (au carré) de la variable à l'origine est:
d2 ( j ,0) 1
n(xij x j )
2
i1
n
var( j)
Dans ce cas les variables ne sont pas sur la sphère de rayon unité, mais la longueur du segment de chaque variable est définie par son écart-type. Nous devons donc imaginer le nuage des points-variables comme un ensemble de vecteurs, chacun de longueur égale à l’écart type de la variable et formant des angles définis par le coefficient de corrélation entre les variables.
Il s’agit alors d'analyse en composantes principales non normée.
Remarquons que les distances entre deux points variables dépendent dans ce cas, de la corrélation (c’est-à-dire de l'angle qu'elles forment), mais aussi des variances des variables:
ind3
varj
sj
Nuage de variables
Rn
ind2
ind1
Nuage de points variables dans une Analyse en Composantes Principales non normée
L’inertie globale du nuage des points-variables est alors égale à la somme des variances de chaque variable.
IT d2 ( j, 0) var( j)j1
p
j1
p
La contribution de chaque variable à l'inertie globale est donc:
var(j )
var( j)j
La variance est, comme on le sait, fonction de l'unité de mesure de la variable. Cela fournit donc un moyen de moduler l'importance de chaque variable dans une analyse (Ces modifications auront également des répercusions sur les distances entre individus).
www.deenov.com
Alain Morineau Page 42 DeeNov
La variable à plus grande variance sera celle qui contribuera le plus à l’inertie du nuage, donc au calcul des directions principales d’inertie. Nous verrons que la première composante principale tend à se rapprocher des variables ayant de grandes variances.
Dans la pratique, il est souvent justifié de donner aux variables une importance égale en utilisant l’ACP normée. C’est en particulier indispensable quand les variables actives sont mesurées avec des unités différentes (des euros, des grammes, etc.).
Dans l’ACP non normée comme dans l’ACP normée, les deux nuages de points, individus et variables, ont la même inertie. En effet, l'inertie du nuage des points-individus est la somme des distances au carré de chaque point au centre de gravité, pondérée par le poids de chaque point. Nous pouvons l'exprimer par rapport à chaque axe de l'espace des points-lignes, où chaque axe représente une variable.
IT 1
n(xij x j )
2
j1
p
i1
n
1
ni1
n
j1
p
(xij x j )2 var( j)
j1
p
Par conséquent, la variance le long de chaque axe est la dispersion du nuage projeté sur cet axe. Il est facile de voir que, les axes étant orthogonaux, l'inertie globale est la somme des inerties sur chacun des axes et que l'inertie des points-individus est égale à l'inertie des points-variables.
Retenir l’essentiel
Lorsque les variables actives ne sont pas toutes exprimées dans la même unité de mesure, l’opération de réduction par l’écart-type permet de rendre comparables les variables puisque toute valeur d’une variable devient un écart à sa moyenne exprimé en nombre d’écarts-types de la variable. Toutes les observations ainsi recodées deviennent des valeurs comparables, de moyenne nulle et d’écart-type unité (ce sont des mesures sans unité).
Cette transformation n’est donc plus indispensable lorsque toutes les variables actives d’origine sont exprimées dans la même unité (des cm, ou des kg, ou des euros, etc.).
Dans ce cas, on notera :
La distance d’une variable à l’origine est égale à la variance de la variable : Les points variables ne sont plus sur une hyper-sphère de rayon 1. les variables les plus dispersées sont les plus excentrées et donc auront une propension à jouer un rôle plus important dans le calcul des axes de plus grande dispersion.
www.deenov.com
Alain Morineau Page 43 DeeNov
La distance entre les variables j et j’ est la quantité : var(j) + var(j’) – 2 cov(j,j’) Elle augmente donc avec les dispersions mais diminue quand leur dépendance linéaire augmente. On considère le triangle (O,j,j’) dont l’écart-type de j est la longueur de Oj ; l’écart-type de j’ la longueur de Oj’ ; dont l’angle est aigu si la covariance est positive, et obtus sinon.
La matrice analysée pour calculer les directions de plus grand allongement n’est plus la matrice des corrélations mais la matrice des covariances.
A. MorineauA. Morineau 1414 ©© DeeNovDeeNov, 2005, 2005
ACP normACP norméée et non norme et non normééee
Distance entre individusDistance entre individus
Distance entre variablesDistance entre variables
covariancescovariancescorrcorréélationslations
Matrice diagonalisMatrice diagonaliséée e X'XX'X
Non normNon normééeeNormNormééee
2
2', ' ij i j
j
d i i x x ij ij jx z z
2 , ' 2 1 , 'd j j cor j j
2 , ' var var '
2cov , '
d j j j j
j j
ij j
ij
j
z zx
s
On notera que l’analyse non normée peut être justifiée même dans le cas où toutes les variables actives sont à l’origine exprimées dans la même unité. Une telle analyse correspond alors au souci de faire jouer aux variables un rôle proportionnel à leur dispersion (alors que l’analyse normée fait jouer à toutes les variables le même rôle dans le calcul des distances).
Relations entre les ajustements des 2 nuages
Considérons le tableau X ayant n lignes et p colonnes, donnant naissance à un nuage de n points lignes et un autre nuage de p points colonnes. La technique d’analyse factorielle de ce tableau conduit à des réductions de volume de données, à des reconstitutions approchées et à des représentations graphiques. Elle consiste pour
www.deenov.com
Alain Morineau Page 44 DeeNov
l’essentiel à trouver les sous espaces qui s’approchent au plus près de ces nuages. Ces sous espaces sont définis par des vecteurs unitaires orthogonaux successifs, porteurs des directions successives de plus grand allongement des nuages :
u1, u2,…, up pour le nuage des n points-lignes
v1, v2,…, vp pour le nuage des p points-colonnes
Noter que ces deux espaces, sans avoir de points communs, ont en fait la même dimension p (le rang de la matrice X : la plus petite des valeurs n et p, c’est-à-dire p en général).
Les n points-lignes projetés sur le plan (u1,u2) fournissent la meilleure représentation approchée (au sens des moindres carrés) de la configuration du nuage de ces points. De la même façon, la projection des p points-colonnes sur le plan (v1,v2) fournit la meilleure visualisation dans un plan du nuage des points-variables. Dans chaque cas, le critère des moindres carrés invoqué est le suivant : la somme des carrés des distances entre tous les couples de points sur le plan est la plus proche possible de la somme réelle des carrés des distances dans l’espace complet.
A. MorineauA. Morineau 88 ©© DeeNovDeeNov, 2005, 2005
Relations de transition
Le tableau X et son transposé X’ sont
les matrices de passage entre les axes des deux espaces
1
1
u X v
v X u
Les coordonnées
des projections
sur les axes
dans Rp et Rn
sont les lignes
de Xu et de X’v
www.deenov.com
Alain Morineau Page 45 DeeNov
Reconstitution approchée. Combien d’axes retenir ?
Avec les premières composantes principales, nous recomposons la majeure partie de la dispersion entre les points. Mais combien d'axes faut-il retenir?
A. MorineauA. Morineau 99 ©© DeeNovDeeNov, 2005, 2005
si les p – q plus petites valeurs propres
sont jugées « négligeables »
1 1
p q
X v u v u
(Compression des données )
Reconstitution approchée
La question est difficile et n'admet certainement pas de réponse définitive. Il faut d'abord savoir à quoi l’on destine les axes que l'on veut retenir. Prenons quelques exemples:
On peut vouloir retenir les axes pour faire des représentations graphiques qu'il faudra examiner visuellement. Dans ce cas le nombre d'axes le plus confortable est 2, car on regardera les nuages sur une feuille de papier: ce sont les axes F1 et F2. On peut essayer de représenter le "volume" dans l'espace (F1, F2 et F3), mais les réalisations graphiques sont souvent difficiles à lire. On ne peut rien voir au delà de trois dimensions. On peut imaginer regarder des projections telles que (F2, F3) ou (F1, F4) mais là encore, l'effort "intellectuel" est énorme pour visualiser les configurations de points où les distances lues sont le résultats de compressions dans des directions qui ont disparu. S'il s'agit de visualisation plane donc, on se contentera le plus souvent du premier plan factoriel. Poir "voir" au delà de ce plan, on aura recours en général à la complémentarité apportée par les méthodes de classification.
Si on retient des axes factoriels comme support pour réaliser une classification, le problème est différent. On cherche à retenir beaucoup d'axes (pour rester aussi proche que possible des données observées), mais on supprimera les directions
www.deenov.com
Alain Morineau Page 46 DeeNov
correspondant aux plus petites valeurs propres (fluctuations aléatoires des données, ne correspondant à aucune liaison réelle entre les variables) pour assainir l'information utilisée pour comparer les individus.
Si on veut utiliser les axes factoriels pour une analyse discriminante ou une régression multiple, on cherchera à retenir un petit nombre d'axes, mais pas nécessairement les premiers. On trouvera éventuellement des directions discriminantes dans des axes de rangs assez élevés.
Quel que soit le cas, la réponse n'est pas immédiate, elle est liée à la stabilité des résultats obtenus. Nous devons nous méfier des règles automatiques, et la pratique démontre qu'il est possible de trouver des axes factoriels stables même s'ils correspondent à des valeurs propres faibles.
Remarque. Pour diminuer la part d’inertie de chaque axe, il suffit d’ajouter au tableau de données des nouvelles variables aléatoires non corrélées (bruit blanc). Le paradoxe est que (s’il s’agissait d’information) "l’information" apportée par les premiers axes reste inchangée.
www.deenov.com
Alain Morineau Page 47 DeeNov
Glossaire succinct On rassemble ici quelques mots du vocabulaire utilisé de façon courante dans le texte. Il y a une large part d’arbitraire dans le choix de tel mot plutôt que tel autre mais l’important est de lever d’éventuelles ambiguïtés.
A. MorineauA. Morineau 1010 ©© DeeNovDeeNov, 2005, 2005
Composantesprincipales
continues
actives
F2
F1
F2
F1
F2
F1
F2
F1
X1X2
X4X3
cont.act.
ind.Act.
F
Hâge
Elémentsactifs
Elémentsillustratifs
nomi. ill. cont. ill.
Tableau de synthèse de l’ACP
Tableau de données: C’est un tableau rectangulaire composé de lignes et de colonnes. Dans chaque case, intersection d’une ligne avec une colonne, se trouve une donnée, codée numériquement pour une variable continue, et numériquement ou alphabétiquement pour une nominale. On dit aussi matrice des données. On parle également du tableau “individus x variables”. Le tableau est souvent noté X; il aura n lignes et p colonnes.
Individu (individu statistique): Pour nous, ce sera ici une ligne du tableau de données. C’est la dimension répétitive du tableau de données: on a des relevés statistiques, des mesures, des réponses pour un individu (première ligne du tableau), puis pour un autre (deuxième ligne), etc.
Variable: Toute colonne du tableau de données sera appelée une variable. Pour chaque individu, on fait les mêmes mesures, les mêmes relevés, on pose les mêmes questions. Au lieu de variable, on peut dire mesure, ou paramètre, ou question, etc.
Variable continue: On parle de variable continue quand la mesure faite sur l’individu est de type quantitatif. Pour fixer les idées, une variable est continue quand la notion de moyenne a un sens.
Variable nominale: La variable est nominale quand les valeurs qu’elle prend sont des noms de catégories. C’est le cas du statut matrimonial, de l’âge s’il est découpé en classes, des régions géographiques. On dit parfois variable qualitative, variable catégorielle, etc.
www.deenov.com
Alain Morineau Page 48 DeeNov
Modalité: Les modalités sont les valeurs que prend une variable nominale. La variable Sexe a deux modalités. On peut dire aussi: groupe, catégorie, classe, etc.
Nuage de points: Dans le plan ou dans l’espace à trois dimensions, la notion usuelle de nuage de points est claire: les points sont positionnés en fonctions de leurs coordonnées sur un repère d’axes orthogonaux et on sait calculer la distance (usuelle) entre deux points. Avec plus de trois axes de coordonnées, le nuage de points continue à exister, mais naturellement on ne peut plus le visualiser.
Distance: La distance entre deux points au sein d’un nuage de points est la notion usuelle de distance (calculable en fonction des coordonnées des points par le célèbre théorème de Pythagore).
Inertie: C’est une notion mécanique mais en tout point équivalente ici à la notion statistique de variance. Elle est liée à la notion de dispersion dans l’espace d’un nuage de points pesants. Ainsi, si les individus ont des poids égaux, la direction de plus grande inertie d’un nuage de points est sa direction de plus grand allongement.
Centre de gravité: Le centre de gravité est le point moyen d’un nuage de points pesants. Il y a équivalence ici entre la notion mécanique de centre de gravité et la notion statistique de point moyen.
Analyse factorielle: Visualisation optimale d'un espace multidimensionel sur un ou plusieurs plans factoriels.
ACP: Acronyme pour Analyse en Composantes Principales.
Variables actives: Variables qui participent à la construction des axes, du nuage de points projetés.
Variables illustratives: Variables qui n'ont pas participé à la construction des axes, mais permettent d'illustrer les différents plans factoriels.
Contribution: Mesure la participation d'un élément (modalité, variable, fréquence ou individu)à la construction de l'axe.
Cosinus: Mesure la qualité de la projection d'un élément élément (modalité, variable, fréquence ou individu) sur l'axe.
Valeur-test: (ou v-test) Mesure, en nombre d'écarts-types d'une loi normale, la distance entre une valeur statistique observée et sa valeur sous l'hypothèse nulle (=tirage au hasard). Sert à caracteriser les axes, les modalités, les classes, etc.
www.deenov.com
Alain Morineau Page 49 DeeNov
Quelques références
La littérature sur le sujet est de plus en plus abondante d’année en année.
Pour une bibliographie plus détaillée dans l’esprit de ce contenu,
consulter par exemple nos publications :
Lebart L., Morineau A., Tabard N. Techniques de la Description Statistique.
Dunod, Paris, 1977.
Lebart L., Morineau A., Piron M. Statistique Exploratoire Multidimensionnelle.
Dunod, Paris, 1995 (1ère
édition) , 2006 (4ème
édition).
Lebart L., Morineau A., Warwick K. Multivariate Descriptive Statistical Analysis.
J. Wiley, New York, 1984.
Morineau A., Aluja-Banet T. L’Analyse en Composantes Principales. CISIA,
Paris, 1998.
Références historiques incontournables :
Eckart C., Young G. (1936) – The approximation of one matrix by another of
lower rank. Psychometrika, 1, p 211-218.
Rao C. R. (1964) – The use and interpretation of principal component analysis in
applied research. Sankhia serie A, 26, p 329-357.
Benzécri J-P. (1973) – L’analyse des données (2 tomes). Dunod, Paris.