analyse des proximités, des préférences et typologie michel tenenhaus
TRANSCRIPT
Analyse des proximités,des préférences et typologie
Michel Tenenhaus
2
1. Analyse factorielle d’un tableau de distances Exemple
Londres Stock-holm
Lis-bonne Madrid Paris
Amster-dam Berlin Prague Rome Dublin
Londres 0 Stockholm 569 0 Lisbonne 667 1212 0 Madrid 530 1043 201 0 Paris 141 617 596 431 0 Amsterdam 140 446 768 608 177 0 Berlin 357 325 923 740 340 218 0 Prague 396 423 882 690 337 272 114 0 Rome 569 787 714 516 436 519 472 364 0 Dublin 190 648 714 622 320 302 514 573 755 0
Distances entre 10 villes européennes (en Miles)
3
Analyse factorielle d’un tableau de distances
• Un nuage centré N de n points {x1,…,xn} de Rp.
• On dispose des distances dij = ||xi – xj||.
• On exprime les produits scalaires bij = xi´xj en fonction des distances (formule de Torgerson) :
• D’où :
2 2 2 2. . ..
1( )
2ij ij i jb d d d d
'1
'
'
n
x
X B XX
x
On obtient X endiagonalisant B :
ACP de NPlan principal
Les colonnes de Xsont les composantesprincipales du nuage N
4
Utilisation de ALSCALCarte de l’Europe
AXE1
3210-1-2-3
AX
E2
2.0
1.5
1.0
.5
0.0
-.5
-1.0
-1.5
Dublin
Rome
BerlinMadrid
Lisbonne Stockholm
Londres
Nord
Sud
Oue
st
Est
AmsterdamParis
Prague
AXE1
3210-1-2-3
AX
E2
2.0
1.5
1.0
.5
0.0
-.5
-1.0
-1.5
Dublin
Rome
BerlinMadrid
Lisbonne Stockholm
Londres
Nord
Sud
Oue
st
Est
AmsterdamParis
Prague
La solution est donnée à une rotation/réflexion près.
5
Qualité du résultat
Distance reconstituée
543210
Dis
tan
ce o
bse
rvé
e
1400
1200
1000
800
600
400
200
0 Rsq = 1.0000
6
2. Positionnement multidimensionnel de données de proximités
Les données
Un tableau de proximités pij entre n objets
Problème
On recherche n points {x1,…,xn} dans un plan tels que
les contraintes
soient respectées au mieux.
' ' ' '( , ) ( , )ij i j i j i jp p d x x d x x
7
Signal A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 1 2 3 4 5 6 7 8 9 0
A 92 4 6 13 3 14 10 13 46 5 22 3 25 34 6 6 9 35 23 6 37 13 17 12 7 3 2 7 5 5 8 6 5 6 2 3 A
B 5 84 37 31 5 28 17 21 5 19 34 40 6 10 12 22 25 16 18 2 18 34 8 84 30 42 12 17 14 40 32 74 43 17 4 4 B
C 4 38 87 17 4 29 13 7 11 19 24 35 14 3 9 51 34 24 14 6 6 11 14 32 82 38 13 15 31 14 10 30 28 24 18 12 C
D 8 62 17 88 7 23 40 36 9 13 81 56 8 7 9 27 9 45 29 6 17 20 27 40 15 33 3 9 6 11 9 19 8 10 5 6 D
E 6 13 14 6 97 2 4 4 17 1 5 6 4 4 5 1 5 10 7 67 3 3 2 5 6 5 4 3 5 3 5 2 4 2 3 3 E
F 4 51 33 19 2 90 10 29 5 33 16 50 7 6 10 42 12 35 14 2 21 27 25 19 27 13 8 16 47 25 26 24 21 5 5 5 F
G 9 18 27 38 1 14 90 6 5 22 33 16 14 13 62 52 23 21 5 3 15 14 32 21 23 39 15 14 5 10 4 10 17 23 20 11 G
H 3 45 23 25 9 32 8 87 10 10 9 29 5 8 8 14 8 17 37 4 36 59 9 33 14 11 3 9 15 43 70 35 17 4 3 3 H
I 64 7 7 13 10 8 6 12 93 3 5 16 13 30 7 3 5 19 35 16 10 5 8 2 5 7 2 5 8 9 6 8 5 2 4 5 I
J 7 9 38 9 2 24 18 5 4 85 22 31 8 3 21 63 47 11 2 7 9 9 9 22 32 28 67 66 33 15 7 11 28 29 26 23 J
K 5 24 38 73 1 17 25 11 5 27 91 33 10 12 31 14 31 22 2 2 23 17 33 63 16 18 5 9 17 8 8 18 14 13 5 6 K
L 2 69 43 45 10 24 12 26 9 30 27 86 6 2 9 37 36 28 12 5 16 19 20 31 25 59 12 13 17 15 26 29 36 16 7 3 L
M 24 12 5 14 7 17 29 8 8 11 23 8 96 62 11 10 15 20 7 9 13 4 21 9 18 8 5 7 6 6 5 7 11 7 10 4 M
N 31 4 13 30 8 12 10 16 13 3 16 8 59 93 5 9 5 28 12 10 16 4 12 4 16 11 5 2 3 4 4 6 2 2 10 2 N
O 7 7 20 6 5 9 76 7 2 39 26 10 4 8 86 37 35 10 3 4 11 14 25 35 27 27 19 17 7 7 6 18 14 11 20 12 O
P 5 22 33 12 5 36 22 12 3 78 14 46 5 6 21 83 43 23 9 4 12 19 19 19 41 30 34 44 24 11 15 17 24 23 25 13 P
Q 8 20 38 11 4 15 10 5 2 27 23 26 7 6 22 51 91 11 2 3 6 14 12 37 50 63 34 32 17 12 9 27 40 58 37 24 Q
R 13 14 16 23 5 34 26 15 7 12 21 33 14 12 12 29 8 87 16 2 23 23 62 14 12 13 7 10 13 4 7 12 7 9 1 2 R
S 17 24 5 30 11 26 5 59 16 3 13 10 5 17 6 6 3 18 96 9 56 24 12 10 6 7 8 2 2 15 28 9 5 5 5 2 S
T 13 10 1 5 46 3 6 6 14 6 14 7 6 5 6 11 4 4 7 96 8 5 4 2 2 6 5 5 3 3 3 8 7 6 14 6 T
U 14 29 12 32 4 32 11 34 21 7 44 32 11 13 6 20 12 40 51 6 93 57 34 17 9 11 6 6 16 34 10 9 9 7 4 3 U
V 5 17 24 16 9 29 6 39 5 11 26 43 4 1 9 17 10 17 11 6 32 92 17 57 35 10 10 14 28 79 44 36 25 10 1 5 V
W 9 21 30 22 9 36 25 15 4 25 29 18 15 6 26 20 25 61 12 4 19 20 86 22 25 22 10 22 19 16 5 9 11 6 3 7 W
X 7 64 45 19 3 28 11 6 1 35 50 42 10 8 24 32 61 10 12 3 12 17 21 91 48 26 12 20 24 27 16 57 29 16 17 6 X
Y 9 23 62 15 4 26 22 9 1 30 12 14 5 6 14 30 52 5 7 4 6 13 21 44 86 23 26 44 40 15 11 26 22 33 23 16 Y
Z 3 46 45 18 2 22 17 10 7 23 21 51 11 2 15 59 72 14 4 3 9 11 12 36 42 87 16 21 27 9 10 25 66 47 15 15 Z
1 2 5 10 3 3 5 13 4 2 29 5 14 9 7 14 30 28 9 4 2 3 12 14 17 19 22 84 63 13 8 10 8 19 32 57 55 1
2 7 14 22 5 4 20 13 3 25 26 9 14 2 3 17 37 28 6 5 3 6 10 11 17 30 13 62 89 54 20 5 14 20 21 16 11 2
3 3 8 21 5 4 32 6 12 2 23 6 13 5 2 5 37 19 9 7 6 4 16 6 22 25 12 18 64 86 31 23 41 16 17 8 10 3
4 6 19 19 12 8 25 14 16 7 21 13 19 3 3 2 17 29 11 9 3 17 55 8 37 24 3 5 26 44 89 42 44 32 10 3 3 4
5 8 45 15 14 2 45 4 67 7 14 4 41 2 0 4 13 7 9 27 2 14 45 7 45 10 10 14 10 30 69 90 42 24 10 6 5 5
6 7 80 30 17 4 23 4 14 2 11 11 27 6 2 7 16 30 11 14 3 12 30 9 58 38 39 15 14 26 24 17 88 69 14 5 14 6
7 6 33 22 14 5 25 6 4 6 24 13 32 7 6 7 36 39 12 6 2 3 13 9 30 30 50 22 29 18 15 12 61 85 70 20 13 7
8 3 23 40 6 3 15 15 6 2 33 10 14 3 6 14 12 45 2 6 4 6 7 5 24 35 50 42 29 16 16 9 30 60 89 61 26 8
9 3 14 23 3 1 6 14 5 2 30 6 7 16 11 10 31 32 5 6 7 6 3 8 11 21 24 57 39 9 12 4 11 42 56 91 78 9
0 9 3 11 2 5 7 14 4 5 30 8 3 2 3 25 21 29 2 3 4 5 3 2 12 15 20 50 26 9 11 5 22 17 52 81 94 0
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 1 2 3 4 5 6 7 8 9 0
% de Confusion entre Signal 1en ligne etSignal 2en colonne
Exemple :Les codes Morse
8
Utilisation de M-D-SCAL
3210-1-2
2
1
0
-1
-2
-3
E T
M N
AI
O
G K W
R D
U S
J Q
Z P
Y
C X
L B F V
H
0 9
1 8 2
7 3
6 4
5
Des points vers les traits
De
1 à
5 c
om
posa
ntes
3210-1-2
2
1
0
-1
-2
-3
E T
M N
AI
O
G K W
R D
U S
J Q
Z P
Y
C X
L B F V
H
0 9
1 8 2
7 3
6 4
5
Des points vers les traits
De
1 à
5 c
om
posa
ntes
9
ALSCAL et MDSCAL
• Soit n points {x1,…,xn} dans un plan.
• Définition des disparités :
' ' ' 'ˆ ˆ(1) ij i j ij i jp p d d
2ˆ(2) ( ( , ) )i j ijMin d x x d
1
2 2 2
4
ALSCAL recherche la configuration
de points ,..., minimisant le
ˆ( )
ˆ
n
ij iji j
iji j
x x
d d
S STRESSd
1
2
1 2
M-D-SCAL recherche la configuration
de points ,..., minimisant le
ˆ( )
n
ij iji j
iji j
x x
d d
STRESSd
10
Qualité de la représentation graphique
2
1 2
ˆ( )
0.2392ij ij
i j
iji j
d d
STRESSd
(distance, disparité)
0.8428
Cor
Similarité
100806040200
Dis
tanc
e da
ns le
pla
n
4
3
2
1
0
Disparité
Similarité
100806040200
Dis
tanc
e da
ns le
pla
n
4
3
2
1
0
DisparitéDisparité
Les disparités sont une fonctiondécroissante des similarités
11
Validation
Dimension
54321
Str
ess
.6
.5
.4
.3
.2
.1
0.0
Nombre d'objets
12
18
26
36
48
Figure 9.5 : STRESS1 moyen pour un tableau de proximités aléatoires entre n objets
en fonction de la dimension choisie (Source : Borg & Groenen, 1997)
12
3. Étude des classifications spontanées des marques de cigarettes par les fumeurs
Obtenir une classification-type des marques de cigarettes les plus vendues en France en fonction des perceptions des fumeurs.
Objectif de l’étude :
13
Les données
• Chaque personne interrogée construit une typologie des 56 marques de cigarettes et donne des commentaires sur chaque groupe :
100 typologies avecdes commentaires
• Chaque personne construit sa typologie sur les marques qu’elle déclare connaître.
14
La méthodologie
a) Construire un indice de proximité entre les marques.
b) Faire une représentation graphique du tableau des proximités.
c) Faire une classification ascendante hiérarchique des 56 marques.
d) Interpréter les groupes en fonction des commentaires.
15
Construction d’un indice de proximité entre les marques
• N1(i , j) = Nombre de personnes connaissant les marques i et j
• N2(i , j) = Nombre de personnes connaissant les marques i et j et les mettant dans le même groupe
• p(i , j) = N2(i , j)/N1(i , j)
= Indice de similarité entre les marques i et j
16
Tableau des proximités (extrait)
17
Analyse d’un tableau de proximités
…
...p(i,j)i
j
• i
• k
• j
Visualisation paranalyse des proximités
a b c d e f• • • • • •
Classification ascendante hiérarchique
18
Analyse des proximités
Au tableau de proximités {p(i , j)} on veut associer
56 points x1,…, x56 d’un plan tels que :
' '( , ) ( ', ') ( , ) ( , )i j i jp i j p i j d x x d x x
Air France
Camel
6Benson& Hedges
Black& White
67
• B&H
• Air France
• B&W• Camel
19
Stress1 = .147Cor(dist. , disp.) = .95
Carte des marques de cigarettes (M-D-SCAL)
20
Kool 34 Reyno 46 Ariel 2 Royale menthol 52 Craven A menthol 15 Peter Stuyvesant menthol 40 Française menthol 22 Ariel 100 3 Royale extra longue menthol 51 Royale club 49 Royale extra-longue 50 Royale 48 Balto 4 Flash 18 Bastos légère 5 Marigny 36 Flint 19 Rallye 45 Week-end 53 Camel 9 Camel filtre 10 Benson & Hedges 6 Black & White 7 Dunhill international 17 Craven A 12 Players navycut 44 Craven A export 13 Craven A filtre 14 Rothmans king size 47 Players gold leafe 43 Marlboro 35 Winston rigide souple 55 Peter Stuyvesant 39 Kent rigide souple 32 Kent 100 mm de luxe 33 Winston 100 mm 54 Peter Stuyvesant luxury 41 Pall Mall 100 mm 37 Philips Morris 100 mm 42 Pall Mall king size 38 Fontenoy 20 Française 21 Boyard maïs 8 Boyard blanc 56 Celtique 11 Gitane blanc 29 Gitane filtre blanc 30 Disque bleu 16 Gauloise filtre 26 Gauloise 24 Gauloise grand format 27 Gitane maïs 31 Gauloise doux 25 Gauloise Maryland 28 Gallia 23 Air France 1
Classificationascendante hiérarchique(Critère de la moyenne)
Etape 1 :On regroupe les 2 marquesi et j les plus proches.
Etape 2 :Nouvelle marque [i , j].Proximité entre k et [i , j] :
( , ) ( , )( ,[ , ])
2
p k i p k jp k i j
On regroupe les deux « marques » les plus proches.
Et ainsi de suite…
21
Agglomeration Schedule
34 46 94.000
35 55 90.000
16 26 89.000
2 34 86.000
15 40 84.000
16 24 84.000
2 52 82.333
9 10 82.000
8 56 81.000
29 30 81.000
3 51 79.000
2 15 77.375
33 54 75.000
2 22 74.333
2 3 73.429
25 28 73.000
16 27 73.000
33 41 71.000
37 42 70.000
16 29 68.625
6 7 67.000
8 11 64.500
12 44 64.000
35 39 64.000
13 14 62.000
6 17 60.500
32 35 60.333
16 31 60.333
49 50 57.000
Stage1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
Cluster 1 Cluster 2
Cluster Combined
Coefficients
16 31 60.333
49 50 57.000
4 18 56.000
13 47 54.000
19 45 54.000
33 37 52.167
48 49 50.500
13 43 49.333
20 21 48.000
12 13 46.625
33 38 45.000
8 16 43.571
4 5 43.500
6 12 42.278
23 25 41.500
32 33 41.417
4 36 39.333
19 53 39.000
8 20 37.350
4 19 36.167
1 23 35.667
6 32 31.589
1 8 30.750
4 48 29.714
6 9 24.105
4 6 19.771
2 4 7.011
1 2 5.767
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
22
Kool 34 Reyno 46 Ariel 2 Royale menthol 52 Craven A menthol 15 Peter Stuyvesant menthol 40 Française menthol 22 Ariel 100 3 Royale extra longue menthol 51 Royale club 49 Royale extra-longue 50 Royale 48 Balto 4 Flash 18 Bastos légère 5 Marigny 36 Flint 19 Rallye 45 Week-end 53 Camel 9 Camel filtre 10 Benson & Hedges 6 Black & White 7 Dunhill international 17 Craven A 12 Players navycut 44 Craven A export 13 Craven A filtre 14 Rothmans king size 47 Players gold leafe 43 Marlboro 35 Winston rigide souple 55 Peter Stuyvesant 39 Kent rigide souple 32 Kent 100 mm de luxe 33 Winston 100 mm 54 Peter Stuyvesant luxury 41 Pall Mall 100 mm 37 Philips Morris 100 mm 42 Pall Mall king size 38 Fontenoy 20 Française 21 Boyard maïs 8 Boyard blanc 56 Celtique 11 Gitane blanc 29 Gitane filtre blanc 30 Disque bleu 16 Gauloise filtre 26 Gauloise 24 Gauloise grand format 27 Gitane maïs 31 Gauloise doux 25 Gauloise Maryland 28 Gallia 23 Air France 1
Groupe 1
Groupe 5
Groupe 3
Groupe 4.1
Groupe 4.2
Groupe 4
Groupe 2
Kool 34 Reyno 46 Ariel 2 Royale menthol 52 Craven A menthol 15 Peter Stuyvesant menthol 40 Française menthol 22 Ariel 100 3 Royale extra longue menthol 51 Royale club 49 Royale extra-longue 50 Royale 48 Balto 4 Flash 18 Bastos légère 5 Marigny 36 Flint 19 Rallye 45 Week-end 53 Camel 9 Camel filtre 10 Benson & Hedges 6 Black & White 7 Dunhill international 17 Craven A 12 Players navycut 44 Craven A export 13 Craven A filtre 14 Rothmans king size 47 Players gold leafe 43 Marlboro 35 Winston rigide souple 55 Peter Stuyvesant 39 Kent rigide souple 32 Kent 100 mm de luxe 33 Winston 100 mm 54 Peter Stuyvesant luxury 41 Pall Mall 100 mm 37 Philips Morris 100 mm 42 Pall Mall king size 38 Fontenoy 20 Française 21 Boyard maïs 8 Boyard blanc 56 Celtique 11 Gitane blanc 29 Gitane filtre blanc 30 Disque bleu 16 Gauloise filtre 26 Gauloise 24 Gauloise grand format 27 Gitane maïs 31 Gauloise doux 25 Gauloise Maryland 28 Gallia 23 Air France 1
Groupe 1Groupe 1
Groupe 5
Groupe 3Groupe 3
Groupe 4.1
Groupe 4.2
Groupe 4
Groupe 2Groupe 2
Classificationchoisie
23
Visualisation de la typologie
Groupe 1
Groupe 2
Groupe 3
Groupe 4Groupe 5
24
4. Analyse des préférences avec PREFMAP
Tableau des fréquences d’association entre les critères et les groupes
Centre de gravitédes groupes
pHomme
X1 X2
25
Axe 2
Groupe 1
Groupe 3
Groupe 4
Groupe 2
Groupe 5
Positionnement des commentaires
La corrélationentre [Homme]et les projectionsest maximum
1
2Homme
y
y
y
155
25Gr
x
x
x
5
15 1 25 2
,Gr Homme
x y x y
x y .78*3
.63*3
3*
.783*
.63
Homme
y
26
Calcul de la position des commentaires
1 1 2 2
2 21 2 1
10
14
,15
16
25
COR Homme
y y
y yMax
p X X
Solution
1. Régression de pHomme sur X1 , X2
1 1 2 2Homme cste y y p X X
2. Normalisation
1
2 221 2
1Homme
y
yy y
y
27
Utilisation de SPSS
Model Summary
.876a .768 .535 3.765Model1
R R SquareAdjustedR Square
Std. Error ofthe Estimate
Predictors: (Constant), X2, X1a.
Coefficientsa
16.777 1.713 9.793 .010
3.671 1.702 .737 2.157 .164
2.965 1.908 .531 1.554 .260
(Constant)
X1
X2
Model1
B Std. Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig.
Dependent Variable: Hommesa.
2 2
3.671 .781
2.965 .633.671 2.965Hommey
28
Utilisation du Prefmap de XLSTATY Constante Axe_1 Axe_2 R² Cos1 Cos2
Hommes 16.777 3.671 2.965 0.768 0.78 0.63 Femmes 24.155 -6.150 -3.711 0.889 -0.86 -0.52 Jeunes 12.622 -0.899 -0.453 0.305 -0.89 -0.45 Moins_jeunes 6.387 1.785 1.652 0.940 0.73 0.68 Aisés 9.549 -4.239 2.027 0.816 -0.90 0.43 Tout_le_monde 9.921 3.909 0.790 0.892 0.98 0.20 Grands_fumeurs 7.874 5.615 1.995 0.822 0.94 0.33 Petits_fumeurs 7.835 -1.736 -1.341 0.759 -0.79 -0.61 Snobs 7.102 -3.186 1.337 0.915 -0.92 0.39 Prolétaires 3.082 2.599 0.582 0.856 0.98 0.22 Employés 2.206 0.162 -0.498 0.411 0.31 -0.95 Non_connaisseurs 3.611 -0.918 -0.629 0.359 -0.82 -0.57 Fantaisie 2.726 -0.238 -0.722 0.789 -0.31 -0.95 Luxe 8.947 -4.127 1.561 0.805 -0.94 0.35 Pas_chère 7.259 3.579 0.710 0.971 0.98 0.19 Chère 10.075 -3.518 2.029 0.858 -0.87 0.50 Pharmaceutique 2.101 0.560 0.070 0.768 0.99 0.12 Bâtarde 3.047 -0.738 -0.521 0.323 -0.82 -0.58 Occasionnelle 11.583 -3.912 -2.914 0.943 -0.80 -0.60 Courante 13.664 8.814 2.656 0.926 0.96 0.29 Goût_agréable 6.865 -2.012 0.396 0.786 -0.98 0.19 Léger 13.828 -1.020 0.140 0.294 -0.99 0.14 Parfumé 2.919 -1.630 0.102 0.894 -1.00 0.06 Infecte 9.233 -1.816 -1.082 0.341 -0.86 -0.51 Corsé 11.706 5.522 3.067 0.825 0.87 0.49 Mentholé 10.566 -3.983 -11.857 0.975 -0.32 -0.95 Fade 5.333 -0.198 -0.714 0.228 -0.27 -0.96 Esthétique 8.249 -3.557 1.591 0.835 -0.91 0.41 Goût_américain 3.058 -1.002 0.746 0.704 -0.80 0.60 Gâterie_offerte 3.199 -1.242 0.366 0.913 -0.96 0.28 Passe_temps 4.965 -2.278 -0.805 0.988 -0.94 -0.33 Pour_faire_bien 7.348 -3.823 0.390 0.942 -0.99 0.10
29
Carte des préférences
groupe_1
groupe_2
groupe_3
groupe_4groupe_5
Hommes
Femmes
Jeunes
Moins_jeunes
Aisés
Tout_le_monde
Grands_fumeurs
Petits_fumeurs
Snobs
Prolétaires
Employés
Non_connaisseurs
Fantaisie
Luxe
Pas_chère
Chère
Pharmaceutique
BâtardeOccasionnelle
Courante
Goût_agréableLégerParfumé
Infecte
Corsé
Mentholé Fade
Esthétique
Goût_américain
Gâterie_offerte
Passe_temps
Pour_faire_bien
-2
-1.5
-1
-0.5
0
0.5
1
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2
Axe_1
Axe
_2
30
Critères classés par valeur décroissante du R2 > .76
31
Axe 2
Groupe 1
Groupe 3
Groupe 4
Groupe 2
Groupe 5
Conclusion de l’étude