la classificazione - riani.it · • si calcoli la matrice delle distanze della città a blocchi...
Post on 20-Feb-2019
217 Views
Preview:
TRANSCRIPT
MISURE DI DISTANZA E SIMILARITA’
SCOPI DEL CALCOLO• Problema: misurare la diversità (ovvero la
rassomiglianza) tra due unità statistiche di cui si conoscono i valori di p variabili
• Esempio: differenze tra le caratteristiche di due prodotti (marche)
• Date n unità statistiche posso individuare le coppie tra loro più simili e quelle maggiormente diverse
• E’ la premessa per la successiva individuazione di gruppi omogenei (segmenti del mercato)
Distanza tra due punti nel piano
Ui
Uj
0
1
2
3
4
5
6
7
8
0 1 2 3 4 5 6 7 8
DEFINIZIONE DI DISTANZA
• Dati due vettori p-dimensionali x, y, si dice distanza una funzione che gode delle seguenti proprietà:
1. Non negatività: d( x, y) ≥ 02. Identità: d( x, x) = 03. Simmetria: d( x, y) = d( y, x) 4. Disuguaglianza triangolare:d( x, y) ≤ d( x, z) + d( y, z)
DISTANZA EUCLIDEA
• Si considerino due unità statistiche:• ui = [xi1 , xi2, . . . , xip]• uj = [xj1 , xj2, . . . , xjp]
∑=
−=p
sjsisij xxd
1
2)(
DISTANZA DELLA CITTA’ A BLOCCHI
3
21
in ipedoparallelep del spigoli agli,in cateti due ai ecorrispond
RR
xxdp
sjsisij ∑
=
−=
Distanza di Minkowski di ordine k
• Espressione generale di distanza, funzione del parametro k
• Per k = 1, → city-block; per k =2, → euclidea
alagrangian distanza , max)(lim
1per ,/1
1
jsisijk
kp
s
k
jsisij
xxd
kxxd
−=
≥
−=
∞→
=∑
Proprietà delle distanze di Minkowski
• Funzione decrescente dell’indice k• Invariante per traslazione delle variabili
(somma algebrica d’una costante)• Non invariante se si moltiplicano i valori
delle variabili per una costante• Invariante per rotazione degli assi
NUMERO ORDINI E AMMONTARE (4 clienti)
• N. IMPORTO• A 3 20• B 10 42• C 8 30• D 2 12• Distanza euclidea
087,23)4220()103( 22 =−+−=ABd
Anteprima outputMatrice delle distanze
,000 23,087 11,180 8,06223,087 ,000 12,166 31,04811,180 12,166 ,000 18,974
8,062 31,048 18,974 ,000
1:A2:B3:C4:D
1:A 2:B 3:C 4:D Distanza euclidea
Questa è una matrice di dissimilarità
Matrice delle distanze
,000 29,000 15,000 9,00029,000 ,000 14,000 38,00015,000 14,000 ,000 24,000
9,000 38,000 24,000 ,000
1:A2:B3:C4:D
1:A 2:B 3:C 4:D Distanza City Block
Questa è una matrice di dissimilarità
ESEMPIO DISTANZEMatrice delle distanze
,000 23,087 11,180 8,06223,087 ,000 12,166 31,04811,180 12,166 ,000 18,974
8,062 31,048 18,974 ,000
1:A2:B3:C4:D
1:A 2:B 3:C 4:D Distanza euclidea
Questa è una matrice di dissimilarità
Matrice delle distanze
,000 29,000 15,000 9,00029,000 ,000 14,000 38,00015,000 14,000 ,000 24,000
9,000 38,000 24,000 ,000
1:A2:B3:C4:D
1:A 2:B 3:C 4:D Distanza City Block
Questa è una matrice di dissimilarità
CONFRONTI TRA DISTANZA EUCLIDEA E CITY-BLOCK
• Distanza city-block ≥ dist. euclidea• Distanza city-block risente in misura minore
degli outliers• Tra i due tipi di distanza non esiste sempre una
relazione monotona (cioè gli ordinamenti o graduatorie possono essere diversi)
• Se le variabili sono espresse in unità di misura diverse occorre calcolarle sugli scostamenti standardizzati
CONFRONTI (continua)
• PRIMO CASO • Unità X1 X2
• 1 10 5• 2 12 7• d City-B = 4; d E = √ 8
• SECONDO CASO • 1 10 5• 2 11 8 • d City-B = 4; d E = √ 10
Z ordini e Z ammontare• A 3 20 -,71 -,46• B 10 42 1,10 1,23• C 8 30 ,58 ,31• D 2 12 -,97 -1,08
Statistiche descrittive
4 5,75 3,8624 26,00 12,9614
N. ORDINIAMMONTAREValidi (listwise)
N MediaDeviazione
std.
ESEMPIO DISTANZE STANDARDIZZATE (4 clienti)
,000 2,483 1,507 ,6692,483 ,000 1,061 3,1061,507 1,061 ,000 2,084
,669 3,106 2,084 ,000
1:A2:B3:C4:D
1:A 2:B 3:C 4:D Distanza euclidea standardizzata
Questa è una matrice di dissimilarità
,000 3,510 2,066 ,8763,510 ,000 1,444 4,3862,066 1,444 ,000 2,942
,876 4,386 2,942 ,000
1:A2:B3:C4:D
1:A 2:B 3:C 4:D Distanza City Block standardizzata
Questa è una matrice di dissimilarità
GRADUATORIE DISTANZE STANDARDIZZATE(In questo caso vi è una relazione monotona, ma non in generale)
,000 5,000 3,000 1,00,000 2,000 6,000
,000 4,00,000
1:A2:B3:C4:D
1:A 2:B 3:C 4:D Distanza euclidea standardizzata
Questa è una matrice di dissimilarità
,000 5,000 3,000 1,000,000 2,000 6,000
,000 4,000,000
1:A2:B3:C4:D
1:A 2:B 3:C 4:D Distanza City Block standardizzata
Questa è una matrice di dissimilarità
INDICI DI DISTANZA• Il quadrato della distanza euclidea non soddisfa
la proprietà di disuguaglianza triangolare (vedi esempio pag.318): è un indice di distanza
• Il quadrato della distanza euclidea soddisfa però la proprietà di additività:
• se le variabili sono suddivise in gruppi, l’indice di distanza calcolato su tutte le variabili è uguale alla somma degli indici calcolati sui vari gruppi
• Esempio: variabili economiche, demografiche, sociali
Quadrato della distanza euclidea (4 clienti, dati originari)
• La distanza tra A e B è maggiore della somma delle distanze A-C e B-C
Matrice delle distanze
,000 533,000 125,000 65,000533,000 ,000 148,000 964,000125,000 148,000 ,000 360,000
65,000 964,000 360,000 ,000
1:A2:B3:C4:D
1:A 2:B 3:C 4:D Distanza euclidea quadratica
Questa è una matrice di dissimilarità
ESERCIZIO• In un’indagine sulla qualità della vita il quotidiano “Italia
Oggi” ha fornito, tra l’altro, i seguenti dati sulla situazione ambientale in alcune province emiliane:
• ZTL= zone a traffico limitato (mq per abitante);• VERDE = verde pubblico (mq per abitante);• DIFF = raccolta differenziata rifiuti (in percentuale della
raccolta totale).• Si calcoli la corrispondente matrice degli scostamenti
standardizzati;• si calcoli la matrice delle distanze della città a blocchi
dapprima sui dati originari e quindi sugli scostamenti standardizzati e se ne commenti il significato.
DATIPROVINCE ZTL VERDE DIFF
PIACENZA 4.17 13.6 31.6
PARMA 4.10 13.0 14.7
REGGIO E. 0.82 13.3 36.7
MODENA 3.90 17.9 17.5
MATRICE DEGLI SCOST. STAND.M = [3.24; 14.45; 25.12]σ= [1.62; 2.31; 10.68]
• PROVINCE ZTL VERDE RACC.• PIACENZA ,57 -,37 ,61• PARMA ,53 -,63 -,98• REGGIO E -1,50 -,50 1,08• MODENA ,40 1,49 -,71
Distanze non stand. e stand.
Matrice delle distanze
,000 17,570 8,750 18,67017,570 ,000 25,580 7,900
8,750 25,580 ,000 26,88018,670 7,900 26,880 ,000
1:PIACENZA2:PARMA3:REGGIO E4:MODENA
1:PIACENZA 2:PARMA 3:REGGIO E 4:MODENA Distanza City Block
Questa è una matrice di dissimilarità
Matrice delle distanze standardizzate
,000 1,884 2,672 3,3451,884 ,000 4,210 2,5042,672 4,210 ,000 5,6843,345 2,504 5,684 ,000
1:PIACENZA2:PARMA3:REGGIO E4:MODENA
1:PIACENZA 2:PARMA 3:REGGIO E 4:MODENA Distanza City Block
Questa è una matrice di dissimilarità
Interpretazione delle distanze
• Ordinale• Su scala d’intervalli• Valutazione oggettiva (Teorema p. 332)• DEFINIZIONE :Dati tre vettori x, y, z:
z da chey da distante meno ENTEOGGETTIVAM è x che dice si,...,2,1per Se pszxyx ssss =−≤−
TEOREMA
• Enunciato: Se una coppia di vettori x e y è oggettivamente meno distante di x da z
• allora si conserva il verso della disuguaglianza per qualunque distanza appartenente alla classe di Minkowski, per k finito.
• Dimostrazione: p.333
Distanza Euclidea e distanza di Mahalanobis
•
Distanza euclidea
• Invariante per trasformazioni ortogonali
Distanza di Mahalanobis
• Tiene conto della correlazione tra le diverse variabili
• Invariante per trasformazioni lineari assume lo stesso valore se viene applicata ai dati originari oppure alle variabili standardizzate.
Richiami del biplot•
Distanza Eucidea e di Mahalanobis (da un centroide)
•
INDICI DI SIMILARITA’
SCOPI DEL CALCOLO• Problema: misurare la rassomiglianza tra due
unità statistiche di cui si conoscono i valori di p variabili qualitative binarie (o politomiche):
• INDICI DI SIMILARITA’• Esempio: somiglianza tra le caratteristiche di
due modelli di automobili in base alla presenza–assenza di p accessori (oppure: non possibile, a pagamento, di serie)
• Date n modelli posso individuare le coppie tra loro più simili
• Dissimilarità = 1 – indice di similarità = analogoqualitativo della distanza
Similarità e market basket analysis
• Con la market basket analysis si studiano le relazioni tra coppie di prodotti acquistati insieme (presenti contemporaneamente in n carrelli)
• Con gli indici di similarità si studia la somiglianza tra coppie di clienti (numero di prodotti, rispetto al totale p, presenti contemporaneamente in due carrelli)
Esempio 1: indagine sull’utilizzo di Internet
• Records di due studenti del dataset conriferimento a 6 items (variabili binarie: usi diInternet ⇒ sì – no):Posta Studio Ricerche Svago Chat. Altro
1 0 0 0 1 01 0 0 0 1 1
• C’è similarità negli utilizzi dei due studenti?Possiamo formare gruppi di studenti che dannogiudizi simili?
Campione di studenti
Esempio 2: sequenze di visita ad un sito web
• Similarità nel comportamento dei duevisitatori? Pagine viste – non viste.
• Altri esempi:• segmentazione di prodotti in base a
presenza/assenza di caratteristiche tecniche
. comportamenti di acquisto ⇒ similarità tra “carrelli della spesa”
• Possesso di p beni durevoli• Presenza-assenza di p servizi in due
comuni
Indici di similarità• Nel caso di variabili binarie (v. Esempio 1) l’aspetto più
rilevante della similarità è il numero di co-presenze(positive matches) ⇒ frequenza di items presenticontemporaneamente nelle due unità
• I diversi indici di similarità differiscono principalmente percome trattano gli items assenti in una od entrambe leunità ⇒ qualificano in modo diverso la similarità, aseconda dell’applicazione.
Esempio 1: p accessori di due modelli di autoEsempio 2: p marche di profumi acquistate/non acquistateda due clienti
SIMBOLOGIA
Notazione:• ui, uj ⇒ due unità• (studenti, visitatori del sito, modelli di auto,
clienti …) di cui si misura la similarità• p = numero di items (nell’Es. 1: p = 6)
La similarità tra ui e uj può essere valutataattraverso una Tabella 2×2 ⇒ classificazione dei pitems per le due unità:
ui \ ujPresente
(1)Assente
(0)Tot.
Presente (1) a b a + b
Assente (0) c d c + d
Tot. a + c b + d p
a = numero di co-presenzed = numero di co-assenzea + b = numero di items presenti nell’unità uia + c = numero di items presenti nell’unità uj
Attenzione: p è il numero di variabili binarie
• Indice di Russel Rao: Sij = a / p
• Indice di Jaccard ⇒ esclude le co-assenze:
Sij = a / (a + b + c)
• Indice di corrispondenza semplice di Sokal-Michener (simple matching) numeroco-presenze + numero co-assenze sul totaledegli items:
Sij = (a + d) / pDipende dal numero di items elencati
• Altri indici di similarità: pp. 350-351; SPSS
Indici di similarità più utilizzati
Esempio 1 (p = 6) ⇒ similarità tra i due studenti con riferimento agli utilizzi di Internet
u1\ u2 Presente(1)
Assente(0)
Tot.
Presente (1) 2 0 2
Assente (0) 1 3 4
Tot. 3 3 6
Russel Rao Sij = a / p = 2/6 = 0.333
Jaccard: Sij = a / (a + b + c) =2/(2+0+1) = 2/(6-3) = 0.667
Sokal-Michener Sij = (a + d) / p: (2+3)/6 = 0.833
Posta Studio Ricerche Svago Chat. Altro1 0 0 0 1 01 0 0 0 1 1
Russel Rao Sij = a / p :
= 2/6 = 0.333
Jaccard: Sij = a / (a + b + c)
=2/(2+0+1) = 2/(6-3) = 0.667
Sokal-Michener Sij = (a + d) / p
(simple matching): (2+3)/6 = 0.833La disuguaglianza che esiste tra gli indici soprariportati vale in generaleLa scelta dell’indice dipende dall’importanza data alleco-assenze ⇒ qualificano la similarità?
Alcune proprietà di tutti gli indici di similarità
• Non negatività ⇒ Sij ≥ 0
• Normalizzazione ⇒ Sii = 1
• Simmetria ⇒ Sij = Sji
• Relazione tra similarità e dissimilarità
Dij = 1 – Sij
SPSS per il calcolo delle matrici di similarità
• Percorso: Analizza ⇒ Correlazione ⇒ distanze ⇒similarità
• Scelta delle variabili binarie (codificate però comenumeriche) da analizzare
• Consente di calcolare la matrice degli indici di similaritàcon la formula prescelta
• IN ALTERNATIVA: CALCOLO NELL’AMBITO DELMETODO GERARCHICO DI CLUSTER ANALYSIS
ESPRESSIONE GENERALE DEGLIINDICI DI SIMILARITA’ (formula di Zani, p. 350)
.......1:
0;...1:0;...1:
)(
42531
25431
543
21
AltripesiMICHENERSOKAL
wwwwwJACCARDwwwwwRAORUSSEL
wcbdwawdwawSijZ
=−=====
=====−+++
+=
Distanze con variabili binarieEsempio 1: indagine sugli utilizzi di Internet
Posta Studio Ricerche Svago Chat Altro1 0 0 0 1 01 0 0 0 1 1
Dissimilarità basata sull’indice simple matching:
Dij = 1 – Sij = 1 – 5/6 = 1/6
Il complemento a 1 dell’indice di corrispondenzasemplice è uguale alla distanza media (cioè rapportataal numero dei caratteri p) calcolata con la metrica dellacittà a blocchi o con il quadrato della distanza euclidea.
Sij = (a + d) / p
Similarità per fenomeni qualitativi politomici,con più di due modalità che si escludono a
vicenda• Codificazione disgiuntiva: date k>2
modalità si considerano k variabili binarie • Esempio: Forma giuridica• SPA SNC SAS ALTRA• U1 0 1 0 0• U2 1 0 0 0• Per ogni variabile un solo 1 per riga se le
modalità si escludono a vicenda
SIMILARITA’ PER CODIFICA DISGIUNTIVA
• Tabella p. 356: le coppie 0-0 sono prive di significato• Indice formalmente analogo a Jaccard (8.46) e
formula (8.47), indice di DICE
pS
S
ijB
ijA
αγβα
αγβα
α
=++
=
++=
)(5.0
STRATEGIE PER CARATTERI QUALITATIVI E QUANTITATIVI
p. 358 e seg.ESEMPI: home theatre p. 8 ; navigatori in SPSS1) Cluster analysis partendo dalla matrice delle distanze
e dalla matrice delle similarità; poi confronto.2) Trasformazione dei dati e riduzione ad un’unica
scala; problemi: • Difficoltà di quantificazione nel passaggio da ordinali a
quantitativi (possibilità di soluzioni diverse);• Perdita d’informazioni nella trasformazione di caratteri
quantitativi in ordinali o dicotomici 3) Definizione di indici ad hoc
INDICE DI GOWER
0)-(0COASSENZA UNA MANIFESTA SI QUANDO OPPURE
UNITA'DUE DELLE UNA ALMENO IN MANCANTE DATO UNE' VI SE
:POSSIBILE E' NON CONFRONTO IL
altrimenti 0
j e i unità le traconfronto il possibile è se 1
1
1
:=
=
=
=
∑
∑=
ijs
ijs
p
sijs
p
sijsijs
ij
wwove
w
wzS
SIGNIFICATO DI Zijs
• Caratteri dicotomici : zijs =1 se le unità i e jmostrano una copresenza per il carattere s; zijs = 0 altrimenti.
• Caratteri politomici: zijs =1 se le unità i e j mostrano la stessa modalità per il carattere s; zijs = 0 altrimenti.
• Variabili quantitative o gradi ordinali:
s
jsisijs
Kxx
z−
−=1
∑
∑
=
== p
sijs
p
sijsijs
ij
w
wzS
1
1
Valori dell’indice di Gower• = 1 se le unità i e j presentano modalità uguali
per ciascuno dei caratteri qualitativi e valori uguali per ciascuna delle variabili quantitative (PERFETTA SIMILARITA’)
• = 0 se le unità i e j presentano modalità diverse per ciascuno dei caratteri qualitativi e per ciascuna delle variabili quantitative un’unità presenta il massimo e l’altra il minimo (MASSIMA DIVERSITA’)
• Nel caso di sole variabili binarie coincide con l’indice di Jaccard
ESEMPIO: 3 FRIGORIFERI
Marca capacità prezzo allarme dispenser display
AEG 380 700 1 0 0
BOSCH 500 1800 1 1 1
IGNIS 310 480 0 0 0
K=range 190 1320
AEG-BOSCH:GOWER = [(1-120/190)+ (1-1100/1320)+1+0+0] / 5= 0.307
∑
∑
=
== p
sijs
p
sijsijs
ij
w
wzS
1
1
s
jsisijs
Kxx
z−
−=1
ESEMPIO: 3 FRIGORIFERI
Marca capacità prezzo allarme dispenser display
AEG 380 700 1 0 0
BOSCH 500 1800 1 1 1
IGNIS 310 480 0 0 0
K=range 190 1320
AEG-IGNIS:GOWER = [(1-70/190) + (1- 220/1320) + 0] /3 = 0.488 vi sono due co-assenze
∑
∑
=
== p
sijs
p
sijsijs
ij
w
wzS
1
1
s
jsisijs
Kxx
z−
−=1
ESEMPIO: 3 FRIGORIFERI
Marca capacità prezzo allarme dispenser display
AEG 380 700 1 0 0
BOSCH 500 1800 1 1 1
IGNIS 310 480 0 0 0
K=range 190 1320
BOSCH-IGNIS: GOWER = 0
∑
∑
=
== p
sijs
p
sijsijs
ij
w
wzS
1
1
s
jsisijs
Kxx
z−
−=1
ESERCIZIOSi è confrontata la presenza (1) oppure l’assenza (0) di 15 accessori su
due modelli A e B di MP3, ottenendo la tabella riportata di seguito.• Si calcolino i diversi indici di similarità e se ne commenti il significato.• Assumendo i totali marginali della tabella come prefissati, si scrivano
le frequenze di casella corrispondenti all’ipotesi di maggiore similaritàpossibile tra i due modelli, calcolando anche il valore chepresenterebbero in tal caso i vari indici di similarità.
A \ B 1 0
1 9 1
0 2 3
SOLUZIONE• Russel-Rao: 9/15 =0.6• Jaccard: 9/12 = 0.75• Sokal-Michener: 12/15 =0.8
A\B 1 0 Tot.
1 10 0 10
0 1 4 5
Tot. 11 4 15
ESERCIZIOSi sono rilevate le categorie di beni alimentari acquistati da 3 clienti (1 = acquistato; 0 = non acquistato): CLIENTE pane pasta acqua birra vino carni pesce salumi latte caffè olio burro A 1 1 0 0 1 0 1 0 0 0 1 1 B 1 1 1 1 0 1 0 0 1 1 0 1 C 1 0 1 0 0 1 0 0 1 0 1 0
• Si calcolino le matrici dei diversi indici di similarità fra i 3 clienti. • Si dica se esiste una relazione monotona tra gli indici che compaiono nelle differenti
matrici.
RISOLUZIONESIMILARITA’ A - B
A / B 1 0 TOT
1 3 3 6
0 5 1 6
TOT 8 4 12
R-R=3/12 J =3/11 S-M=4/12
RISOLUZIONELe matrici degli indici di similarità fra i tre clienti, indicati con A, B, C, sono le seguenti: Russel – Rao A B C A 1 0.25 0.17 B 1 0.33 C 1 Jaccard A B C A 1 0.27 0.22 B 1 0.44 C 1 Sokal – Michener A B C A 1 0.33 0.42 B 1 0.58 C 1 La relazione monotona esiste tra le matrici degli indici di Russel – Rao e di Jaccard, ma non con la matrice degli indici di Sokal – Michener (vi è una inversione dei gradi nella prima riga).
top related