la classificazione - riani.it · • si calcoli la matrice delle distanze della città a blocchi...

SDE 2018

Marco Rianimriani@unipr.it

http://www.riani.it

MISURE DI DISTANZA E SIMILARITA’

SCOPI DEL CALCOLO• Problema: misurare la diversità (ovvero la

rassomiglianza) tra due unità statistiche di cui si conoscono i valori di p variabili

• Esempio: differenze tra le caratteristiche di due prodotti (marche)

• Date n unità statistiche posso individuare le coppie tra loro più simili e quelle maggiormente diverse

• E’ la premessa per la successiva individuazione di gruppi omogenei (segmenti del mercato)

Distanza tra due punti nel piano

0 1 2 3 4 5 6 7 8

DEFINIZIONE DI DISTANZA

• Dati due vettori p-dimensionali x, y, si dice distanza una funzione che gode delle seguenti proprietà:

1. Non negatività: d( x, y) ≥ 02. Identità: d( x, x) = 03. Simmetria: d( x, y) = d( y, x) 4. Disuguaglianza triangolare:d( x, y) ≤ d( x, z) + d( y, z)

DISTANZA EUCLIDEA

• Si considerino due unità statistiche:• ui = [xi1 , xi2, . . . , xip]• uj = [xj1 , xj2, . . . , xjp]

sjsisij xxd

DISTANZA DELLA CITTA’ A BLOCCHI

in ipedoparallelep del spigoli agli,in cateti due ai ecorrispond

sjsisij ∑

Distanza di Minkowski di ordine k

• Espressione generale di distanza, funzione del parametro k

• Per k = 1, → city-block; per k =2, → euclidea

alagrangian distanza , max)(lim

1per ,/1

jsisijk

jsisij

∞→

Proprietà delle distanze di Minkowski

• Funzione decrescente dell’indice k• Invariante per traslazione delle variabili

(somma algebrica d’una costante)• Non invariante se si moltiplicano i valori

delle variabili per una costante• Invariante per rotazione degli assi

NUMERO ORDINI E AMMONTARE (4 clienti)

• N. IMPORTO• A 3 20• B 10 42• C 8 30• D 2 12• Distanza euclidea

087,23)4220()103( 22 =−+−=ABd

Anteprima outputMatrice delle distanze

,000 23,087 11,180 8,06223,087 ,000 12,166 31,04811,180 12,166 ,000 18,974

8,062 31,048 18,974 ,000

1:A2:B3:C4:D

1:A 2:B 3:C 4:D Distanza euclidea

Questa è una matrice di dissimilarità

Matrice delle distanze

,000 29,000 15,000 9,00029,000 ,000 14,000 38,00015,000 14,000 ,000 24,000

9,000 38,000 24,000 ,000

1:A2:B3:C4:D

1:A 2:B 3:C 4:D Distanza City Block

ESEMPIO DISTANZEMatrice delle distanze

,000 23,087 11,180 8,06223,087 ,000 12,166 31,04811,180 12,166 ,000 18,974

8,062 31,048 18,974 ,000

1:A2:B3:C4:D

1:A 2:B 3:C 4:D Distanza euclidea

,000 29,000 15,000 9,00029,000 ,000 14,000 38,00015,000 14,000 ,000 24,000

9,000 38,000 24,000 ,000

1:A2:B3:C4:D

1:A 2:B 3:C 4:D Distanza City Block

CONFRONTI TRA DISTANZA EUCLIDEA E CITY-BLOCK

• Distanza city-block ≥ dist. euclidea• Distanza city-block risente in misura minore

degli outliers• Tra i due tipi di distanza non esiste sempre una

relazione monotona (cioè gli ordinamenti o graduatorie possono essere diversi)

• Se le variabili sono espresse in unità di misura diverse occorre calcolarle sugli scostamenti standardizzati

CONFRONTI (continua)

• PRIMO CASO • Unità X1 X2

• 1 10 5• 2 12 7• d City-B = 4; d E = √ 8

• SECONDO CASO • 1 10 5• 2 11 8 • d City-B = 4; d E = √ 10

Z ordini e Z ammontare• A 3 20 -,71 -,46• B 10 42 1,10 1,23• C 8 30 ,58 ,31• D 2 12 -,97 -1,08

Statistiche descrittive

4 5,75 3,8624 26,00 12,9614

N. ORDINIAMMONTAREValidi (listwise)

N MediaDeviazione

ESEMPIO DISTANZE STANDARDIZZATE (4 clienti)

,000 2,483 1,507 ,6692,483 ,000 1,061 3,1061,507 1,061 ,000 2,084

,669 3,106 2,084 ,000

1:A2:B3:C4:D

1:A 2:B 3:C 4:D Distanza euclidea standardizzata

,000 3,510 2,066 ,8763,510 ,000 1,444 4,3862,066 1,444 ,000 2,942

,876 4,386 2,942 ,000

1:A2:B3:C4:D

1:A 2:B 3:C 4:D Distanza City Block standardizzata

GRADUATORIE DISTANZE STANDARDIZZATE(In questo caso vi è una relazione monotona, ma non in generale)

,000 5,000 3,000 1,00,000 2,000 6,000

,000 4,00,000

1:A2:B3:C4:D

1:A 2:B 3:C 4:D Distanza euclidea standardizzata

,000 5,000 3,000 1,000,000 2,000 6,000

,000 4,000,000

1:A2:B3:C4:D

1:A 2:B 3:C 4:D Distanza City Block standardizzata

INDICI DI DISTANZA• Il quadrato della distanza euclidea non soddisfa

la proprietà di disuguaglianza triangolare (vedi esempio pag.318): è un indice di distanza

• Il quadrato della distanza euclidea soddisfa però la proprietà di additività:

• se le variabili sono suddivise in gruppi, l’indice di distanza calcolato su tutte le variabili è uguale alla somma degli indici calcolati sui vari gruppi

• Esempio: variabili economiche, demografiche, sociali

Quadrato della distanza euclidea (4 clienti, dati originari)

• La distanza tra A e B è maggiore della somma delle distanze A-C e B-C

,000 533,000 125,000 65,000533,000 ,000 148,000 964,000125,000 148,000 ,000 360,000

65,000 964,000 360,000 ,000

1:A2:B3:C4:D

1:A 2:B 3:C 4:D Distanza euclidea quadratica

ESERCIZIO• In un’indagine sulla qualità della vita il quotidiano “Italia

Oggi” ha fornito, tra l’altro, i seguenti dati sulla situazione ambientale in alcune province emiliane:

• ZTL= zone a traffico limitato (mq per abitante);• VERDE = verde pubblico (mq per abitante);• DIFF = raccolta differenziata rifiuti (in percentuale della

raccolta totale).• Si calcoli la corrispondente matrice degli scostamenti

standardizzati;• si calcoli la matrice delle distanze della città a blocchi

dapprima sui dati originari e quindi sugli scostamenti standardizzati e se ne commenti il significato.

DATIPROVINCE ZTL VERDE DIFF

PIACENZA 4.17 13.6 31.6

PARMA 4.10 13.0 14.7

REGGIO E. 0.82 13.3 36.7

MODENA 3.90 17.9 17.5

MATRICE DEGLI SCOST. STAND.M = [3.24; 14.45; 25.12]σ= [1.62; 2.31; 10.68]

• PROVINCE ZTL VERDE RACC.• PIACENZA ,57 -,37 ,61• PARMA ,53 -,63 -,98• REGGIO E -1,50 -,50 1,08• MODENA ,40 1,49 -,71

Distanze non stand. e stand.

,000 17,570 8,750 18,67017,570 ,000 25,580 7,900

8,750 25,580 ,000 26,88018,670 7,900 26,880 ,000

1:PIACENZA2:PARMA3:REGGIO E4:MODENA

1:PIACENZA 2:PARMA 3:REGGIO E 4:MODENA Distanza City Block

Matrice delle distanze standardizzate

,000 1,884 2,672 3,3451,884 ,000 4,210 2,5042,672 4,210 ,000 5,6843,345 2,504 5,684 ,000

1:PIACENZA2:PARMA3:REGGIO E4:MODENA

1:PIACENZA 2:PARMA 3:REGGIO E 4:MODENA Distanza City Block

Interpretazione delle distanze

• Ordinale• Su scala d’intervalli• Valutazione oggettiva (Teorema p. 332)• DEFINIZIONE :Dati tre vettori x, y, z:

z da chey da distante meno ENTEOGGETTIVAM è x che dice si,...,2,1per Se pszxyx ssss =−≤−

TEOREMA

• Enunciato: Se una coppia di vettori x e y è oggettivamente meno distante di x da z

• allora si conserva il verso della disuguaglianza per qualunque distanza appartenente alla classe di Minkowski, per k finito.

• Dimostrazione: p.333

Distanza Euclidea e distanza di Mahalanobis

Distanza euclidea

• Invariante per trasformazioni ortogonali

Distanza di Mahalanobis

• Tiene conto della correlazione tra le diverse variabili

• Invariante per trasformazioni lineari assume lo stesso valore se viene applicata ai dati originari oppure alle variabili standardizzate.

Richiami del biplot•

Distanza Eucidea e di Mahalanobis (da un centroide)

INDICI DI SIMILARITA’

SCOPI DEL CALCOLO• Problema: misurare la rassomiglianza tra due

unità statistiche di cui si conoscono i valori di p variabili qualitative binarie (o politomiche):

• INDICI DI SIMILARITA’• Esempio: somiglianza tra le caratteristiche di

due modelli di automobili in base alla presenza–assenza di p accessori (oppure: non possibile, a pagamento, di serie)

• Date n modelli posso individuare le coppie tra loro più simili

• Dissimilarità = 1 – indice di similarità = analogoqualitativo della distanza

Similarità e market basket analysis

• Con la market basket analysis si studiano le relazioni tra coppie di prodotti acquistati insieme (presenti contemporaneamente in n carrelli)

• Con gli indici di similarità si studia la somiglianza tra coppie di clienti (numero di prodotti, rispetto al totale p, presenti contemporaneamente in due carrelli)

Esempio 1: indagine sull’utilizzo di Internet

• Records di due studenti del dataset conriferimento a 6 items (variabili binarie: usi diInternet ⇒ sì – no):Posta Studio Ricerche Svago Chat. Altro

1 0 0 0 1 01 0 0 0 1 1

• C’è similarità negli utilizzi dei due studenti?Possiamo formare gruppi di studenti che dannogiudizi simili?

Campione di studenti

Esempio 2: sequenze di visita ad un sito web

• Similarità nel comportamento dei duevisitatori? Pagine viste – non viste.

• Altri esempi:• segmentazione di prodotti in base a

presenza/assenza di caratteristiche tecniche

. comportamenti di acquisto ⇒ similarità tra “carrelli della spesa”

• Possesso di p beni durevoli• Presenza-assenza di p servizi in due

comuni

Indici di similarità• Nel caso di variabili binarie (v. Esempio 1) l’aspetto più

rilevante della similarità è il numero di co-presenze(positive matches) ⇒ frequenza di items presenticontemporaneamente nelle due unità

• I diversi indici di similarità differiscono principalmente percome trattano gli items assenti in una od entrambe leunità ⇒ qualificano in modo diverso la similarità, aseconda dell’applicazione.

Esempio 1: p accessori di due modelli di autoEsempio 2: p marche di profumi acquistate/non acquistateda due clienti

SIMBOLOGIA

Notazione:• ui, uj ⇒ due unità• (studenti, visitatori del sito, modelli di auto,

clienti …) di cui si misura la similarità• p = numero di items (nell’Es. 1: p = 6)

La similarità tra ui e uj può essere valutataattraverso una Tabella 2×2 ⇒ classificazione dei pitems per le due unità:

ui \ ujPresente

(1)Assente

(0)Tot.

Presente (1) a b a + b

Assente (0) c d c + d

Tot. a + c b + d p

a = numero di co-presenzed = numero di co-assenzea + b = numero di items presenti nell’unità uia + c = numero di items presenti nell’unità uj

Attenzione: p è il numero di variabili binarie

• Indice di Russel Rao: Sij = a / p

• Indice di Jaccard ⇒ esclude le co-assenze:

Sij = a / (a + b + c)

• Indice di corrispondenza semplice di Sokal-Michener (simple matching) numeroco-presenze + numero co-assenze sul totaledegli items:

Sij = (a + d) / pDipende dal numero di items elencati

• Altri indici di similarità: pp. 350-351; SPSS

Indici di similarità più utilizzati

Esempio 1 (p = 6) ⇒ similarità tra i due studenti con riferimento agli utilizzi di Internet

u1\ u2 Presente(1)

Assente(0)

Presente (1) 2 0 2

Assente (0) 1 3 4

Tot. 3 3 6

Russel Rao Sij = a / p = 2/6 = 0.333

Jaccard: Sij = a / (a + b + c) =2/(2+0+1) = 2/(6-3) = 0.667

Sokal-Michener Sij = (a + d) / p: (2+3)/6 = 0.833

Posta Studio Ricerche Svago Chat. Altro1 0 0 0 1 01 0 0 0 1 1

Russel Rao Sij = a / p :

= 2/6 = 0.333

Jaccard: Sij = a / (a + b + c)

=2/(2+0+1) = 2/(6-3) = 0.667

Sokal-Michener Sij = (a + d) / p

(simple matching): (2+3)/6 = 0.833La disuguaglianza che esiste tra gli indici soprariportati vale in generaleLa scelta dell’indice dipende dall’importanza data alleco-assenze ⇒ qualificano la similarità?

Alcune proprietà di tutti gli indici di similarità

• Non negatività ⇒ Sij ≥ 0

• Normalizzazione ⇒ Sii = 1

• Simmetria ⇒ Sij = Sji

• Relazione tra similarità e dissimilarità

Dij = 1 – Sij

SPSS per il calcolo delle matrici di similarità

• Percorso: Analizza ⇒ Correlazione ⇒ distanze ⇒similarità

• Scelta delle variabili binarie (codificate però comenumeriche) da analizzare

• Consente di calcolare la matrice degli indici di similaritàcon la formula prescelta

• IN ALTERNATIVA: CALCOLO NELL’AMBITO DELMETODO GERARCHICO DI CLUSTER ANALYSIS

ESPRESSIONE GENERALE DEGLIINDICI DI SIMILARITA’ (formula di Zani, p. 350)

.......1:

0;...1:0;...1:

AltripesiMICHENERSOKAL

wwwwwJACCARDwwwwwRAORUSSEL

wcbdwawdwawSijZ

=−=====

=====−+++

Distanze con variabili binarieEsempio 1: indagine sugli utilizzi di Internet

Posta Studio Ricerche Svago Chat Altro1 0 0 0 1 01 0 0 0 1 1

Dissimilarità basata sull’indice simple matching:

Dij = 1 – Sij = 1 – 5/6 = 1/6

Il complemento a 1 dell’indice di corrispondenzasemplice è uguale alla distanza media (cioè rapportataal numero dei caratteri p) calcolata con la metrica dellacittà a blocchi o con il quadrato della distanza euclidea.

Sij = (a + d) / p

Similarità per fenomeni qualitativi politomici,con più di due modalità che si escludono a

vicenda• Codificazione disgiuntiva: date k>2

modalità si considerano k variabili binarie • Esempio: Forma giuridica• SPA SNC SAS ALTRA• U1 0 1 0 0• U2 1 0 0 0• Per ogni variabile un solo 1 per riga se le

modalità si escludono a vicenda

SIMILARITA’ PER CODIFICA DISGIUNTIVA

• Tabella p. 356: le coppie 0-0 sono prive di significato• Indice formalmente analogo a Jaccard (8.46) e

formula (8.47), indice di DICE

αγβα

STRATEGIE PER CARATTERI QUALITATIVI E QUANTITATIVI

p. 358 e seg.ESEMPI: home theatre p. 8 ; navigatori in SPSS1) Cluster analysis partendo dalla matrice delle distanze

e dalla matrice delle similarità; poi confronto.2) Trasformazione dei dati e riduzione ad un’unica

scala; problemi: • Difficoltà di quantificazione nel passaggio da ordinali a

quantitativi (possibilità di soluzioni diverse);• Perdita d’informazioni nella trasformazione di caratteri

quantitativi in ordinali o dicotomici 3) Definizione di indici ad hoc

INDICE DI GOWER

0)-(0COASSENZA UNA MANIFESTA SI QUANDO OPPURE

UNITA'DUE DELLE UNA ALMENO IN MANCANTE DATO UNE' VI SE

:POSSIBILE E' NON CONFRONTO IL

altrimenti 0

j e i unità le traconfronto il possibile è se 1

sijsijs

SIGNIFICATO DI Zijs

• Caratteri dicotomici : zijs =1 se le unità i e jmostrano una copresenza per il carattere s; zijs = 0 altrimenti.

• Caratteri politomici: zijs =1 se le unità i e j mostrano la stessa modalità per il carattere s; zijs = 0 altrimenti.

• Variabili quantitative o gradi ordinali:

jsisijs

sijsijs

Valori dell’indice di Gower• = 1 se le unità i e j presentano modalità uguali

per ciascuno dei caratteri qualitativi e valori uguali per ciascuna delle variabili quantitative (PERFETTA SIMILARITA’)

• = 0 se le unità i e j presentano modalità diverse per ciascuno dei caratteri qualitativi e per ciascuna delle variabili quantitative un’unità presenta il massimo e l’altra il minimo (MASSIMA DIVERSITA’)

• Nel caso di sole variabili binarie coincide con l’indice di Jaccard

ESEMPIO: 3 FRIGORIFERI

Marca capacità prezzo allarme dispenser display

AEG 380 700 1 0 0

BOSCH 500 1800 1 1 1

IGNIS 310 480 0 0 0

K=range 190 1320

AEG-BOSCH:GOWER = [(1-120/190)+ (1-1100/1320)+1+0+0] / 5= 0.307

sijsijs

jsisijs

AEG 380 700 1 0 0

BOSCH 500 1800 1 1 1

IGNIS 310 480 0 0 0

K=range 190 1320

AEG-IGNIS:GOWER = [(1-70/190) + (1- 220/1320) + 0] /3 = 0.488 vi sono due co-assenze

sijsijs

jsisijs

AEG 380 700 1 0 0

BOSCH 500 1800 1 1 1

IGNIS 310 480 0 0 0

K=range 190 1320

BOSCH-IGNIS: GOWER = 0

sijsijs

jsisijs

ESERCIZIOSi è confrontata la presenza (1) oppure l’assenza (0) di 15 accessori su

due modelli A e B di MP3, ottenendo la tabella riportata di seguito.• Si calcolino i diversi indici di similarità e se ne commenti il significato.• Assumendo i totali marginali della tabella come prefissati, si scrivano

le frequenze di casella corrispondenti all’ipotesi di maggiore similaritàpossibile tra i due modelli, calcolando anche il valore chepresenterebbero in tal caso i vari indici di similarità.

A \ B 1 0

SOLUZIONE• Russel-Rao: 9/15 =0.6• Jaccard: 9/12 = 0.75• Sokal-Michener: 12/15 =0.8

A\B 1 0 Tot.

1 10 0 10

0 1 4 5

Tot. 11 4 15

ESERCIZIOSi sono rilevate le categorie di beni alimentari acquistati da 3 clienti (1 = acquistato; 0 = non acquistato): CLIENTE pane pasta acqua birra vino carni pesce salumi latte caffè olio burro A 1 1 0 0 1 0 1 0 0 0 1 1 B 1 1 1 1 0 1 0 0 1 1 0 1 C 1 0 1 0 0 1 0 0 1 0 1 0

• Si calcolino le matrici dei diversi indici di similarità fra i 3 clienti. • Si dica se esiste una relazione monotona tra gli indici che compaiono nelle differenti

matrici.

RISOLUZIONESIMILARITA’ A - B

A / B 1 0 TOT

1 3 3 6

0 5 1 6

TOT 8 4 12

R-R=3/12 J =3/11 S-M=4/12

RISOLUZIONELe matrici degli indici di similarità fra i tre clienti, indicati con A, B, C, sono le seguenti: Russel – Rao A B C A 1 0.25 0.17 B 1 0.33 C 1 Jaccard A B C A 1 0.27 0.22 B 1 0.44 C 1 Sokal – Michener A B C A 1 0.33 0.42 B 1 0.58 C 1 La relazione monotona esiste tra le matrici degli indici di Russel – Rao e di Jaccard, ma non con la matrice degli indici di Sokal – Michener (vi è una inversione dei gradi nella prima riga).

la classificazione - riani.it · • si calcoli la matrice delle distanze della città a blocchi...

Documents

analisi e contabilità dei costi docente federica palazzi aa...

· conto consuntivo per l'esercizio finanziario 2013...

quaderni per l'imprenditore analisi scostamenti

1 analisi degli scostamenti lanalisi degli scostamenti è...

fisica quantistica: i modelli originari...

statistica a – d (72 ore) - riani.it · marco riani...

lez. 22.23 analisi degli scostamenti - . 22.23 analisi...

membrii academiei romane originari din judetul vaslui

analisi degli scostamenti biennio 2010 2011 e · 6.1.1...

statistica a d verifica d’ipotesi (72...

statistica a – d (72 ore) - riani.it · statistica a –...

analisi degli scostamenti -...

capitolo 4 l’analisi degli scostamenti dal budget -...

provincia l'aquila - home · web viewl’indagine sul...

l'uso dei costi standard e l'analisi degli scostamenti

9 - scostamenti medi e sqm - scostamenti medi e sqm.pdf ·...

· bilancio di chiusura anno 2010 conto economico chiusura...

edifici in cemento armato a)difetti originari del...

criteri d'intervento gli interventi sugli edifici esistenti...

02 reporting e analisi degli scostamenti aula