analisi di segmentazione: un’applicazione del metodo chaid
DESCRIPTION
ANALISI DI SEGMENTAZIONE: un’applicazione del metodo CHAID. PRESENTAZIONE A CURA DI : Chiara Cimini Miriam Gotti Alessandro Raspanti Marco Stella. - PowerPoint PPT PresentationTRANSCRIPT
ANALISI DI SEGMENTAZIONE: un’applicazione del metodo CHAID
PRESENTAZIONE A CURA DI : Chiara Cimini Miriam Gotti Alessandro Raspanti Marco Stella
Dott.ssa Chiara Cimini e-mail: [email protected] Dott.ssa Miriam Gotti e-mail: [email protected] Dott.re Alessandro Raspanti e-mail: [email protected] Dott.re Marco Stella: [email protected]
OBIETTIVO
Suddividere un insieme di individui, intervistati presso distributori COOP, in funzione delle loro caratteristiche socio-demografiche, comportamentali e di giudizio
MODELLO
Segmentazione multipla CHAID (Chi-squared Automatic Interaction Detection);
Applicazione del test chi-quadro con l’obiettivo di massimizzare l’eterogeneità tra i gruppi e l’omogeneità entro i gruppi;
Normalizzazione della significatività del chi-quadro mediante il fattore di Bonferroni, per rendere confrontabili situazioni che derivano da tabelle di contingenza diverse
ANALISI DEL DATASET
Numero di osservazioni: 7200 Variabili suddivise in: variabili socio-demografiche ed economiche; punteggi di soddisfazione sul servizio di distribuzione; variabili “Coop”
ANALISI DEL DATASET
Variabili socio-demografiche ed economiche:sesso, età, professione, titolo di studio, stato civile, area di acquisto, numero componenti famiglia, numero minorenni, numero percettori reddito, numero occupati, numero auto possedute
Punteggi di soddisfazione: generale, prezzi, promozioni, assortimento, personale e servizio, pulizia e igiene, qualità prodotti freschi, reparto ortofrutta, reparto carne, reparto pane e pasticceria, reparto salumi, formaggi e gastronomia, reparto pesce fresco, prodotti non food
Variabili Coop:canale di vendita, socio/non socio, insegna, numero soci in famiglia, area di acquisto, preferenza su Coop
ANALISI DEL DATASET
ETA’: <35, 36-50,51-65,>65 PROFESSIONE: 4 modalità TITOLO DI STUDIO: elementare-
media inferiore, media superiore-università
STATO CIVILE: celibe/nubile, sposato/a, vedovo/a
NUMERO MINORENNI: 1, >1Area di acquisto: Romagna e Marche, Veneto, Bologna
NUMERO PERCETTORI REDDITO: 1, 2, >2
NUMERO OCCUPATI: modalità corrispondenti
NUMERO AUTO POSSEDUTE: 1, >1 PUNTEGGI DI SODDISFAZIONE:
bassa (da 1 a 7), media (8), alta (9,10)
PREFERENZA SU COOP: si, no CANALE DI VENDITA: iper, non iper NUMERO SOCI IN FAMIGLIA: 1, >1
CATEGORIZZAZIONE DELLE VARIABILI
SCHEMA DEL PROGETTO
PRIMO LIVELLO DI ANALISI TUTTE LE VARIABILI DISPONIBILI VARIABILE TARGET: PRIMO_PV DISTRIBUZIONE ASIMMETRICA DELLA VARIABILE TARGET
(94,6% SI, 5,4% NO)
CAMPIONAMENTO DELLA CAMPIONAMENTO DELLA VARIABILE NELLA PROPORZIONE VARIABILE NELLA PROPORZIONE DI 80% E 20%DI 80% E 20%
NUMERO DI OSSERVAZIONI: 1950 SUDDIVISIONE DEL CAMPIONE IN TRAINING SET
E VALIDATION SET (80% - 20%)
PRIMO LIVELLO DI ANALISI
Numero di nodi terminali: 4
Tasso di corretta classificazione sul validation set: 89,49%
VARIABILI CONSIDERATE: TUTTE
PRIMO LIVELLO DI ANALISI VARIABILI CONSIDERATE: TUTTE
PRIMO LIVELLO DI ANALISI
Numero segmento
Descrizione Frequenza relativa
Coop primo_pv: SI (freq. rel.)
Segmento 3 Frequentanti altre insegne: non soci 8,2% 100,0%
Segmento 4 Dato mancante 21,7% 93,2%
Segmento 1 Frequentanti insegna Coop 62,7% 81,8%
79,7%
Segmento 2 Frequentanti altre insegne soci 7,4% 0,0%
% SI (training set)
In termini relativi predomina chi frequenta insegne Coop
In relazione alla variabile risposta primo_pv Coop il segmento con la percentuale maggiore è quello dei non soci che frequentano altre insegne
VARIABILI CONSIDERATE: TUTTE
PRIMO LIVELLO DI ANALISI
Confusion Matrix Valori previsti Valori osservati SI NO Totale
SI 317 0 317NO 41 32 73
Totale 358 32 390
Il 56% dei non frequentatori di Coop come “Primo PV” sono malclassificati
PRIMO PV - VARIABILI CONSIDERATE TUTTE
Nessun frequentatore di Coop come “Primo PV” è malclassificato
PRIMO LIVELLO DI ANALISI
Il tasso di corretta classificazione risulta costante
VARIABILI CONSIDERATE: SODDISFAZIONE
PRIMO LIVELLO DI ANALISI
NESSUNA SEGMENTAZIONE
VARIABILI CONSIDERATE: SODDISFAZIONE
PRIMO LIVELLO DI ANALISI
Numero di nodi terminali: 4
Tasso di corretta classificazione sul validation set: 89,49%
VARIABILI CONSIDERATE: “COOP”
PRIMO LIVELLO DI ANALISI VARIABILI CONSIDERATE: “COOP”
PRIMO LIVELLO DI ANALISI
Numero segmento
Descrizione Frequenza relativa
Coop primo_pv: SI (freq. rel.)
Segmento 3 Frequentanti altre insegne: non soci 8,2% 100,0%
Segmento 4 Dato mancante 21,7% 93,2%
Segmento 1 Frequentanti insegna Coop 62,7% 81,8%
79,7%
Segmento 2 Frequentanti altre insegne soci 7,4% 0,0%
% SI (training set)
In termini relativi predomina chi frequenta insegne Coop
In relazione alla variabile risposta primo_pv Coop il segmento con la percentuale maggiore è quello dei non soci che frequentano altre insegne
VARIABILI CONSIDERATE: “COOP”
PRIMO LIVELLO DI ANALISI
Confusion Matrix Valori previsti Valori osservati SI NO Totale
SI 317 0 317NO 41 32 73
Totale 358 32 390
Il 56% dei non frequentatori di Coop come “Primo PV” sono malclassificati
PRIMO PV - VARIABILI CONSIDERATE TUTTE
Nessun frequentatore di Coop come “Primo PV” è malclassificato
PRIMO LIVELLO DI ANALISI VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE
Il tasso di corretta classificazione risulta costante fino alla foglia 8 e poi decresce
PRIMO LIVELLO DI ANALISI
NESSUNA SEGMENTAZIONE
VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE
PRIMO LIVELLO DI ANALISI
RISULTATI UGUALI PER I MODELLI “COOP” E “PPVTUTTE”
LE VARIABILI DEMOGRAFICHE E SODDISFAZIONE NON GENERANO PARTIZIONI SIGNIFICATIVE
CONFRONTO TRA MODELLI
PRIMO LIVELLO DI ANALISI
FIT STATISTICS TRAINING VALIDATION TRAINING VALIDATION TRAINING VALIDATION TRAINING VALIDATIONAVERAGE SQUARED ERROR 0,070 0,065 0,160 0,152 0,070 0,065 0,160 0,152SUM OF SQUARED ERROR 216,100 50,686 505,170 118,872 216,100 50,686 505,170 118,872MISCLASSIFICATION RATE 0,100 0,095 0,200 0,187 0,100 0,095 0,200 0,187
SODDISFAZIONE DEMOGRAFICHECOOPTUTTE
TASSO DI ERRATA CLASSIFICAZIONE MIGLIORE: 9,5% ( VARIABILI “TUTTE” E “COOP” )
CONFRONTO TRA MODELLI
CONCLUSIONI: primo livello
Le variabili COOP sono quelle che generano la segmentazione migliore;
le variabili socio-demografiche e quelle di soddisfazione non sono utili ai fini della segmentazione per la variabile target primo_pv;
i soci scelgono COOP come primo punto vendita e tendono a frequentare l’insegna COOP;
coloro che frequentano altre insegne sono prevalentemente i non soci anche se scelgono COOP come primo punto vendita;
PRIMO PV
SCHEMA DEL PROGETTO
SECONDO LIVELLO DI ANALISI: CANALE
VARIABILE TARGET: CANALE CREAZIONE NUOVO DATASET CONTENENTE SOLO
LA MODALITA’ “SI’” PER LA VARIABILE PRIMO_PV DISTRIBUZIONE QUASI SIMMETRICA DELLA
VARIABILE TARGET : IPER 31,28% NON IPER 47,82% MISSING 20,90%
NUMERO DI OSSERVAZIONI: 1560
SECONDO LIVELLO DI ANALISI: CANALE
Numero di nodi terminali: 5
Tasso di corretta classificazione sul validation set: 72,24%
VARIABILI CONSIDERATE: TUTTE
SECONDO LIVELLO DI ANALISI: CANALE
VARIABILI CONSIDERATE: TUTTE
SECONDO LIVELLO DI ANALISI: CANALE
Segmento più numeroso risulta essere quello della zona Romagna-Marche
Prevale il canale non Iper in Veneto ed in Romagna-Marche (intero campione 59%);
Segmentazione della zona di Bologna anche in base alla soddisfazione per l’assortimento
canale Iper in caso di soddisfazione alta o media dell’assortimento
Canale non Iper in caso di soddisfazione bassa dell’assortimento
VARIABILI CONSIDERATE: TUTTE
Numero segmento Descrizione Frequenza
relativa
Non iper (freq. rel.)
Segmento 5 Veneto 15.26% 84,0%
Segmento 4 Romagna - Marche 31,5% 73,0%
Segmento 3 Bologna - soddisf. assortimento bassa 17,6% 70,0%
Segmento 2 Bologna - soddisf. assortimento media 17,8% 43,0%
Segmento 1 Bologna - soddisf. assortimento alta 17,8% 19,0%
Confusion Matrix Valori previsti Valori osservati IPER NON IPER Totale
IPER 44 41 85NON IPER 27 133 160
Totale 71 174 245
Il 17% dei frequentatori “Non Iper” è malclassificato
CANALE - VARIABILI CONSIDERATE “TUTTE”
SECONDO LIVELLO DI ANALISI: CANALE
Il 48% dei frequentatori “Iper ” è malclassificato
SECONDO LIVELLO DI ANALISI: CANALE
VARIABILI CONSIDERATE: SODDISFAZIONE
Numero di nodi terminali: 7
Tasso di corretta classificazione sul validation set: 68,98%
SECONDO LIVELLO DI ANALISI: CANALE
VARIABILI CONSIDERATE: SODDISFAZIONE
SECONDO LIVELLO DI ANALISI: CANALE
VARIABILI CONSIDERATE: SODDISFAZIONE Nel canale non Iper si
registra una prevalenza di soddisfazione bassa per l’assortimento ma alta per il personale
Al contrario nel canale Iper la soddisfazione per il personale è più bassa e quella per il pesce è più alta
Numero segmento Descrizione Frequenza
relativa
Non iper (freq. rel.)
Segmento 7 Soddisf. pesce - Missing 35,8% 81,0%
Segmento 3S. pesce medio-bassa/ S. ass.
media/ S. pers. alta3,7% 68,0%
Segmento 6Soddisf. pesce medio-
bassa/ Soddisf. assort. bassa
15,3% 65,0%
59,0%
Segmento 4S. pesce medio-bassa/ S. ass.
media/ S. pers. media10,1% 50,0%
Segmento 1 Soddisf. pesce alta 19,4% 40,0%
Segmento 5S. pesce medio-bassa/ S. ass.
media/ S. pers. bassa5,3% 37,0%
Segmento 2Soddisf. pesce medio-
bassa/ Soddisf. assort. alta
10,4% 29,0%
% Non Iper (training set)
Confusion Matrix Valori previsti Valori osservati IPER NON IPER Totale
IPER 46 39 85NON IPER 37 123 160
Totale 83 162 245
Il 23% dei frequentatori “Non Iper” è malclassificato
CANALE - VARIABILI CONSIDERATE “SODDISFAZIONE”
SECONDO LIVELLO DI ANALISI: CANALE
Il 46% dei frequentatori “Iper ” è malclassificato
SECONDO LIVELLO DI ANALISI: CANALE
Numero di nodi terminali: 5
Tasso di corretta classificazione sul validation set: 68,98%
VARIABILI CONSIDERATE: “COOP”
SECONDO LIVELLO DI ANALISI: CANALE
VARIABILI CONSIDERATE: “COOP”
SECONDO LIVELLO DI ANALISI: CANALE
Il nodo più numeroso risulta quello dei frequentatori dell’insegna Coop dell’area di Bologna (dove prevale Iper)
Numero segmento
Descrizione Frequenza relativa
Non iper (freq. rel.)
Segmento 3 Bologna - insegna missing 3,1% 94,0%
Segmento 5 Veneto 15,3% 84,0%
Segmento 4 Romagna - Marche 31,5% 73,0%
59,0%Segmento 1 Bologna - altre
insegne 6,1% 58,0%
Segmento 2 Bologna - insegna Coop 44,0% 38,0%
% Non Iper (training set)
VARIABILI CONSIDERATE: “COOP”
Tra coloro che frequentano altre insegne nell’area di Bologna prevale il canale non Iper così come in Romagna-Marche e Veneto
Confusion Matrix Valori previsti Valori osservati IPER NON IPER Totale
IPER 55 30 85NON IPER 46 114 160
Totale 101 144 245
Il 29% dei frequentatori “Non Iper” è malclassificato
CANALE - VARIABILI CONSIDERATE “COOP”
SECONDO LIVELLO DI ANALISI: CANALE
Il 35% dei frequentatori “Iper ” è malclassificato
SECONDO LIVELLO DI ANALISI: CANALE
VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE
Numero di nodi terminali: 6
Tasso di corretta classificazione sul validation set: 68,98%
SECONDO LIVELLO DI ANALISI: CANALE
VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE
SECONDO LIVELLO DI ANALISI: CANALE
Il nodo più numeroso risulta quello della zona Romagna-Marche
In Veneto, Romagna – Marche e a Bologna (tra coloro che sono in possesso di un basso titolo di studio e con un solo componente in famiglia, quindi, presumibilmente, gli anziani) prevale il canale Non Iper
Nell’area di Bologna, in famiglie con 3 componenti e basso titolo di studio così come tra coloro che hanno un titolo più alto, prevale il canale Iper
VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE
Numero segmento Descrizione Frequenza
relativa
Non iper (freq. rel.)
Segmento 6 Veneto 15,3% 84,0%
Segmento 5 Romagna - Marche 31,5% 73,0%
Segmento 4Bologna - ele/ inf - 1
compo. 2,8% 64,0%
59,0%
Segmento 3Bologna - ele/ inf - 2, >3 compo.
18,6% 53,0%
Segmento 1 Bologna - sup/ univ 23,3% 37,0%
Segmento 2Bologna - ele/ inf - 3
compo. 8,5% 35,0%
% Non Iper (training set)
Confusion Matrix Valori previsti Valori osservati IPER NON IPER Totale
IPER 40 45 85NON IPER 31 129 160
Totale 71 174 245
Il 19% dei frequentatori “Non Iper” è malclassificato
CANALE - VARIABILI CONSIDERATE “SOCIO-DEMO”
SECONDO LIVELLO DI ANALISI: CANALE
Il 53% dei frequentatori “Iper ” è malclassificato
SECONDO LIVELLO DI ANALISI: CANALE
RISULTATI SIMILI PER I MODELLI
TUTTI MODELLI RISULTANO MIGLIORI RISPETTO ALL’ESTRAZIONE CASUALE
CONFRONTO TRA MODELLI
SECONDO LIVELLO DI ANALISI:CANALE
VARIABILE "CANALE"FIT STATISTICS TRAINING VALIDATION TRAINING VALIDATION TRAINING VALIDATION TRAINING VALIDATIONAVERAGE SQUARED ERROR 0,4359 0,4390 0,4502 0,4540 0,4499 0,4434 0,4566 0,4484SUM OF SQUARED ERROR 375,91 94,43 400,87 101,02 400,42 96,35 412,46 98,51MISCLASSIFICATION RATE 0,272 0,278 0,309 0,310 0,303 0,310 0,323 0,310
SODDISFAZIONE DEMOGRAFICHECOOPTUTTE
CONFRONTO TRA MODELLI
IL MODELLO MIGLIORE E’ QUELLLO CHE CONSIDERA TUTTE LE VARIABILI (TASSO DI ERRATA CLASSIFICAZIONE 27,8%) ANCHE SE LE DIFFERNZE NON SONO COSI’ EVIDENTI
CONCLUSIONI: CANALE
La segmentazione migliore è quella che utilizza tutte le variabili;
il campione iniziale è segmentato in base alla variabile zona e soddisfazione per l’assortimento;
in Veneto ed in Romagna-Marche prevale il canale non Iper ;
nella zona di Bologna predomina il canale non Iper in caso di soddisfazione bassa dell’assortimento e il canale Iper in caso di soddisfazione alta o media dell’assortimento
SECONDO LIVELLO DI ANALISI: SOCIO
VARIABILE TARGET: SOCIO SELEZIONE DELLE OSSERVAZIONI CON MODALITA’
“SI’” PER LA VARIABILE PRIMO_PV DISTRIBUZIONE SIMMETRICA DELLA VARIABILE
TARGET: SI’ 50,90% NO 49,10%
NUMERO DI OSSERVAZIONI: 1560
SECONDO LIVELLO DI ANALISI: SOCIO
Numero di nodi terminali: 2
Tasso di corretta classificazione sul validation set: 88,78%
VARIABILI CONSIDERATE: TUTTE
SECONDO LIVELLO DI ANALISI: SOCIO
VARIABILI CONSIDERATE: TUTTE
SECONDO LIVELLO DI ANALISI: SOCIO
Il nodo più numeroso risulta quello dei frequentatori l’insegna Coop
Numero segmento
Descrizione Frequenza relativa
Socio: SI (freq. rel.)
Segmento 1 insegna Coop 62,7% 80,0%
50,0%
Segmento 2 Altre insegne 37,3% 0,0%
% Soci (training set)
VARIABILI CONSIDERATE: TUTTE
Tra questi la percentuale di soci è notevolmente superiore rispetto a quella del training set
chi frequenta altre insegne non è socio
Confusion Matrix Valori previsti Valori osservati NO SI Totale
NO 107 35 142SI 0 170 160
Totale 107 205 312
Nessun “Socio” è malclassificato
SOCIO - VARIABILI CONSIDERATE “TUTTE”
SECONDO LIVELLO DI ANALISI: SOCIO
Il 25% dei “Non Soci” è malclassificato
SECONDO LIVELLO DI ANALISI: SOCIO
VARIABILI CONSIDERATE: SODDISFAZIONE
Numero di nodi terminali: 3
Tasso di corretta classificazione sul validation set: 78,21%
SECONDO LIVELLO DI ANALISI: SOCIO
VARIABILI CONSIDERATE: SODDISFAZIONE
SECONDO LIVELLO DI ANALISI: SOCIO
Numero segmento
Descrizione Frequenza relativa
Socio: SI (freq. rel.)
Segmento 1 Soddisf. generale alta-media 56,7% 70,4%
Segmento 2 Soddisf. generale bassa 19,4% 50,0%
50,0%Segmento 3 Valori mancanti 24,0% 1,7%
% Soci (training set)
VARIABILI CONSIDERATE: SODDISFAZIONE Il nodo più numeroso
risulta quello dei clienti con soddisfazione generale medio-alta (56,7%)
Tra questi la percentuale di soci è notevolmente superiore rispetto a quella del training set cioè i clienti maggiormente soddisfatti sono i soci
Confusion Matrix Valori previsti Valori osservati NO SI Totale
NO 76 66 142SI 2 168 170
Totale 78 234 312
L’1% dei “Soci” è malclassificato
SOCIO - VARIABILI CONSIDERATE “SODDISFAZIONE”
SECONDO LIVELLO DI ANALISI: SOCIO
Il 21% dei “Non Soci” è malclassificato
SECONDO LIVELLO DI ANALISI: SOCIO
Numero di nodi terminali: 2
Tasso di corretta classificazione sul validation set: 88,78%
VARIABILI CONSIDERATE: “COOP”
SECONDO LIVELLO DI ANALISI: SOCIO
VARIABILI CONSIDERATE: “COOP”
SECONDO LIVELLO DI ANALISI: SOCIO
VARIABILI CONSIDERATE: “COOP”
Numero segmento
Descrizione Frequenza relativa
Socio: SI (freq. rel.)
Segmento 1 insegna Coop 62,7% 80,0%
50,0%
Segmento 2 Altre insegne 37,3% 0,0%
% Soci (training set)
Il nodo più numeroso risulta quello dei frequentatori l’insegna Coop
Tra questi la percentuale di soci è notevolmente superiore rispetto a quella del training set
chi frequenta altre insegne non è socio
Confusion Matrix Valori previsti Valori osservati NO SI Totale
NO 107 35 142SI 0 170 170
Totale 107 205 312
Nessun “Socio” è malclassificato
SOCIO - VARIABILI CONSIDERATE “COOP”
SECONDO LIVELLO DI ANALISI: SOCIO
Il 25% dei “Non Soci” è malclassificato
SECONDO LIVELLO DI ANALISI: SOCIO
VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE
Il tasso di corretta classificazione sul validation set è massimo in corrispondenza di un nodo terminale
SECONDO LIVELLO DI ANALISI: SOCIO
NESSUNA SEGMENTAZIONE
VARIABILI CONSIDERATE: SOCIO-DEMOGRAFICHE
SECONDO LIVELLO DI ANALISI: SOCIO
I MODELLI MIGLIORI SONO ALL_SOCIO E COOP_SOCIO
TUTTI MODELLI RISULTANO NETTAMENTE MIGLIORI RISPETTO ALL’ESTRAZIONE CASUALE
CONFRONTO TRA MODELLI
SECONDO LIVELLO DI ANALISI:SOCIO
I MODELLI MIGLIORI SONO QUELLI CHE CONSIDERANO TUTTE LE VARIABILI E LE VARIABILI “COOP” CON UN TASSO DI ERRATA CLASSIFICAZIONE DEL 11,2% . TALE TASSO E’ SOSTANZIALMENTE INFERIORE AL 45,5% DEL MODELLO CHE CONSIDERA LE VARIABILI SOCIO-DEMOGRAFICHE
VARIABILE"SOCIO"FIT STATISTICS TRAINING VALIDATION TRAINING VALIDATION TRAINING VALIDATION TRAINING VALIDATIONAVERAGE SQUARED ERROR 0,3186 0,3061 0,4128 0,3946 0,3186 0,3061 0,2500 0,2500SUM OF SQUARED ERROR 253,43 58,48 425,27 97,16 253,43 56,48 624,00 156,00MISCLASSIFICATION RATE 0,127 0,112 0,268 0,218 0,127 0,112 0,500 0,455
SODDISFAZIONE DEMOGRAFICHECOOPTUTTE
CONFRONTO TRA MODELLI
CONCLUSIONI: SOCIO
Si ripetono gli stessi risultati ottenuti nel primo livello di analisi (ovvero le variabili COOP permettono la migliore segmentazione); anche in questo caso le variabili socio-demografiche non sono utili ai fini della segmentazione;
chi frequenta l’insegna COOP, nella stragrande maggioranza dei casi, è socio;
chi frequenta altre insegne non lo è; I soci esprimono una soddisfazione generale medio-alta
FINE