schmitz - corso di laurea triennale in...

39
© 2015 Ipsos. 1 © 2015 Ipsos. 1 © 2015 Ipsos. 1 © 2015 Ipsos. 1 © 2015 Ipsos. 1 1 Ma chi ce lo fa fare? La statistica applicata a problemi pratici NORA SCHMITZ Group Manager, 25 Febbraio 2016 CONNECT © 2015 Ipsos. All rights reserved. Contains Ipsos' Confidential and Proprietary information and may not be disclosed or reproduced without the prior written consent of Ipsos.

Upload: vuthuan

Post on 15-Feb-2019

217 views

Category:

Documents


0 download

TRANSCRIPT

© 2015 Ipsos.1 © 2015 Ipsos.1 © 2015 Ipsos.1 © 2015 Ipsos.1 © 2015 Ipsos.11

Ma chi ce lo fa fare?La statistica applicata a problemi pratici

NORA SCHMITZGroup Manager, 25 Febbraio 2016

CONNECT

© 2015 Ipsos. All rights reserved. Contains Ipsos' Confidential and Proprietary information and may not be disclosed or reproduced without the prior written consent of Ipsos.

INDAGINE AUDITEL

© 2015 Ipsos.2

© 2015 Ipsos.3 © 2015 Ipsos.3 © 2015 Ipsos.3 © 2015 Ipsos.3 © 2015 Ipsos.3

UNA INDAGINE CON 2 GRANDI OBIETTIVI

3

INDAGINE DI

BASE AUDITEL

20,000 Casi probabilistici in 7 wavemensili, lette in media

mobile trimestrale

FORNISCE UNIVERSI DI RIFERIMENTO

LIVELLO FAMIGLIE PER IL PANEL AUDITEL

FORNISCE LISTA DI NOMINATIVI PER IL RECLUTAMENTO DEL PANEL

AUDITEL

© 2015 Ipsos.4 © 2015 Ipsos.4 © 2015 Ipsos.4 © 2015 Ipsos.4 © 2015 Ipsos.4

SFIDE METODOLOGICHE: FRAME DI CAMPIONAMENTO

PER ANNI, INDAGINE CAMPIONATA DA

LISTE ELETTORALI

LISTE INDIVIDUALI

SOLO ELETTORI

LISTE NOMINATIVI

DISTORTE

Probabilità di selezione condizionata da numero componenti maggiorenni

Solo le famiglie con almeno un elettore sono

incluse nella lista

BIAS DI COVERAGE FAMIGLIE

STRANIERE

=

=

© 2015 Ipsos.5 © 2015 Ipsos.5 © 2015 Ipsos.5 © 2015 Ipsos.5 © 2015 Ipsos.5

LA SFIDA METODOLOGICA

5

TROVARE UN FRAME DI CAMPIONAMENTO

ALTERTNATIVO ALLE LISTE ELETTORALI

© 2015 Ipsos.6 © 2015 Ipsos.6 © 2015 Ipsos.6 © 2015 Ipsos.6 © 2015 Ipsos.6

Frame di campionamento: le alternative

� In Italia, oltre alle liste elettorali, gli unici frame di campionamento disponibili sono

� Le telefoniche � problemi di copertura dei telefoni mobili, e dei no telefono

� Le liste anagrafiche � non accessibili alle entità private

� In attesa della disponibilità delle liste anagrafiche, auditel ha chiesto a ipsos di ipotizzare un impianto metodologico basato su un frame unico di campionamento livello famiglie per la realizzazione dell’indagine di base auditel

� L’obiettivo di tale passaggio è dare pari probabilità di inclusione a tutte le famiglie residenti sul territorio italiano e rispondere così a due criticità di fondo emerse con il frame di campionamento delle liste elettorali, e cioè

� Il bias di coverage delle famiglie interamente composte da stranieri (dovuto all’esclusione degli individui stranieri dalle liste elettorali), e

� Il fatto che la distribuzione del campione grezzo per numero di componenti risulta non proporzionale a quella dell’universo stimato (dovuto al ricorso ad una lista di individui per estrarre un campione di famiglie).

© 2015 Ipsos.7 © 2015 Ipsos.7 © 2015 Ipsos.7 © 2015 Ipsos.7 © 2015 Ipsos.7

Frame di campionamento: l’idea

Frame elettorali: giunge alla famiglia individuandola tramite uno specifico

nominativo estratto

Frame indirizzi: giunge alla famiglia operando per unità abitativa, senza nominativo

di riferimento (si estrae una

abitazione)

© 2015 Ipsos.8 © 2015 Ipsos.8 © 2015 Ipsos.8 © 2015 Ipsos.8 © 2015 Ipsos.8

Necessaria fonte per suddivisione

comune in settori

SEZIONI ELETTORALI E

SEZIONI CENSUARI

ISTAT

Ricorrere ad una lista ricostruita di indirizzi come frame di campionamentoimplica i seguenti step:

1. Primo stadio: selezione PPS (probability proportional to size) dei comuni su cuioperare (come attualmente)

2. Secondo stadio: selezione SRS (simple random sampling), all’interno dei comuniestratti, delle sezioni elettorali su cui operare, che avranno solo la funzione di‘agglutinatori territoriali’

3.Terzo stadio: estrazione PPS dei civici in cui verranno

effettuate le interviste

4. Quarto stadio: estrazione SRS delle famiglie da intervistare

Tecnica di campionamento da lista ricostruita di indirizzi

GLI STEP DI CAMPIONAMENTO

Necessaria informazione sulla

‘magnitudo’ comuni (N residenti)

DB CATASTO (SISTER)

Necessaria stima della ‘magnitudo’ civici (N abitazioni/famiglie)

fonte

© 2015 Ipsos.9 © 2015 Ipsos.9 © 2015 Ipsos.9 © 2015 Ipsos.9 © 2015 Ipsos.9

Tecnica di campionamento da lista ricostruita di indirizzi

GLI STEP DI CAMPIONAMENTO

INDAGINE DI BASE SULLA RADIO

© 2015 Ipsos.10

© 2015 Ipsos.11 © 2015 Ipsos.11 © 2015 Ipsos.11 © 2015 Ipsos.11 © 2015 Ipsos.11

Indagine di base sulla radio: obiettivo

� L’indagine è stata realizzata su un campione di 15,000 casi, tramite interviste telefoniche su telefono fisso e mobile

� Uno degli obiettivi dell’indagine era di verificare se esistano delle caratteristiche individuali che si correlano

significativamente con l’ascolto della radio (ascolto/non ascolto ma anche ad esempio frequenza di ascolto)

� Questa analisi è stata condotta con specifico riferimento al mezzo radio, in modo da trovare criteri di campionamento/ponderazione adatti a rilevarne gli ascolti tenendo conto delle sue specificità e peculiarità: anche i criteri di trattamento delle variabili sociodemografiche ‘standard’, per esempio, sono stati verificati in termini di efficacia per lo specifico mezzo radio

Premessa

Variabili sociodemografiche: il trattamento standard è SUFFICIENTE PER la misurazione della radio?

© 2015 Ipsos.12

© 2015 Ipsos.13 © 2015 Ipsos.13 © 2015 Ipsos.13 © 2015 Ipsos.13 © 2015 Ipsos.13

IL TEST-T

� Il test-t ha lo scopo di verificare se il valore medio di un fenomeno, in questo caso l’ascolto della radio, si discosti in modo significativo tra 2 classi

� Nel caso specifico, è stato applicato per verificare se l’ascolto della radio all’interno di ogni principale classe sociodemografica (condizione professionale e età*titolo di studio) si discosti in modo significativo dalla media del campione

� Il test è stato applicato solo a classi composte da almeno 50 casi grezzi e nel seguito si riportano i risultati ottenuti per la variabile istruzione*età

Variabili sociodemografiche

© 2015 Ipsos.14 © 2015 Ipsos.14 © 2015 Ipsos.14 © 2015 Ipsos.14 © 2015 Ipsos.14

Istruzione per età: l’ascolto come criterio aggiuntivoPrimo inquadramento: verifica delle variabili sociodemografiche

Età Valore t Pr > |t| VA grezzi

Licenza Media 14--17 <.0001Licenza Media 18--24 0,0035Licenza Media 25--34 0,0012Licenza Media 35--44 <.0001Licenza Media 45--54 <.0001

Licenza Media 55--64 0,0097Licenza Media 65--74 <.0001Licenza Media 75+ <.0001

Età Valore t Pr > |t| VA grezzi

Laurea 14--17 .Laurea 18--24 0,1035Laurea 25--34 <.0001Laurea 35--44 <.0001

Laurea 45--54 <.0001Laurea 55--64 <.0001Laurea 65--74 0,0693Laurea 75+ 0,3000

Il criterio di aggregazione ‘standard’ incrocia 3 classi di età (14-24, 25-64 e 65+) per livello di scolarità

Tenendo conto dei comportamenti di ascolto per singole celle, emerge che i 45-54 ed i 55-64enni basso scolarizzati hanno un

comportamento molto simile ai 65+ basso scolarizzati

Licenza superiore 14--17Licenza superiore 18--24 <.0001Licenza superiore 25--34 <.0001

Licenza superiore 35--44 <.0001Licenza superiore 45--54 <.0001Licenza superiore 55--64 <.0001Licenza superiore 65--74 0,8298

Licenza superiore 75+ 0,0031

Elementare 14--17

Elementare 18--24

Elementare 25--34Elementare 35--44Elementare 45--54 <.0001Elementare 55--64 <.0001

Elementare 65--74 <.0001Elementare 75+ <.0001

ULTERIORI POSSIBILI PARAMETRI UNIVERSO DA TENERE SOTTO CONTROLLO NEI CAMPIONI GIORNALIERI

© 2015 Ipsos.15

Variabili analizzate

© 2015 Ipsos.16

© 2015 Ipsos.17 © 2015 Ipsos.17 © 2015 Ipsos.17 © 2015 Ipsos.17 © 2015 Ipsos.17

Variabili ‘candidate’ a diventare parametri-Universo

Analisi multivariate

� Tutte le analisi sono state realizzate con l’obiettivo di verificare se esistano parametri-Universo in grado di ben

prevedere l’ascolto della radio. In tutti i modelli:

� l’ascolto della radio – cioè la variabile che si vuole prevedere – viene inserita come variabile dipendente

� le variabili candidate a diventare parametri-Universo sono inserite come variabili indipendenti/‘predittori’

� Come possibili candidate, è stato considerato un elenco molto esteso di potenziali parametri-Universo, con l’eccezione delle variabili

� direttamente riferite all’ascolto della radio (es: durata di ascolto)

� completamente estranee al consumo di radio (es: uso abituale di creme per il viso)

© 2015 Ipsos.18 © 2015 Ipsos.18 © 2015 Ipsos.18 © 2015 Ipsos.18 © 2015 Ipsos.18

La variabile da prevedere (dipendente)� La variabile dipendente utilizzata è l’ascolto della radio, diviso in 3 classi

Analisi multivariate

Tutti i giorni o quasi

Tutti i giorni o quasi

4-5 giorni la settimana

1-3 giorni a settimana

2-3 giorni la settimana

1 giorno la settimana

2-3 volte mese

1 volta al mese o meno

1 volta mese

Più raramente

Mai

Obiettivo delle analisi riportate nelle slide successiveè verificare se vi siano, tra quelle rilevate nella indagine di base,delle variabili in grado di stimare l’appartenenza alle 3 classi di ascolto

© 2015 Ipsos.19 © 2015 Ipsos.19 © 2015 Ipsos.19 © 2015 Ipsos.19 © 2015 Ipsos.19

Le variabili indipendenti

Analisi multivariate

� Inizialmente, le variabili indipendenti (candidate a diventare parametri-Universo) inserite nelle diverse tipologie di analisi sono:

� sociodemografiche

� relative alla disponibilità di dotazioni tecnologiche

� relative ad abitudini e comportamenti

� In una prima fase, quindi, sono state considerate anche le variabili non oggettive (abitudini e comportamenti): coerentemente con i principi-guida prima descritti, le analisi sono state poi ripetute escludendo il più possibile

abitudini e comportamenti per valutare le differenze in termini di capacità di predire l’ascolto della radio

© 2015 Ipsos.20 © 2015 Ipsos.20 © 2015 Ipsos.20 © 2015 Ipsos.20 © 2015 Ipsos.20

Variabili indipendenti ‘candidate’ a parametro-Universo

� Variabili demografiche:

� Sesso� Età (8 classi)� GRG (4 classi)� Ampiezza centri (5

classi)� Istruzione (4 classi) � Professione (7 classi)

Analisi multivariate

� Oltre alle sociodemografiche, sono state considerate altre 23 variabili con una penetrazione superiore al 20% del totale popolazione

Variabili di abitudine o comportamentali (% di penetrazione anche con frequenza minima)

Variabili di disponibilità di dotazioni tecnologiche (% di penetrazione)

Apparecchio TV

Autoradio

Connessione a Internet

Personal computer fisso o portatile

Apparecchio radio FM

Possesso Smartphone che si connette a internet

Decoder satellitare o TivùSat

Tablet di qualsiasi marca

Lettore MP3 o MP4

Sky

Tempo dedicato a: Relazioni personali/divertimenti, passatempi

Tempo dedicato a: Guardare la televisione

Frequenza utilizzo auto

Lettura di un quotidiano d'informazione

Quanti km percorre in auto

Le è capitato di mangiare fuori di casa a mezzogiorno

Ogni quanto tempo le capita di usare la carta di credito?

Vacanze in Italia

Tempo dedicato a: Cura/Assistenza Figli

Lettura di un quotidiano sportivo

Va regolarmente in chiesa ogni domenica

Tempo dedicato a: Cura della casa

Utilizzo del suo tablet/Smartphone per: ascoltare musica in streaming gratuitamente

Tecniche utilizzate e prove realizzate

© 2015 Ipsos.21

© 2015 Ipsos.22 © 2015 Ipsos.22 © 2015 Ipsos.22 © 2015 Ipsos.22 © 2015 Ipsos.22

Tecniche statistiche utilizzate� Le analisi sono state realizzate con 4 tecniche multivariate tra loro diverse e per alcuni aspetti complementari perché ognuna

è in grado di cogliere relazioni diverse tra le variabili utilizzate

� Analisi Discriminante: separa i gruppi di ascoltatori (forti, medi, deboli) con funzioni lineari (piani)

� Regressione logistica ordinale: stima le probabilità di ascolto (alto, medio, basso) di ogni persona

� Alberi Decisionali: frazionano il campione rispetto a una variabile alla volta (per separare ascoltatori forti, medi, deboli)

� Reti Neurali: generano regole di classificazione (degli ascoltatori) senza ipotesi a priori/vincoli, desumendole solo dai dati

Analisi multivariate

© 2015 Ipsos.23 © 2015 Ipsos.23 © 2015 Ipsos.23 © 2015 Ipsos.23 © 2015 Ipsos.23

Perché 4 tecniche diverse

� Il ricorso a 4 tecniche tra loro diverse garantisce quindi

� Da un lato una verifica multipla della effettiva importanza di un parametro candidato

� Dall’altro, di riuscire a individuare tutti i parametri rilevanti, senza ‘fermarsi’ solo a quelli che hanno uno specifico tipo di relazione con l’ascolto della radio

Analisi multivariate

© 2015 Ipsos.24 © 2015 Ipsos.24 © 2015 Ipsos.24 © 2015 Ipsos.24 © 2015 Ipsos.24

Andare oltre il totale ascolto (prove realizzate)

� Oltre che per il totale campione, con l’intento di non ignorare eventuali variabili utili in specifici segmenti, le analisi sono state realizzate anche ponendo l’obiettivo di predire il non ascolto e diversi sotto-insiemi di ascolto (di specifiche classi di età o in specifiche fasce orarie)

1) Totale ascolto (variabile dipendente frequenza di ascolto, analisi sul totale campione)

2) Non ascolto (variabile dipendente ’Non ascoltatori MAI’)

3) Ascolto non in auto (variabile dipendente frequenza di ascolto, analisi filtrata su chi utilizza poco l’auto)

4) Ascolto 14-24 anni (variabile dipendente frequenza di ascolto, analisi filtrata su età 14 -24 anni)

5) Ascolto 25-44 anni (variabile dipendente frequenza di ascolto, analisi filtrata su età 25 - 44 anni)

6) Ascolto 45-64 anni (variabile dipendente frequenza di ascolto, analisi filtrata su età 45 - 64 anni)

7) Ascolto 65+ anni (variabile dipendente frequenza di ascolto, analisi filtrata sui 65+)

Analisi multivariate

© 2015 Ipsos.25 © 2015 Ipsos.25 © 2015 Ipsos.25 © 2015 Ipsos.25 © 2015 Ipsos.25

Andare oltre il totale ascolto (prove realizzate)_2

8) Ascolto 6:00-9:00 (variabile dipendente: ascoltatori fascia sì vs no, analisi su ascoltatori min. 1 volta a settimana)

9) Ascolto 9:00 -15:00 (variabile dipendente: ascoltatori fascia sì vs no, analisi su ascoltatori min. 1 volta a settimana)

10) Ascolto 15:00-20:00 (variabile dipendente: ascoltatori fascia sì vs no, analisi su ascoltatori min. 1 volta a settimana)

11) Ascolto dopo le 20:00 (variabile dipendente: ascoltatori fascia sì vs no, analisi su ascoltatori min. 1 volta a settimana)

12) Ascolto 17:00-20:00 (variabile dipendente: ascoltatori fascia sì vs no, analisi su ascoltatori min. 1 volta a settimana)

Analisi multivariate

© 2015 Ipsos.26 © 2015 Ipsos.26 © 2015 Ipsos.26 © 2015 Ipsos.26 © 2015 Ipsos.26

Lettura dei risultati

• Come criterio per la lettura dei risultati, è utile valutare

• Capacità predittiva usando tutte le variabili ‘candidate’• Porzione di ascoltatori classificati correttamente in termini di frequenza di ascolto � se cerco di predire

l’ascolto della radio utilizzando l’insieme delle variabili candidate, classifico correttamente i singoli individui come ascoltatori/non ascoltatori o per frequenza di ascolto?

• Miglioramento rispetto alla casualità � rispetto ad una riclassificazione casuale degli ascoltatori per frequenza di ascolto, con la mia stima quanti ascoltatori classifico correttamente come alto, medio o basso ascoltatori?

• Variabili più efficaci: quali sono le migliori per predire l’ascolto?

Analisi multivariate

Se provassi a riclassificare casualmente gli individui per

frequenza di ascolto, in questo esempio otterrei una

percentuale di riclassificazione corretta del 40%;

come si vedrà, la riclassificazione stimata è corretta per

quasi il 70%. Il miglioramento rispetto alla casualità è

quindi di più del 50%

A M BA A A A A M B

A MBA A A A AMB

A M BA A A A AM B

Campione

Casuale

Stimata

Risultati ottenuti con tutte le variabili ‘candidate’ (demografiche, dotazioni, abitudini/comportamentali)

© 2015 Ipsos.27

© 2015 Ipsos.28 © 2015 Ipsos.28 © 2015 Ipsos.28 © 2015 Ipsos.28 © 2015 Ipsos.28

Tecnica

Totale

ascolto

Analisi discriminante +49%

Analisi logistica +56%Analisi alberi decisionali +55%

Analisi reti neurali +57%

Risultati – totale ascolto� Usando tutte le variabili candidate per predire il totale ascolto, gli individui classificati correttamente sono:

Analisi multivariate

Tecnica

Totale

ascolto

Analisi discriminante 66%Analisi logistica 69%

Analisi alberi decisionali 69%Analisi reti neurali 70%

� Le percentuali di miglioramento rispetto alla casualità sono:

Inoltre, le 4 tecniche mostrano tutte un notevole vantaggio rispetto a una classificazione casuale

Le 4 tecniche realizzate su tutte le variabili considerate (demografiche, di dotazioni e comportamentali) mostrano una elevata

capacità predittiva

Le variabili candidate sono quindi effettivamente utili come potenziali parametri-Universo, quantomeno per stimare il totale ascolto

© 2015 Ipsos.29 © 2015 Ipsos.29 © 2015 Ipsos.29 © 2015 Ipsos.29 © 2015 Ipsos.29

Prove

% Di risposte ricodificate

correttamente % Miglioramento

Totale ascolto +54%

Non ascolto +18%

Ascolto non in auto +64%

14-24 anni +46%

25-44 anni +34%

45-64 anni +45%

65+ anni +75%

Ascolto fascia 6-9 +28%

Ascolto fascia 9-15 +22%

Ascolto fascia 15-20 +23%

Ascolto fascia 20+ +9%

Ascolto fascia 17-20 +23%

Risultati – break di ascolto� Le variabili candidate sono utili nel predire l’ascolto anche per i diversi break analizzati

Analisi multivariate

L’utilità delle variabili candidate per stimare

correttamente l’ascolto si conferma anche nelle

analisi relative ai break di ascolto

© 2015 Ipsos.30 © 2015 Ipsos.30 © 2015 Ipsos.30 © 2015 Ipsos.30 © 2015 Ipsos.30

Varabile

% di importanza

nelle diverse prove

Apparecchio radio (Radio FM)

Età

Quanti km percorre in auto?

Autoradio

Frequenza utilizzo auto nei giorni feriali

Connessione a Internet

Scolarità

Le è capitato di mangiare fuori di casa a mezzogiorno

Personal computer fisso o portatile

Lettura di un quotidiano sportivo

Sesso

Smartphone connesso a internet

Lettura di un quotidiano d'informazione

Ascolto di musica in streaming gratuitamente

Casalinga

Tempo dedicato a: Guardare la televisione

Lavori d'ufficio

Operai

Varabile

% di importanza

nelle diverse prove

Tempo dedicato a:Cura/Assistenza Figli

Disoccupati generici

Area - Nord-Est

Studente

Lettore MP3 o MP4

Lavoratori professioni medie

Tempo dedicato: Cura della casa

Area - Nord-Ovest

Ogni quanto tempo usa la carta di credito?

Tempo dedicato a:Relazioni personali/divertimenti

Decoder satellitare o TivùSat

Sky

Pensionato

Tablet di qualsiasi marca

Vado regolarmente in chiesa ogni domenica

Apparecchio TV

Ampiezza centro

Vacanze in Italia

Area - Centro

Importanza delle variabili candidateAnalisi multivariate

Vista la loro importanza ai fini della previsione dell’ascolto, le variabili relative alla intensità di utilizzo dell’auto vengono mantenute anche nel modello parsimonioso

Verso un modello più parsimonioso: risultati ottenuti considerando solo caratteristiche e dotazioni

© 2015 Ipsos.31

© 2015 Ipsos.32 © 2015 Ipsos.32 © 2015 Ipsos.32 © 2015 Ipsos.32 © 2015 Ipsos.32

% Di risposte ricodificate correttamente

PROVE

Considerando anche abitudini e

comportamenti

Escludendo abitudini e

comportamenti Delta

Totale ascolto 0%

Non ascolto 1%

Ascolto non in auto 0%

14-24 anni -1%

25-44 anni -1%

45-64 anni 0%

65+ anni -1%

Ascolto fascia 6-9 0%

Ascolto fascia 9-15 -1%

Ascolto fascia 15-20 0%

Ascolto fascia 20+ 1%

Ascolto fascia 17-20 0%

Risultati – totale ascolto � Eliminando abitudini e comportamenti (con l’eccezione dell’intensità dell’uso dell’auto), le percentuali di

riclassificazioni corrette rimangono sostanzialmente invariate:

Analisi multivariate

© 2015 Ipsos.33 © 2015 Ipsos.33 © 2015 Ipsos.33 © 2015 Ipsos.33 © 2015 Ipsos.33

% Miglioramento stima

PROVE

Considerando anche

abitudini e comportamenti

Escludendo

abitudini e comportamenti Differenze

Totale ascolto -1%

Non ascolto 1%

Ascolto non in auto -1%

14-24 anni -3%

25-44 anni -1%

45-64 anni 0%

65+ anni -2%

Ascolto fascia 6-9 -1%

Ascolto fascia 9-15 -1%

Ascolto fascia 15-20 0%

Ascolto fascia 20+ 2%

Ascolto fascia 17-20 0%

Risultati – totale ascolto � Anche il miglioramento rispetto alla riclassificazione casuale tende a non diminuire:

Analisi multivariate

Per stimare correttamente l’ascolto, è sufficiente inserire come parametri-Universo

le variabili oggettive (caratteristiche/dotazioni)

© 2015 Ipsos.34 © 2015 Ipsos.34 © 2015 Ipsos.34 © 2015 Ipsos.34 © 2015 Ipsos.34

Le variabili eleggibili come parametri-UniversoAnalisi multivariate

Varabile

% di importanza

nelle diverse prove

EtàQuanti km percorre in auto?Apparecchio radio (Radio FM)ScolaritàFrequenza utilizzo auto nei giorni ferialiSmartphone connesso a internetAutoradioPersonal computer fisso o portatileLettore MP3 o MP4SessoConnessione a InternetCasalingaDisoccupati genericiArea - Nord-Ovest

Varabile

% di importanza

nelle diverse

prove

PensionatoStudenteLavori d'ufficioLavoratori professioni medieApparecchio TVOperaiArea - Nord-EstTablet di qualsiasi marcaSkyDecoder satellitare o TivùSatAmpiezza centroArea - Centro

L’unica eccezione riguarda l’intensità di utilizzo dell’auto, più simile ad una

caratteristica individuale che ad un comportamento variabile nella quotidianità

Appendice tecnica

© 2015 Ipsos.35

© 2015 Ipsos.36 © 2015 Ipsos.36 © 2015 Ipsos.36 © 2015 Ipsos.36 © 2015 Ipsos.36

Analisi Discriminante

� L'analisi discriminante interpreta ogni caso come un punto di uno spazio a n dimensioni (n = numero di variabili indipendenti) e ipotizza che la separazione tra i gruppi possa essere approssimata con funzioni

lineari dei predittori. L'analisi consiste sostanzialmente nell'identificare queste funzioni.

� La variabile dipendente è nominale (quindi l'AD non sfrutta l'ordinamento dei tre gruppi) e i predittori devono essere variabili numeriche o dicotomiche, e dovrebbero avere distribuzioni normali e varianze uguali nei gruppi. È la tecnica più esigente rispetto alle caratteristiche dei predittori; è sensibile alla presenza di predittori fortemente correlati., elemento che - nel nostro caso - può avere un impatto sull’importanza relativa delle singole variabili ma non sulle capacità predittive del modello.

Analisi multivariate

© 2015 Ipsos.37 © 2015 Ipsos.37 © 2015 Ipsos.37 © 2015 Ipsos.37 © 2015 Ipsos.37

Regressione Logistica Ordinale

� La regressione logistica (binaria) ipotizza che la probabilità di ascolto/non ascolto possa essere stimata con

una funzione logistica dei predittori. L'analisi consiste nel calcolare questa probabilità. La regressione logistica ordinale estende questo approccio calcolando la probabilità di appartenenza a ciascuno dei tre livelli di ascolto.

� La variabile dipendente è ordinale (come nel nostro caso) e i predittori possono essere numerici, categorici o qualunque combinazione di questi. È sensibile alla presenza di predittori fortemente correlati.

Analisi multivariate

© 2015 Ipsos.38 © 2015 Ipsos.38 © 2015 Ipsos.38 © 2015 Ipsos.38 © 2015 Ipsos.38

Alberi Decisionali

� Gli alberi forniscono criteri di classificazione gerarchici, frazionando in

successione il campione secondo il predittore che in ogni ‘foglia’ meglio

discrimina tra i livelli di ascolto. Lungo ciascun ramo i predittori sono normalmente diversi e lo stesso predittore può ripresentarsi, il che permette di rappresentare anche funzioni non lineari. Il processo di frazionamento si interrompe quando si raggiungono dei criteri di arresto predefinito (profondità dell'albero, numero di casi in una foglia).

� La variabile dipendente può essere di qualunque tipo: numerica, categorica oppure ordinale (come nel nostro caso); i predittori possono essere numerici o categorici, o combinazioni di questi; i predittori numerici continui vengono però ricodificati in classi, normalmente a cura dell'algoritmo stesso di generazione dell'albero.

Analisi multivariate

© 2015 Ipsos.39 © 2015 Ipsos.39 © 2015 Ipsos.39 © 2015 Ipsos.39 © 2015 Ipsos.39

Reti Neurali� Le reti neurali hanno una struttura a strati: uno strato di input (variabili

indipendenti), uno strato di output (livelli di ascolto) e uno strato interno con compiti di elaborazione. I neuroni sono legati da uno strato al successivo con connessioni cui è associato un peso. Stimare una rete neurale significa individuare i pesi, con un processo iterativo, in modo che l'errore di previsione nel livello di output sia minimo. Le reti possono

individuare funzioni complesse, non lineari, non necessariamente

spiegabili in termini di "correlazioni" o "differenze tra gruppi", e forniscono regole di classificazione degli individui nelle classi.

� Le variabili dipendenti sono numeriche o categoriche, non ordinali (noi l'abbiamo considerata nominale con 3 livelli); i predittori possono essere numerici o categorici, o combinazioni di questi. Le reti non fanno alcuna ipotesi né sui predittori né sulle relazioni tra variabile dipendente e predittori.

� E’ la tecnica più elastica perché è finalizzata esclusivamente a riclassificare gli individui nelle classi in modo del tutto indipendente da ipotesi a priori sui dati.

Analisi multivariate