19/04/2018
1
Metodi statistici per le ricerche di mercato
Prof.ssa Isabella Mingo A.A. 2019-2020
Facoltà di Scienze Politiche, Sociologia, Comunicazione
Corso di laurea Magistrale in «Organizzazione e marketing per la comunicazione d'impresa»
Stima puntuale e stima intervallare
Stimatore: statistica campionaria impiegata per stimare un parametro della popolazione
Stima: è il singolo valore dello stimatore ottenuto applicando lo stimatore ai dati di uno specifico campione
Stima puntuale: singolo valore che rappresenta la migliore previsione del valore di un parametro della popolazione
Stima intervallare: intervallo di valori che contengono la stima puntuale, all’interno del
quale ricade il vero valore del parametro della popolazione
Pagina 53
19/04/2018
2
Statistica media campionaria
•
Pagina 54
Proprietà di uno stimatore
Un buon stimatore
È centrato intorno al parametro che deve stimare
Ha il più piccolo errore standard possibile
Proprietà
Non distorsione: la media dello stimatore è uguale al valore incognito del parametro
Efficienza: tra gli stimatori non distorti del parametro, lo stimatore ha variabilità minima
Consistenza: all’aumentare della numerosità del campione, aumenta la probabilità che lo stimatore differisca dal valore vero del parametro meno di una quantità piccola fissata arbitrariamente
Pagina 55
19/04/2018
3
Stima puntuale
Attribuire un preciso valore numerico al parametro incognito del carattere nella popolazione
Procedura
Si individua uno stimatore per il parametro
Il valore dello stimatore sul campione osservato costituisce la stima puntuale (il valore che si può attribuire) del parametro incognito del carattere nella popolazione
Pagina 56
Stimatori di media, varianza e proporzione
1
1 n
i
i
x xn
Media campionaria: stimatore della media; è corretto, efficiente, consistente
Proporzione campionaria: stimatore della proporzione; è corretto, efficiente e consistente
Varianza campionaria corretta: stimatore della varianza; è corretto, efficiente, consistente
Pagina 57
19/04/2018
4
Dalla media del campione a quella della popolazione
Fino ad ora abbiamo calcolato il valore di z utilizzando µ e poi
abbiamo individuato la probabilità di ottenere il valore della media del nostro campione espressa in forma standardizzata
Ma se non conosciamo µ , come procediamo?
Come si stabilisce se il valore medio di un campione è una buona
stima di quello della popolazione?
Stima ad intervalli: gli intervalli di confidenza
Come si stabilisce se il valore medio di un campione è una buona
stima di quello della popolazione?
• Si fa riferimento agli intervalli di confidenza:
intervalli di valori, definiti da un estremo inferiore e superiore e costruiti a
partire dalla media del campione, entro i quali possiamo ritenere che con
una certa probabilità, sia inclusa la media della popolazione.
• La probabilità che il valore vero del parametro della popolazione
cada nell’intervallo si definisce livello di fiducia e si indica con
(1 - α)
• α (denominato livello di significatività) è la probabilità che il
parametro si trovi al di fuori dell’intervallo di confidenza.
Se il livello di fiducia è (1- α)=95% α =5%
Se il livello di fiducia è (1- α)=99% α =1%
a.a. 2019-2020
19/04/2018
5
Intervallo di confidenza per la media con noto
a.a. 2019-2020
𝑥𝑥 − 𝑧/2
𝜎
𝑛≤ 𝜇 ≤ 𝑥 + 𝑧/2
𝜎
𝑛 ;
A partire dalla media del campione costruiamo un intervallo di valori
sottraendo e sommando z/2 moltiplicato per l’errore standard.
z/2 è il valore, detto critico, a cui corrisponde un’area cumulata della
distribuzione normale standardizzata pari a (1- /2 ).
Ciò vuol dire che se vogliamo avere un livello di fiducia del 95%,
dobbiamo individuare sulle tavole della curva normale il valore z che ci
consente di ottenere attorno al valore medio della distribuzione il 95%
dei casi, lasciando a destra dell’area il 2,5% e a sinistra il 2,5%:
(1,00-0,025=0,975)
Questo valore è 𝑧/2 =±1,96
Esercizio
a.a. 2019-2020
Se vogliamo avere un livello di confidenza del 99%, quale è il valore critico
di z?
Come procedere
1. Calcolare /2= (1-0,99)/2=0,005
2. Cercare sulla tavola della curva normale
standardizzata (tav.A) l’area pari a
(1- /2 )=(1-0,005)=0,995
3. Individuare il valore di z corrispondente.
4. Disegnare la curva normale
E se vogliamo avere un livello di confidenza del 95,45%, quale è il valore
critico di z?
…e per un livello di confidenza di 99,73%
19/04/2018
6
a.a. 2019-2020
Per facilitarci il compito:
In statistica in genere si ritiene
accettabile un rischio di non più del
5%.
Pertanto i livelli di fiducia utilizzati
sono quelli di almeno il 95% ossia di (1- )≥ 0,95, a cui corrisponde
appunto un livello di significatività
≤ 0,05.
Si ritengono accettabili dunque valori
di Sign= ≤ 0,05, che risultano
associati a valori di Z/2 ≥ 1,96
Valori di z e livelli di fiducia
19/04/2018
7
Esercizio: stima ad intervallo
a.a. 2019-2020
A un campione casuale semplice di 80 clienti è stato chiesto di attribuire
un punteggio da 1 a 100 a un prodotto immesso sul mercato nell’ultimo
anno. Il valore medio del punteggio è stato 74.
Sapendo che lo scarto quadratico medio del punteggio nella popolazione è
di 2,5, stimare il punteggio medio del prodotto nella popolazione di
riferimento, calcolando l’intervallo di confidenza al 95%, al 99% e al
99,73%. Come procedere
1. Calcolare /2= (1-p)/2
2. Cercare sulla tavola della curva normale
standardizzata (tav.A) l’area pari a
(1- /2 )
3. Individuare il valore di z corrispondente.
4. Utilizzare il valore z per costruire gli
intervalli di confidenza
73,45 ≤ μ ≤ 74,55
74 −2,58 (2,5/ 80 ) ≤ μ ≤ 74+2,58 (2,5/ 80)
74 − 3 (2,5/ 80 ) ≤ μ ≤ 74+3 (2,5/ 80)
74 −1,96 (2,5/ 80 )≤μ ≤ 74+1,96 (2,5/ 80)
73,28 ≤ μ ≤ 74,72
73,16 ≤ μ ≤ 74,84
2=(1- 0,95)/2=0,025
(1- 2)= (1-0,025)= 0,9750 z/2=1,96
2=(1- 0,99) /2=0,005
(1- 2)= (1-0,005)= 0,9950 z/2=2,58
2=(1- 0,9973)/2 =0,00135
(1- 2)= (1-0,00135)= 0,99865 z/2=3 𝑥𝑥 − 𝑧/2
𝜎
𝑛≤ 𝜇 ≤ 𝑥 + 𝑧/2
𝜎
𝑛
Esercizio: stima ad intervallo (segue)
a.a. 2019-2020
• Possiamo dunque affermare che a partire dal punteggio medio rilevato
nel campione di 74, i seguenti intervalli contengano il punteggio medio
attribuito dalla popolazione dei clienti al prodotto :
• tra 73,45 e 74,55, con un livello di fiducia del 95% e con una probabilità
del 5% che non lo contenga (sia esterno a questo intervallo).
• tra 73,28 e 74,72, con un livello di fiducia del 99% e con una probabilità
del 1% che sia esterno a questo intervallo.
• Tra 73,16 e 74,84 con un livello di fiducia del 99,73% e con una
probabilità dello 0,27% che sia esterno a questo intervallo.
19/04/2018
8
Esercizio: stima ad intervallo
Quale sarebbero gli intervalli di confidenza al 95%, al 99% e al 99,73% se,
fermo restando tutti gli altri dati ( e ͞x), il campione fosse stato di 150 unità?
𝑥𝑥 − 𝑧/2
𝜎
𝑛≤ 𝜇 ≤ 𝑥 + 𝑧/2
𝜎
𝑛
73,60 ≤ μ ≤ 74,40
74 −2,58 * 0,2041≤ μ ≤ 74+2,58*0,2041
1 − α = 99,73% 74 − 3 ∗0,2041≤ μ ≤ 74+3*0,2041
74 −1,96* 0,2041 )≤μ ≤ 74+1,96*0,2041)
73,47 ≤ μ ≤ 74,53
73,39 ≤ μ ≤ 74,61
1 − α = 95%
1 − α = 99%
1 − α = 95% 73,45 ≤ μ ≤ 74,55
𝑛 = 80 ; 𝜎
𝑛= 0,2795 n=150 ;
𝜎
𝑛= 0,2041
1 − α = 99% 73,28 ≤ μ ≤ 74,72
1 − α = 99,73% 73,16 ≤ μ ≤ 74,84
Osserviamo che…
Più alto è il livello di fiducia, più ampio è l’intervallo di confidenza e quindi la possibilità che contenga il vero valore del parametro Infatti, a parità di n, più alto è 1 − 𝛼 più grande è lo z-score più ampio è l’intervallo
A parità di livello di fiducia: più grande è il campione, cioè n, più piccolo è l’errore standard dello stimatore, minore è l’ampiezza dell’intervallo e dunque la precisione della stima
Scegliendo un livello di fiducia 1 − 𝛼 ci si attende che l’ 1 − 𝛼 % dei campioni di medesima ampiezza n fornisca una stima del parametro tale che l’intervallo di confidenza attorno a tale stima contenga il vero valore del parametro
Tuttavia non si sa con certezza se tale intervallo contiene effettivamente il vero valore del parametro: il livello di significatività indica la probabilità che il vero valore cada fuori dall’intervallo di confidenza.
Pagina 67
19/04/2018
9
Esercizio: stima ad intervallo
a.a. 2019-2020
Su un campione casuale semplice di 196 negozi è stato rilevato un
volume di vendite settimanale di 25 mila euro.
Sapendo che lo scarto quadratico medio del volume di vendite nella
popolazione è di 1500 euro, stimare il volume di vendite settimanale medio
nella popolazione di riferimento, con un livello di fiducia del 95%, e del 99%.
Come procedere
1.Individuare il valore di z/2
corrispondente a ciascun livello di
confidenza
2-Utilizzare il valore z/2 per costruire gli
intervalli di confidenza
𝑥𝑥 − 𝑧𝜎
𝑛≤ 𝜇 ≤ 𝑥 + 𝑧
𝜎
𝑛
(1-)=0,95 z/2=1,96
25000 -1,96 (1500/14) 25000+1,96(1500/14)
24790 25210
(1-)=0,99 z/2=2,58
25000 -2,58 (1500/14) 25000+2,58(1500/14)
24723,57 25276,43
Se non è noto
In genere lo scarto quadratico medio della popolazione ,
al pari della media μ, non è noto.
Pertanto, per ottenere un intervallo di confidenza per la
media della popolazione, occorre utilizzare la deviazione
standard del campione.
Al posto dell’errore medio 𝜎𝑋 =𝜎
𝑛 utilizziamo l’errore
standard stimato:
𝑠𝑋 = 𝑠
𝑛−1 (per popolazioni normali ed n >50, popolazioni infinite, per popolazioni non normali
senza valori eccezionali ed n>100)
𝑠𝑋 = 𝑠
𝑛−1 1 −
𝑛
𝑁 (per popolazioni finite)
Dove s è la deviazione standard del campione
19/04/2018
10
Esercizio: stima ad intervallo con non noto
a.a. 2019-2020
Su un campione di 120 intervistati si è rilevata una spesa media mensile
per telefonate su cellulare di 15 euro con scarto quadratico medio di 5,4.
Assumendo che la popolazione è distribuita in modo normale, stimare la
spesa media nella popolazione di riferimento, con un livello di confidenza
del 95,45% .
Come procedere
1. Individuare il valore di z/2 corrispondente al
livello di confidenza del 95,44%.
2. Utilizzare il valore z per costruire gli intervalli
di confidenza, stimando l’errore standard
mediante lo scarto quadratico medio del
campione.
𝑋 − 𝑍𝛼2 ∙
𝑠
𝑛 − 1 ≤ 𝜇 ≤ 𝑋 + 𝑍𝛼
2 ∙
𝑠
𝑛 − 1
15 −2 (5.4/ 119 )≤μ ≤ 15 +2 (5.4/ 119 )
14,01 ≤ μ ≤ 15,99
Possiamo dunque affermare che a partire
dalla spesa media rilevata sul campione di
15 euro, la spesa media della popolazione,
è compresa tra 14,01 e 15,99 euro, con un
livello di confidenza del 95,45% e con una
probabilità del 4,55% che sia esterna
(maggiore o minore) a questo intervallo.
Esercizio
a.a. 2019-2020
Su un campione di 110 punti vendita si è rilevato che il prezzo di vendita di
un noto modello di cellulare è di 355 euro, con uno scarto quadratico medio
di 16 euro.
Assumendo che la popolazione sia distribuita in modo normale, stimare il
prezzo di vendita di quel prodotto nella popolazione di riferimento, con un
livello di confidenza del 99,73% .
19/04/2018
11
Se non è noto: approfondimenti
Negli esercizi precedenti in cui n era grande (n>100) , anche quando
non era noto, abbiamo utilizzato l’errore standard stimato e abbiamo
fatto riferimento, per semplicità, alla distribuzione normale standard .
In realtà, se la variabile casuale X ha una distribuzione normale allora la
statistica :
𝑡 =𝑋 −𝜇
𝑠
𝑛−1
ha una distribuzione t di Student con (n−1) gradi di libertà.
Una t di Student con molti gradi di libertà (n>100) si approssima ad una
distribuzione normale standard.
Tuttavia per un numero inferiore di gradi di libertà e dunque al diminuire
di n la distribuzione t di Student differisce da quella normale e dunque
invece della variabile z si utilizza t.
T di student
La distribuzione t di Student ha una forma simile a quella della normale
standardizzata.
Il grafico è più appiattito e l’area sottesa sulle code è maggiore di quella
della normale perché il fatto che non è noto e viene stimato da s, è
fonte di incertezza e dunque di maggiore variabilità di t.
La distribuzione T è simmetrica rispetto alla media 0 e la forma dipende
dal numero dei gradi di libertà
Gdl o v=( n-1)
Se n è grande la distribuzione T
si approssima alla curva normale.
19/04/2018
12
Intervalli di confidenza con la T di Student
gli intervalli di confidenza vengono costruiti facendo
riferimento a valori di t in corrispondenza di un
dato livello di confidenza e dei gradi di libertà (gdl o v=n-1).
Gli intervalli:
• 𝑥 ± 𝑡0,05𝑠
𝑛−1 includono il valore incognito µ con il 95% di probabilità
• 𝑥 ± 𝑡0,01𝑠
𝑛−1 includono il valore incognito µ con il 99% di probabilità
I valori 𝑡𝛼 dipendono dal numero di gradi di libertà e
vengono individuati utilizzando apposite tavole.
a.a. 2019-2020
La tavola della T di student
La tavola fornisce i valori critici
per la distribuzione t. La
colonna a sinistra contiene il
numero dei gradi di libertà,
mentre le altre colonne danno
i valori di t in corrispondenza
dei vari livelli di significatività,
cioè le porzioni di area nelle
due code della distribuzione.
Quindi =0,050 corrisponde a
due aree /2=0,025, a destra e a sinistra della distribuzione.
19/04/2018
13
Esercizio: stima ad intervallo con non noto e n piccolo
a.a. 2019-2020
Su un campione di 30 intervistati si è rilevata una spesa media mensile per
sigarette elettroniche di 58 euro con scarto quadratico medio di 4 euro.
Assumendo che la popolazione è distribuita in modo normale, stimare la
spesa media nella popolazione di riferimento, con un livello di confidenza
del 95% .
Come procedere
1. Calcolare = (1-0,95)=0,050
2. Calcolare i gradi di libertà v= (n-1)
3. Cercare sulla tavola della t di Student il valore
di t in corrispondenza del valore e di v.
4. Individuare il valore di t corrispondente.
3. Utilizzare il valore t per costruire gli intervalli di
confidenza
𝑋 − 𝑡𝛼/2 ∙𝑠
𝑛 − 1 ≤ 𝜇 ≤ 𝑋 + 𝑡𝛼/2 ∙
𝑠
𝑛 − 1
58 −2,045 (4/ 29 )≤μ ≤ 58 +2,045 (4/ 29 )
56,48 ≤ μ ≤ 59,52
Possiamo dunque affermare che a partire
dalla spesa media rilevata sul campione di
58 euro, la spesa media della popolazione,
è compresa tra 56,48 4 59,52 euro, con un
livello di confidenza del 95% e con una
probabilità del 5% che sia esterna
(maggiore o minore) a questo intervallo.
Esercizio
a.a. 2019-2020
Su un campione di 25 donne si è rilevato un consumo medio di alcol
settimanale di 9 unità con uno scarto quadratico medio di 2,5 unità.
Assumendo che la popolazione è distribuita in modo normale, stimare il
consumo medio della popolazione di riferimento, con un livello di
confidenza del 99% .
Come procedere
1. Calcolare = (1-0,99)=0,01
2. Calcolare i gradi di libertà v= (n-1)
3. Cercare sulla tavola della t di Student il valore
di t in corrispondenza del valore e di v.
4. Individuare il valore di t corrispondente.
3. Utilizzare il valore t per costruire gli intervalli di
confidenza
𝑋 − 𝑡𝛼 ∙𝑠
𝑛 − 1 ≤ 𝜇 ≤ 𝑋 + 𝑡𝛼 ∙
𝑠
𝑛 − 1
9−2,797 (2,5/ 24 )≤μ ≤ 9 +2,797 (2,5/ 24 )
7,57≤ μ ≤ 10,42
19/04/2018
14
Quando il parametro da stimare è una proporzione
a.a. 2019-2020
Spesso nelle ricerche di mercato le statistiche che interessano non sono
espressi in valori medi, ma in proporzioni.
Si è interessati ad esempio a conoscere la proporzione di clienti
soddisfatti o insoddisfatti, oppure di consumatori di un determinato
prodotto.
Una volta rilevate queste proporzioni su un campione come possiamo
procedere a stimare la proporzione reale nella popolazione di riferimento?
Anche in questo caso possiamo procedere analogamente alla stima dei
valori medi, poiché la distribuzione delle proporzioni campionarie p, tende,
se n è grande a distribuirsi secondo una distribuzione normale, con
con media: E(p) =P dove P è la proporzione reale nella popolazione
e varianza :
Var (p) = PQ/n dove Q=(1-P) (popolazione, non finita con qualunque tipo di estrazione; popolazione finita con
estrazione con ripetizione, n>30) )
Var (p) = PQ/n [(N-n)/(N-1)]
(popolazione finita con estrazione senza ripetizione)
a.a. 2019-2020
• Per popolazioni finite, nell’estrazione senza ripetizione:
• il 68.26% delle proporzioni dei campioni è compreso tra 𝑃 ±𝑃𝑄
𝑛
𝑁−𝑛
𝑁−1
• il 95.44% tra 𝑃 ± 2𝑃𝑄
𝑛
𝑁−𝑛
𝑁−1
• il 99. 73% tra P ± 3𝑃𝑄
𝑛
𝑁−𝑛
𝑁−1
19/04/2018
15
Esercizio
Su un campione di n=100 negozi, risulta che 40 hanno adottato un
nuovo orario di apertura. Perciò la proporzione campionaria è di 0,40.
Da altre indagini di fonte ufficiale risulta invece che la porzione di
negozi in tutta la zona che hanno adottato il nuovo orario è del 36%,
quindi la proporzione della popolazione è di 0,36.
Quale è la probabilità di ottenere un campione che ha una proporzione superiore di 0,40 se quella della popolazione è di 0,36?
Come procedere
1. Trovare il valore medio e l’errore
standard delle proporzioni campionarie
2. Calcolare il valore standardizzato
3. Disegnare la distribuzione normale
4. Calcolare la probabilità sulla tavola della
distribuzione normale
5. Trarre le conclusioni
Facendo riferimento alla distribuzione delle proporzioni campionarie la proporzione media
di tutti i possibili campioni di 100 unità estraibili dalla popolazione si distribuisce
normalmente con media: E(p) =P =0,36
e errore medio delle proporzioni: √ Var (p) = √PQ/n = 0,048 Z=0,40−0,36
0,048= 0,83
La probabilità di ottenere un campione con una
proporzione
-superiore a 0,40 è di (1-0,7967)=0,2033 = 20%
Quindi il 20%
Intervallo di confidenza per proporzioni
a.a. 2019-2020
A partire dalla proporzione del campione p possiamo costruire un
intervallo di valori sottraendo e sommando z/2 e moltiplicando per
l’errore .
Come sappiamo z/2 è il valore a cui corrisponde un’area cumulata
della distribuzione normale standardizzata pari a (1- /2 ).
Se n è grande possiamo usare la proporzione p
del campione come buona approssimazione
della proporzione della popolazione nel calcolo
dell’errore standard:
𝑠𝑝 = 𝑝𝑞
𝑛
𝑝 − 𝑧𝛼2 ∙
𝑃𝑄
𝑛 ≤ 𝑃 ≤ 𝑝 + 𝑧𝛼
2 ∙
𝑃𝑄
𝑛
19/04/2018
16
Esercizio: stima ad intervallo di una proporzione
a.a. 2019-2020
Su un campione casuale semplice di 150 intervistati si è rilevata che la
percentuale di soggetti che legge un quotidiano è del 40%.
Stimare la vera percentuale di lettori di quotidiani nella popolazione, con un
livello di confidenza del 95,45% e del 99%.
Come procedere:
1. Individuare il valore di z corrispondente a
livello di confidenza richiesto.
2.Utilizzare il valore z per costruire gli
intervalli di confidenza
𝒑 − 𝒛𝜶𝟐 ∙
𝒑𝒒
𝒏 ≤ 𝑷 ≤ 𝒑 + 𝒛𝜶
𝟐 ∙
𝒑𝒒
𝒏
Attenzione p non è la percentuale, ma la
proporzione!!
0,40 − 2 ∙0,40 ∙0,60
150 ≤ 𝑃 ≤ 0,40 + 2 ∙
0,40 ∙0,60
150
0,32 𝑃 0,48
Possiamo dunque affermare che a partire dalla
percentuale rilevata sul campione, la percentuale
di lettori di quotidiani nella popolazione di
riferimento è compresa tra il 32% e il 48% con un
livello di confidenza del 95,45% e tra il 30% e il
50% con un livello di confidenza del 99%.
(1-)=95%
0,40 − 2,58 ∙0,40 ∙0,60
150 ≤ 𝑃 ≤ 0,40 + 2,58 ∙
0,40 ∙0,60
150
(1-)=99%
0,30 𝑃 0,50
Esercizio
a.a. 2019-2020
In un campione di 80 intervistati, 36 clienti hanno detto di preferire l’hotel
Royal agli altri hotel della zona.
A- Si vuole applicare il risultato all’intera popolazione di riferimento, con un
livello di confidenza del 95%. Quale intervallo di gradimento si ottiene per
l’hotel Royal?
B- Se si decide di estendere la rilevazione a 250 clienti ottenendo una
percentuale di preferenze per l’hotel Royal del 48%, quali sono i nuovi
intervalli di confidenza?
Come procedere:
1. Calcolare la proporzione p di clienti che
preferiscono l’hotel Royal
2. Calcolare l’errore standard delle
proporzioni
3. Individuare il valore di z corrispondente
a livello di confidenza richiesto.
4. Utilizzare il valore z per costruire gli
intervalli di confidenza
𝑝 − 𝑍𝛼2 ∙
𝑝𝑞
𝑛 ≤ 𝑃 ≤ 𝑝 + 𝑍𝛼
2 ∙
𝑝𝑞
𝑛
Risposta A
p=36/80=0,45
𝑠𝑝 =
𝑝𝑞
𝑛=
0,45 (1 − 0,45)
80= 0,056
0,45 − 1,96 ∙ 0,056 ≤ 𝑃 ≤ 0,45 + 1,96 ∙ 0,056
0,34 ≤ 𝑃 ≤ 0,56
19/04/2018
17
Esercizio
a.a. 2019-2020
Da una ricerca di mercato effettuata su un campione di 200 intervistati
risulta che solo 80 individui sono a favore della costruzione di un centro
commerciale.
A- Si stimi la proporzione della popolazione a favore della costruzione
calcolando l’intervallo di confidenza al 95,45%
B- Se l’impresa che costruisce il centro commerciale sostiene che nella
popolazione il 70% è a favore della costruzione, qual è la probabilità di
avere un campione di 200 persone con la proporzione che abbiamo
osservato se la vera proporzione della popolazione è dello 0,7 ?
L’impresa ha ragione o torto?