laboratorio di probabilità e statisticala probabilità che si verifichino due o più eventi...

Esercizi di Probabilità e Statistica

Massimo Guerriero – Ettore Benedetti

parte 1

Indice Esercizi

• Presentazione dei dati

• Misure di sintesi numerica

• Probabilità

• Distribuzioni teoriche di probabilità

• Distribuzione campionaria della media

Presentazione dei dati

• Esercizio 13 pag. 28

In uno studio sui fattori di rischio per malattie cardiovascolari, sono stati registrati i livelli di cotinina sierica – un prodotto del metabolismo della nicotina – in fumatori e in non fumatori. Di seguito sono riportate le relative distribuzioni di frequenza:

Livello di cotinina (ng/ml) Fumatori Non fumatori

0-13 78 3300

14-49 133 72

50-99 142 23

100-149 206 15

150-199 197 7

200-249 220 8

250-299 151 9

>=300 412 11

Totale 1539 3445

Presentazione dei dati – es.13 pag.28

a. E’ corretto confrontare le distribuzioni dei livelli di cotinina nei fumatori e nei non fumatori in base alle frequenze assolute in ciascun intervallo? Perché e perché no?

No perché le due popolazioni hanno una numerosità differente, occorre calcolare le frequenze relative per effettuare i confronti

b. Calcolare le frequenze relative dei valori di cotinina sierica in ciascun gruppo

Dividiamo ciascuna frequenza assolutaper il totale ed otteniamo le seguenti colonneche possiamo aggiungere alla tabella precedente:

FumatoriF relativa

Non fumatoriF relativa

0,051 0,958

0,086 0,021

0,092 0,007

0,134 0,004

0,128 0,002

0,143 0,002

0,098 0,003

0,268 0,003

1 1


c. Disegnare una coppia dipoligoni di frequenza

Costruiamo il graficomettendo le frequenze relative in ordinata e il livello di cotinina in ascisse.

d. Descrivere la forma di ciascun poligono.Che cosa si può dire sulladistribuzione dei livelli dicotinina in ciascun gruppo?

La popolazione di non fumatori è concentrata in larghissima parte su bassi livelli dicotinina. Per i fumatori la popolazione è più distribuita, chi fuma ha valori di cotinina generalmente molto più alti di chi non fuma.

0,000

0,200

0,400

0,600

0,800

1,000

1,200

13 49 99 149 199 249 299 380

Poligono di Frequenze relative

F relative Fumatori F relative Non Fumatori


e. Lo status di fumatore o non fumatore è stato dichiarato direttamente dai soggetti interessati. E’ possibile che alcuni soggetti siano stati inclusi in una categoria sbagliata? Perché e perché no

Sì, è possibile, perché nella tabella si notano numerosi outlier. Difficilmente chi non fuma ha valori molto alti di cotinina e altrettanto difficilmente chi fuma ha valori bassi di cotinina. Probabilmente non sono stati inclusi gli ex fumatori (da tanto o da poco tempo).

Misure di sintesi numerica


Sulla base dei dati dell’esercizio 13 pag.28 di cui si sono viste le soluzioni nelle slide precedenti:

a. Calcolare la media e la deviazione standard raggruppata per le misurazioni dei livelli di cotinina sierica nei due gruppi. Per l’ultimo intervallo – >= 300 ng/ml – si assuma che il punto medio dell’intervallo sia 340 ng/ml.

La media per dati raggruppati si calcola con formula 𝑥 = 𝑖=1

𝑘 𝑚𝑖𝑓𝑖

𝑖=1𝑘 𝑓𝑖

, ovvero la media

raggruppata è una media ponderata dei punti medi dell’intervallo.

Il risultato è quindi 198,972 per i fumatori e 10,603 per i non fumatori.

La deviazione standard si trova come radice quadrata della varianza.

La varianza raggruppata dei dati si calcola con la formula 𝑠2 = 𝑖=1

𝑘 (𝑚𝑖− 𝑥)2𝑓𝑖

𝑖=1𝑘 𝑓𝑖 −1

.

Il risultato finale è quindi 107,180 per i fumatori e 140,925 per i non fumatori.

Misure di sintesi numerica – es.10 pag.50

b. In quale intervallo si riduce il livello di cotinina sierica mediano nei fumatori? E nei non fumatori?

Dividiamo le popolazioni in due parti:

1539/2 = 769.53445/2 = 1722.5

Calcoliamo le frequenze cumulate per le due popolazionie riportiamo i risultati in tabella come a fianco.

Il valore 769.5 è maggiore di 756 e minore di 976, per cuiricade nel range 200-249.

Il valore 1722.5 è minore di 3300 e quindi ricadenel range 0-13

Livello di cotinina(ng/ml)

F cumulate fumatori

F cumulate non

fumatori

0-13 78 3300

14-49 211 3372

50-99 353 3395

100-149 559 3410

150-199 756 3417

200-249 976 3425

250-299 1127 3434

>=300 1539 3445

Misure di sintesi numerica – es.10 pag.50

c. Confrontare le distribuzioni dei livelli di cotinina sierica nei fumatori e nei non fumatori

Riprendendo le frequenze cumulate, ed osservando nuovamenteil livello mediano notiamo che per i fumatori questo livellosi colloca ad un range elevato, mentre per i non fumatori si colloca subito al primo range.

Questo ci porta a dedurre che la prima distribuzione sidistribuisce in modo più diversificato su diversi range,mentre la seconda distribuzione ha un picco iniziale per poidistribuirsi più raramente a mano a mano chei range aumentano.

Le nostre deduzioni sono confermate dal grafico che abbiamogià visto per l’esercizio 13 a pag.28

Livello di cotinina(ng/ml)

F cumulate fumatori

F cumulate non

fumatori

0-13 78 3300

14-49 211 3372

50-99 353 3395

100-149 559 3410

150-199 756 3417

200-249 976 3425

250-299 1127 3434

>=300 1539 3445

Indice Esercizi

• Presentazione dei dati

• Misure di sintesi numerica

• Probabilità

• Distribuzioni teoriche di probabilità

• Distribuzione campionaria della media

Probabilità


Si considerino le statistiche relative alla natalità per la popolazione degli Stati Uniti nel 1992. In accordo con questi dati, sono di seguito riportate le probabilità dell’età al momento del parto nel 1992 di una donna selezionata casualmente.

Età Probabilità

<15 0.003

15-19 0.124

20-24 0.263

25-29 0.290

30-34 0.220

35-39 0.085

40-44 0.014

45-49 0.001

Totale 1

Probabilità – es.9 pag.122

a. Qual è la probabilità che una donna che ha partorito nel 1992 avesse un’età minore o uguale a 24 anni?

La probabilità che si verifichino due o più eventi mutualmente esclusivi è pari alla sommadelle singole probabilità.

P(età <= 24) = P(età < 15) + P(15 <= età <= 19) + P(20 <= età <= 24)

= 0,003 + 0.124 + 0,263 = 0,39 = 39%

b. Qual è la probabilità che avesse un’età maggiore o uguale a 40 anni?

Per lo stesso motivo della risposta precedente:

P(età >= 40) = P(40 <= età <= 44) + P(45 <= età <=49)

= 0.014 + 0.001 = 0.015 = 1.5%


c. Dato che la madre di un determinato bambino è al di sotto dei 30 anni, qual è la probabilità che non abbia ancora 20 anni?

P(età <= 19) = P(età < 15) + P(15 <= età <= 19)

= 0,003 + 0.124 = 0.127

P(età <= 29) = P(età < 15) + P(15 <= età <= 19) + P(20 <= età <= 24) + P(25 <= età <= 29)

= 0.003 + 0.124 + 0.263 + 0.290 = 0.68

P(età <= 19 ∩ età <= 29) = P(età < 19) = 0,127

P(età <=19 | età <= 29) = P(età <= 19 ∩ età <= 29)

P(età <= 29)=

0.127

0.68= 0.19 = 19%


d. Dato che la madre di un determinato bambino ha 35 anni o più, qual è la probabilità che non abbia ancora 40 anni?

P(età <= 39) = P(età < 15) + P(15 <= età <= 19) + P(20 <= età <= 24) + P(25 <= età <= 29)+ P(30 <= età <= 34) + P(35 <= età <= 39)

= 0.003 + 0.124 + 0.263 + 0.290 + 0.220 + 0.085 = 0.985

P(età >= 35) = P(35 <= età <= 39) + P(40 <= età <= 44) + P(45 <= età <= 49)

= 0.085 + 0.014 + 0.001 = 0.10

P(età <= 39 ∩ età >= 35) = P(35 <= età <= 39) = 0.085

P(età <=39 | età >= 35) = P(età <= 39 ∩ età >= 35)

P(età >= 35)=

0.085

0.10= 0.85 = 85%

Distribuzioni teoriche di probabilità


La distribuzione del peso della popolazione maschile degli Stati Uniti è approssimativamente normale con media µ = 172,2 libbre e deviazione standard σ = 29.8 libbre. (1 libbra = 454 grammi).

a. Qual è la probabilità che un soggetto selezionato casualmente pesimeno di 130 libbre?

La variabile casuale X che rappresenta la distribuzione di peso è una variabile Gaussiana di media µ = 172.2 libbre e deviazione standard σ = 29.8 libbre.

La variabile standardizzata è dunque 𝑍 =𝑋 −172.2

29.8

Quindi:

P(X < 130) = P(Z < 130 −172.2

29.8) = P(Z < −1.41) = P(Z > 1.41) = 7.9%.

Distribuzioni teoriche di probabilità

b. Qual è la probabilità che il soggetto pesi più di 210 libbre?

P(X > 210) = P(Z >210 −172.2

29.8)

= P(Z > 1.26) = 0.104 = 10.4%

c. Qual è la probabilità che tra cinque soggetti maschi selezionati casualmente dalla popolazione, almeno uno abbia un peso non compreso tra 130 e 210 libbre?

P(130 < X < 210) = P(−1.41 < Z < 1.26)

= 1 − 0.079 − 0.104 = 81.7%

- es.19 pag.149 -

Distribuzione campionaria della media


Nei Paesi Bassi, la popolazione maschile sana di età compresa fra 65 e79 anni ha una distribuzione dei livelli di acido urico serico approssimativamente normale con media µ = 341 µmol/l e deviazione standard σ = 79 µmol/l.

a. Quale proporzione di soggetti ha un livello di acido urico sierico compreso tra 300 e 400 µmol/l?

P(300 <= 𝑋 <= 400) = P(300 −341

79<= Z <=

400 −341

79)

= P(-0.52 <= Z <= 0.75) = 1 - P(Z >= 0.52) - P(Z >= 0.75)

= 1 – 0.302 – 0.227 = 0.471 = 47.1%


b. Quale proporzione dei campioni di dimensione uguale a 5 ha unlivello medio di acido urico serico compreso fra 300 e 400 µmol/l?

P(300 <= 𝑋 <= 400) = P( 300 −341

79

5

<= Z <= 400 −341

79

5

)

= P(-1.16 <= Z <= 1.67) = 1 - P(Z >= 1.16) - P(Z >= 1.67)

= 1 – 0.123 – 0.047 = 0.83 = 83%

c. Quale proporzione dei campioni di dimensione uguale a 10 ha unlivello medio di acido urico serico compreso fra 300 e 400 µmol/l?

P(300 <= 𝑋 <= 400) = P( 300 −341

79

10

<= Z <= 400 −341

79

10

) = P(-1.64 <= Z <= 2.36)

= 1 - P(Z >= 1.64) - P(Z >= 2.36) = 1 – 0.051 – 0.009 = 0.94 = 94%

- es.13 pag.163 -


d. Calcolare un intervallo che comprende il 95% delle medie dei campionidi dimensione uguale a 10. Sarebbe più corto un intervallo simmetrico o uno asimmetrico?

Come abbiamo già visto, la variabile standardizzata è 𝑍 = 𝑋 −341

79

10

.

sappiamo che: P(-1.96 <= Z <= 1.96) = 95% = 0.95

Quindi deve essere: -1.96 <= z <= 1.96

-1.96 <= 𝑋 −341

79

10

<= 1.96

79

10−1.96 +

34179

10

≤ 𝑋 ≤ 1.96 +34179

10

79

10

292.04 <= 𝑋 <= 389.96

- es.13 pag.163 -

laboratorio di probabilità e statisticala probabilità che si verifichino due o più eventi...

Documents