appunti controllo statistico della qualità

PROB. DISCRETE IPERGEOMETRICA

1. N è conosciuto 2. il processo di verifica è stato effettuato 3. conosco D il n° di elementi non conformi 4. viene estratto n causale senza reimmissione 5. La distribuzione ipergeometrica è adatta per selezionare un campione casuale di n elementi

senza rimessa da un lotto di N elementi dei quali D sono non conformi o difettosi. Solitamente x rappresenta il numero di elementi non conformi trovato nel campione

BINOMIALE

1. N è infinito e non conosciuto 2. estraggo n elementi senza reimmissione 3. conosco la probabilità di successo in % della popolazione 4. x = n° elementi non conformi nel campione causale 5. Solitamente x rappresenta il numero di elementi non conformi trovato nel campione

POISSON

1. P è molto piccola 2. N è molto grande o indefinita 3. si è in possesso di 1 sola informazione Landa = varianza = media= n*p

PROB. CONTINUE

NORMALE Conosciamo la media e la varianza della popolazione

INFERENZE Procedimento deduttivo che mira ad estendere alla totalità della popolazione i dati ottenuti da un campione della popolazione stessa. Si utilizza il metodo dell’ inferenza quando non si conoscono le caratteristiche della popolazione. Studia quelli serie di metodologie che applicate al campione della distribuzione della popolazione con una probabilità di successo 1-alpha. Ne esistono 3 tipi:

1. STIME PUNTUALI; 2. STIME INTERVALLARI; 3. VERIFICHE DI IPOTESI;

Stime puntuali: Significa assegnare al parametro incognito della popolazione, un valore calcolato nel campione con un certo rischio di errore. Stime intervallari: Partendo da un parametro dell’ intera popolazione (media), si stima un intervallo con determinati limiti superiore ed inferiore, all’interno del quale, cadrà il parametro con una probabilità pari a 1-alpha. Nb: sia le stime puntuali che intervallari, fanno parte delle STIME PARAMETRICHE.

http://unict.myblog.it Blog degli Studenti della Facoltà di Economia di Catania 1

luogo di scambio di opinioni,materiale didattico e informazioni http://unict.forumattivo.com 1

Vedi Proprietà stimatori pag. 5-6 slide2 STIME DEI PARAMETRI

(sono stime intervallari)

Distinguiamo 3 tipi di parametri: MEDIA; PROPORZIONI;(P) VARIABILITA’;

Intervalli di confidenza su PH STAT Media

1. TEST Z (estimate for the mean, sigma know) con noto s.q.m. della popolazione. 2. TEST T (estimate for the mean, sigma unknow) con s.q.m. sconosciuto della popolazione

però conosco S ossia lo sqm campionario e campioni piccoli come numerosità Nb\\ se n infinito oppure n N test T = test Z

Stimatore di Varianza

1. TEST X^2 (CHI) ( estimate for population variance )con Var sconosciuta; media sconosciuta, mi genero S^2 ( varianza campionaria che la posso riferire all’intera popolazione N)

Una Proporzione ( estimate for population propotion) Se siamo capaci di calcolare la proporzione dei difetti partendo da P^ (proporzione elementi difettosi ossia la probabilità di successi nel campione / ampiezza campionaria), possiamo calcolare i limiti dell’intervallo.

TEST Z

VERIFICA IPOTESI Si Verifica la conformità dei parametri del processo e valori sperati

A) Basati su 1 campione B) Basati su 2 campione H0: miu = miu(0) ipotesi nulla, ipotesi da verificare H1: miu diverso miu(0) = ipotesi alternativa , ossia ipotesi opposta alla nulla, quando la nulla è rifiutata Nb: M = media campionaria ; S= scarto quadratico medio Se hai lo sqm della popolazione uso il test Z se invece conosco lo sqm del campione utilizzo T Confidence Level = 1- alpha= 95% Livello di significatività =5% ossia 0.05 3 possibilità 1 BILATERALE: SE H0 deve assumere un valore determinato H1 è tutto il resto a dx e a sx Se z0> di Z alpha H0 viene rifiutata 2 UNILATERALE A DX



H1 è maggiore o maggiore-uguale a H0 allora sarà una ipotesi unilaterale A DX 1 UNILATERALE A SX Se H1 è minore o minore – uguale ad H0 allora sarà una ipotesi unilaterale a SX TEST X^2 CHI si usa sempre quando si parla di Varianza Il p-value è il più piccolo livello di significatività che conduce al rifiuto dell’ ipotesi nulla



Il test del chi quadrato

Con test chi quadrato si intende uno dei test di verifica d'ipotesi usati in statistica che utilizzano la variabile casuale Chi Quadrato per verificare se l'ipotesi nulla è probabilisticamente compatibile con i

dati. A seconda delle ipotesi di partenza usate per costruire il test, tali test vengono considerati a volte parametrici e altre volte non parametrici.

Si definisce test parametrico un test statistico che si può applicare in presenza di una distribuzione normale dei dati, o comunque nell'ambito della statistica parametrica. Ciò avviene effettuando un

controllo delle ipotesi sul valore di un parametro, quale la media, la proporzione, la deviazione standard, l’uguaglianza tra due medie…

Nella statistica non parametrica i modelli matematici non necessitano di ipotesi a priori sulle caratteristiche della popolazione (ovvero, di un Parametro), o comunque le ipotesi sono meno restrittive

di quelle usuali nella statistica parametrica.

In particolare non si assume l'ipotesi che i dati provengano da una popolazione normale o gaussiana.

Viene considerata da alcuni la statistica dei piccoli campioni in quanto è soprattutto in questi casi che l'ipotesi di distribuzione gaussiana è fatta spesso in modo arbitrario. Ma questa definizione può essere fuorviante in quanto la non parametrica viene applicata anche in presenza di campioni relativamente

grandi. Effettivamente, in presenza di grandi campioni, diverse distribuzioni tendono alla variabile casuale gaussiana permettendo così di passare alla statistica parametrica.

Lo scopo del test χ² è quello di conoscere se le frequenze osservate differiscono significativamente dalle frequenze teoriche.

Se χ² = 0, le frequenze osservate coincidono esattamente con quelle teoriche. Se invece χ² > 0, esse

differiscono. Più grande è il valore di χ², più grande è la discrepanza tra le frequenze osservate e quelle teoriche. Nella pratica le frequenze teoriche vengono calcolate sulla base di un’ipotesi H0. Se sulla base

di questa ipotesi il valore calcolato di χ² è più grande di un certo valore critico (come 20.95 o 20.99, che sono i valori critici rispettivamente ai livelli di significatività 5 % e 1 %), dovremmo concludere che le frequenze osservate differiscono significativamente dalle frequenze attese e dovremmo rifiutare H0 al

corrispondente livello di significatività. Altrimenti dovremmo accettarla, o almeno non rifiutarla. Tale procedimento è chiamato test chi-‐quadrato dell’ipotesi.

Bisognerebbe notare che si deve guardare con sospetto a circostanze in cui χ² è troppo vicino allo zero, poiché è raro che le frequenze osservate concordino troppo bene con le frequenze teoriche. Per

esaminare tali situazioni, possiamo determinare se il valore calcolato di χ² è minore di 20.05 o di 20.01 nel qual caso dovremmo concludere che l’accostamento è troppo buono ai livelli di significatività del 5 % e 1 % rispettivamente.

Per conoscere i valori critici di χ² ad un determinato livello di significatività e con gli opportuni gradi di

libertà ci si può avvalere di tabelle, oppure si possono calcolare numericamente partendo dalla



corrispondente istanza della distribuzione χ² e calcolandone l’integrale nell’opportuno intervallo che dipenderà dal livello di significatività scelto.

esempio 2: supponiamo la seguente tabella che mette in relazione genitori che fumano e bambini

asmatici. Esiste una relazione?

Per prima cosa, riportiamo i dati raccolti in una tabella:

sani asmatici totale

Fumatori 37 13 50

Non fumatori 92 8 100

totale 129 21 150

Verificare l’ipotesi di indipendenza a un livello di significatività 1%

esempio 2: in un campione di N = 70 unità statistiche vengono rilevati due caratteri X (reddito) ed Y

(rendimento scolastico); raggruppando i valori osservati di X in 3 classi, e quelli di Y anche in 3 classi, si ottiene la seguente tabella di contingenza:

rendimento buono discreto scarso totale

alto 7 5 7 19

reddito medio 12 7 6 25 basso 15 8 3 26

totale 34 20 16 70

Verificare a un livello di significatività del 5% se esiste un legame.

Ricordo che la statistica del chi quadrato dipende dai gradi di liberta n=(r-‐1)(c-‐1) e da alfa. I valori sono

presenti nelle apposite tabelle.

Se il chi-‐quadrato (test) è minore del valore critico, si accetta l’ipotesi nulla

Se il chi-‐quadrato (test) è maggiore del valore critico, si rifiuta l’ipotesi nulla



CONTROLLO STATISTICO DELLE QUALITA’

1) MODELLI DELLA QUALITA’ DI PROCESSI Descrizione della variabilità Ci sono semplici strumenti di statistica descrittiva che si possono impiegare per valutare quantitativamente le variazioni che una caratteristica o indicatore di qualità presenta tra i valori considerati in un campione. Così come le distribuzioni di probabilità possono fornire uno strumento per la realizzazione del modello o la descrizione delle caratteristiche di qualità di un processo produttivo. Tra i diversi metodi grafici utili per sintetizzare i dati osservati abbiamo: • grafici rami e foglie, • box plot • istogrammi

Il box plot è una rappresentazione grafica che presenta importanti indicatori dei dati osservati, quali tendenza centrale o locazione, dispersione o variabilità, allontanamento dalla simmetria distributiva e identificazione delle osservazioni anomale che sono distanti dal nucleo centrale dei dati. Tale grafico presenta i tre quartili, il valore minimo e massimo in una scatola rettangolare, dove l’ampiezza del rettangolo rappresenta la differenza interquartile con il primo quartile Q1a sinistra (o in basso) ed il terzo quartile Q3a destra (o in alto). Vi è poi una linea intermedia che corrisponde al secondo quartile Q2 = x (che indica il mediano). Due segmenti esterni al rettangolo si estendono ai valori estremi minimo a sinistra e massimo a destra; detti segmenti sono chiamati whisker (baffi). L'istogramma è la rappresentazione grafica di una distribuzione in classi di un carattere continuo. Nella sua essenza è costituito da rettangoli adiancenti le cui basi sono allineate su un asse orientato e dotato di unità di misura (l'asse ha l'unità di misura del carattere e può tranquillamente essere inteso come l'asse delle ascisse). L'adiacenza dei rettangoli dà conto della continuità del carattere. Ogni rettangolo ha base di lunghezza pari all'ampiezza delle corrispondenti classi; l'altezza invece è calcolata come densità di frequenza, ovvero essa è pari al rapporto fra la frequenza relativa associata alla classe e la lunghezza della base del rettangolo (ampiezza della classe). Tale strategia rende l'area della superficie di ogni rettangolo coincidente alla frequenza relativa associata alla



classe cui il rettangoli si riferisce. Così come la somma delle frequenze relative è pari ad uno, anche la somma delle aree dei rettangoli è pari ad uno. Nell'ipotesi che la numerosità dei valori osservati tende ad infinito, e contemporaneamente l'ampiezza delle classi tende a zero, l'istogramma tende, a sua volta, ad una stima (seppur distorta) della legge di probabilità che regola l'esperimento casuale da cui si osserva il carattere. ESEMPIO BOX-PLOT

DISTIBUZIONI DI PROBABILITA’ Una variabile si dice casuale (stocastica, aleatoria) quando può assumere modalità diverse, comprese in una insieme di valori, a seconda del verificarsi di eventi aleatori. Una distribuzione di probabilità è un modello matematico che collega il valore della variabile alla probabilità che tale valore si trovi all’interno della popolazione. Un campione è un insieme di elementi scelti da una popolazione più ampia. Vi sono due tipi di distribuzione di probabilità:

• distribuzioni continue: quando la variabile da misurarsi viene espressa mediante una scala continua, la sua distribuzione di probabilità viene definita una distribuzione continua.

• distribuzione discreta: quando il parametro da misurarsi può assumere solo determinati valori, quali gli interi 0, 1, 2, …; ad es. la distribuzione di elementi non conformi o difettosi in un circuito stampato. Una distribuzione discreta appare come una serie di segmenti di altezza proporzionale.

Distribuzioni discrete Alcune distribuzioni discrete compaiono frequentemente nel controllo statistico della qualità. Le principali distribuzioni discrete sono:

• ipergeometrica • binomiale o bernulliana • di Poisson • di Pascal o binomiale negativa

distribuzione ipergeometrica



La distribuzione di Poisson E’una distribuzione discreta utile nel controllo statistico di qualità, ed è definita nel seguente modo: Quando il numero di dati (n) è molto grande e la probabilità (p) è molto piccola, la distribuzione binomiale presenta vari inconvenienti pratici, che erano importanti soprattutto prima dell'introduzione del calcolo automatico. Infatti, essa richiede sia l'innalzamento di probabilità (p) molto basse a potenze (i) elevate, sia il calcolo di fattoriali per numeri (n) grandi, che sono operazioni che rendono il calcolo manuale praticamente impossibile. Per - n che tende all'infinito, - p che tende a 0, - in modo tale che n⋅p sia costante, la probabilità dell’evento (Pi) è stimata da

dove il parametro λ>0. La media e la varianza della distribuzione di Poisson sono: µ= λ media σ2= λ varianza In termini discorsivi, con un numero infinito di dati, se p tende a 0 e quindi q tende a 1, la varianza è uguale alla media n⋅p⋅q (σ2) = n⋅p (µ). E’ un concetto importante quando si deve individuare la forma reale di una distribuzione campionaria. La legge di distribuzione poissoniana è detta anche legge degli eventi rari, poiché la probabilità (p) che l’evento si verifichi per ogni caso e la media (µ) degli eventi su tutta la popolazione sono basse. E’ chiamata pure legge dei grandi numeri, in quanto tale distribuzione è valida quando il numero (n) di casi considerati è alto. Nella pratica della ricerca, la distribuzione poissoniana sostituisce quella binomiale quando p < 0,05 e n > 100. La distribuzione poissoniana ha una forma molto asimmetrica, quando la media è piccola.



Quando λ < 1, la classe più frequente o più probabile è zero. E’ ancora asimmetrica per valori di λ < 3. Ma già con λ ≥ 5-6 la distribuzione delle probabilità è vicina alla forma simmetrica e può essere bene approssimata dalla distribuzione normale o gaussiana. Un’applicazione tipica della distribuzione di Poisson nel controllo di qualità si ha nella definizione della distribuzione del numero di difetti o non conformità che si trovano in un’unità di prodotto. Ogni fenomeno casuale che avviene in un’unità(di spazio, di tempo, ecc.) è spesso ben approssimata mediante la distribuzione di Poisson.

La distribuzione binomiale o bernulliana Consideriamo un processo formato da una sequenza di n prove, in cui il risultato di ogni

prova è un “successo”o un “insuccesso”. Tali prove sono dette prove di Bernoulli. Se la probabilità di successo in ogni tentativo (p) è costante, il numero di successi in n prove

di Bernoulli ha una distribuzione binomiale con parametri n e p definita come:

f(x)=Pn, x = px qn-x dove x= numero di successi e n= numero di prove indipendenti.

La distribuzione binomiale indica la probabilità con cui su n ripetizioni indipendenti di un esperimento con due soli possibili risultati (successo e insuccesso, 0 e 1) x siano dei successi.

La funzione f(x) si chiama binomiale con due parametri p e n ed è indicata generalmente con il simbolo B(n,p). Non viene presa in considerazione q essendo p + q = 1 con un solo grado di libertà, una volta determinato p resta determinata anche la probabilità q=1-p.

Si dimostra che il valore atteso (media) e la varianza della distribuzione binomiale sono rispettivamente:

E(X)= µ= np Var (X)= σ2= npq e lo scarto σ=

Caratteristiche

Essa è generalmente asimmetrica e dipende dal valore assunto da p. • Se p=q=0,5 la distribuzione binomiale è simmetrica

• Se p<q la distribuzione binomiale è asimmetrica positiva (le frequenze più alte si concentrano sui valori di x più bassi).

• Se p>q a distribuzione binomiale è asimmetrica negativa (le frequenze più alte si concentrano sui valori di x più alti).

• Quando n→∞ (cioè abbiamo un elevato numero di prove) e q = p la binomiale tende alla curva normale.

Una variabile casuale che si trova spesso nel controllo statistico di qualità è: pˆ= x/n dove x ha distribuzione binomiale con parametri n e p. Spesso pˆ è la frazione campionaria di elementi difettosi, cioè il rapporto tra numero osservato di elementi difettosi in un campione (x) e la numerosità (n) del campione stesso. pˆ è una stima del valore reale ignoto del parametro della distribuzione binomiale p. La distribuzione di probabilità di pˆ si ottiene dalla binomiale poiché:



Distribuzione di Pascal Anch’essa, come la binomiale, ha le proprie basi nelle prove di Bernoulli.

Consideriamo una sequenza di prove indipendenti, ognuna con probabilità di successo p, ed indichiamo con x la prova in sui si ottiene l’r-esimo successo.

x è una variabile casuale di Pascal con la seguente distribuzione di probabilità:

Due casi particolari della distribuzione di Pascal sono:

• Distribuzione binomiale negativa: r >0 ma non necessariamente intero. Tale distribuzione è utile come modello statistico di riferimento ad es. per il conteggio di elementi di non conformità in un’unità. Nella distribuzione binomiale viene fissata la dimensione del campione (numero di prove di Bernoulli) e si ottiene il numero di successi; nella distribuzione binomiale negativa si fissa invece il numero di successi e si ottiene la dimensione del campione (numero di prove di Bernoulli) richiesta per raggiungerli.

• Distribuzione geometrica: r = 1; è la distribuzione del numero di prove di Bernoulli richieste fino al primo successo.

La distribuzione normale o curva di Gauss La distribuzione normale riveste una grandissima importanza in statistica e in particolare per l’inferenza statistica. Essa è la generalizzazione dello schema di Bernoulli quando n→∞ e p=q.

La funzione di densità è:

La funzione di ripartizione è:

Calcolare la probabilità attraverso la formula sopra indicata non è agevole, data la complessità di calcolo per un integrale di una curva. Con una trasformazione di variabile è possibile ricavare i valori delle due funzioni per qualsiasi distribuzione normale.

La trasformazione della variabile è data da:

Z =

con la media µ=0 e la varianza σ2=1.



La trasformazione determina la variabile scarto ridotto e la funzione della variabile trasformata prende il nome di distribuzione normale standardizzata. La funzione di densità è:

I valori della funzione ripartizione riguardante questa funzione densità sono stati calcolati in modo definitivo e vengono riportati su una tavola. In questo modo è possibile conoscere la probabilità di qualsiasi distribuzione normale conoscendo la media e la varianza.

Caratteristiche della distribuzione normale. La distribuzione normale ha media µ e varianza σ 2 che sono i parametri della funzione e si indica con la seguente simbologia N(µ, σ2). Le caratteristiche principali sono:

a) Essa è simmetrica rispetto all’ordinata massima per x = µ. Si ricorda che una curva si dice simmetrica rispetto all’asse di simmetria se dati due valori a lei equidistanti le aree comprese sono uguali.

b) Il suo massimo è dato da f(x = µ)

c) È campanulate, cioè prima ha un andamento crescente e poi decrescente.

d) È unimodale, cioè ha un solo punto di massimo. e) La media, la moda e la mediana coincidono, cioè il grado di asimmetria è zero.

f) Ha due flessi, il primo ascendente e il secondo discendente per x =µ . Si ricorda che si definisce punto di flesso un punto qualsiasi in cui la concavità cambia verso.

La frazione dei casi compresi - fra µ+σ e µ-σ è uguale al 68,27% (in cifra tonda o in valore approssimato i 2/3), - quella fra µ+2σ e µ-2σ è uguale 95,45% (in cifra tonda 95%), - quella fra µ+3σ e µ-3σ è esattamente uguale al 99,73% (circa il 99,9%). In pratica, nella curva normale la quasi totalità dei dati è compresa nell'intorno della media di ampiezza 3 σ. La relazione tra la percentuale di dati sottesi dalla curva e le dimensioni dell’intervallo tra due valori è una caratteristica di rilevante importanza nella statistica applicata: se la distribuzione è normale, è sufficiente conoscere due parametri di una serie di dati, la media µ e la varianza σ2 (o altro parametro da esso derivato come la deviazione standard σ ), per conoscere anche la sua distribuzione.



INFERENZA STATISTICA

1. Cosa si intende per inferenza statistica Nelle sezioni precedenti si sono considerati gli aspetti della statistica connessi con la descrizione

dei fenomeni e con la stima di certe caratteristiche della popolazione o universo dei dati. Quando,

però, si deve risolvere un problema di carattere statistico, in genere si opera su un insieme di dati

che non sempre costituisce la totalità di quegli stessi dati relativi al fenomeno studiato. Per questa

ragione, nella Statistica sono stati introdotti i concetti di popolazione e campione tra i quali vi è una

differenza sostanziale: mentre con il primo termine si indica l'insieme di tutte le unità statistiche

nelle quali è presente il fenomeno che si vuole studiare, con il secondo termine ci si riferisce

solamente ad una parte dell'intero insieme di quelle unità o popolazione, che sia stata selezionata

secondo certi criteri di estrazione o metodi di campionamento. (estrazione casuale, campione

sistematico, campionamento semplice, a grappolo, a uno o più stadi, ecc.).

Le popolazioni da cui sono estratti uno o più campioni possono contenere un numero di

elementi finito oppure infinitamente grande. In questi casi si parla di popolazioni finite o di

popolazioni infinite. A loro volta, i campioni possono essere formati da un diverso numero di unità

statistiche elementari tratte dalla popolazione, dando luogo a grandi campioni o a piccoli campioni.

Un campione che contiene meno di 50 elementi (o talvolta anche meno di 30) si considera che sia

un "piccolo campione", mentre un campione composto da più di 50 (o 30) elementi è chiamato

"grande campione". La distinzione tra campioni grandi e piccoli ha rilevanza, come si vedrà,

soprattutto per determinare quale sia la distribuzione specifica da considerare per la scelta del test

statistico di significatività delle stime. La selezione delle unità della popolazione che entrano a far

parte del campione da studiare può essere casuale o non casuale. Nel primo caso si ammette che

l'unica motivazione della eventuale differenziazione tra le caratteristiche del campione e quelle

della popolazione o universo di origine sia la accidentalità o casualità della scelta. Nel secondo

caso, invece, generalmente si opera una scelta dettata da criteri definiti che nella gran parte dei casi

conducono a risultati campionari "distorti" rispetto a quelli "veri" relativi all'intera popolazione di

unità statistiche.

Nel seguito sarà preso in considerazione solo il campionamento casuale, cioè la selezione degli

elementi della popolazione facendo in modo che ogni elemento abbia la stessa probabilità di essere

scelto.



Un campione di n unità estratte da una data popolazione è un campione casuale quando tutti gli

altri campioni possibili formati anch'essi da n unità e provenienti dalla stessa popolazione hanno la

stessa probabilità di essere scelti.

Dunque, nella maggior parte dei casi, quando si ricerca la media aritmetica, la varianza ed altre

misure caratteristiche della distribuzione di un dato fenomeno di solito si utilizzano dati statistici

riferiti ad un campione di unità tratto dalla popolazione di dati che caratterizzano il fenomeno che si

vuole analizzare. Se vi fosse la capacità di ottenere tutte le singole misure che formano una

popolazione di dati, la media o gli altri parametri statistici caratteristici della distribuzione del

fenomeno rappresenterebbero la "vera media", la "vera varianza" e così via, dell'intera popolazione

di dati. Ma spesso, per ragioni di natura diversa (costo eccessivo, irraggiungibilità di tutte le unità

statistiche della popolazione studiata, carenze di tempo per le rilevazioni e così via), è impossibile

considerare l'intera popolazione e la maggior parte delle volte ci si deve accontentare di calcolare le

misure caratteristiche relative ad un campione di unità statistiche tratto da essa. Queste misure

caratteristiche sono chiamate statistiche campionarie, mentre le vere misure sono chiamate

parametri della popolazione.

Le statistiche campionarie sono stime dei parametri della popolazione. L'attendibilità di una

misura ottenuta da un campione dipende dall'accuratezza di queste stime. La media o la deviazione

standard calcolate su un campione casuale non forniscono elementi di conoscenza sufficienti per

trovare i valori della vera media e della vera deviazione standard relative alla popolazione.

Tuttavia, con l'aiuto di queste statistiche campionarie ed utilizzando anche certe proprietà dei

campioni casuali, si è in condizione di trovare entro quali limiti ci si può attendere che siano

contenuti i parametri della popolazione. Tali limiti possono essere determinati solo con un certo

grado di confidenza o precisione o accuratezza o attendibilità. Più i limiti sono ristretti, più è

elevata la precisione e più è attendibile la stima. E' anche possibile determinare la significatività

della differenza tra i valori che una stessa statistica assume in campioni diversi, a condizione di

conoscere come varia quella statistica al variare del campione, ossia conoscere in qual modo si

distribuiscono le statistiche campionarie. Per trovare, ad esempio, quale percentuale delle medie di

tutti i campioni casuali che possono essere estratti da una popolazione, ci si può attendere che cada

entro limiti definiti, dobbiamo conoscere quale sia la distribuzione di frequenza delle medie

campionarie. Nello stesso modo per essere capaci di giudicare della attendibilità di una deviazione

standard campionaria si deve conoscere la distribuzione di frequenza delle deviazioni standard

campionarie. E così via anche per le altre statistiche possibili.



2. L 'ipotesi statistica Tutto l'insieme delle considerazioni ora svolte costituisce la materia di cui si occupa la teoria

dell'inferenza statistica. Ma ora è il caso di considerare come l'insieme degli elementi discussi fino

a questo punto possa essere utilizzato per assumere determinate decisioni operative. Per ipotesi è da intendersi un'affermazione che ha come oggetto accadimenti nel mondo reale,

che si presta ad essere confermata o smentita dai dati osservazionali.

Esempi di ipotesi che possono essere soggette ad una verifica statistica sono i

seguenti:

1. Il gruppo di osservazioni in esame è un campione tratto da una popolazione con media uguale

a µ. Sono di questo tipo, ad esempio, le affermazioni seguenti:

a. Le lampadine elettriche di un certo stock sono di qualità standard (durata media di vita µ

uguale ad uno specifico valore µo).

b. Il numero medio di batteri uccisi da goccie campione di un germicida è uguale ad un certo

numero standard.

c. L'intelligenza media di una data classe è uguale a quella media di tutti gli studenti.

La decisione se accettare o rigettare una ipotesi si basa sulle informazioni che si ottengono dalle

osservazioni fatte e sul livello che si ritiene sostenibile per il rischio che la decisione da prendere sia

sbagliata. Anzitutto si deve definire la ipotesi di lavoro (per esempio, stabilire un dato valore per un

parametro della popolazione). Quindi si raccoglie un certo numero di osservazioni (il campione) e

si esaminano i risultati ottenuti per vedere se essi siano o no simili a quelli della popolazione

stabiliti nella ipotesi avanzata a priori. Se vi è una stretta concordanza, si accetta l'ipotesi. Se la

concordanza è scarsa, l'ipotesi sarà rigettata. Per decidere se vi sia o no una stretta concordanza, di

solito si calcola qualche statistica ed il valore particolare ottenuto dal campione si compara con la

distribuzione campionaria di questa statistica supponendo che l'ipotesi sia vera.

Per evidenziare con un test l’effetto di un trattamento, nel controllo di un’ipotesi statistica è

possibile

commettere due tipi di errore:

- l'errore di primo tipo o errore α (alfa), se si rifiuta l'ipotesi nulla quando in realtà essa è vera;

- l'errore di secondo tipo o errore β (beta), se si accetta l'ipotesi nulla, quando in realtà essa è

falsa.

La probabilità di commettere l’errore di I tipo è chiamata livello di significatività ed è indicata

convenzionalmente con α (alfa). Essa corrisponde alla probabilità che il valore campionario

dell’indice statistico cada nella zona di rifiuto, quando l’ipotesi nulla è vera.



La probabilità di commettere l’errore di II tipo, indicato convenzionalmente con β (beta), è la

probabilità di estrarre dalla popolazione un campione che non permette di rifiutare l’ipotesi

nulla, quando in realtà essa è falsa.

Da questi concetti derivano direttamente anche quelli di livello di protezione e di potenza di un

test, che sono i parametri più importanti per scegliere il test più adatto alle caratteristiche dei dati e

al quesito. Sono concetti tra loro legati, secondo lo schema riportato nella tabella precedente, nella

quale si confrontano la realtà e la conclusione del test.

Un test statistico conduce ad una conclusione esatta in due casi:

- se non rifiuta l’ipotesi nulla, quando in realtà è vera;

- se rifiuta l’ipotesi nulla, quando in realtà è falsa.

Per aumentare

- la probabilità (1-α) del primo caso, occorre incrementare la protezione;

- per aumentare quella (1-β) del secondo caso, occorre incrementare la potenza.

Esiste una sorta di concorrenza tra errori di primo tipo (α) ed errori di secondo tipo (β):

- se si abbassa il livello di significatività, cioè la probabilità di commettere errori di I tipo

(α),

- si accresce quella dell'errore di II tipo (β); e viceversa.

Si tratta di vedere quale dei due è più dannoso nella scelta che si deve effettuare.

L’unico modo per ridurli entrambi è quello di aumentare il numero dei dati. Tuttavia non

sempre è possibile ampliare le dimensioni del campione, perché già raccolto oppure perché i costi

ed il tempo necessari diventano eccessivi, per le disponibilità reali del ricercatore.

slide professore Torrisi pag.16



Ipotesi Nulla (H0) = è l’ipotesi sottoposta a verifica. In genere coincide con lo stato delle cose

• si riferisce sempre ad un parametro specifico della popolazione (Es. µ ) e non ad una statistica

campionaria (Es. )

• contiene SEMPRE un segno di “uguale” (=) relativo al valore specificato del parametro della

popolazione (Es. Ho : µ = 50)

Ipotesi Alternativa (H1) = è l’ipotesi opposta all’Ipotesi Nulla, quindi rappresenta la conclusione

quando l’ipotesi nulla è rifiutata

• NON contiene MAI un segno di “uguale” (=) relativo al valore specificato del parametro della

popolazione (Es. Ho : µ ≠ 50).

slide professore Torrisi pag.15



appunti controllo statistico della qualità

Documents