appunti controllo statistico della qualità

18
PROB. DISCRETE IPERGEOMETRICA 1. N è conosciuto 2. il processo di verifica è stato effettuato 3. conosco D il n° di elementi non conformi 4. viene estratto n causale senza reimmissione 5. La distribuzione ipergeometrica è adatta per selezionare un campione casuale di n elementi senza rimessa da un lotto di N elementi dei quali D sono non conformi o difettosi. Solitamente x rappresenta il numero di elementi non conformi trovato nel campione BINOMIALE 1. N è infinito e non conosciuto 2. estraggo n elementi senza reimmissione 3. conosco la probabilità di successo in % della popolazione 4. x = n° elementi non conformi nel campione causale 5. Solitamente x rappresenta il numero di elementi non conformi trovato nel campione POISSON 1. P è molto piccola 2. N è molto grande o indefinita 3. si è in possesso di 1 sola informazione Landa = varianza = media= n*p PROB. CONTINUE NORMALE Conosciamo la media e la varianza della popolazione INFERENZE Procedimento deduttivo che mira ad estendere alla totalità della popolazione i dati ottenuti da un campione della popolazione stessa. Si utilizza il metodo dell’ inferenza quando non si conoscono le caratteristiche della popolazione. Studia quelli serie di metodologie che applicate al campione della distribuzione della popolazione con una probabilità di successo 1-alpha. Ne esistono 3 tipi: 1. STIME PUNTUALI; 2. STIME INTERVALLARI; 3. VERIFICHE DI IPOTESI; Stime puntuali: Significa assegnare al parametro incognito della popolazione, un valore calcolato nel campione con un certo rischio di errore. Stime intervallari: Partendo da un parametro dell’ intera popolazione (media), si stima un intervallo con determinati limiti superiore ed inferiore, all’interno del quale, cadrà il parametro con una probabilità pari a 1- alpha. Nb: sia le stime puntuali che intervallari, fanno parte delle STIME PARAMETRICHE. http://unict.myblog.it Blog degli Studenti della Facoltà di Economia di Catania 1 luogo di scambio di opinioni,materiale didattico e informazioni http://unict.forumattivo.com 1

Upload: peppe-86

Post on 07-Mar-2016

228 views

Category:

Documents


1 download

DESCRIPTION

appunti controllo statistico della qualità, per esame orale

TRANSCRIPT

Page 1: Appunti controllo statistico della qualità

PROB. DISCRETE IPERGEOMETRICA

1. N è conosciuto 2. il processo di verifica è stato effettuato 3. conosco D il n° di elementi non conformi 4. viene estratto n causale senza reimmissione 5. La distribuzione ipergeometrica è adatta per selezionare un campione casuale di n elementi

senza rimessa da un lotto di N elementi dei quali D sono non conformi o difettosi. Solitamente x rappresenta il numero di elementi non conformi trovato nel campione

BINOMIALE

1. N è infinito e non conosciuto 2. estraggo n elementi senza reimmissione 3. conosco la probabilità di successo in % della popolazione 4. x = n° elementi non conformi nel campione causale 5. Solitamente x rappresenta il numero di elementi non conformi trovato nel campione

POISSON

1. P è molto piccola 2. N è molto grande o indefinita 3. si è in possesso di 1 sola informazione Landa = varianza = media= n*p

PROB. CONTINUE

NORMALE Conosciamo la media e la varianza della popolazione

INFERENZE Procedimento deduttivo che mira ad estendere alla totalità della popolazione i dati ottenuti da un campione della popolazione stessa. Si utilizza il metodo dell’ inferenza quando non si conoscono le caratteristiche della popolazione. Studia quelli serie di metodologie che applicate al campione della distribuzione della popolazione con una probabilità di successo 1-alpha. Ne esistono 3 tipi:

1. STIME PUNTUALI; 2. STIME INTERVALLARI; 3. VERIFICHE DI IPOTESI;

Stime puntuali: Significa assegnare al parametro incognito della popolazione, un valore calcolato nel campione con un certo rischio di errore. Stime intervallari: Partendo da un parametro dell’ intera popolazione (media), si stima un intervallo con determinati limiti superiore ed inferiore, all’interno del quale, cadrà il parametro con una probabilità pari a 1-alpha. Nb: sia le stime puntuali che intervallari, fanno parte delle STIME PARAMETRICHE.

http://unict.myblog.it Blog degli Studenti della Facoltà di Economia di Catania 1

luogo di scambio di opinioni,materiale didattico e informazioni http://unict.forumattivo.com 1

Page 2: Appunti controllo statistico della qualità

Vedi Proprietà stimatori pag. 5-6 slide2 STIME DEI PARAMETRI

(sono stime intervallari)

Distinguiamo 3 tipi di parametri: MEDIA; PROPORZIONI;(P) VARIABILITA’;

Intervalli di confidenza su PH STAT Media

1. TEST Z (estimate for the mean, sigma know) con noto s.q.m. della popolazione. 2. TEST T (estimate for the mean, sigma unknow) con s.q.m. sconosciuto della popolazione

però conosco S ossia lo sqm campionario e campioni piccoli come numerosità Nb\\ se n infinito oppure n N test T = test Z

Stimatore di Varianza

1. TEST X^2 (CHI) ( estimate for population variance )con Var sconosciuta; media sconosciuta, mi genero S^2 ( varianza campionaria che la posso riferire all’intera popolazione N)

Una Proporzione ( estimate for population propotion) Se siamo capaci di calcolare la proporzione dei difetti partendo da P^ (proporzione elementi difettosi ossia la probabilità di successi nel campione / ampiezza campionaria), possiamo calcolare i limiti dell’intervallo.

TEST Z

VERIFICA IPOTESI Si Verifica la conformità dei parametri del processo e valori sperati

A) Basati su 1 campione B) Basati su 2 campione H0: miu = miu(0) ipotesi nulla, ipotesi da verificare H1: miu diverso miu(0) = ipotesi alternativa , ossia ipotesi opposta alla nulla, quando la nulla è rifiutata Nb: M = media campionaria ; S= scarto quadratico medio Se hai lo sqm della popolazione uso il test Z se invece conosco lo sqm del campione utilizzo T Confidence Level = 1- alpha= 95% Livello di significatività =5% ossia 0.05 3 possibilità 1 BILATERALE: SE H0 deve assumere un valore determinato H1 è tutto il resto a dx e a sx Se z0> di Z alpha H0 viene rifiutata 2 UNILATERALE A DX

http://unict.myblog.it Blog degli Studenti della Facoltà di Economia di Catania 2

luogo di scambio di opinioni,materiale didattico e informazioni http://unict.forumattivo.com 2

Page 3: Appunti controllo statistico della qualità

H1 è maggiore o maggiore-uguale a H0 allora sarà una ipotesi unilaterale A DX 1 UNILATERALE A SX Se H1 è minore o minore – uguale ad H0 allora sarà una ipotesi unilaterale a SX TEST X^2 CHI si usa sempre quando si parla di Varianza Il p-value è il più piccolo livello di significatività che conduce al rifiuto dell’ ipotesi nulla

http://unict.myblog.it Blog degli Studenti della Facoltà di Economia di Catania 3

luogo di scambio di opinioni,materiale didattico e informazioni http://unict.forumattivo.com 3

Page 4: Appunti controllo statistico della qualità

Il  test  del  chi  quadrato  

Con   test   chi   quadrato   si   intende   uno   dei   test   di   verifica   d'ipotesi   usati   in   statistica   che   utilizzano   la  variabile   casuale  Chi  Quadrato  per   verificare   se   l'ipotesi   nulla   è   probabilisticamente   compatibile   con   i  

dati.  A  seconda  delle  ipotesi  di  partenza  usate  per  costruire  il  test,  tali  test  vengono  considerati  a  volte  parametrici  e  altre  volte  non  parametrici.    

Si   definisce   test   parametrico   un   test   statistico   che   si   può   applicare   in   presenza   di   una   distribuzione  normale   dei   dati,   o   comunque   nell'ambito   della   statistica   parametrica.   Ciò   avviene   effettuando   un  

controllo  delle  ipotesi  sul  valore  di  un  parametro,  quale  la  media,  la  proporzione,  la  deviazione  standard,  l’uguaglianza  tra  due  medie…  

Nella   statistica   non   parametrica   i   modelli   matematici   non   necessitano   di   ipotesi   a   priori   sulle  caratteristiche  della  popolazione  (ovvero,  di  un  Parametro),  o  comunque  le  ipotesi  sono  meno  restrittive  

di  quelle  usuali  nella  statistica  parametrica.  

In  particolare  non  si  assume  l'ipotesi  che  i  dati  provengano  da  una  popolazione  normale  o  gaussiana.  

Viene  considerata  da  alcuni   la  statistica  dei  piccoli  campioni   in  quanto  è  soprattutto   in  questi  casi  che  l'ipotesi  di  distribuzione  gaussiana  è  fatta  spesso  in  modo  arbitrario.  Ma  questa  definizione  può  essere  fuorviante   in  quanto   la  non  parametrica   viene  applicata   anche   in  presenza  di   campioni   relativamente  

grandi.   Effettivamente,   in   presenza   di   grandi   campioni,   diverse   distribuzioni   tendono   alla   variabile  casuale  gaussiana  permettendo  così  di  passare  alla  statistica  parametrica.  

Lo  scopo  del  test  χ²  è  quello  di  conoscere  se  le  frequenze  osservate  differiscono  significativamente  dalle  frequenze  teoriche.  

Se   χ²   =   0,   le   frequenze   osservate   coincidono   esattamente   con   quelle   teoriche.   Se   invece   χ²   >   0,   esse  

differiscono.  Più  grande  è  il  valore  di  χ²,  più  grande  è  la  discrepanza  tra  le  frequenze  osservate  e  quelle  teoriche.  Nella  pratica  le  frequenze  teoriche  vengono  calcolate  sulla  base  di  un’ipotesi  H0.  Se  sulla  base  

di  questa  ipotesi  il  valore  calcolato  di  χ²  è  più  grande  di  un  certo  valore  critico  (come  20.95  o  20.99,  che  sono   i   valori   critici   rispettivamente  ai   livelli   di   significatività  5  %  e  1  %),   dovremmo  concludere   che   le  frequenze  osservate  differiscono  significativamente  dalle   frequenze  attese  e  dovremmo  rifiutare  H0  al  

corrispondente   livello   di   significatività.   Altrimenti   dovremmo   accettarla,   o   almeno   non   rifiutarla.   Tale  procedimento  è  chiamato  test  chi-­‐quadrato  dell’ipotesi.  

Bisognerebbe  notare  che  si  deve  guardare  con  sospetto  a  circostanze  in  cui  χ²  è  troppo  vicino  allo  zero,  poiché   è   raro   che   le   frequenze   osservate   concordino   troppo   bene   con   le   frequenze   teoriche.   Per  

esaminare  tali  situazioni,  possiamo  determinare  se  il  valore  calcolato  di  χ²  è  minore  di  20.05  o  di  20.01  nel  qual  caso  dovremmo  concludere  che  l’accostamento  è  troppo  buono  ai  livelli  di  significatività  del  5  %  e  1  %  rispettivamente.  

Per  conoscere  i  valori  critici  di  χ²  ad  un  determinato  livello  di  significatività  e  con  gli  opportuni  gradi  di  

libertà   ci   si   può   avvalere   di   tabelle,   oppure   si   possono   calcolare   numericamente   partendo   dalla  

http://unict.myblog.it Blog degli Studenti della Facoltà di Economia di Catania 4

luogo di scambio di opinioni,materiale didattico e informazioni http://unict.forumattivo.com 4

Page 5: Appunti controllo statistico della qualità

corrispondente   istanza   della   distribuzione   χ²   e   calcolandone   l’integrale   nell’opportuno   intervallo   che  dipenderà  dal  livello  di  significatività  scelto.  

esempio 2: supponiamo   la   seguente   tabella   che   mette   in   relazione   genitori   che   fumano   e   bambini  

asmatici.  Esiste  una  relazione?  

Per  prima  cosa,  riportiamo  i  dati  raccolti  in  una  tabella:    

  sani   asmatici   totale  

Fumatori   37   13   50  

Non  fumatori   92   8   100  

totale   129   21   150  

Verificare  l’ipotesi  di  indipendenza  a  un  livello  di  significatività  1%  

esempio  2:   in   un   campione  di  N   =   70  unità   statistiche   vengono   rilevati   due   caratteri   X   (reddito)   ed   Y  

(rendimento  scolastico);  raggruppando  i  valori  osservati  di  X  in  3  classi,  e  quelli  di  Y  anche  in  3  classi,  si  ottiene  la  seguente  tabella  di  contingenza:  

 

 

      rendimento           buono   discreto   scarso   totale  

  alto   7   5   7   19  

reddito   medio     12   7   6   25     basso   15   8   3   26  

  totale   34   20   16   70  

Verificare  a  un  livello  di  significatività  del  5%  se  esiste  un  legame.  

Ricordo  che  la  statistica  del  chi  quadrato  dipende  dai  gradi  di  liberta  n=(r-­‐1)(c-­‐1)  e  da  alfa.  I  valori  sono  

presenti  nelle  apposite  tabelle.  

Se  il  chi-­‐quadrato  (test)  è  minore  del  valore  critico,  si  accetta  l’ipotesi  nulla  

Se  il  chi-­‐quadrato  (test)  è  maggiore  del  valore  critico,  si  rifiuta  l’ipotesi  nulla  

 

http://unict.myblog.it Blog degli Studenti della Facoltà di Economia di Catania 5

luogo di scambio di opinioni,materiale didattico e informazioni http://unict.forumattivo.com 5

Page 6: Appunti controllo statistico della qualità

CONTROLLO STATISTICO DELLE QUALITA’

1) MODELLI DELLA QUALITA’ DI PROCESSI Descrizione della variabilità Ci sono semplici strumenti di statistica descrittiva che si possono impiegare per valutare quantitativamente le variazioni che una caratteristica o indicatore di qualità presenta tra i valori considerati in un campione. Così come le distribuzioni di probabilità possono fornire uno strumento per la realizzazione del modello o la descrizione delle caratteristiche di qualità di un processo produttivo. Tra i diversi metodi grafici utili per sintetizzare i dati osservati abbiamo: • grafici rami e foglie, • box plot • istogrammi

Il box plot è una rappresentazione grafica che presenta importanti indicatori dei dati osservati, quali tendenza centrale o locazione, dispersione o variabilità, allontanamento dalla simmetria distributiva e identificazione delle osservazioni anomale che sono distanti dal nucleo centrale dei dati. Tale grafico presenta i tre quartili, il valore minimo e massimo in una scatola rettangolare, dove l’ampiezza del rettangolo rappresenta la differenza interquartile con il primo quartile Q1a sinistra (o in basso) ed il terzo quartile Q3a destra (o in alto). Vi è poi una linea intermedia che corrisponde al secondo quartile Q2 = x (che indica il mediano). Due segmenti esterni al rettangolo si estendono ai valori estremi minimo a sinistra e massimo a destra; detti segmenti sono chiamati whisker (baffi). L'istogramma è la rappresentazione grafica di una distribuzione in classi di un carattere continuo. Nella sua essenza è costituito da rettangoli adiancenti le cui basi sono allineate su un asse orientato e dotato di unità di misura (l'asse ha l'unità di misura del carattere e può tranquillamente essere inteso come l'asse delle ascisse). L'adiacenza dei rettangoli dà conto della continuità del carattere. Ogni rettangolo ha base di lunghezza pari all'ampiezza delle corrispondenti classi; l'altezza invece è calcolata come densità di frequenza, ovvero essa è pari al rapporto fra la frequenza relativa associata alla classe e la lunghezza della base del rettangolo (ampiezza della classe). Tale strategia rende l'area della superficie di ogni rettangolo coincidente alla frequenza relativa associata alla

http://unict.myblog.it Blog degli Studenti della Facoltà di Economia di Catania 6

luogo di scambio di opinioni,materiale didattico e informazioni http://unict.forumattivo.com 6

Page 7: Appunti controllo statistico della qualità

classe cui il rettangoli si riferisce. Così come la somma delle frequenze relative è pari ad uno, anche la somma delle aree dei rettangoli è pari ad uno. Nell'ipotesi che la numerosità dei valori osservati tende ad infinito, e contemporaneamente l'ampiezza delle classi tende a zero, l'istogramma tende, a sua volta, ad una stima (seppur distorta) della legge di probabilità che regola l'esperimento casuale da cui si osserva il carattere. ESEMPIO BOX-PLOT

DISTIBUZIONI DI PROBABILITA’ Una variabile si dice casuale (stocastica, aleatoria) quando può assumere modalità diverse, comprese in una insieme di valori, a seconda del verificarsi di eventi aleatori. Una distribuzione di probabilità è un modello matematico che collega il valore della variabile alla probabilità che tale valore si trovi all’interno della popolazione. Un campione è un insieme di elementi scelti da una popolazione più ampia. Vi sono due tipi di distribuzione di probabilità:

• distribuzioni continue: quando la variabile da misurarsi viene espressa mediante una scala continua, la sua distribuzione di probabilità viene definita una distribuzione continua.

• distribuzione discreta: quando il parametro da misurarsi può assumere solo determinati valori, quali gli interi 0, 1, 2, …; ad es. la distribuzione di elementi non conformi o difettosi in un circuito stampato. Una distribuzione discreta appare come una serie di segmenti di altezza proporzionale.

Distribuzioni discrete Alcune distribuzioni discrete compaiono frequentemente nel controllo statistico della qualità. Le principali distribuzioni discrete sono:

• ipergeometrica • binomiale o bernulliana • di Poisson • di Pascal o binomiale negativa

distribuzione ipergeometrica

http://unict.myblog.it Blog degli Studenti della Facoltà di Economia di Catania 7

luogo di scambio di opinioni,materiale didattico e informazioni http://unict.forumattivo.com 7

Page 8: Appunti controllo statistico della qualità

La distribuzione di Poisson E’una distribuzione discreta utile nel controllo statistico di qualità, ed è definita nel seguente modo: Quando il numero di dati (n) è molto grande e la probabilità (p) è molto piccola, la distribuzione binomiale presenta vari inconvenienti pratici, che erano importanti soprattutto prima dell'introduzione del calcolo automatico. Infatti, essa richiede sia l'innalzamento di probabilità (p) molto basse a potenze (i) elevate, sia il calcolo di fattoriali per numeri (n) grandi, che sono operazioni che rendono il calcolo manuale praticamente impossibile. Per - n che tende all'infinito, - p che tende a 0, - in modo tale che n⋅p sia costante,  la  probabilità  dell’evento  (Pi)  è  stimata  da  

dove il parametro λ>0. La media e la varianza della distribuzione di Poisson sono: µ= λ media σ2= λ varianza In termini discorsivi, con un numero infinito di dati, se p tende a 0 e quindi q tende a 1, la varianza è uguale alla media n⋅p⋅q (σ2) = n⋅p (µ). E’ un concetto importante quando si deve individuare la forma reale di una distribuzione campionaria. La legge di distribuzione poissoniana è detta anche legge degli eventi rari, poiché la probabilità (p) che l’evento si verifichi per ogni caso e la media (µ) degli eventi su tutta la popolazione sono basse. E’ chiamata pure legge dei grandi numeri, in quanto tale distribuzione è valida quando il numero (n) di casi considerati è alto. Nella pratica della ricerca, la distribuzione poissoniana sostituisce quella binomiale quando p < 0,05 e n > 100. La distribuzione poissoniana ha una forma molto asimmetrica, quando la media è piccola.

http://unict.myblog.it Blog degli Studenti della Facoltà di Economia di Catania 8

luogo di scambio di opinioni,materiale didattico e informazioni http://unict.forumattivo.com 8

Page 9: Appunti controllo statistico della qualità

Quando λ < 1, la classe più frequente o più probabile è zero. E’ ancora asimmetrica per valori di λ < 3. Ma già con λ ≥ 5-6 la distribuzione delle probabilità è vicina alla forma simmetrica e può essere bene approssimata dalla distribuzione normale o gaussiana. Un’applicazione tipica della distribuzione di Poisson nel controllo di qualità si ha nella definizione della distribuzione del numero di difetti o non conformità che si trovano in un’unità di prodotto. Ogni fenomeno casuale che avviene in un’unità(di spazio, di tempo, ecc.) è spesso ben approssimata mediante la distribuzione di Poisson.

La distribuzione binomiale o bernulliana Consideriamo un processo formato da una sequenza di n prove, in cui il risultato di ogni

prova è un “successo”o un “insuccesso”. Tali prove sono dette prove di Bernoulli. Se la probabilità di successo in ogni tentativo (p) è costante, il numero di successi in n prove

di Bernoulli ha una distribuzione binomiale con parametri n e p definita come:

f(x)=Pn, x = px qn-x dove x= numero di successi e n= numero di prove indipendenti.

La distribuzione binomiale indica la probabilità con cui su n ripetizioni indipendenti di un esperimento con due soli possibili risultati (successo e insuccesso, 0 e 1) x siano dei successi.

La funzione f(x) si chiama binomiale con due parametri p e n ed è indicata generalmente con il simbolo B(n,p). Non viene presa in considerazione q essendo p + q = 1 con un solo grado di libertà, una volta determinato p resta determinata anche la probabilità q=1-p.

Si dimostra che il valore atteso (media) e la varianza della distribuzione binomiale sono rispettivamente:

E(X)= µ= np Var (X)= σ2= npq e lo scarto σ=

Caratteristiche

Essa è generalmente asimmetrica e dipende dal valore assunto da p. • Se p=q=0,5 la distribuzione binomiale è simmetrica

• Se p<q la distribuzione binomiale è asimmetrica positiva (le frequenze più alte si concentrano sui valori di x più bassi).

• Se p>q a distribuzione binomiale è asimmetrica negativa (le frequenze più alte si concentrano sui valori di x più alti).

• Quando n→∞ (cioè abbiamo un elevato numero di prove) e q = p la binomiale tende alla curva normale.

Una variabile casuale che si trova spesso nel controllo statistico di qualità è: pˆ= x/n dove x ha distribuzione binomiale con parametri n e p. Spesso pˆ è la frazione campionaria di elementi difettosi, cioè il rapporto tra numero osservato di elementi difettosi in un campione (x) e la numerosità (n) del campione stesso. pˆ è una stima del valore reale ignoto del parametro della distribuzione binomiale p. La distribuzione di probabilità di pˆ si ottiene dalla binomiale poiché:

http://unict.myblog.it Blog degli Studenti della Facoltà di Economia di Catania 9

luogo di scambio di opinioni,materiale didattico e informazioni http://unict.forumattivo.com 9

Page 10: Appunti controllo statistico della qualità

Distribuzione di Pascal Anch’essa, come la binomiale, ha le proprie basi nelle prove di Bernoulli.

Consideriamo una sequenza di prove indipendenti, ognuna con probabilità di successo p, ed indichiamo con x la prova in sui si ottiene l’r-esimo successo.

x è una variabile casuale di Pascal con la seguente distribuzione di probabilità:

Due casi particolari della distribuzione di Pascal sono:

• Distribuzione binomiale negativa: r >0 ma non necessariamente intero. Tale distribuzione è utile come modello statistico di riferimento ad es. per il conteggio di elementi di non conformità in un’unità. Nella distribuzione binomiale viene fissata la dimensione del campione (numero di prove di Bernoulli) e si ottiene il numero di successi; nella distribuzione binomiale negativa si fissa invece il numero di successi e si ottiene la dimensione del campione (numero di prove di Bernoulli) richiesta per raggiungerli.

• Distribuzione geometrica: r = 1; è la distribuzione del numero di prove di Bernoulli richieste fino al primo successo.

La distribuzione normale o curva di Gauss La distribuzione normale riveste una grandissima importanza in statistica e in particolare per l’inferenza statistica. Essa è la generalizzazione dello schema di Bernoulli quando n→∞ e p=q.

La funzione di densità è:

La funzione di ripartizione è:

Calcolare la probabilità attraverso la formula sopra indicata non è agevole, data la complessità di calcolo per un integrale di una curva. Con una trasformazione di variabile è possibile ricavare i valori delle due funzioni per qualsiasi distribuzione normale.

La trasformazione della variabile è data da:

Z =

con la media µ=0 e la varianza σ2=1.

http://unict.myblog.it Blog degli Studenti della Facoltà di Economia di Catania 10

luogo di scambio di opinioni,materiale didattico e informazioni http://unict.forumattivo.com 10

Page 11: Appunti controllo statistico della qualità

La trasformazione determina la variabile scarto ridotto e la funzione della variabile trasformata prende il nome di distribuzione normale standardizzata. La funzione di densità è:

I valori della funzione ripartizione riguardante questa funzione densità sono stati calcolati in modo definitivo e vengono riportati su una tavola. In questo modo è possibile conoscere la probabilità di qualsiasi distribuzione normale conoscendo la media e la varianza.

Caratteristiche della distribuzione normale. La distribuzione normale ha media µ e varianza σ 2 che sono i parametri della funzione e si indica con la seguente simbologia N(µ, σ2). Le caratteristiche principali sono:

a) Essa è simmetrica rispetto all’ordinata massima per x = µ. Si ricorda che una curva si dice simmetrica rispetto all’asse di simmetria se dati due valori a lei equidistanti le aree comprese sono uguali.

b) Il suo massimo è dato da f(x = µ)

c) È campanulate, cioè prima ha un andamento crescente e poi decrescente.

d) È unimodale, cioè ha un solo punto di massimo. e) La media, la moda e la mediana coincidono, cioè il grado di asimmetria è zero.

f) Ha due flessi, il primo ascendente e il secondo discendente per x =µ . Si ricorda che si definisce punto di flesso un punto qualsiasi in cui la concavità cambia verso.

La frazione dei casi compresi - fra µ+σ e µ-σ è uguale al 68,27% (in cifra tonda o in valore approssimato i 2/3), - quella fra µ+2σ e µ-2σ è uguale 95,45% (in cifra tonda 95%), - quella fra µ+3σ e µ-3σ è esattamente uguale al 99,73% (circa il 99,9%). In pratica, nella curva normale la quasi totalità dei dati è compresa nell'intorno della media di ampiezza 3 σ. La relazione tra la percentuale di dati sottesi dalla curva e le dimensioni dell’intervallo tra due valori è una caratteristica di rilevante importanza nella statistica applicata: se la distribuzione è normale, è sufficiente conoscere due parametri di una serie di dati, la media µ e la varianza σ2 (o altro parametro da esso derivato come la deviazione standard σ ), per conoscere anche la sua distribuzione.

http://unict.myblog.it Blog degli Studenti della Facoltà di Economia di Catania 11

luogo di scambio di opinioni,materiale didattico e informazioni http://unict.forumattivo.com 11

Page 12: Appunti controllo statistico della qualità

INFERENZA STATISTICA

1. Cosa si intende per inferenza statistica Nelle sezioni precedenti si sono considerati gli aspetti della statistica connessi con la descrizione

dei fenomeni e con la stima di certe caratteristiche della popolazione o universo dei dati. Quando,

però, si deve risolvere un problema di carattere statistico, in genere si opera su un insieme di dati

che non sempre costituisce la totalità di quegli stessi dati relativi al fenomeno studiato. Per questa

ragione, nella Statistica sono stati introdotti i concetti di popolazione e campione tra i quali vi è una

differenza sostanziale: mentre con il primo termine si indica l'insieme di tutte le unità statistiche

nelle quali è presente il fenomeno che si vuole studiare, con il secondo termine ci si riferisce

solamente ad una parte dell'intero insieme di quelle unità o popolazione, che sia stata selezionata

secondo certi criteri di estrazione o metodi di campionamento. (estrazione casuale, campione

sistematico, campionamento semplice, a grappolo, a uno o più stadi, ecc.).

Le popolazioni da cui sono estratti uno o più campioni possono contenere un numero di

elementi finito oppure infinitamente grande. In questi casi si parla di popolazioni finite o di

popolazioni infinite. A loro volta, i campioni possono essere formati da un diverso numero di unità

statistiche elementari tratte dalla popolazione, dando luogo a grandi campioni o a piccoli campioni.

Un campione che contiene meno di 50 elementi (o talvolta anche meno di 30) si considera che sia

un "piccolo campione", mentre un campione composto da più di 50 (o 30) elementi è chiamato

"grande campione". La distinzione tra campioni grandi e piccoli ha rilevanza, come si vedrà,

soprattutto per determinare quale sia la distribuzione specifica da considerare per la scelta del test

statistico di significatività delle stime. La selezione delle unità della popolazione che entrano a far

parte del campione da studiare può essere casuale o non casuale. Nel primo caso si ammette che

l'unica motivazione della eventuale differenziazione tra le caratteristiche del campione e quelle

della popolazione o universo di origine sia la accidentalità o casualità della scelta. Nel secondo

caso, invece, generalmente si opera una scelta dettata da criteri definiti che nella gran parte dei casi

conducono a risultati campionari "distorti" rispetto a quelli "veri" relativi all'intera popolazione di

unità statistiche.

Nel seguito sarà preso in considerazione solo il campionamento casuale, cioè la selezione degli

elementi della popolazione facendo in modo che ogni elemento abbia la stessa probabilità di essere

scelto.

http://unict.myblog.it Blog degli Studenti della Facoltà di Economia di Catania 12

luogo di scambio di opinioni,materiale didattico e informazioni http://unict.forumattivo.com 12

Page 13: Appunti controllo statistico della qualità

Un campione di n unità estratte da una data popolazione è un campione casuale quando tutti gli

altri campioni possibili formati anch'essi da n unità e provenienti dalla stessa popolazione hanno la

stessa probabilità di essere scelti.

Dunque, nella maggior parte dei casi, quando si ricerca la media aritmetica, la varianza ed altre

misure caratteristiche della distribuzione di un dato fenomeno di solito si utilizzano dati statistici

riferiti ad un campione di unità tratto dalla popolazione di dati che caratterizzano il fenomeno che si

vuole analizzare. Se vi fosse la capacità di ottenere tutte le singole misure che formano una

popolazione di dati, la media o gli altri parametri statistici caratteristici della distribuzione del

fenomeno rappresenterebbero la "vera media", la "vera varianza" e così via, dell'intera popolazione

di dati. Ma spesso, per ragioni di natura diversa (costo eccessivo, irraggiungibilità di tutte le unità

statistiche della popolazione studiata, carenze di tempo per le rilevazioni e così via), è impossibile

considerare l'intera popolazione e la maggior parte delle volte ci si deve accontentare di calcolare le

misure caratteristiche relative ad un campione di unità statistiche tratto da essa. Queste misure

caratteristiche sono chiamate statistiche campionarie, mentre le vere misure sono chiamate

parametri della popolazione.

Le statistiche campionarie sono stime dei parametri della popolazione. L'attendibilità di una

misura ottenuta da un campione dipende dall'accuratezza di queste stime. La media o la deviazione

standard calcolate su un campione casuale non forniscono elementi di conoscenza sufficienti per

trovare i valori della vera media e della vera deviazione standard relative alla popolazione.

Tuttavia, con l'aiuto di queste statistiche campionarie ed utilizzando anche certe proprietà dei

campioni casuali, si è in condizione di trovare entro quali limiti ci si può attendere che siano

contenuti i parametri della popolazione. Tali limiti possono essere determinati solo con un certo

grado di confidenza o precisione o accuratezza o attendibilità. Più i limiti sono ristretti, più è

elevata la precisione e più è attendibile la stima. E' anche possibile determinare la significatività

della differenza tra i valori che una stessa statistica assume in campioni diversi, a condizione di

conoscere come varia quella statistica al variare del campione, ossia conoscere in qual modo si

distribuiscono le statistiche campionarie. Per trovare, ad esempio, quale percentuale delle medie di

tutti i campioni casuali che possono essere estratti da una popolazione, ci si può attendere che cada

entro limiti definiti, dobbiamo conoscere quale sia la distribuzione di frequenza delle medie

campionarie. Nello stesso modo per essere capaci di giudicare della attendibilità di una deviazione

standard campionaria si deve conoscere la distribuzione di frequenza delle deviazioni standard

campionarie. E così via anche per le altre statistiche possibili.

http://unict.myblog.it Blog degli Studenti della Facoltà di Economia di Catania 13

luogo di scambio di opinioni,materiale didattico e informazioni http://unict.forumattivo.com 13

Page 14: Appunti controllo statistico della qualità

2. L 'ipotesi statistica Tutto l'insieme delle considerazioni ora svolte costituisce la materia di cui si occupa la teoria

dell'inferenza statistica. Ma ora è il caso di considerare come l'insieme degli elementi discussi fino

a questo punto possa essere utilizzato per assumere determinate decisioni operative. Per ipotesi è da intendersi un'affermazione che ha come oggetto accadimenti nel mondo reale,

che si presta ad essere confermata o smentita dai dati osservazionali.

Esempi di ipotesi che possono essere soggette ad una verifica statistica sono i

seguenti:

1. Il gruppo di osservazioni in esame è un campione tratto da una popolazione con media uguale

a µ. Sono di questo tipo, ad esempio, le affermazioni seguenti:

a. Le lampadine elettriche di un certo stock sono di qualità standard (durata media di vita µ

uguale ad uno specifico valore µo).

b. Il numero medio di batteri uccisi da goccie campione di un germicida è uguale ad un certo

numero standard.

c. L'intelligenza media di una data classe è uguale a quella media di tutti gli studenti.

La decisione se accettare o rigettare una ipotesi si basa sulle informazioni che si ottengono dalle

osservazioni fatte e sul livello che si ritiene sostenibile per il rischio che la decisione da prendere sia

sbagliata. Anzitutto si deve definire la ipotesi di lavoro (per esempio, stabilire un dato valore per un

parametro della popolazione). Quindi si raccoglie un certo numero di osservazioni (il campione) e

si esaminano i risultati ottenuti per vedere se essi siano o no simili a quelli della popolazione

stabiliti nella ipotesi avanzata a priori. Se vi è una stretta concordanza, si accetta l'ipotesi. Se la

concordanza è scarsa, l'ipotesi sarà rigettata. Per decidere se vi sia o no una stretta concordanza, di

solito si calcola qualche statistica ed il valore particolare ottenuto dal campione si compara con la

distribuzione campionaria di questa statistica supponendo che l'ipotesi sia vera.

Per evidenziare con un test l’effetto di un trattamento, nel controllo di un’ipotesi statistica è

possibile

commettere due tipi di errore:

- l'errore di primo tipo o errore α (alfa), se si rifiuta l'ipotesi nulla quando in realtà essa è vera;

- l'errore di secondo tipo o errore β (beta), se si accetta l'ipotesi nulla, quando in realtà essa è

falsa.

La probabilità di commettere l’errore di I tipo è chiamata livello di significatività ed è indicata

convenzionalmente con α (alfa). Essa corrisponde alla probabilità che il valore campionario

dell’indice statistico cada nella zona di rifiuto, quando l’ipotesi nulla è vera.

http://unict.myblog.it Blog degli Studenti della Facoltà di Economia di Catania 14

luogo di scambio di opinioni,materiale didattico e informazioni http://unict.forumattivo.com 14

Page 15: Appunti controllo statistico della qualità

La probabilità di commettere l’errore di II tipo, indicato convenzionalmente con β (beta), è la

probabilità di estrarre dalla popolazione un campione che non permette di rifiutare l’ipotesi

nulla, quando in realtà essa è falsa.

Da questi concetti derivano direttamente anche quelli di livello di protezione e di potenza di un

test, che sono i parametri più importanti per scegliere il test più adatto alle caratteristiche dei dati e

al quesito. Sono concetti tra loro legati, secondo lo schema riportato nella tabella precedente, nella

quale si confrontano la realtà e la conclusione del test.

Un test statistico conduce ad una conclusione esatta in due casi:

- se non rifiuta l’ipotesi nulla, quando in realtà è vera;

- se rifiuta l’ipotesi nulla, quando in realtà è falsa.

Per aumentare

- la probabilità (1-α) del primo caso, occorre incrementare la protezione;

- per aumentare quella (1-β) del secondo caso, occorre incrementare la potenza.

Esiste una sorta di concorrenza tra errori di primo tipo (α) ed errori di secondo tipo (β):

- se si abbassa il livello di significatività, cioè la probabilità di commettere errori di I tipo

(α),

- si accresce quella dell'errore di II tipo (β); e viceversa.

Si tratta di vedere quale dei due è più dannoso nella scelta che si deve effettuare.

L’unico modo per ridurli entrambi è quello di aumentare il numero dei dati. Tuttavia non

sempre è possibile ampliare le dimensioni del campione, perché già raccolto oppure perché i costi

ed il tempo necessari diventano eccessivi, per le disponibilità reali del ricercatore.

slide professore Torrisi pag.16

http://unict.myblog.it Blog degli Studenti della Facoltà di Economia di Catania 15

luogo di scambio di opinioni,materiale didattico e informazioni http://unict.forumattivo.com 15

Page 16: Appunti controllo statistico della qualità

Ipotesi Nulla (H0) = è l’ipotesi sottoposta a verifica. In genere coincide con lo stato delle cose

• si riferisce sempre ad un parametro specifico della popolazione (Es. µ ) e non ad una statistica

campionaria (Es. )

• contiene SEMPRE un segno di “uguale” (=) relativo al valore specificato del parametro della

popolazione (Es. Ho : µ = 50)

Ipotesi Alternativa (H1) = è l’ipotesi opposta all’Ipotesi Nulla, quindi rappresenta la conclusione

quando l’ipotesi nulla è rifiutata

• NON contiene MAI un segno di “uguale” (=) relativo al valore specificato del parametro della

popolazione (Es. Ho : µ ≠ 50).

slide professore Torrisi pag.15

http://unict.myblog.it Blog degli Studenti della Facoltà di Economia di Catania 16

luogo di scambio di opinioni,materiale didattico e informazioni http://unict.forumattivo.com 16

Page 17: Appunti controllo statistico della qualità

http://unict.myblog.it Blog degli Studenti della Facoltà di Economia di Catania 17

luogo di scambio di opinioni,materiale didattico e informazioni http://unict.forumattivo.com 17

Page 18: Appunti controllo statistico della qualità

http://unict.myblog.it Blog degli Studenti della Facoltà di Economia di Catania 18

luogo di scambio di opinioni,materiale didattico e informazioni http://unict.forumattivo.com 18