analisi statistica dei dati sperimentali. 2 aleatorietà delle misure non si ricava un singolo...

Analisi statistica dei dati sperimentali

Analisi statistica dei dati sperimentali 2

Aleatorietà delle misure

Non si ricava un singolo valore numerico deterministicamente individuabile, ma una nuvola di valori

nuvola di valori

misurazionedati di misura

aleatori

Contributi casuali

Incidenti di misura

Contributi sistematici

Grandezze d’influenza e

condizioni operative

fasce di valori

variabilità


• Le norme richiedono di identificare un valore di misura ed una incertezza…

• Data la nuvola di valori, dunque, è necessario stimare un valore centrale e un indice di dispersione (ad esempio rispettivamente media e scarto tipo).

• Tuttavia è opportuno porre in atto procedure per individuare ed evidenziare la presenza di errori sistematici e di incidenti di misura!

• Al fine di agevolare il trattamento dei dati sarebbe opportuno procedere alla progettazione delle operazioni di sperimentazione (Design of Experiments - DOE);

• Tuttavia si procede di solito in maniera completamente casualizzata, ovvero considerando variazioni casuali di tutte le grandezze d’influenza (bisogna fare attenzione a non trascurare la presenza di eventuali effetti sistematici!!!);

• Sulla base dell’esperienza si può procedere controllando una o più grandezze d’influenza e considerando variazioni casuali di tutte le altre.


Esempio:

si consideri il caso di una misura dimensionale eseguita da diversi operatori; si consideri che sia posta sotto controllo l’influenza dell’operatore sulle misure.

n

iix

nmedia

1

1(media campionaria)

2

11

1

n

ii mediax

nsqm (scarto quadratico medio campionario)

media+sqm

media-sqm

operatore operatore operatore operatore operatore1 2 3 4 5

10.0008 10.0064 10.0062 10.0063 10.006510.0077 10.0086 10.0029 10.0093 10.001810.0037 10.0061 10.0069 10.0056 10.007510.0006 10.0007 10.0012 10.0033 10.001910.0033 10.0043 10.0088 10.0029 10.005210.0018 10.0028 10.0057 10.0073 10.000210.0062 10.0054 10.0003 10.0066 10.001810.0038 10.0029 10.0067 10.0066 10.005710.0047 10.0004 10.0067 10.0083 10.008210.0029 10.0014 10.0025 10.0017 10.0073

media 10.0035 10.0039 10.0048 10.0058 10.0046sqm 0.0023 0.0027 0.0028 0.0024 0.0029max 10.0058 10.0066 10.0076 10.0082 10.0075min 10.0013 10.0012 10.0019 10.0033 10.0017

Nuvola di valori!


È possibile osservare come la grandezza d’influenza “operatore” agisca sui risultati delle misurazioni.

10.0000

10.0010

10.0020

10.0030

10.0040

10.0050

10.0060

10.0070

10.0080

10.0090

0 1 2 3 4 5 6

1

2

3

4

5


Spoglio dei dati e loro presentazione

La presentazione dei dati sperimentali può avvenire:

• in forma tabulare tabella

• in forma grafica grafico (dotplot, istogramma, ecc.)

• Tabella10.0008 10.0064 10.0062 10.0063 10.006510.0077 10.0086 10.0029 10.0093 10.001810.0037 10.0061 10.0069 10.0056 10.007510.0006 10.0007 10.0012 10.0033 10.001910.0033 10.0043 10.0088 10.0029 10.005210.0018 10.0028 10.0057 10.0073 10.000210.0062 10.0054 10.0003 10.0066 10.001810.0038 10.0029 10.0067 10.0066 10.005710.0047 10.0004 10.0067 10.0083 10.008210.0029 10.0014 10.0025 10.0017 10.0073


• DotPlot

Si tratta di descrivere la frequenza assoluta con cui ogni valore compare su di un opportuno asse. La minima suddivisione sull’asse deve coincidere con la risoluzione secondo cui i dati si presentano.

Ritornando all’esempio: se i dati sono in millimetri, consideriamo, per ognuno l’eccesso (delta) rispetto al valore 10.0000 mm; tale valore, moltiplicato per 1000 dà un’indicazione in micron.

La tabella diventa dunque:

0.8 6.4 6.2 6.3 6.57.7 8.6 2.9 9.3 1.83.7 6.1 6.9 5.6 7.50.6 0.7 1.2 3.3 1.93.3 4.3 8.8 2.9 5.21.8 2.8 5.7 7.3 0.26.2 5.4 0.3 6.6 1.83.8 2.9 6.7 6.6 5.74.7 0.4 6.7 8.3 8.22.9 1.4 2.5 1.7 7.3


I valori da considerarsi (in micron) per costruire l’asse delle ascisse vanno da 1 m a 10 m. Di seguito il DOTPLOT...

0 1 2 3 4 5 6 7 8 9 10 11

Il numero di crocette per ogni singola ascissa coincide con il numero di volte in cui ogni singolo valore compare.

Ad esempio il valore 2.9 m (10.0029 mm) compare 4 volte!


• Istogramma

I dati possono essere raggruppati in classi.

L’intervallo coperto dai dati sperimentali viene suddiviso in sottointervalli, ognuno dei quali costituisce una classe.

Limite di classe (superiore ed inferiore): valori che definiscono una classe.

Ampiezza di classe: ampiezza della classe.

Centro di classe: semisomma dei limiti di classe (punto medio della classe).

Raggruppando tutti i dati nelle diverse classi si ottiene per ognuna di queste un valore di frequenza assoluta (fa), ovvero un valore indicativo del numero di risultati numerici che sono compresi entro i limiti che la definiscono.

A partire dai valori di frequenza assoluta è possibile, per ogni classe, calcolare la frequenza relativa (fr)(= probabilità secondo la definizione frequentistica)


Il numero opportuno di classi può essere ricavato dalla seguente relazione empirica:

dove n è il numero di dati valutati.

È buona norma che ogni classe contenga almeno quattro dati! Dunque di solito si agisce modificando l’ampiezza delle classi (accorpandole eventualmente) per rispettare tale condizione.

L'istogramma è un diagramma costituito da un numero di barre rettangolari coincidente con il numero di classi considerato; l’area di ogni rettangolo è proporzionale alla probabilità (calcolata a partire dai dati sperimentali), che un dato cada nella specifica classe corrispondente.

nLogm 103

101


Ritornando all’esempio…

I dati considerati sono n = 50 m = 1 + (10/3)Log10 (50) = 6.66 m = 7

Possiamo costruire le sette classi tra i valori 10.0000 e 10.0100… quindi:Classe Da a Ampiezza Centro fa fr

[mm] [mm] [mm] [mm] [mm-1]1 10.0000 10.0014 0.0014 10.00071 8 0.16 1122 10.0014 10.0029 0.0014 10.00214 7 0.14 983 10.0029 10.0043 0.0014 10.00357 8 0.16 1124 10.0043 10.0057 0.0014 10.005 7 0.14 985 10.0057 10.0071 0.0014 10.00643 11 0.22 1546 10.0071 10.0086 0.0014 10.00786 6 0.12 847 10.0086 10.0100 0.0014 10.00929 3 0.06 42

In questo caso, essendo le ampiezze delle classi uguali, l'istogramma coincide con il diagramma a barre (chiamato erroneamente istogramma in Excel!!!) 0

20

40

60

80

100

120

140

160

1 2 3 4 5 6 7

[

mm

-1]


Accorpando le ultime due classi si ottiene:

Classe Da a Ampiezza Centro fa fr

[mm] [mm] [mm] [mm] [mm-1]1 10.0000 10.0014 0.0014 10.00071 8 0.16 1122 10.0014 10.0029 0.0014 10.00214 7 0.14 983 10.0029 10.0043 0.0014 10.00357 8 0.16 1124 10.0043 10.0057 0.0014 10.005 7 0.14 985 10.0057 10.0071 0.0014 10.00643 11 0.22 1546 10.0071 10.0100 0.0029 10.00857 9 0.18 63

0

20

40

60

80

100

120

140

160

180

9.9980 10.0000 10.0020 10.0040 10.0060 10.0080 10.0100 10.0120

x[mm]

[m

m-1

]


0

2

4

6

8

10

12

9.9980 10.0000 10.0020 10.0040 10.0060 10.0080 10.0100 10.0120

x[mm]

fa

Legenda:

- fr frequenza relativa

- fa frequenza assoluta

- densità di frequenza

i

r

amp

f altezza della colonna rettangolare relativa alla i-esima classe di ampiezza amp i


Tendenza centrale e dispersione

Come precedentemente accennato è possibile utilizzare come stimatori di tendenza centrale e di dispersione rispettivamente la media e la deviazione standard campionarie (le cui definizioni sono riportate al lucido 4).

Si possono tuttavia utilizzare anche altri indicatori, sia per la tendenza centrale, sia per la dispersione.

• Tendenza centrale

Oltre alla media campionaria, si possono utilizzare moda o mediana.

Mediana: è il valore centrale fra i dati sperimentali disposti in maniera ordinata.

Moda: è il valore che compare con frequenza maggiore.

Normalmente si utilizza la media campionaria, perché meglio inquadrata in termini matematici; tuttavia è più sensibile agli incidenti di misura rispetto alla mediana o alla moda.


• Dispersione

In alternativa alla deviazione standard campionaria è possibile utilizzare il range (differenza fra il valore massimo ed il minimo ottenuti) come indicatore di dispersione.

Sia il range sia la varianza campionaria dipendono fortemente dal numero di dati che costituiscono il campione esaminato.

In alternativa è possibile definire la variabilità dei dati (dispersione) attraverso la definizione di campi di probabilità:

- si possono definire quattro classi, ognuna delle quali contenga il 25% dei dati (quartili)

- si possono definire dieci classi, ognuna delle quali contenga il 10% dei dati (decili)

- si possono definire cento classi, ognuna delle quali contenga l’ 1% dei dati (centili)


I quartili, decili, centili sono gli estremi superiori delle classi così definite.

La definizione di questi indici di dispersione dipende molto dai valori assunti dai dati di estremità…

Una valutazione più robusta della dispersione si può ottenere calcolando la differenza fra il terzo ed il primo quartile.

Un modo abituale per indicare tendenza centrale e dispersione consiste nell’assegnazione di cinque valori: minimo, primo quartile, mediana, terzo quartile, massimo. Il diagramma corrispondente è detto BOXPLOT.

min 1Q mediana 3Q max


Inferenza statistica

POPOLAZIONE CAMPIONE STIMECampionamento Inferenza

(Parametri che definiscono la distribuzione della popolazione)

MISURANDO LETTURE STIMEMisurazione Analisi

(Definizione di intervalli in cui ragionevolmente cadono i valori da attribuirsi al misurando come misura INCERTEZZA)

Informazioni sulla catena di misura e sulle grandezze d’influenza


• Intervalli fiduciari per la media

In generale, data una popolazione, estratto a partire da essa un campione, si può costruire un intervallo sulla base dei dati campionari, entro il quale, con un prefissato livello di probabilità (fiducia), si può ritenere che un parametro, descrittivo della distribuzione della popolazione (media), cada.

Si parla di stima per intervalli della media; infatti, anche la media campionaria può essere considerata una stima della media della popolazione, tuttavia si tratta di un unico valore e si parla dunque di stima puntuale; costruendo un intervallo, si definisce invece una fascia di valori e si parla dunque di stima per intervalli.

L’intervallo fiduciario per la media è dato dalla seguente espressione (con media della popolazione distribuita normalmente):

il livello di fiducia associato a tale intervallo è (1-)%. m indica la media campionaria, s la deviazione standard campionaria, n la numerosità del campione.

n

stm

n

stm

nn

2

1,12

1,1


Nel caso quanto visto venga applicato alle misure si ha:

• se la valutazione sperimentale è stata condotta con cura in modo tale da evitare effetti sistematici ed incidenti di misura, allora la popolazione delle possibili misure si può ritenere distribuita normalmente, in quanto agiscono solo effetti di tipo casuale;

• per la media di tale popolazione si può dunque effettuare una stima per intervalli secondo la relazione riportata in precedenza;

• l’intervallo fiduciario a livello di fiducia (1-)% può essere anche scritto nella forma seguente:

21,1

n

s

i

si

tkn

skmL

n

skmL

LLtendenza centrale

dispersione


Assumendo che il “valore vero” attribuibile al misurando come misura esista, esso può essere considerato coincidente con ; la misura è ottenibile attraverso la stima per intervalli vista ed è dunque data da:

dove:

m rappresenta il valore di misura, k·u è l’incertezza di misura associata. Per definire la misura è necessario corredare con la opportuna unità di misura.

Quanto detto vale con il livello di fiducia (1-)% prestabilito.

ukm

n

su


Procedura di analisi dei dati sperimentali

• I dati vengono raccolti e presentati in forma tabulare oppure, preferibilmente, grafica (attraverso un istogramma);

• a partire dai dati sperimentali è possibile stimare una media campionaria ed una deviazione standard campionaria;

• la media campionaria e la deviazione standard campionaria servono a stimare media e deviazione standard della popolazione dei possibili valori di misura, che, se si considera l’assenza di incidenti di misura e di effetti sistematici, deve essere normale.


• Il discostarsi della distribuzione dei dati sperimentali, rappresentata dall’istogramma, dalla distribuzione teorica (la normale costruita su media e deviazione standard campionarie) indica la presenza di incidenti di misura ed effetti sistematici, che devono essere localizzati ed eliminati. Il processo è iterativo perché la media e la varianza campionarie dipendono dai valori che costituiscono il set di dati analizzato (che risulta anche dalla presenza di effetti incidentali e sistematici).

Risultati sperimentali

Rappresentazione su istogramma

Valutazione di tendenza centrale e dispersione

Definizione dei parametri della distribuzione

teorica normale associata

Individuazione degli incidenti di misura e loro

esclusione

Individuazione degli effetti

sistematici e loro correzione

Distribuzione normale???

Set di dati su cui operare...

NO

SIAnalisi degli effetti sistematici Principi di esclusione

Media e varianza campionarie


Controllo di normalità (di una distribuzione sperimentale)

• Test del

- Si definisce un livello di fiducia (1-)% a cui accettare l’ipotesi che i dati sperimentali raccolti siano distribuiti normalmente (la popolazione delle possibili misure sia distribuita normalmente).

- Si può definire una variabile casuale W secondo la seguente relazione:

n

i i

ii

ft

ftfsW

1

2)(

dove: sono state considerate n classi nella quali i dati sono raggruppati; fsi rappresenta la frequenza assoluta con cui i dati sperimentali cadono nella i-esima classe; fti rappresenta la frequenza assoluta prevedibile teoricamente con cui i dati cadono nella i-esima classe.

- W è distribuito secondo la distribuzione 2 di Pearson.


- Come detto, i dati teoricamente dovrebbero essere distribuiti normalmente secondo una distribuzione normale avente media stimata dalla media campionaria e varianza stimata dalla varianza campionaria, stimate a partire dai dati sperimentali. Nota tale distribuzione è possibile calcolare per ogni classe i-esima il valore di frequenza assoluta attesa fti e dunque il termine i-esimo

- La somma dei contributi i-esimi relativi alle m classi fornisce il valore di W. Si deve verificare che tale valore sia compreso tra due limiti dati per una variabile casuale distribuita secondo la distribuzione di Pearson che descrivano un campo con probabilità associata pari a (1-)%.

- La distribuzione di Pearson è parametrizzata rispetto al numero di gradi di libertà che si considerano. Ai fini del test tale valore è dato dalla relazione:

i

ii

ft

ftfs 2)(

1 km

Numero di classi

Numero di parametri della distribuzione teorica (normale) stimati a partire dai dati sperimentali: media e varianza k=2.


- Entrando nella tabella della distribuzione di Pearson si ricavano i due valori limite:

2

21,

2

2,

SUP

INF

W

Wp

curva per g.d.l.


- Si deve verificare che:

- Se la relazione sopra è verificata, il test dà esito positivo e, dunque, con un livello di fiducia pari a (1-)%, si può accettare che la distribuzione dei dati sperimentali sia uniforme, ovvero che non vi siano dati affetti da errori incidentali e sistematici. Equivalentemente si corre un rischio pari a % che l’ipotesi di normalità per la distribuzione dei dati non valga.

- Si può applicare il test al caso precedentemente visto...

SUPINF WWW


Classe Da a z1 z2 P ft fs Wi[mm] [mm]

1 10.0000 10.0014 -1.70729 -1.16865 0.077389 3.87 8 4.4092372 10.0014 10.0029 -1.16865 -0.63 0.143074 7.15 7 0.0033023 10.0029 10.0043 -0.63 -0.09135 0.199259 9.96 8 0.3867434 10.0043 10.0057 -0.09135 0.447292 0.209063 10.45 7 1.140725 10.0057 10.0071 0.447292 0.985939 0.165251 8.26 11 0.9069586 10.0071 10.0100 0.985939 2.063233 0.142536 7.13 9 0.49234

W 7.339301n 50 Winf 0.216media 10.00453 Wsup 9.348s 0.002652m 6gdl 3alfa 5%

Il test risulta verificato con un livello di fiducia del 95% si può ritenere che i dati siano distribuiti normalmente e dunque che non vi siano sostanziali incidenti di misura ed effetti sistematici.

0

20

40

60

80

100

120

140

160

180

9.9960 9.9980 10.0000 10.0020 10.0040 10.0060 10.0080 10.0100 10.0120 10.0140

x[mm]

[m

m-1

]

Istogramma

Punti teorici

Gaussiana teorica


• Grafico di probabilità normale

Si tratta di un grafico avente in ascissa una coordinata indicativa dei valori assunti dai dati sperimentali ad in ordinata i corrispondenti valori di probabilità cumulata. Il grafico ha l’asse delle ordinate opportunamente distorto in modo tale da far sì che il diagramma della cumulata della distribuzione normale non sia una curva ma una retta (che risulta facilmente riconoscibile). Riportando i dati sperimentali su tale diagramma, nel caso in cui tali dati possano essere ritenuti distribuiti normalmente, essi giaceranno su tale retta.

Operativamente, mediante un foglio di calcolo (Excel):

- i dati vengono ordinati progressivamente in ordine crescente (ad ognuno viene assegnato un indice i);

- ad ogni dato xi corrisponde una probabilità Psi, ottenibile secondo la relazione

n

iPsi

)5.0(


- ad ogni valore di probabilità sperimentale Psi corrisponde un valore della variabile normale standardizzata z, che chiamiamo zsi;

- per ogni dato xi si calcola il corrispondente valore teorico della variabile normale standardizzata z:

con m e s rispettivamente media e deviazione standard campionaria; ad ogni valore xi corrisponde una probabilità teorica Pti;

- su di un grafico si riportano i valori di zs e di zt in funzione di x; i punti (x,zt) descrivono una retta, rappresentativa dell’andamento teorico del grafico di probabilità normale; i punti (x,zs) rappresentano l’andamento dei dati sperimentali: più tali punti approssimano l’andamento della suddetta retta più la distribuzione sperimentale è approssimabile con una distribuzione normale.

Ritornando al caso precedentemente esaminato...

s

mxz i

ti


-3

-2

-1

0

1

2

3

10.002 10.004 10.006 10.008 10.01

x [mm]

z

Cumulata teorica

Cumulata sperimentale


Principi di esclusioneAl fine di eliminare i dati che provengono da incidenti di misura si impiegano i principi di esclusione.

Gli incidenti di misura sono eventi rari, tuttavia non tutti gli eventi rari sono incidenti di misura: bisogna escludere solo i dati per i quali si riconosce la causa incidentale che li ha prodotti. I valori legati al verificarsi di eventi rari intrinsecamente presente e non attribuibili ad incidenti non andrebbero esclusi.

• Boxplot

min 1Q mediana 3Q max

IQR


- 1Q: valore superiore nel primo quartile;

- 3Q: valore superiore nel terzo quartile;

- max: valore massimo nella regione limitata superiormente da 3Q+1.5·IQR;

- min: valore minimo nella regione limitata inferiormente da 1Q-1.5·IQR;

I valori che cadono al di fuori della zona compresa fra min e max si dicono outliers (=valore erratico) e sono frutto di eventi rari. Esistono due tipi di outliers: sospetti e altamente sospetti.

min 1Q me 3Q max

IQR 3 IQR3 IQR

1.5 IQR 1.5 IQR

Outliers sospetti

Outliers sospetti

zona degli outliers altamente sospetti Outliers sospetti

Outliers altamente sospetti

)33(max;min);31( IQRQIQRQ

);33()31(; IQRQIQRQ


La definizione dei limiti sopra citati può essere spiegata secondo quanto segue…

- se i dati sono distribuiti normalmente (ovvero se non vi fossero valori ottenuti come conseguenze di incidenti) si avrebbe, per una variabile normale standard z:

1Q: z1Q= -0.6745 2Q: z2Q= 0.6745 IQR = 1.349

(1Q-1.5IQR): zLIMINF-1.5= -2.698 (3Q+1.5IQR): zLIMSUP+1.5= 2.698

(1Q-3IQR): zLIMINF-3= -4.721 (3Q+3IQR): zLIMSUP+3= 4.721

- quindi:

P (zLIMINF-1.5<z zLIMSUP+1.5) = 99.3% POUTLIERS SOSPETTI= 0.7%

P (zLIMINF-3<z zLIMSUP+3) = 99.9997% POUTLIERS SOSPETTI= 0.0003%


• Principio di esclusione di Chauvenet

Risponde alla necessità di avere un principio che ponga dei limiti dell’esclusione al variare del numero di dati trattati. Infatti, maggiore è il numero di prove effettuate e maggiore è la probabilità che si verifichino eventi rari.

- Convenzionalmente si impone che la probabilità che si verifichi un evento raro in n prove (misure) è (dalla binomiale): ;

- Si impone che P(1) sia pari convenzionalmente al 50% , cioè che vi sia una probabilità pari a 0.5 di ottenere un evento raro su n prove;

- se si considerano due limiti, uno inferiore ed uno superiore e, dunque, due regioni a cui competono eventi rari, allora si ha:

- si individuano dunque, ipotizzando che la distribuzione debba essere normale, i due limiti impiegati per l’esclusione (mediante tabella della normale standardizzata).

pnP )1(

n

pxxPxxP SUPINF

2

%50

2)()(


Nel nostro caso…

A tale valore di probabilità corrispondono i seguenti valori per la variabile normale standardizzata:

In corrispondenza di tali valori si ricavano i corrispondenti valori di x:

005.0502

%50

2)()(

pxxPxxP SUPINF

58.2

58.2

SUP

INF

z

z

011.1058.2

998.958.2

msx

msx

SUP

INF


0

20

40

60

80

100

120

140

160

180

9.9900 9.9950 10.0000 10.0050 10.0100 10.0150 10.0200

x[mm]

[m

m-1

]

IstogrammaPunti teoriciGaussiana teoricaLIM infLIM sup

0

5

10

15

20

25

30

9.9950 10.0000 10.0050 10.0100 10.0150

x[mm]

[m

m-1

]


Nel caso vengano identificati valori che siano attribuibili ad incidenti di misura si deve procedere nei modi seguenti (in ordine di preferenza):

a - si rieseguono le misure;

b - si eliminano i dati che provengono da incidenti di misura lasciando le corrispondenti celle (nei fogli di calcolo) vuote;

c - si sostituiscono i valori riconosciuti come incidentali con il valore della media campionaria che si ottiene ad esclusione effettuata.

38

Bibliografia

• G. Barbato, Misurare per decidere, Progetto Leonardo, Bologna (Capitolo 6)

Consultazione:

• G.Vicario - R.Levi, Calcolo delle probabilità e statistica per ingegneri, Progetto Leonardo, Bologna (Capitoli 4, 7, 8)

analisi statistica dei dati sperimentali. 2 aleatorietà delle misure non si ricava un singolo...

Documents