i metodi per la qualitÁ il d.o.e

5/8/2018 I METODI PER LA QUALITÁ IL D.O.E. - slidepdf.com

http://slidepdf.com/reader/full/i-metodi-per-la-qualita-il-doe 1/320

Politecnico di TorinoFACOLTÁ DI INGEGNERIA

TESI DI LAUREA

FRANCESCO SAGLIOCCO



ii

POLITECNICO DI TORINO Facoltà di Ingegneria

Corso di Laurea in Ingegneria Gestionale

TESI DI LAUREA

I METODI PER LA QUALITÁ: IL D.O.E.

Un nuovo approccio all’analisi ealla struttura degli alias

dei piani fattoriali

RELATORIFausto Galetto

Raffaello Levi CANDIDATOFrancesco Sagliocco

Febbraio 1997



Indice

iii

INDICECAPITOLO 1. IL PROBLEMA DELLA QUALITÁ .............................................................. ........................ 6

1.1 PERCHÉ OGGI SI PARLA DI QUALITÁ ?................................................................ .......................... 6 1.2 DEFINIZIONE DI QUALITÀ ................................................. ............................................................ ... 8 1.3 IL CLIENTE OVVERO IL GIUDICE DELLA QUALITA'................................................................. 11

1.4 “MAKE IT RIGHT THE FIRST TIME”: LA PREVENZIONE...................................................... ..... 12 1.5 FMECA E AFFIDABILITÁ............................................................. ..................................................... 13 1.6 LE PERSONE E LA CULTURA VALGONO PIÚ DELLA TECNOLOGIA ..................................... 15 1.7 IL RUOLO DELL’UPPER MANAGEMENT............................................................ .......................... 16 1.8 LA QUALITÁ: UNA SCELTA CONVENIENTE .................................................... ........................... 17 1.9 LA QUALITÁ DELL’INSEGNAMENTO.......................................................... ................................. 18

CAPITOLO 2. L’APPROCCIO SCIENTIFICO ALLA QUALITÁ...................................... ........................ 14 2.1 QUALITÁ TOTALE E CERTIFICAZIONE? MEGLIO LA QUALITÀ............................................. 14 2.2 APPROCCIO SCIENTIFICO ....................................................... ........................................................ 16 2.3 LA PROFOUND KNOWLEDGE.................................................... ..................................................... 18 2.4 I METODI PER LA QUALITA' .......................................................... ................................................. 22 2.5 MBITE O MBO? ....................................................... ................................................................. ........... 23

2.6 L'IMPORTANZA DELLE DEFINIZIONI NELL'APPROCCIO SCIENTIFICO.......................... ...... 24 2.7 PERCHE' NON USARE GLI STIMATORI CORRETTI?............................................................ ....... 25 2.8 UN PÓ DI DISQUALITÁ TOTALE ................................................. ................................................... 27 2.9 CONCLUSIONI ................................................... ........................................................... ...................... 29

CAPITOLO 3. DESIGN OF EXPERIMENTS ............................................................ .................................. 30 3.1 STORIA DEL DOE........................................................ ........................................................... ............ 30 3.2 TERMINOLOGIA DOE .......................................................... ........................................................... .. 32 3.3 I 3 PRINCIPI DI FISHER ......................................................... ......................................................... ... 33 3.4 PRINCIPALI FAMIGLIE DI PIANI SPERIMENTALI.................................. ..................................... 35 3.5 GLI OBIETTIVI DELLA SPERIMENTAZIONE................................. ............................................... 36 3.6 IL DOE NELLA PRATICA ............................................................... ................................................... 38 3.7 METODI DI ANALISI................................................................ ....................................................... ... 39

3.7.1 REGRESSIONE LINEARE ....................................................... .................................................... 39 3.7.2 ANOVA........................................................... ....................................................... ........................ 41 3.7.3 ANCON................................................... ........................................................... ............................ 45 3.7.4 ANCOV................................................... ........................................................... ............................ 46 3.7.5 TRASFORMAZIONI DI VARIABILI ............................................................ .............................. 46

3.8 APPROCCIO SCIENTIFICO NELLA SPERIMENTAZIONE........................................................... . 47

CAPITOLO 4. PIANI FATTORIALI ORTOGONALI COMPLETI E FRAZIONATI ................................ 50 4.1 PIANI FATTORIALI 2n............................................................ ........................................................... . 50 4.2 I CONTRAST........................ ........................................................... ..................................................... 55 4.3 COLLEGAMENTO FRA ANOVA E ANCON.................................................................. .................. 59 4.4 TABELLA DEI SEGNI E MATRICI DI HADAMARD.............................................................. ........ 63

4.5 METODO DI YATES.................................................... ............................................................ ........... 64 4.5.1 ALGORITMO INVERSO DI YATES.......................................................... ................................. 67 4.6 PIANI FRAZIONATI 2n-p ......................................................... ........................................................... . 69

4.6.1 UN SOLO TAGLIO: PIANI 2n-1 ........................................................... ......................................... 69 4.6.2 CLASSE DI EQUIVALENZA............ ........................................................... ................................ 71 4.6.3 PIÚ TAGLI: PIANI 2n-p...................................................... ........................................................... . 72 4.6.4 TABELLA DEI SEGNI............................... ........................................................... ........................ 73 4.6.5 RISOLUZIONE DEI PIANI RIDOTTI............................. ............................................................ . 74

4.7 ATTENZIONE AI FRAZIONAMENTI ........................................................ ....................................... 75 4.8 EFFETTI E ALIAS: DEFINIAMOLI UN PÓ MEGLIO....................................................... ............... 78 4.9 FATTORI QUANTITATIVI E QUALITATIVI A PIÚ DI 2 LIVELLI.............. ................................. 81

CAPITOLO 5. PIANI FATTORIALI NON ORTOGONALI.................................................. ...................... 83

5.1 ORTOGONALITÁ: CHE CONFUSIONE! ...................................................... .................................... 83 5.2 DIVERSE RIPETIZIONI PER OGNI STATO DI PROVA ................................................................ . 86 5.2.1 ANOVA........................................................... ....................................................... ........................ 92



Indice

iv

5.2.2 UN ALTRO ESEMPIO CON 3 FATTORI............................................................. ....................... 96 5.3 PIANI DI PLACKETT-BURMAN............................................................. .......................................... 99

5.3.1 PIANI NON GEOMETRICI PB............................................................ ....................................... 101 5.4 I 3/4 DI JOHN ...................................................... ....................................................... ........................ 103

5.4.1 PIANO A 6 STATI DI WEBB .................................................... ................................................. 106 5.5 ESTENSIONE AI 3/4 DI JOHN .......................................................... ............................................... 108

5.5.1 ALTRE FRAZIONI: 3/8....................................... ............................................................... ......... 108

5.5.2 ALTRE FRAZIONI: 5/8....................................... ............................................................... ......... 109 5.5.3 ALTRE FRAZIONI: 7/8....................................... ............................................................... ......... 111 5.5.4 CONCLUSIONI ....................................................... ........................................................... ......... 113

CAPITOLO 6. ANALISI DELLA COVARIANZA E INTERPRETAZIONE GRAFICA DEI PIANIFATTORIALI.......................................... ........................................................... ........................................... 114

6.1 ANCOV: A COSA SERVE?.............................................................. ................................................. 114 6.2 INTEPRETAZIONE GRAFICA DEGLI EFFETTI DEI FATTORI E INTERAZIONI .................... 115

6.2.1 EFFETTI MEDI E MARGINALI DEI FATTORI.................................. ..................................... 116 6.2.2 L’IMPORTANZA DELLE INTERAZIONI ........................................................... ..................... 118

6.3 ESEMPIO MACCHINA - OPERATORE................................. .......................................................... 120 6.3.1 CRITICHE ALL’ANALISI DELLA COVARIANZA CHE NON USA MODELLI NONGERARCHICI..................................................................... ........................................................ .......... 125

6.4 MODELLI NON GERARCHICI .............................................................. .......................................... 126 CAPITOLO 7. METODO G: MODELLO SOVRAPARAMETRIZZATO ................................................ 131

7.1 METODO G ......................................................... ............................................................ ................... 131 7.2 TEOREMA DI GAUSS-MARKOV................................................... ................................................. 133

7.2.1 OSSERVAZIONI ...................................................... .......................................................... ......... 137 7.3 MODELLO SOVRAPARAMETRIZZATO: FUNZIONI STIMABILI ............................................. 139

7.3.1 FUNZIONI STIMABILI ................................................... .......................................................... . 140 7.3.2 ESEMPIO MACCHINA-OPERATORE........................................ .............................................. 143

7.4 MODELLO SOVRAPARAMETRIZZATO: PROCEDURA DI GALETTO (1995)......................... 150 7.4.1 TEOREMA DI COCHRAN ............................................................... .......................................... 155 7.4.2 METODO DI GALETTO IN LETTERAURA ................................................................ ............ 156 7.4.3 MODELLI NON GERARCHICI ....................................................... .......................................... 157 7.4.4 ESEMPIO CON 3 FATTORI................................................................ ....................................... 159

7.5 MODELLO SOVRAPARAMETRIZZATO RIPARAMETRIZZATO.............................................. 164 7.6 MODELLO SOVRAPARAMETRIZZATO: GLI ALIAS............................................................... ... 167 7.7 CONCLUSIONI ................................................... ........................................................... .................... 169

CAPITOLO 8. METODO G: MODELLI FULL-RANK............................................................ ................. 172 8.1 MODELLO CELL MEANS.............. ................................................................ .................................. 172

8.1.1 CELL MEANS: GLI ALIAS............................................................... ......................................... 175 8.2 MODELLO FULL-REGRESSION (FR) ........................................................ .................................... 177

8.2.1 ESEMPIO MACCHINA - OPERATORE..................................... ............................................... 180 8.2.2 MODELLI RIDOTTI ......................................................... ......................................................... . 183 8.2.3 ANALISI ORTOGONALE: “A PRIORI ORDERING”............................................................. . 188

8.3 ESEMPIO A 3 FATTORI ......................................................... ......................................................... . 189 8.3.1 QUANTI MODI CI SONO PER CALCOLARE L’EFFETTO DI A?......................................... 193 8.4 METODO DI BOX-WILSON (1951) ................................................... .............................................. 194

8.4.1 MODELLI RIDOTTI COL PIANO COMPLETO........... ............................................................ 198 8.5 METODO DI BOX-WILSON APPLICATO A PIANI RIDOTTI IRREGOLARI............................ 201

8.5.1 PIANI NON GEOMETRICI DI PLACKETT-BURMAN........................................................... 202 8.5.2 FRAZIONI IRREGOLARI: 3/8 ........................................................ ........................................... 204 8.5.3 FRAZIONI IRREGOLARI: 5/8 ........................................................ ........................................... 206 8.5.4 FRAZIONI IRREGOLARI: 3/4 (JOHN) ..................................................... ................................ 209 8.5.5 FRAZIONI IRREGOLARI: 7/8 ........................................................ ........................................... 211

8.6 MISURA DELLA NON ORTOGONALITÁ................................................................ ...................... 212 8.6.1 MISURIAMO LA NON ORTOGONALITÁ DEGLI ESEMPI FATTI ...................................... 215

8.7 ALTRI METODI DI STIMA ........................................................... ................................................... 218 8.8 CONCLUSIONI ................................................... ........................................................... .................... 219



Indice

v

CAPITOLO 9. UNA NUOVA TEORIA..... ........................................................... ...................................... 221 SULLA STRUTTURA DEGLI ALIAS ............................................................... ......................................... 221

9.1 PERCHÉ UNA NUOVA TEORIA ? ......................................................... ......................................... 221 9.2 CONTRAST, EFFETTO, ALIAS, STRUTTURA DEGLI ALIAS .................................................... 222 9.3 TEOREMA FONDAMENTALE DELLA STRUTTURA DEGLI ALIAS.......... .............................. 225

9.3.1 DIMOSTRAZIONE .......................................................... .......................................................... . 226 9.3.2 OSSERVAZIONI ...................................................... .......................................................... ......... 228 9.4 APPLICAZIONI DELLA TEORIA ............................................................... ..................................... 230

9.4.1 FRAZIONE 3/8 ...................................................... ............................................................ .......... 231 9.4.2 METÁ IRREGOLARE............................ ................................................................ ..................... 233 9.4.3 FRAZIONE 5/8 ...................................................... ............................................................ .......... 235 9.4.4 FRAZIONE 6/8 (3/4 DI JOHN) ..................................................... .............................................. 237 9.4.5 FRAZIONE 7/8 ...................................................... ............................................................ .......... 238 9.4.6 E SE ABBIAMO DIMENTICATO UN FATTORE? ........................................................... ....... 239

9.5 SCELTA DELLA BASE....................................................... ............................................................. . 241 9.6 AGGIUNTA DI UN FATTORE PER DIMINUIRE IL RESIDUO.................................................... 244 9.7 UNA SPIEGAZIONE ALTERNATIVA AGLI ALIAS ............................................... ...................... 247

CAPITOLO 10. APPLICAZIONI SU DATI REALI....................................... ............................................ 250 10.1 QUALI METODI USIAMO?........... ........................................................... ...................................... 250 10.2 ANOVA ONE-WAY FULL-REGRESSION....................... ....................................................... ...... 251 10.3 ANOVA TWO-WAY FULL-REGRESSION............... ........................................................... ......... 256 10.4 CASO IVECO .................................................... ........................................................... .................... 264

10.4.1 ERRORI NELL’ANALISI DI FORNASIERI (1995)................................. ............................... 265 10.4.2 FULL-REGRESSION ........................................................... ..................................................... 271 10.4.3 ESPERIMENTO COMPLETO ............................................................. ..................................... 276

10.5 PIANO NON GEOMERICO DI PLACKETTT-BURMAN A 12 STATI PER 5 FATTORI........... 279 10.6 PIANO SPERIMENTALE CON 4 FATTORI DI CONTROLLO A 3 LIVELLI E 3 FATTORI DIRUMORE A 2 LIVELLI............................................................ ............................................................. .. 285

CAPITOLO 11. TAGUCHI: NOVITÁ O BLUFF? .......................................................... ........................... 292 11.1 POPOLARITÁ DI TAGUCHI ........................................................... ............................................... 292 11.2 QUALITY ENGINEERING: SYSTEM, PARAMETER, TOLERANCE DESIGN ........................ 294 11.3 LOSS FUNCTION ........................................................ .......................................................... .......... 296 11.4 OUTER E INNER ARRAY ........................................................... ................................................... 298 11.5 SIGNAL TO NOISE ..................................................... .......................................................... .......... 299

11.5.1 ON TARGET.............................. ........................................................... ..................................... 300 11.5.2 THE LARGER THE BETTER........................ ..................................................................... ...... 301 11.5.3 THE SMALLER THE BETTER ................................................................ ................................ 302

11.6 MIN LOSS FUNCTION = MAX SIGNAL TO NOISE?............................................ ...................... 303 11.7 TAGUCHI E LE INTERAZIONI ........................................................... .......................................... 306

11.7.1 3 TIPI DI INTERAZIONE ....................................................... .................................................. 308 11.8 CONCLUSIONI .................................................. ........................................................... ................... 309

BIBLIOGRAFIA............................................................ ............................................................ ................... 311



6

CAPITOLO 1

IL PROBLEMA DELLA QUALITÁ

1.1 PERCHÉ OGGI SI PARLA DI QUALITÁ ?“Mere talk about quality accomplishes little”

(Deming 1986, pag. 4)

“Quality first”, oggi la Qualità è una parola usata tantissimo: basta aprire i

quotidiani per vederla nella pubblicità, negli annunci di lavoro, in vari articoli ... i libri e le

riviste sulla Qualità si sprecano .. ma come mai tutto ciò? In molte pubblicazioni si afferma

che oggi il consumatore non guarda più solo al prezzo ma anche alla Qualità del prodotto;

a me sembra strano che 20 o 30 anni fa il consumatore non considerasse la Qualità dei

prodotti così come mi sembra molto dubbia l’affermazione di Galgano (1990) che in Italia

la Qualità si sia sviluppata solo negli anni ’80: forse prima di allora le aziende italiane non

avevano una funzione Qualità? Io penso che oggi come 20 anni fa i manager che sapevano

cosa fare ottenevano prodotti e servizi di Qualità, gli altri no; e il cliente, quando poteva,

andava da chi forniva la qualità più alta.

In realtà i problemi legati alla Qualità sono sempre esistiti, fin dai tempi degli

antichi Romani che svilupparono standard di qualità, metodi e strumenti di misurazione, e

relazioni fra cliente e fornitore per aumentare la produttività (Juran 1996). E allora come

mai questo forte interesse attuale? Secondo me ogni volta che un argomento diviene di

moda è per un motivo economico: in questo caso è stata l’aggressiva strategia di mercato

dei giapponesi che, grazie alla Qualità dei loro prodotti e alla produttività delle loro

industrie, dagli anni’60 hanno cominciato a sottrarre quote crescenti di mercato ai colossiamericani ed europei.



7

Considerando:

• che la competitività si gioca principalmente sul prezzo e sulla Qualità,

• la crescente standardizzazione e diffusione delle tecnologie,

• la saturazione pressoché totale delle economie di scala (vista la tendenza oligopolistica

dei grossi mercati)

è molto difficile ridurre i costi oltre un certo limite, quindi per aumentare la

competitività è molto più facile agire sulla variabile Qualità che sul prezzo; inoltre una

corretta politica della Qualità porta a ridurre anche gli enormi costi (par.1.8) della

disqualità (Galetto 1995), quindi è possibile abbassare i prezzi dei prodotti

indipendentemente dalla tecnologia usata o dalle economie di scala: da questo vediamo che

prezzo e Qualità possono essere 2 grandezze correlate; Juran (1988) afferma che sono stati

fatti parecchi studi per indagare questa correlazione.

I giapponesi sono stati i primi a riconoscere questi problemi grazie

all’insegnamento di Deming riguardo le carte di controllo di Shewart e la responsabilità

dell’upper management nel problema della Qualità. Deming (1986) riferisce che già nel

lontano 1942 si era cercato di diffondere i metodi statistici nell’industria americana ma che

il management non era consapevole delle proprie responsabilità per cui il controllo della

Qualità si rivelò inefficace.

Nel 1950, quando lo JUSE invitò in Giappone Deming, i giapponesi compresero

che se non avessero unito gli sforzi, questi non avrebbero avuto un impatto nazionale; la

Qualità diventò allora un problema di tutte le aziende e di tutta la nazione: “improvement

of quality became in 1950, in Japan, total”(Deming 1986); essi compresero una serie di principi sulla Qualità che verranno esposti nei seguenti paragrafi. Già nel 1950 Deming

predisse che, entro 5 anni, i prodotti giapponesi avrebbero invaso il mercato mondiale e

così fu; inoltre nel 1954 arrivò in Giappone un altro genio della Qualità, Juran, il cui

“masterful teaching” (così definito da Deming) convinse definitivamente l’upper

management giapponese riguardo la sua responsabilità verso il miglioramento della

Qualità e della produttività.

Nel 1960, grazie ad Ishikawa, nacquero i circoli della Qualità ovvero dei gruppi di

persone che lavoravano sui problemi della Qualità: in Giappone questi gruppi furono unalogica e coerente evoluzione degli insegnamenti di Deming; quando gli americani

provarono a copiarli negli anni ’70 tali circoli fallirono immediatamente perché gli alti

manager non seguivano le raccomandazioni che tali circoli davano loro. “It is a hazard to

copy. It is necessary to understand the theory of what one wishes to do or to

make”(Deming 1986, pag.129). Negli anni ’70 gli americani, che per 30 anni avevano

ignorato gli insegnamenti di Deming, lo rivalutarono visto che il suo nome era legato allo

strepitoso successo della Qualità giapponese: si crearono molte aspettative irrealistiche e si

pensò che bastasse istituire il controllo statistico della Qualità per risolvere tutti problemidelle aziende; gli americani di nuovo non capirono che la gestione della Qualità (Quality

Control) non consiste in “cookbook procedures on file ready for specific application” ma



8

piuttosto in “a philosophy that directs efforts at all levels of responsibility towards the

more effective use of the resources available to meet the needs of customers”(Deming

1986, pag.245).

Oggi Deming è considerato il principale artefice del miracolo giapponese ma forse

gli occidentali non hanno ancora compreso il suo insegnamento se è vero che l’Europa

chiude le frontiere ai giapponesi, non potendo ancora fronteggiare la loro concorrenza

(Galetto 1995). Poiché ritengo che Deming sia la figura più importante nella Qualità, nei

primi 2 capitoli faremo continuamente riferimento al suo pensiero, chiaramente espresso in

“Out of the Crisis”; le frasi di questo testo saranno riportate in lingua originale per evitare

possibili distorsioni delle idee di Deming, come è stato fatto nella traduzione italiana da

parte dell’ISVOR.

1.2 DEFINIZIONE DI QUALITÀ“La qualità ... si sa cos’è e non si sa cos’è. Grande contraddizione.

Eppure vi sono cose che hanno una qualità maggiore di altre...

Se non si può più dire che cos’è la qualità, come si può sapere che cos’è

e come si può sapere addirittura se esiste?

Se nessuno sa che cos’è, in pratica non esiste. Invece in pratica esiste”

(Pirsig 1974, “Lo Zen e l’arte della manutenzione della motocicletta”)

Seguendo l'approccio scientifico (cap.2) bisogna definire le cose fondamentali dicui si parla quindi le elucubrazioni filosofiche di Pirsig, seppur affascinanti, sono di scarso

aiuto nella gestione industriale della Qualità; dobbiamo precisare allora che cosa si intende

per Qualità. Nella letteratura troviamo varie definizioni che non fanno altro che accrescere

la confusione che si è generata sull'argomento:

• percentuale di difettosità

• conformità alle specifiche (Crosby)

• perdita generata dal prodotto dal momento in cui viene spedito (Taguchi)• affidabilità all'istante zero

• adeguatezza all'uso (Juran)

• qualcosa suscettibile di miglioramento

• zero difetti

• insieme delle caratteristiche atte a soddisfare una certa esigenza

Questi sono solo alcuni esempi; se poi elencassimo tutte le definizioni che si danno sulla

qualità totale (par. 2.1) non finiremmo più. A questo punto si capisce come sia moltoimportante dare una definizione la più completa possibile, non suscettibile ad ambiguità;

secondo me è tale quella che si trova in Galetto (1995):



9

La Qualità è

l'insieme delle caratteristiche di un sistema atte a soddisfare le esigenze

del Cliente,

dell'Utilizzatore,

della Società.

Accanto a questa definizione vi è quella che la Qualità è una scienza manageriale che

studia come le aziende possono ottenere prodotti e servizi di Qualità (secondo la prima

definizione data). Ritorniamo alla prima definizione che abbiamo dato, essa si presta ad

alcune interessanti osservazioni:

• Pochissimi autori considerano la differenza fra Utente (chi utilizza il sistema) e Cliente

(chi paga il sistema) però è innegabile che un sistema (prodotto o servizio) di Qualità

deve soddisfare le esigenze di entrambi. Inoltre quasi nessuno considera la Società dei

cittadini; ma come si può dire che un prodotto ha Qualità se provoca danno ad altre

persone? Possiamo considerare le armi (anche se molto affidabili) un prodotto di

Qualità? Io non credo ...

• Bisogna soddisfare le esigenze (esplicite e implicite) e non il cliente/utente; ad esempio

i metodi Taguchi (cap.11) soddisfano molto i clienti (aziende che li usano) che

credono di risparmiare soldi, e gli utenti (manager della Qualità) che non devono

pensare troppo per progettare le prove; ma la reale esigenza delle aziende è di

competitività e quella dei manager della Qualità è la capacità di stimare adeguatamente

la realtà: sono soddisfatte tali esigenze? Non si direbbe visto che le aziende chemagnificano i metodi Taguchi poi perdono in competitività e sono costrette a licenziare

un sacco di persone fra cui, magari, quelle del reparto Qualità che erano tanto contente

di usare i metodi Taguchi perché non dovevano pensare troppo.

• Giustamente non distingue fra prodotti e servizi (entrambi sono dei sistemi), perché,

come dice Deming (1986),“the principle that will help to improve quality of product

and of service are universal in nature" . Per brevità di notazione nel seguito si userà il

termine prodotto per indicare qualsiasi sistema.

Quali sono allora le caratteristiche dei sistemi che possono soddisfare le esigenzedel Cliente/Utente/Società? Shewart (1931) è stato il primo a porsi il problema di

quantificare la Qualità attraverso le caratteristiche di Qualità per poterla misurare e

migliorare: entra in gioco il problema delle definizioni operative (Deming 1986, cap.9). È

ovvio che non possiamo dare un elenco di caratteristiche che vadano bene per qualunque

sistema in ogni situazione; Galetto (1987) ha comunque proposto un elenco di 10

grandezze che possono andare bene per prodotti industriali; esse sono poste sugli spigoli di

un tetraedro per facilitarne il ricordo (fig.1).

E' ovvio che il peso di queste 10 caratteristiche varia a seconda del sistema che sto prendendo in considerazione: se ripensiamo alla definizione di qualità la sicurezza è



10

sempre la caratteristica più importante a meno che il sistema sia intrinsecamente molto

sicuro; invece l'estetica può essere abbastanza marginale per certi sistemi.

Figura 1: il tetraedro della Qualità (Galetto 1989b)

E' comunque molto importante, quando si progetta un sistema, stabilire con

opportune ricerche di mercato quali sono le caratteristiche che più soddisfano le esigenze

del Cliente (nel seguito si tralascerà, per brevità di notazione, l’Utente e la Società) e

decidere come quantificarle per poter misurare la Qualità del sistema. Possiamo allora

considerare la Qualità come un vettore stocastico Q con valore atteso E(Q), i cui nelementi sono i parametri riguardanti le n caratteristiche considerate.

E(Q) = (µ1, µ2, µ3, ... µi, ... µn)

ECONOMICITÁ

AFFIDABILITÁ

CONFORMITÁ

ESTETICA

DURATA

SERVICE

ECOLOGIA

PRESTAZIONI

MANUTENIBILITÁ

SICUREZZA



11

è il vettore Qualità da stimare se vogliamo misurare la Qualità dei nostri prodotti;

ovviamente a ogni caratteristica stimata sarà associato un certo intervallo di fiducia.

Possiamo considerare che la funzione utilità del Cliente cresca con E(Q) e decresca

con il prezzo quindi l’azienda può giocare sia col prezzo che con le caratteristiche di

Qualità per consentire all’utente di massimizzare la propria utilità comprando i prodotti

dell’azienda e nel contempo, facendola guadagnare in competitività; ovviamente per fare

ciò, bisogna cercare di stimare anche la funzione di utilità del Cliente, con opportune

ricerche di mercato.

A pag.180 Deming traccia il percorso che bisognerebbe seguire nel lancio di un

prodotto se vogliamo che esso sia di Qualità:

1. Progettare con Qualità il prodotto (off-line QC).

2. Produrlo e testarlo sia in linea di produzione (on-line QC) che in laboratorio.

3. Lanciarlo sul mercato.

4. Testarlo sul campo, scoprire cosa ne pensa l’acquirente e perché il non acquirente non

l’ha comprato

Questa sequenza mette in luce la giusta importanza delle prove e quindi dei metodi

statistici per effettuarle; inoltre evidenzia l’importanza fondamentale del Cliente.

1.3 IL CLIENTE OVVERO IL GIUDICE DELLA QUALITA'“The consumer is the most important part of the production line”

(Deming 1986, pag.5)

Il Cliente è il punto di partenza per fare la Qualità; come dice Feigenbaum (1991),

la Qualità è ciò che dice il Cliente, non ciò che dice l'azienda che offre il prodotto o

servizio. Senza Clienti l'azienda non avrebbe più motivo di esistere ecco perché quando

Deming (1986) descrive la produzione come un sistema mette il Cliente al primo posto; la

crescita delle aziende dipende quindi in modo sostanziale dal Clienti perché “a dissatisfied

consumer does not complain: he just switches”(Deming 1986, pag.175).

Figura 2: il sistema produzione (Deming 1986, pag.4)

Fornitori di materialie macchinari

Accettazione econtrollo dei materiali

Progetto e riprogetto

Ricerche di mercato

Controllo dei processi,macchine, metodi, costi

CONSUMATORIDistribuzione Produzione, assemblaggio, ispezione



12

La figura 2 è pensata in funzione della produzione ma il concetto dell’importanza

del cliente vale anche per i servizi: “It is customers that keep a company in business, both

in manufacturing industries and in service industries” (Deming 1986, pag.192); nel

capitolo 7 di Deming (1986) vi sono molti esempi di come applicare i suoi 14 principi del

management ai servizi, usando tecniche statistiche.

Al giorno d'oggi è invece molto di moda la catena fornitore-cliente ovvero il

concetto di cliente interno contrapposto a quello esterno (che paga con moneta buona): si

dice che se nell'azienda il reparto a monte soddisfa quello a valle, alla fine viene

soddisfatto meglio anche il "reparto" più a valle (il cliente esterno). Basta guardare alcuni

esempi in Galetto (1995) in cui la soddisfazione del cliente interno non si traduce affatto

nella soddisfazione delle esigenze del Cliente vero (esterno). In realtà la strada giusta de

seguire è che i clienti interni devono tutti decidere in funzione delle esigenze del Cliente

vero; bisogna considerare che la reputazione dell’azienda è molto più importante degli

obiettivi di budget dei vari direttori delle funzioni. Infine consideriamo che al Cliente che

compra un sistema, interessa che il sistema funzioni, non gli importano le catene fornitore-

cliente, la qualità totale, i circoli della qualità, il TQM, il CWQC, ....; al Cliente interessa la

Qualità e un Cliente onesto capisce quando c’è la Qualità e quando ciò accade ritorna ad

acquistare dall’azienda: non dimentichiamo che “profit comes from repeat

customers”(Deming 1986, pag.178).

1.4 “MAKE IT RIGHT THE FIRST TIME”: LA PREVENZIONE“if you do it right the first time, you are invisible ...

mess it up , and correct it later, you become a hero”

(Deming 1986, pag.107).

Come si fa a soddisfare le esigenze del Cliente? Bisogna sapere che cosa è la

Qualità oltre che le metodologie per realizzarla: la Qualità richiede che si prevengano gli

errori; agire con Qualità significa prevenire (concetto che solo nel 1994 è stato recepito

nelle norme ISO 9000); poiché chiunque può commettere degli errori, se questi vengonocommessi bisogna attuare le opportune azioni correttive. E' chiaro che per agire con

Qualità bisogna insegnare alle persone a ragionare logicamente con la propria testa, perché

altrimenti non saranno mai in grado di analizzare adeguatamente i problemi per prendere

delle decisioni corrette: questi concetti sono alla base del tetraedro del manager razionale

(Galetto 1995) e dell’approccio scientifico di cui parleremo nel cap.2.

Anche Deming (1986), Crosby (1986), Juran (1988) e Feigenbaum (1991)

sottolineano l'importanza della prevenzione, e oggi si può dire che anche la norma ISO ha

recepito questo messaggio ... a parole; ma nella realtà le aziende (certificate e non) cercanodi prevenire i difetti? Sanno premiare i lavoratori che agiscono in un'ottica di prevenzione?

..Io penso che sia più vicino alla realtà la frase contenuta in Deming (1986) e riportata



13

sopra: le persone che nelle aziende cercano di prevenire i problemi non sono riconosciute e

premiate; coloro che invece creano problemi e poi cercano (con successo???) di risolverli

sono considerati i migliori.

Questa enfasi attuale sui problemi porta a propagandare "I 7 strumenti della

qualità totale" , che in realtà non servono alla prevenzione e porta a dire Galgano che i

problemi sono dei tesori; la propaganda di tali concetti va nella direzione opposta a quella

della Qualità (parziale, non totale).

. Quello che abbiamo detto è riassunto nel famoso detto "you cannot inspect quality

into a product, you must build quality into a product " : ma quanti conoscono e sanno

applicare gli strumenti per progettare la Qualità nei sistemi? Come mai Ishikawa ha

esportato in occidente solo i 7 strumenti del TQC, oggi conosciuti come i 7 strumenti della

qualità totale? Con quelli non si fa prevenzione...

L’importanza della prevenzione è sottolineata in una delle 4 “verità assolute” sulla

Qualità che propone Crosby (1986):

1. La Qualità è la conformità alle specifiche,

2. La prevenzione assicura la Qualità,

3. Lo standard deve essere Zero difetti,

4. Il criterio di valutazione della Qualità è il costo della non conformità.

Secondo le definizioni che abbiamo dato e che daremo, non ci sentiamo di condividere

appieno queste “verità assolute” di Crosby perché la conformità è solo un aspetto della

Qualità, e il mitico “Zero difetti” non ha mai risolto i difetti, come possiamo aspettarci che

prevenga i guasti (Galetto 1988)? La seconda “verità assoluta” fa emergere l’importanzadella prevenzione che, secondo Crosby consiste nell’eliminare su grande scala tutte le

occasioni di errore; Crosby sembra però non considerare che non sempre si riescono a

prevenire gli errori: quando ciò accade, bisogna riconoscerli con onestà intellettuale e

spirito scientifico (Cap.2) e attuare le opportune azioni correttive. Modificando la frase di

Crosby, diciamo che la prevenzione e le azioni correttive assicurano la Qualità.

1.5 FMECA E AFFIDABILITÁ

É chiaro che per prevenire bisogna considerare tutte le fasi del ciclo di vita del

prodotto, dall'identificazione delle necessità di mercato, all'uso del prodotto da parte del

Cliente, fino a quando un nuovo prodotto sarà lanciato sul mercato.

In un ottica di prevenzione, la fase più importante è il ciclo di sviluppo (Galetto

1987) che parte con l'identificazione delle esigenze dei clienti e termina dopo il primo

anno: nelle 10 fasi elencate dall’autore bisogna cercare di testare tutte le possibili

deficienze del prodotto prima che sia lanciato sul mercato. Gli obiettivi in queste 10 fasidevono essere in linea con gli standard più alti del mercato affinché il prodotto possa

essere competitivo; gli strumenti da usare in questa fase sono la FMECA (Failure Mode



14

Effect and Criticality Analysis), le previsioni di affidabilità e il DOE; integrati con i

moderni strumenti di progettazione integrata (CAD, CAM) si possono scoprire i difetti

quando si possono correggere non spendendo ancora tanti soldi e non facendo insorgere

ulteriori problemi.

Infatti con la FMECA si identificano i modi di guasto dei vari componenti, non

scartandone nessuno a priori; per ogni modo di guasto si identifica l’effetto mettendosi

nell’ottica del Cliente. Ogni modo di guasto può avere una o più cause: esse vanno

identificate perché bisogna stabilire le opportune azioni preventive per migliorare

preventivamente il prodotto. Si individuano le combinazioni modo-efffetto-causa più

critiche, cercando di eliminarle; la FMECA serve anche ad ideare prove di affidabilità che

assicurano che le combinazioni più critiche non si verifichino sui prodotti migliorati.

Le prove di affidabilità sui prototipi sono il momento della verità aziendale; in

questo momento si verifica non solo l’affidabilità dei prodotti, ma anche l’affidabilità

dell’azienda: un’azienda affidabile non decide di proseguire se non dopo aver ottenuto, con

un adeguato livello di fiducia, gli obiettivi fissati. Bisogna quindi progettare le prove di

affidabilità così da raccogliere i dati necessari e sufficienti per prendere le decisioni

corrette: ma per progettare le prove abbiamo bisogno di una teoria sufficientemente

generale per l’affidabilità dei sistemi (Galetto 1981 e 1982).

Gli obiettivi di affidabilità vanno fissati per il sistema e poi ripartiti ai vari

sottosistemi, poi ai gruppi, fino ai componenti. La tecnica di ripartizione degli obiettivi di

affidabilità deve essere tale che l’affidabilità del sistema, calcolata mediante l’affidabilità

dei componenti, e tenendo conto delle eventuali ridondanze, soddisfi all’obiettivo dato. Ivari obiettivi di affidabilità (R(t), A(t), M(t), m(t), h(t) ...) devono essere congruenti tra

loro sia a livello di sistema che a livello di componente: gli obiettivi ripartiti ai componenti

vanno trasferiti ai fornitori perché li sviluppino con quei valori di affidabilità. Ecco come

si costruisce la Qualità dei sistemi ed ecco perché l’affidabilità è una disciplina basilare per

la Qualità (qua intesa come scienza manageriale).

Tutto ciò è perfettamente coerente con quanto afferma Deming (1986) a pag.49,

“quality must be built in at the design stage”, e a pag.50, “It is better to work on the

processes, and on equipment and on materials and components that go into your product,and on your procedures for testing these components before they go into the final product”

Bisogna quindi prevenire e migliorare i processi, il che vuol dire studiare gli effetti di

cambiamenti nei livelli dei parametri, cosa che può essere fatta pianificando gli

esperimenti in modo scientifico usando metodologie di Qualità come il DOE (Cap.3), che

consente di scoprire l’effetto dei fattori e delle loro interazioni, permettendo così

l’ottimizzazione dei prodotti e dei processi.



15

1.6 LE PERSONE E LA CULTURA VALGONO PIÚ DELLATECNOLOGIA

“Mere allocation of huge sums of money for quality will not bring quality.

There is no substitute for knowledge”


Molti pensano che per migliorare la Qualità bisogna sprecare tanti soldi , comprare

tante macchine, cambiare il personale; in realtà Deming ci dice che “the improvement took

place with the same people and with no new equipment”. Il punto fondamentale è la

formazione: gli uomini non si comprano ma vanno formati; formare le persone ed

elevarne la cultura e la capacità di logica può aiutare le aziende ad affrontare i complessi

problemi del mondo d’oggi: “è necessaria una preparazione con serio contenuto

scientifico, che abbia però l’uomo come punto di riferimento”(Galetto 1995). Dunque

Qualità è anche formazione e cultura: per ottenere comportamenti corretti e coerenti

occorre formare i manager, elevandone la Cultura della Qualità ed evitando il nozionismo

e gli slogan. Spesso invece nelle aziende il personale è bombardato di slogan:

“Zero Defects”

“Do it right the first time”

“Getting better together”

“Be a quality worker”

“Take pride in your work”

Come dice Deming, tali esortazioni sono giustissime ma sono dirette alle personesbagliate (i lavoratori) visto che la responsabilità del sistema è dei manager. “People

generally want to do the right thing, but in a large organization they frequently don’t

understand what is the right thing”(Deming 1986, pag.70). Anche Crosby (1986) dice che

non ha mai conosciuto nessuno che fosse contrario alla Qualità o favorevole ai problemi: le

persone vogliono lavorare bene se si dà loro questa opportunità.

In tutto il suo libro Deming sottolinea l’importanza che i lavoratori siano orgogliosi

del proprio lavoro: bisogna riuscire a motivare le persone perché uno che sente di essere

importante per il suo lavoro cercherà di essere sempre presente e potrà avere una parteimportante nel miglioramento del sistema. Anche Ishikawa, un altro ‘guru’ della Qualità,

enfatizza che il rispetto dell’uomo deve essere una parte integrante della filosofia

gestionale: “Employees must be able to feel comfortable and happy with the company, and

be able to make use of his capabilities and realize his potential”1.

Invece spesso avviene che i lavoratori si sentono frustrati perché accusati dal

management per colpe che invece appartengono al sistema in cui lavorano; le loro

prestazioni dipendono da un grande insieme di fattori: i colleghi, i materiali con cui si

lavora, le attrezzature, i capi, i clienti ... tutto ciò che compone il sistema. Deming sostiene1 Questa frase è riportata in Wang (1993), a sua volta ripresa dal libro di Ishikawa , “What is Total Quality

Control? The Japanese Way” (1985)



16

che il 94% dei problemi sono causati dal sistema e non dai lavoratori; Juran sostiene che il

management è responsabile del 85% dei problemi all’interno delle aziende.

1.7 IL RUOLO DELL’UPPER MANAGEMENT“Management too often suppose that they have solved their problems of quality

by establishing a Quality Control Department,

and forgetting about it”


La cosa più importante è che il management ai livelli più alti (upper) si renda conto

delle proprie responsabilità riguardo la Qualità; purtroppo i grandi capi dell’azienda sono

sensibili solo ad argomenti economici, ragionando per lo più in un ottica di breve periodo.

Ecco perché Juran (1988) dice che, quando è chiamato da un’azienda per una consulenza,

ai manager traccia sempre un analogia fra i compiti della funzione Qualità e quelli della

funzione Finanza secondo la famosa “trilogia di Juran” (1988):

1. pianificazione

2. gestione

3. miglioramento

Queste tra attività valgono tanto per la Finanza quanto per la Qualità ma in genere imanager sono più interessati al primo elemento se non gli si fa toccare con mano gli

elevati risparmi nei costi della disqualità (par 1.7).

Il coinvolgimento dell’upper management è fondamentale: quando Deming venne

negli anni ’50 in Giappone incontrò direttamente i manager delle più grandi compagnie

giapponesi; solo così fu possibile implementare un controllo statistico di Qualità nelle

aziende nipponiche; Deming stesso riferisce che si era cercato di fare ciò anche in America

e già nel 1942 ma il management non fu sufficientemente coinvolto e il programma fallì.

I manager, per affrontare adeguatamente il problema della Qualità, devonoconformarsi ai principi del “tetraedro del manager razionale” (Galetto 1995), acquisendo la

capacità di decidere in condizioni di incertezza pensando alle conseguenze delle loro

decisioni nel lungo periodo (cap.2). La direzione dell’azienda deve imparare a premiare

coloro che agiscono per prevenire i problemi (non chi li crea) e incentivare chi vuole

imparare e impegnarsi seriamente, deve capire che lo scopo ultimo dell’azienda è la

continuità del lavoro per se stessa e per i propri dipendenti.

È allora necessario una “cultural revolution in management”, ma quando avverrà?

“The question may not be when, but whether”(Deming 1986, pag154).



17

1.8 LA QUALITÁ: UNA SCELTA CONVENIENTE“The only survivors will be companies with

constancy of purpose for quality, productivity, and service”


È l’argomento con il quale si può sperare di fare breccia nel cuore dell’upper

management; infatti Feigenbaum sostiene che, eliminando i costi della cattiva Qualità, si

può risparmiare fra il 15% e il 40% dei costi totali di produzione; Crosby afferma che le

aziende di produzione spendono il 20% del loro fatturato facendo cose sbagliate e

ripetendole mentre le società di servizi spendono il 35% del fatturato per le stesse ragioni;

anche Galetto afferma che i costi della disqualità sono una miniera d’oro.

Galetto (1989b) asserisce che vi sono prove inconfutabili che la Qualità rende a che

la disqualità è un lusso costoso per le aziende: i manager devono imparare a considerare il

costo integrale del prodotto che deve anche comprendere la perdita di un cliente per la

scarsa qualità del prodotto. In un indagine della Pims è risultata una forte correlazione fra

Qualità dei prodotti e ROI delle aziende; le aziende di successo hanno conquistato il

mercato puntando sulla Qualità, riducendo quindi gli sprechi all’interno dell’azienda e

spuntando prezzi superiori alla concorrenza meno qualificata.

Molti pensano che sia incredibile che un’alta Qualità comporti costi minori e una

maggior produttività: ciò è possibile perché si riducono gli scarti e le rilavorazioni durante

il processo produttivo, si risparmia sul controllo di accettazione dei prodotti forniti oltre a

tagliare le spese di garanzia. Galetto (1989b) sostiene che, ridurre anche solo della metà icosti della disqualità è equivalente ad incrementare le vendite del 10% all’anno. Tutto ciò è

perfettamente coerente con la reazione a catena profetizzata da Deming e Shewart,

conseguente all’aumento della Qualità:

Figura 3: reazione a catena provocata dal miglioramento della Qualità (Deming 1986, pag.3)

Anche la Teoria dei Giochi (Rasmusen 1993) predice, utilizzando il teorema Folk,

che la strategia vincente per un’impresa è produrre beni di elevata Qualità, perché può

Migliori la Qualità

I costi diminuiscono per il minor numero di rilavorazioni, di errori,ritardi ed ostacoli oltre che per un

miglior uso dei macchinari e deimateriali

La produttivitàaumenta

Conquisti il mercatocon Qualità migliore eun prezzo più basso

Continui a produrre Crei sempre più lavoro



18

venderli a un prezzo elevato per molti periodi; inoltre i consumatori si rifiuteranno di

acquistare da un’impresa che abbia prodotto anche una sola volta beni di bassa qualità; il

prezzo di equilibrio è tale da dissuadere l’impresa a sacrificare i profitti futuri in cambio di

una congiunturale e non ripetibile successo di vendite derivante dall’inganno, ovvero

vendere a un prezzo alto beni di bassa qualità. Pur con tutte le limitazioni della Teoria dei

Giochi e l’uso di un modello molto semplificato, il risultato è comunque indicativo del

fatto che la Qualità è una scelta vincente.

1.9 LA QUALITÁ DELL’INSEGNAMENTO

Abbiamo detto che Qualità è anche cultura e formazione: per questo motivo ci

sembra impossibile che lo sviluppo futuro della qualità possa prescindere da un sistema

scolastico (in particolar modo universitario) di Qualità e quindi da professori di Qualità.

Il passo che segue, tratto da Deming (1986, pag.173), mi pare molto eloquente per

quanto riguarda la Qualità dell’insegnamento perché fa capire che spesso quelle persone

che sono tanto osannate pubblicamente, in realtà non aggiungono nulla di veramente

importante alla nostra conoscenza, anzi a volte insegnano delle cose errate perché non

hanno compreso i principi base di ciò che spiegano; d’altro canto ci sono alcuni insegnanti,

che magari sono ritenuti scadenti, ma che invece sono in grado di aprire la mente dei

propri studenti: essi non insegnano semplicemente delle formule ma trasmettono una

“forma mentis” che mette gli studenti in condizione di affrontare adeguatamente i problemi che troveranno nella pratica.

“The first requisite for a good teacher is that he have something to teach. His aim

should be to give inspiration and direction to students for further study. To do this, a

teacher must possess knowledge of the subject . ...

In my experience, I have seen a teacher hold a hundred fifty students spellbound, teaching

what is wrong. His students rated him a great teacher. In contrast, two of my own greatest

teachers in universities would be rated poor teachers on every count. Then why did peoplecome from all over the world to study with them, including me? For the simple reason that

these men had something to teach. They inspired their students to carry on further

research. They were leaders of thought -by name, Sir Ronald Fisher in statistics ... and Sir

Ernest Brown ....”



14

CAPITOLO 2

L’APPROCCIO SCIENTIFICO ALLA QUALITÁ

2.1 QUALITÁ TOTALE E CERTIFICAZIONE? MEGLIO LAQUALITÀ

“experience alone, without theory,

teaches management nothing about what to doto improve quality and competitive position, nor how to do it”


Nel primo capitolo abbiamo visto che la Qualità rappresenta un problema

importante che l’upper management deve in qualche modo affrontare se non vuole che

l’azienda perda in competitività. Come? Ci sono varie strade, non tutte ugualmente

efficaci; ne elenco alcune:

• mandare i manager ai convegni sulla qualità totale sperando che tornino con la formula

magica per risolvere i problemi dell’azienda,

• acquistare i libri sulla qualità totale, metterli nella biblioteca dell’azienda e non

cambiare i sistemi e i metodi di gestione,

• andare da un consulente esperto di ISO 9000 e spendere un sacco di soldi per farsi

certificare da qualche società, ritenendo che la certificazione assicuri automaticamente

la Qualità

• seguire ciecamente le idee di qualche guru della Qualità, come i 14 punti di Deming, la

trilogia di Juran, i 14 punti e le 4 verità assolute di Crosby, il TQC di Feigenbaum, il

CWQC di Ishikawa o la loss function di Taguchi



2 - L’Approccio Scientifico alla Qualità

15

• iniziare a ragionare con la propria testa, usando la Logica con onestà intellettuale (par.

2.2): “Ben poche cose in grado di sostituire l’intelletto umano per sviluppare idee,

metodi, strumenti...”(Galetto 1995).

Alla fine del capitolo sarà chiara la strada da seguire.

I primi 2 approcci sono ovviamente da rigettare perché la qualità totale (pessima

traduzione di Total Quality Control , un concetto ideato da Feigenbaum nel 1961, la cui

traduzione corretta è gestione totale della Qualità), oggi come oggi è a uno stadio di

confusione totale. Soprattutto non si capisce dalle varie pubblicazioni se la qualità totale è

un attributo del prodotto o del servizio oppure è un approccio manageriale alla Qualità; se

è un attributo del prodotto bisognerebbe specificare la differenza fra Qualità (definita nel

cap.1) e qualità totale: la Qualità è la soddisfazione delle esigenze del Cliente, cosa può

aggiungere a ciò la qualità totale? Finora non ho letto nulla su questa differenza nelle varie

pubblicazioni sulla qualità totale.

La norma ufficiale europea ISO 8402 dice in una nota che il Total Quality

Management è talvolta chiamato Total Quality: io ritengo che questa sia la definizione

ufficiale di qualità totale; purtroppo non ho mai visto nessuna pubblicazione sulla qualità

totale citare la norma.

La conferma che qualità totale è un sinonimo di gestione totale della Qualità viene

da Feigenbaum (1991), l’inventore del concetto TQC; egli, nella terza edizione (1986) e

nella terza edizione revisionata (1991) del suo libro originale Total Quality Control (1961)

usa indifferentemente total quality e total quality control; ciò è molto strano perché

l’autore si preoccupa di dire (pag.26) che usa:• total quality control

• quality control

indifferentemente. Si preoccupa di dire (pag.108) che usa:

• total quality system

• quality sistem

indifferentemente ma da nessuna parte c’è scritto che:

• total quality control

• total qualitysono equivalenti; ciò si capisce solo implicitamente, perché le pagine dove l’autore usa

total quality, nell’indice analitico sono richiamate sotto la voce total quality control; inoltre

nella prefazione Feigenbaum esordisce con la frase "Since its original presentation in this

book (1961 n.d.a.) total quality has become increasingly widely recognized ..." . Io però

ritengo che un libro di Qualità dovrebbe essere chiaro riguardo le definizioni e di fatto

total quality non è definita in alcun modo nella terza edizione revisionata (1991): questa

mancanza di chiarezza da parte di Feigembaum è un esempio lampante di disqualità.

Notiamo che non bisogna comunque considerare negativo tutto ciò che è qualitàtotale: P.W.M. John, un grandissimo studioso del DOE, nel 1990 ha pubblicato un ottimo




16

libro dal titolo Statistical methods in Engineering and Quality Assurance, in cui definisce

subito la total quality:

“Total quality means total dedication to quality by entire company, from CEO down to the

employee who sweeps the corridors”

John (1990) chiarisce dunque subito che intende la qualità totale come un approccio

manageriale; Galetto (1996), commentando la definizione riportata sul libro di John, fa

giustamente notare che allora il Cliente può comprare la Qualità ma non può comprare la

qualità totale.

Concludiamo il discorso sulla qualità totale dicendo che essa non rappresenta

niente di negativo purchè sia definita chiaramente: il fatto che la locuzione derivi da un

errore di traduzione non mi sembra particolarmente rilevante perché il linguaggio è spesso

andato avanti per errori; però l’approccio scientifico che intendiamo seguire (par. 2.2)

richiede che si definiscano chiaramente i concetti di cui si parla.

Per quanto riguarda la certificazione mi baso sui concetti espressi in Galetto (1995)

ma credo che chiunque sia intellettualmente onesto possa condividerli; infatti la

certificazione è l’attività con cui un ente “accreditato” attesta con un documento ufficiale

che un entità soddisfa i dettami stabiliti dalla norma: chiunque però può capire che, se la

norma ha scarsa qualità, la certificazione attesta la scarsa qualità, dunque non è certo la

certificazione che provoca un miglioramento della Qualità. Anche Juran ripete questo

concetto da anni e anni a tutti convegni europei sulla Qualità eppure i certificatori si

moltiplicano; recentemente ho letto un articolo di una società di consulenza che afferma

che la Qualità di un prodotto è la logica conseguenza dell’applicazione delle norme:chiunque può capire l’assurdità di una simile affermazione.

Se la qualità totale e la certificazione non sono di grande aiuto per affrontare i

problemi connessi alla Qualità, cosa dobbiamo fare? Seguire l’approccio scientifico alla

Qualità.

2.2 APPROCCIO SCIENTIFICO

"Ut semper dicenda ex dictis pendeant" (Galileo, De motu 1590)

Usare l'approccio scientifico nei problemi della Qualità vuol dire principalmente

usare la Logica ovvero la scienza che consente di condurre correttamente i ragionamenti:

le conclusioni devono dipendere dalle premesse e non si devono supporre vere le cose

ancora da dimostrare. Una volta arrivati a delle conclusioni, ovvero a delle decisioni

bisogna pensare alle loro conseguenze, sempre nell'ottica di prevenire e correggere i

problemi; questi sono i concetti alla base del tetraedro del manager razionale e del MBITE(Galetto 1995) di cui parleremo nel par. 2.5.




17

Galileo è stato uno dei primi a sostenere che si poteva sperare di capire le leggi

dell’universo attraverso l’osservazione del mondo reale; egli è considerato il fondatore del

metodo scientifico sperimentale, che consiste:

• nel ragionamento condotto logicamente

• negli esperimenti per confermare le deduzioni logiche,

in una continua iterazione fra teoria e pratica (par. 3.8). Se gli specialisti della Qualità

usassero questo approccio, impiegherebbero poco a capire gli enormi rischi connessi

all'uso dei metodi Taguchi (cap.11): usando la Logica è facile far cadere in contraddizione

i sostenitori di tali metodi; chi cade in contraddizione logica deve ammettere il proprio

errore se è intellettualmente onesto. Usare l’approccio scientifico vuol semplicemente

dire saper giustificare logicamente le proprie affermazioni senza dire: “è così perché l’ha

detto il tal dei tali” oppure “il metodo funziona perché funziona”; le affermazioni si

giustificano logicamente se esse sono costruite su una solida teoria di base: ecco perché il

famoso psicologo Lewin, già negli anni ’40, affermava che “la miglior cosa pratica è una

buona teoria”.

Chiunque può commettere degli errori di logica come chiunque può entrare nel

ciclo vizioso della disqualità (Galetto 1995):

Figura 3: il circolo vizioso della disqualità

La cosa importante è ammettere di essere entrati nel circolo vizioso e adoperarsi per uscirne. In proposito mi paiono molto eloquenti le parole del grande scienziato S.

Hawking (“Dal Big Bang ai buchi neri”, 1988 ): “Che cosa si deve fare quando si scopre di

aver commesso un errore...?Alcuni non ammettono mai di avere sbagliato e continuano a

trovare argomenti nuovi, a volta contraddittori fra loro, per sostenere la loro causa....Altri

affermano di non avere mai sostenuto realmente la teoria sbagliata...A me pare molto

meglio e molto più chiaro ammettere in una pubblicazione di avere sbagliato”.

Notiamo che nel circolo vizioso, mentre la presunzione è sempre da condannare,

l'ignoranza non è un male di per sé: essa è uno stato necessario della natura umana e non provoca danni se è accompagnata dall'onestà intellettuale. “Intellettualmente onesto è

chiunque, per radicato senso della giustizia, valuta obiettivamente i fatti rifiutando di

IGNORANZA

IGNORANZA

PRESUNZIONEPRESUNZIONE




18

distorcerli, ma invece utilizza le capacità intellettive per ricercare la realtà”(Galetto

1995).

Galetto (1995), grande sostenitore del metodo scientifico, parte da 2 principi

fondamentali:

F1:

La realtà esiste,

indipendentemente dalla capacità umana di accettarla o di riconoscerla.

F2:

La variabilità si manifesta

in tutti i fenomeno studiati dall'uomo, sempre

Il primo principio è indiscutibile però va usato con molta cautela perché la

percezione della realtà è necessariamente soggettiva e selettiva: nessuno potrà mai dire che

ha ragione in nome del principio F1; esso però fa capire 2 cose importanti:

• non tutti possono avere ragione su un determinato argomento, se partono dalle stesse

premesse,

• la verità di un'affermazione non dipende dal numero di coloro che la sostengono.

Il principio F1 sarà dunque spesso richiamato nella tesi, relativamente a dei concetti che mi

sembrano assoluti ed oggettivi.

Il secondo principio ha una grandissima utilità teorica e pratica perché sanciscequale deve essere la principale preoccupazione della management: sapere riconoscere,

interpretare e trattare la variabilità insita in ogni fenomeno naturale; è questa la profound

knowledge di Deming.

2.3 LA PROFOUND KNOWLEDGE“understanding of variation , special causes and common causes,

and the necessary to reduce constantly the variation from common causes,

is vital”(Deming 1986, pag.136)

Capire la variabilità dei fenomeni: ecco il compito fondamentale dei manager,

perchè capita la variabilità, si riesce a ridurla e come conseguenza si ha la diminuzione dei

costi e l'aumento della produttività: tutto ciò fu profetizzato 70 anni fa da Shewart; ai

giorni nostri è invece diffusa la convinzione che sia stato Taguchi a inventare queste ideedi riduzione della variabilità: è una convinzione errata.




19

Usando la Logica abbiamo scoperto che la variabilità esiste sempre; “We are

working, whether we like it or not , in the presence of variability”(John 1990); per trattarla

in modo scientifico abbiamo bisogno:

• della Statistica (vedere Galetto 1995, per i vari significati del termine) per progettare le

prove che consentono di stimare la realtà

• del Calcolo delle Probabilità che ci consente di misurare il grado di incertezza.

Per Statistica qui intendiamo l'insieme dei metodi, ricavati teoricamente, che consentono di

prendere le decisioni, in modo razionale, quando si è in condizioni di incertezza e di

variabilità dei dati.

Prima di Shewart, nell'industria si faceva il controllo sui pezzi, dividendoli in buoni

(dentro le specifiche) prodotti e quelli cattivi (fuori dalle specifiche) ma questo controllo

non aiutava il produttore a produrre dentro le specifiche né lo aiutava a scoprire le cause

della non conformità di alcuni prodotti.

Figura 4: conformità alle specifiche

Inoltre, se non erano prodotti abbastanza pezzi "buoni", per soddisfare la domanda,

venivano venduti anche i pezzi "cattivi", rilassando le specifiche; questo circolo vizioso

aveva oscurato il problema centrale della produzione, che era la riduzione della variabilità:

“Variation always creates costs. This fact has been obscured by our accounting systems

and ignored by manufacturers for years, yet it is still true” (Wheeler 1988) . Se le

dimensione dei pezzi fossero state quasi identiche, non ci sarebbe stato bisogno di

preoccuparsi di distinguere fra pezzi buoni e cattivi; non sarebbe più stata necessarial’ispezione al 100%, e sarebbero diminuiti moltissimo gli scarti e le rilavorazioni.

Ma ciò era possibile solo attraverso un attento studio delle sorgenti di variabilità

in un processo: Shewart fu il primo a rendersi conto di questi problemi, inventò il concetto

di "control" (non è un semplice controllo, ispezione, è anche legato alla gestione) e

sviluppò un modo semplice di classificare la variabilità di un processo.

Shewart pensava che la variabilità entro certi limiti fosse dettata dal caso, e al di

fuori di tali limiti fosse provocata da una sorgente identificabile ovvero assignable; vi è

quindi una:

• variabilità controllata, stabile nel tempo, dovuta a molti fattori, che insieme danno un

effetto in genere piccolo, che Shewart attribuisce al caso,

Limiti dellespecifiche

Pezzo buonoPezzo cattivo Pezzo cattivo




20

• variabilità incontrollata, instabile nel tempo, dovuta a un fattore assignable, che

provoca un effetto consistente.

Da questa classificazione possiamo capire che vi sono 2 vie per ridurre la variabilità a

seconda della natura che ha:

• se è controllata bisogna cambiare il processo (ricorrendo ai piani fattoriali, all’EVOP,

al RSM e altre tecniche DOE che vedremo nel cap.3)

• se è incontrollata bisogna rimuovere le cause identificabili di variazione, cercando di

portare il processo a uno stato di variabilità in controllo.

Shewart, quindi, già negli anni ’20 capì che era errato trattare la variabilità come in

Fig. 2 e che si sarebbe ottenuto un miglioramento tanto maggiore, quanto più si riduceva

la variazione dal valore nominale del pezzo: come si vede è lo stesso concetto della “loss

function” di Taguchi; invece i ‘taguchiani’ Byrne e Shin Taguchi in un articolo (1987),

premiato come “best technical paper”, dicono che prima di Taguchi, si ragionava come

nella Fig. 2; l’affermazione è falsa: basta leggere Shewart (1931).

È vero però che queste idee rimasero per lungo tempo ignorate dall'industria: basti

pensare che le carte di controllo sono state rispolverate solo ultimamente come uno dei 7

strumenti della qualità totale; il grande Deming, che lavorò con Shewart alla Western

Electric, fu uno dei pochi che ne comprese l'uso e la grande potenza; nel par 1.1 abbiamo

visto che egli provò a diffondere le tecniche di Shewart e i metodi statistici nell'industria

nord-americana senza riuscirvi mentre in Giappone fu ascoltato (par 1.1).

Deming riformulò la terminologia di Shewart, mettendo in evidenza chi era

responsabile dei 2 tipi di variabilità (Deming 1986) ma non cambiando sostanzialmente iconcetti:

• cause comuni di variabilità, intrinseche al sistema di produzione; appartenendo al

sistema sono di competenza di che gestisce il sistema: il management. Questo tipo di

variabilità può essere diminuito solo attraverso un azione del management, che

modifichi il sistema

• cause speciali di variabilità, non fanno parte del sistema di produzione: possono essere

rimosse dai singoli lavoratori o supervisori di un determinato processo, ma per

identificare queste cause ci vuole sempre il management; tali cause modificanocasualmente nel tempo, media e varianza del processo.

Se il processo non manifesta cause speciali, è detto in controllo statistico e si può

prevedere, giorno dopo giorno, cosa farà attraverso la carta di controllo: la capability del

processo indica l’intervallo entro il quale ci aspettiamo che vari la grandezza di interesse

quando essa è in controllo statistico; essa è calcolata ricorrendo alla teoria statistica.

Risulta chiara quindi la critica di Deming al mitico "Zero difetti": non è sufficiente

stare dentro le specifiche; bisogna studiare i processi per tenerli in controllo statistico. I

prodotti vanno costantemente migliorati cercando le cause di variabilità ed eliminandole: èquesto il messaggio che Deming e Juran portarono ai giapponesi negli anni '50.

I manager hanno quindi davanti a loro 2 alternative:




21

• semplice conformità alle specifiche, adottato dagli occidentali

• miglioramento continuo dei processi, adottato dai giapponesi

Consideriamo però che una conformità totale alle specifiche verrà solo col miglioramento

continuo del processo, che abbiamo visto essere compito primario del management.

Per studiare i processi abbiamo 2 stati di riferimento: processo in controllo

statistico e processo che sta producendo tutti pezzi conformi; combinandoli, otteniamo 4

possibili stati che comunque non saranno mai permanenti:

1. Processo in controllo statistico che produce tutti pezzi conformi: è il caso in cui la

capability2 è compresa nella tolleranza specificata dal produttore.

2. Processo in controllo statistico che produce alcuni pezzi non conformi: bisogna

cambiare la media o la dispersione del processo oppure cambiare le specifiche se il

Cliente è d'accordo; interventi sporadici sul processo per rientrare nelle specifiche sono

assolutamente deleteri e rischiamo di portare il processo fuori controllo, “Specification

limits are not action limits”(Deming 1986, pag.334).

3. Processo fuori controllo statistico che produce tutti pezzi conformi: per definizione di

processo fuori controllo abbiamo delle cause identificabili il cui effetto può essere

pensato in termini di cambiamento casuale della media e varianza del processo

produttivo; è quindi uno stato assolutamente temporaneo, che presto porterà allo stato

4.

4. Processo fuori controllo statistico che produce pezzi non conformi: è uno stato di caos;

se si prova a modificare il processo gli effetti sono comunque temporanei perché le

cause speciali continuano a cambiare il processo. Prima bisogna eliminare le causespeciali per portare in controllo il processo e poi si può iniziare a cambiarlo per

rispettare le specifiche.

Ogni processo appartiene a uno di questi 4 stati ma abbiamo detto che sono temporanei

perché c'è sempre una forza universale che tende a portare dallo stato 1 allo stato 4:

l'entropia, che causa deterioramento, usura, rotture e difetti.

Ogni processo va naturalmente e inevitabilmente verso lo stato del caos: se

vogliamo fronteggiare questo effetto dobbiamo conoscere gli effetti dell'entropia sul

processo e ripararci da essi, dobbiamo in altre parole migliorare costantemente il processo. Ma il processo può essere migliorato solo se è in controllo statistico dunque le

cause speciali costituiscono un ostacolo al miglioramento.

Riassumendo, se vogliamo tendere allo stato 1, bisogna saper riconoscere sia gli

effetti dell'entropia che tende a portare nello stato di caos, sia la presenza di cause speciali

che costituiscono una barriera al miglioramento: ciò può essere fatto usando le carte di

controllo e in generale i metodi statistici. “Without statistical methods, attempts to improve

a process are hit or miss, with results that usually make matters worse” (Deming 1986,

pag.20).

2 In Wheeler et al.(1990) viene anche chiamata natural tolerance.




22

2.4 I METODI PER LA QUALITA'“Hopes without a method to achieve them will remain mere hopes”


Nel capitolo precedente abbiamo chiarito che la variabilità esiste sempre e quindi

va trattata con metodi statistici; per una panoramica completa sull'argomento si può vedere

Galetto (1995): in questa sede ci limitiamo a richiamare l'importanza degli stimatori e dei

relativi intervalli di fiducia, invitando il lettore a leggere con spirito critico i metodi che

vengono spacciati per corretti ma che non sono dimostrati.

Altri metodi fondamentali sono i piani di campionamento, le carte di controllo, le

tecniche di affidabilità (Galetto 1981 e 1982), la regressione, l'ANOVA per capire

l'influenza dei fattori e il DOE (cap.3) per progettare le prove al fine di ottenere proprio

l'informazione che serve a prendere una certa decisione; solo ultimamente si è

incominciato a dire che il DOE è molto importante nella gestione della Qualità, per lo più a

causa della propaganda di Taguchi (cap.11): chiariamo fin da subito che non è stato

Taguchi a inventare il DOE; onore a Taguchi che lo usava (pur con metodi molto

discutibili) in Giappone ma onore anche a chi aveva compreso l’importanza del DOE nella

Qualità molto prima che apparisse Taguchi in occidente.

Per decidere in modo scientifico occorrono informazioni; la quantità di

informazione raccolta non è indifferente per la bontà della decisione; bisogna pertanto

calcolare, prima di raccogliere l’informazione, quanta ce ne occorre, se vogliamo usare

l’approccio scientifico. Ogni decisione richiede che si progetti la raccolta delleinformazioni necessarie e sufficienti per la decisione; bisogna quindi effettuare le seguenti

attività:

1. la raccolta dei dati, su un campione rappresentativo della popolazione sotto indagine

2. la presentazione dei dati in forma opportuna, con tabelle e grafici

3. il processo decisionale e la previsione, con un certo livello di fiducia

4. il progetto dell'esperimento

I metodi statistici sono fondamentali per la Qualità e in proposito penso che le

aziende dovrebbero meditare sulla seguente frase: “We do not use simple methods ... if they do not suit our needs, nor do we use methods just because they are in

fashion”(Galetto 1987).

Esistono una serie di altri strumenti non statistici che servono a soddisfare le

esigenze del Cliente, quali il Quality Function Deployment, la già citata FMECA (par 1.4),

i diagrammi di Ishikawa e Pareto, il Fault Tree Analysis, l’Analisi del Valore e delle

Funzioni, tutti strumenti descritti in De Risi (1996).

In particolare il QFD è una metodologia nell’ambito del Concurrent (o

Simultaneous) Engineering (CE); il CE prevede uno sviluppo parallelo del progetto didettaglio del prodotto con lo sviluppo della Qualità, della capacità produttiva e della

capacità di supporto in esecuzione del prodotto: questo può essere fatto solo con




23

un’organizzazione e un sistema informativo apposito. L’obiettivo è ridurre il periodo di

progettazione e l’intero time to market , mettendo in parallelo il numero più elevato

possibile di attività con una visione contemporanea dei vari aspetti del progetto, in

particolare quelli qualitativi.

Il primo passo è un’analisi delle necessità del Cliente e l’individuazione dei

parametri critici con la concorrenza e ciò può essere fatto col QFD che permette di

collegare ogni bisogno del cliente alle caratteristiche di ciascun processo nel ciclo di

sviluppo del prodotto. Il QFD si applica attraverso una serie di tabelle consequenziali, che

partono dalla concezione del prodotto fino ad arrivare ai dettagli operativi della sua

produzione. A causa della sua forma la tabella è conosciuta come “la casa della Qualità”. Il

CE e il QFD sono considerati rispettivamente una metodologia e uno strumento ‘nuovi’ ma

per come sono descritti in De Risi (1996) mi sembra che i concetti di base siano molto

simili a quelli espressi in Galetto (1987 e 1988), sebbene non altrettanto formalizzati.

2.5 MBITE O MBO?

“Focus on outcome ... must be abolished”


MBO ovvero Management By Objective, gestione per obiettivi, uno degli approcci

gestionali più di moda oggi; durante uno stage all'ENEL nel 1995 ho personalmente avuto

modo di sentire che l'azienda aveva da qualche anno introdotto questo nuovo sistema digestione: gli alti dirigenti spiegavano che, mentre una volta il capo ordinava ciò che gli

altri dovevano fare e diceva come farlo adesso il capo dava degli obiettivi e i sottoposti

potevano raggiungerli come meglio credevano; non si riusciva capire perché la situazione

dovesse migliorare rispetto a prima; e se uno raggiunge l'obiettivo per caso? e se ci si

accorge che gli obiettivi sono sbagliati? Le risposte dei dirigenti furono un po’ confuse...

Anche Deming (1986), in tutto il suo libro critica il MBO, perché “a quota is

totally incompatible with never-ending improvement”(pag.71); in realtà dal sistema non si

potrà ottenere oltre la sua capability, se il sistema è in controllo statistico, mentre se non loè, il raggiungimento o meno dell'obbiettivo sarà un fatto puramente casuale. Non è che sia

sbagliato porsi degli obiettivi, anzi, a volte possono essere necessari per la sopravvivenza

dell'azienda e in quel caso bisogna attribuirgli la giusta importanza.

In generale però è rischioso pensare solo agli obiettivi: secondo l'approccio

scientifico il pilastro fondamentale è l'uso della Logica, che consente di trovare un metodo

scientifico per risolvere i problemi aziendali, quindi è sulla Logica che dobbiamo

impostare i sistemi di gestione. I metodi per raggiungere gli obiettivi sono importanti

almeno quanto gli obiettivi stessi; in questa tesi affrontiamo i metodi per progettare eanalizzare le prove, “there must be continual improvement in test methods”(Deming 1986,

pag.49).




24

Per questo motivo il MBITE, proposto da Galetto nel 1989, mi sembra un sistema

più adeguato di gestione dei problemi relativi alla Qualità, ma non solo. MBITE è

l'acronimo di Management By If Then Else, quindi pone l'accento proprio sulle

conseguenze delle decisioni prese dai manager; le conseguenze delle decisioni si

estendono all'intero Spazio-Tempo Aziendale (Galetto 1995), che comprende:

Figura 5: lo spazio-tempo aziendale (Galetto 1995)

Il concetto di gestione totale della Qualità di Feigenbaum ha a che fare con ladimensione puramente spaziale; sono in pochi coloro che mettono in evidenza la

dimensione temporale ovvero le ripercussioni future delle decisioni attuali. Solo nel 1994

il concetto di "redditività nel futuro" è entrato ufficialmente nella definizione di TQM, ma

manca ancora il concetto di conseguenze delle decisioni.

L'Approccio Integrale alla Qualità, proposto da Galetto già nel 1976, si realizza

prevedendo e gestendo le conseguenze delle decisioni nello Spazio-Tempo Aziendale.

2.6 L'IMPORTANZA DELLE DEFINIZIONI NELL'APPROCCIOSCIENTIFICO

“It would be wonderful if all managers and practitioners

were to standardize on the terminology used to describe

concepts, deeds, and meanings”

(Juran 1988, 2.13)

Nella maggior parte dei casi, gli esseri umani quando comunicano, non badano alla

precisione del linguaggio e non si preoccupano adeguatamente che il messaggio ricevuto

sia uguale al messaggio inviato; si parla troppo e si medita troppo poco, perché ascoltare

Tempo aziendale

Governo Legislazione Società

Clienti

Proprietà

ManagementPersonale

Istruzione

Fornitori

TecnologiCreditori

Spazio aziendale




25

richiede una grande disponibilità intellettuale. Il processo di comunicazione non può

funzionare correttamente se non ci si accorda sul significato delle parole del linguaggio.

Fino dal V secolo a.C. ci si accorse che per fondare una qualsiasi scienza sono

necessarie definizioni rigorose, espresse con una terminologia adeguata: l'uso del

linguaggio ordinario e di concetti definiti in modo non rigoroso, può essere fonte di

confusione e conduce, a volte, a vere e proprie contraddizioni. Il significato delle parole è

stabilito mediante le definizioni: l'insieme di tutte le definizioni formano il vocabolario con

cui si genera il linguaggio proprio della scienza che si vuole trattare.

Spero che sia chiaro, a questo punto, il motivo dell'avversione alla qualità totale:

non è definita in modo abbastanza chiaro; quella che potrebbe essere la fonte ufficiale

(ISO8402) non è mai citata nei documenti ‘qualtotalisti’.

L'argomento principale del presente lavoro sono i piani fattoriali (cap. 4) e

purtroppo ho dovuto constatare anche nella letteratura sul DOE una certa carenza riguardo

alle definizioni rigorose, anche in libri di Qualità: non deve stupire quindi che in situazione

particolari (quando mancano degli stati di prova o quando ci sono diverse numerosità)

l'analisi classica vada in crisi; spesso ci si fa prendere dalle formule e alla fine non si

esplicita il collegamento fra i numeri ottenuti da qualche metodo e le ipotesi che sto

testando. Nel cap.7 vedremo che se si vuole usare il teorema di Gauss-Markov bisogna

enunciarlo e applicarlo in forma rigorosa, altrimenti si rischia di commettere degli errori.

Le definizioni sono fondamentali: vedremo nel cap.4 che è sufficiente definire

l'effetto di un fattore in un certo modo per superare le contraddizioni logiche a cui portano

le definizioni classiche; sempre a partire da definizioni chiare e univoche vedremo che èfacilissimo spiegare il fenomeno degli Alias nei piani frazionati (Cap.4), senza ricorrere a

macchinosi artifici come la classe di equivalenza: la struttura degli Alias, descritta in modo

classico, sembra quasi un mistero e probabilmente ed è per questo che è rifiutata dagli

specialisti della Qualità.

Concludo il paragrafo invitando chiunque a seguire il messaggio di Galetto (1995),

condizione necessaria per un corretto uso della Logica: “In tutti i campi scientifici bisogna

definire i termini ed i concetti che si utilizzano, altrimenti diventa impossibile il

trasferimento delle idee e delle esperienze”.

2.7 PERCHE' NON USARE GLI STIMATORI CORRETTI?

Consideriamo uno studente in Ingegneria che alla fine del primo anno ha preso i

seguenti voti:

28, 26, 30, 29, 27

e vogliamo prevedere quale sarà la sua media alla fine dei 5 anni, (supponendo che lostudente sia e rimanga un sistema in controllo statistico); riterreste corretta una stima

ottenuta sommando i voti e dividendo per il totale per 6?




26

140/6 = 23,333

Penso di no perché a tutti sembra intuitivo che per fare la media, bisogna dividere il totale

per 5:

140/5 = 28

e in questo caso l'intuito è confermato dalla teoria statistica che asserisce che, soddisfatte

una serie di assunzioni, la media aritmetica dei voti dei 5 esami è uno stimatore corretto

del parametro "media degli esami" relativo a quello studente.

Esistono però dei casi in cui gli stimatori corretti non sono intuitivi da trovare, ad

esempio nel campo dell'affidabilità, una disciplina basilare della Qualità (par. 1.5); trovare

gli stimatori corretti per l'affidabilità richiede la comprensione della Teoria Integrale

dell'Affidabilità (Galetto 1981). Supponiamo che un manager debba decidere se lanciare

un nuovo prodotto (non riparabile) e che voglia verificare se ha raggiunto l’obiettivo di un

tasso di guasto di 1 ogni 25 ore; egli fa delle prove censurate su 10 pezzi in condizioni e

trova che 6 unità si sono guastate dopo 4, 13, 15, 16, 19 e 23 ore, mentre le altre 4 sono

state ritirate senza guasto dopo 5, 10, 15 e 20 ore.

Se il manager conosce il metodo della massima verosimiglianza e la teoria

dell’affidabilità (Galetto 1982) trova che il tasso di guasto è uguale, assumendo la

distribuzione esponenziale, al numero dei guasti meno 1 fratto la somma totale dei tempi

fino al guasto e dei tempi dei pezzi che non si sono guastati.

5/140 = 1guasto/28ore

possiamo essere abbastanza confident (fiduciosi) che l’obiettivo di 1guasto ogni 25 ore è

raggiunto (per verificarlo rigorosamente devo poi fare il test d’ipotesi, specificando illivello di fiducia).

Se, seguendo l’intuito, il manager calcola:

6/140 = 1guasto/23,3ore

stima male la realtà e deve concludere che non ha raggiunto l’obiettivo e spende3 altri soldi

inutili per cercare di abbassare il tasso di guasto: sono i costi della disqualità.

Questo risultato è assai meno intuitivo rispetto all'esempio dello studente però in

quel caso tutti condannerebbero il dividere per 6 al posto che 5; invece nell'affidabilità,

solo perché è difficile trovare il risultato corretto, non è ritenuto importante usare 5 o 6:questa disparità di trattamento è in assoluto contrasto con il metodo scientifico che

abbiamo introdotto nel par. 2.2. L'ignoranza non può giustificare i manager che non

usano gli stimatori corretti: abbiamo però detto che l'ignoranza di per sé non è un male; se

un manager della Qualità è consapevole della sua ignoranza e va in cerca dei metodi

corretti non entra nel circolo vizioso della disqualità, altrimenti ...

3 Se non vuole rischiare la reputazione dell’azienda.




27

2.8 UN PÓ DI DISQUALITÁ TOTALE

Il lettore avrà sicuramente notato i continui riferimenti al pensiero di Deming,

probabilmente la figura più importante nel campo della Qualità: mi sembra pertanto

inaccettabile che il suo pensiero venga distorto nella traduzione italiana del suo libro “Out

of the crisis”, tradotto dall’ISVOR in “L’impresa di Qualità” e che molti ‘esperti’

consiglino la lettura del libro tradotto al posto dell’originale. Citiamo qualche ‘perla’

presente nella traduzione:

• a pag.75 Deming cita una frase di Nelson in cui critica la gestione per obiettivi (MBO) e

la mancanza di un metodo; la frase non è tradotta (!!!) ... chissà che sistema di gestione

usava la FIAT...

• a pag. 132 “Analysis of variance” è tradotto con “analisi delle variazioni”;

evidentemente il traduttore non conosce la Statistica,

• a pag.133 un intero paragrafo in cui Deming critica i piani di campionamento

preconfezionati, non è tradotto (!!!): forse la FIAT usava tali piani?...

• a pag.309 si trova il concetto-chiave del pensiero Deming: “The central problem in

management ... is failure to understand the information in variation”; ovvero, come

abbiamo finora ripetuto, il management non riesce a capire l’informazione contenuta

nella variabilità.

La traduzione dell’ISVOR è invece :”Il problema centrale del management ... è

l’insuccesso nel capire le informazioni in mutamento”; al posto di tradurre “in

variation” con “nella variabilità” lo hanno tradotto con “in mutamento” quindi Demingavrebbe detto che il management non riesce a capire le informazioni che mutano (???);

mi piacerebbe che coloro che consigliano il libro tradotto mi spiegassero il significato di

questa frase perché io non lo capisco...

• a pag.335 “tests of a hypothesis” è tradotto con “dimostrazioni dell’ipotesi”; si vede che

il traduttore non conosce i test d’ipotesi che si fanno in Statistica ma non conosce

nemmeno la Matematica e la Logica: come si fa a dimostrare un’ipotesi ??? Io ho

sempre pensato che bisognasse dimostrare i teoremi, non le ipotesi...

Premetto che non ho letto tutta la traduzione dell’opera ma quel poco che ho letto e i 4esempi citati mi bastano per capire che i traduttori sapevano poco di Deming, della Qualità

e della Statistica e ho il sospetto che non fossero del tutto intellettualmente onesti (vedi

alcuni paragrafi non tradotti); non posso non estendere tale giudizio a tutti coloro che

consigliano la lettura del libro “L’Impresa di Qualità”.

Bisogna stare molto attenti a ciò che si legge sulla Qualità perché vi sono molti

‘esperti’ che fanno delle affermazioni inverosimili; Galgano (1990) dice che solo negli

anni ’80 le aziende occidentali si sono accorte che la Qualità era per loro un fattore

strategico; invece già nel 1961 veniva introdotto in America alla General Electric quelloche lui chiama qualità totale; e Galgano non sa che già negli anni ’70 Galetto predicava

l’importanza strategica della Qualità per l’azienda.




28

Mattana (1994) a pag.25, parlando di Crosby, dice che egli “ha sempre puntato

sugli aspetti motivazionali”; vediamo cosa dice invece Crosby nel suo libro (1986): “Non

ho mai pensato che si possa motivare qualcuno per più di qualche giorno”(pag.90);

“Purtroppo, il concetto Zero Difetti è stato recepito dall’industria come un semplice

programma di motivazione”(pag.121); “... aziende che volevano avere maggiori

informazioni su questo programma ‘motivazionale’. Continuavo a dire che il concetto ZD

era uno standard di lavoro gestionale ...”(pag.130). Forse Mattana ha frainteso il pensiero

di Crosby ...

Erto (1995) a pag.7 dice che Shewart, Deming, Juran, Feigenbaum e Crosby sono i

fondatori della qualità totale: ma come? Shewart avrebbe fondato la qualità totale prima

ancora che essa esistesse? In Deming (1986), in Juran (1988), Crosby (1986) non ho

trovato traccia di “qualità totale”; Feigenbaum solo dal 1986 si è convertito sia alla qualità

totale sia al diffuso costume di usare il termine senza averlo definito. Questi esempi ci

fanno capire che è meglio aprire gli occhi e ragionare con la propria testa, e non fidarsi

nemmeno delle autorità in materia della Qualità perché anche queste autorità possono fare

affermazioni molto dubbie.

Non si deve pensare che un articolo abbia un serio contenuto scientifico, solo

perché compare su una rivista conosciuta e il suo autore è un nome famoso: sull’inserto del

quotidiano “La Stampa”, “tuttoscienze” del 4/12/1996 si riporta che un fisico teorico, Alan

Sokal, per scherzo ha inviato un articolo pieno di assurdità scientifiche a una rivista di

studi sociali che, al posto di rifiutarlo, l’ha pubblicato, inconsapevole delle sciocchezze

presenti nell’articolo, come quella che i numeri complessi sono stati scopertirecentemente(!!!). Nello stesso inserto è anche riportato che un prestigioso scienziato

americano, Collins, ha dovuto ammettere che un suo studente aveva falsificato i dati di

alcuni suoi esperimenti.

Il mancato uso dell’approccio scientifico è evidente anche nella Politica, come è

sottolineato in “tuttoscienze” del 13/3/1996; se ascoltiamo i discorsi dei politici ci

accorgiamo che essi non hanno alcuna consequenzialità logica, l’esposizione delle tesi non

è chiara e infatti spesso si sente un politico fare un affermazione e, tempo dopo, il suo

esatto contrario. Non c’è da stupirsi che non si riescano a risolvere i problemi del paese...La cosa migliore è quindi dibattere scientificamente (accettando anche la possibilità

di non poter arrivare a una conclusione) ogni argomento provando le proprie affermazioni

con i fatti e non con le chiacchiere; "Ut semper dicenda ex dictis pendeant": è questo

l’approccio scientifico.




29

2.9 CONCLUSIONI“Experience without theory teaches nothing”


In questi capitolo abbiamo dunque scoperto che i problemi della Qualità non si

risolvono seguendo ciecamente le idee di chicchessia ma solo usando la propria testa. “Per

scoprire la realtà bisogna generare teorie, progettare esperimenti, acquisire ed analizzare

i dati, interpretare i risultati dopo aver definito i rischi di sbagliare usando l’intelligenza;

il modo corretto è usare il metodo scientifico, con coerenza e rigore” (Galetto 1995). Non

è sufficiente dire che vogliamo raggiungere un obiettivo: bisogna sviluppare dei metodi per

raggiungerlo e la Qualità dei metodi è fondamentale: ciò vale anche (e soprattutto) per gli

obiettivi e i problemi riguardanti il campo della Qualità.

Per sviluppare metodi di Qualità bisogna usare la Logica e la Statistica visto che la

variabilità esiste sempre in tutti fenomeni, “whether we like it or not”: l’approccio

scientifico è la via maestra per risolvere i problemi.

Ritengo che una degna conclusione del capitolo possa essere fornita dalle parole del

fisico David Ruelle (1992); in esse mi pare condensata l’essenza dello spirito scientifico:

“La riflessione scientifica seria può essere un’esperienza di grande ricchezza, ma è anche

un lavoro molto faticoso. Le idee devono essere seguite senza tregua, fino all’ossessione.

Quando si intravede una possibilità interessante, si deve cercare di precisarla e di

verificarla, cosa che conduce a volte a conservarla e più spesso a rifiutarla. Si devono

sviluppare idee generali e audaci, ma poi è necessario verificarne i particolari, ed è allora

che, per lo più, si scoprono errori disastrosi. Si deve allora riprendere la costruzione, si

devono abbandonare certe idee e risistemare in altro modo quelle che rimangono. E il

processo si ripete un giorno dopo l’altro, una settimana dopo l’altra, un mese dopo

l’altro.”




30

CAPITOLO 3

DESIGN OF EXPERIMENTS

3.1 STORIA DEL DOE

Nei primi anni del secolo la Statistica applicata ai problemi pratici aveva fatto passi

da gigante con i contributi di Galton, Pearson e Gosset che avevano introdotto

rispettivamente i concetti di correlazione, test χ2, test t; negli anni ’20 si sviluppò anchequello che ora è chiamato design of experiments (DOE), dal titolo del libro che Sir Ronald

Fisher scrisse nel 1935. Già però nel 1926 Fisher scrisse un articolo, “The arrangement of

field experiments”, in cui venivano esplicitati per la prima volta i principi di:

• randomization (casualizzazione),

• blocking (controllo),

• replication (replicazione)

• hidden replication , confounding o aliasing

Fisher, che lavorava al centro sperimentale agricolo di Rothamsted, introdusse pianisperimentali quali i quadrati latini e piani fattoriali a blocchi casualizzati per studiare gli

effetti dei trattamenti sulle coltivazioni; per analizzare i risultati introdusse l’ANOVA e i

polinomi ortogonali, per testare le ipotesi indipendentemente; inoltre già nel 1922 aveva

usato dei modelli non lineari e in seguito rimpiazzò il metodo dei momenti con quello della

massima verosimiglianza per le stime puntuali.

La grossa novità pratica che Fisher introdusse fu quella di variare nell’esperimento

più di un fattore per volta per poter capire l’azione combinata dei fattori (interazione): ciò

era in netto contrasto con le convinzioni del tempo che bisognasse interrogare la Naturacon una domanda alla volta (Box 1980), convinzione che dava luogo ai piani One Factor

At Time (OFAT), ancora oggi usati (a sproposito).




31

La fattoria di Rothamsted fu il luogo di lavoro di altri 2 grandi del DOE, Yates e

Finney; Yates, in un famoso articolo del 1934, The Analysis of Multiple Classifications

With Unequal Numbers in the Different Classes, studiò già molto approfonditamente uno

degli argomenti principali di questa tesi (i piani con diverse ripetizioni negli stati di prova)

proponendo addirittura 3 metodi di analisi, ancora oggi usati; Finney fu il primo a

formalizzare il frazionamento dei piani fattoriali nel 1945; anche ai giorni nostri prosegue

la grande tradizione della fattoria di Rothamsted col grande statistico Nelder, di cui

parleremo nel cap.6 e 7.

Nel 1946 appare su Biometrika uno degli articoli più famosi sul DOE: Design of

Optimal Multifactorial Experiments, di Plackett e Burmann, che utilizzarono la Teoria

dei Gruppi e del campo di Galois e la geometria proiettiva, per costruire una teoria

generale, basata sulle matrici di Hadamard, dei piani fattoriali ortogonali.

Dall’agricoltura si pensò che i piani sperimentali si potessero applicare anche

all’industria chimica: Box fu il pioniere in questo campo all’Imperial Chemicals Industries

e nel 1951 un suo articolo, On the Experimental Arrangement of Optimum Conditions,

segnò la nascita della cosiddetta Response Surface Methodology (RSM); nel suddetto

articolo è anche spiegato il metodo che useremo nel cap.8 e 9 per trovare la struttura degli

alias dei piani frazionati. Nel 1957 Box introduce il cosiddetto EVOP, EVolutionary

OPerations, che contrariamente ai piani fattoriali non richiede grossi cambiamenti nei

livelli dei fattori, essendo implementato su un processo già operante.

Negli anni ’60 vi furono i primi studi teorici sui piani asimmetrici (con fattori a

diversi livelli) e sulle frazioni irregolari, come i 3/4 di John, che vedremo nel cap.5; questistudi, essenzialmente teorici e basati su un’algebra piuttosto avanzata, furono condotti da

Addelman, Margolin, John e Webb.

Negli anni ’70 il libro di Searle, Linear Models, formalizza la teoria generale dei

modelli lineari attraverso l’uso del modello sovraparametrizzato (cap.7); è il libro-chiave

su cui si basano tutte le dissertazioni sui dati non ortogonali (unbalanced ), di Speed,

Hocking, Hendersson, Freund e Jennings; nel 1987 Searle fa un altro libro, il cui contenuto

beneficia di tutte le discussioni fatte in quegli anni, Linear Models for Unbalanced Data.

Negli anni ’80, grazie ad un’accurata campagna pubblicitaria e al mito della Qualitàgiapponese, si afferma prepotentemente la metodologia di Taguchi, nella progettazione e

analisi delle prove; i piani sperimentali iniziano a venire impiegati massicciamente

nell’industria dei semiconduttori, seguendo le indicazioni dell’ingegnere giapponese.

L’importanza che Taguchi dà alla sperimentazione per raggiungere gli obiettivi di Qualità

è senza dubbio positiva e tale è anche la propaganda di questo concetto; purtroppo Taguchi

propone dei metodi molto discutibili da un punto di vista statistico (cap.11) e sebbene

molti statistici di primo piano abbiano dimostrato l’inesattezza dei cosiddetti “metodi

Taguchi”, l’industria sembra continui a gradirli molto.In questa breve panoramica storica sul DOE non ho ovviamente messo in luce tutti

gli argomenti che si sono sviluppati in questo secolo perché ci vorrebbe un’altra tesi solo




32

per elencare i moltissimi studi nell’ambito dell’experimental design; sono stati evidenziati

solo quegli argomenti che saranno oggetto di discussione nella presente tesi.

3.2 TERMINOLOGIA DOE

Chiarisco subito che userò indifferentemente design of experiments e experimental

design, sebbene qualcuno usi il primo termine per indicare la disciplina scientifica e il

secondo per descrivere l’effettivo piano operativo per un dato esperimento. La

terminologia classica che si trova in letteratura è totalmente in lingua inglese per cui si

userà indifferentemente la notazione inglese e la traduzione italiana.

Abbiamo detto che gli inizi del DOE si sono avuti in campo agricolo e ancora oggi

le condizioni di prova nell’esperimento vengono definite trattamenti: più modernamente

potremmo definirli stati di prova. Uno stato di prova è dunque una particolare

combinazione di livelli che i fattori possono assumere; i fattori sono quelle variabili che si

pensa possano influenzare la risposta dell’esperimento e sono incluse nel piano

sperimentale; possiamo dividere fra:

• primary variables, che sono i fattori che più interessano e quindi devono essere

controllati e fatti variare sistematicamente

• background (o nuisance) variables, inserite per generare variabilità che possono

essere controllate (bloccate o tenute costanti) o non controllate ma misurate

(covariates). Nei metodi Taguchi (cap.11) alcuni fattori non controllabili nelle normali

condizioni operative (di uso o di produzione) vengono invece controllati ovvero variati in

modo sistematico nell’esperimento; essi vengono chiamati noise factors e sono introdotti

per cercare di capire la combinazione dei livelli dei fattori meno sensibili a questi fattori di

rumore: è questa l’importante problematica del robust design, ancora in fase di ricerca

perché i metodi di Taguchi sono molto dubbi.

Non è detto che le variabili non inserite nel piano non esercitino un’influenza sulla

risposta, pertanto bisognerebbe controllare che questi fattori non esercitino una azionesistematica non compensata: ciò è molto difficile quindi spesso viene introdotta la

casualizzazione (par. 3.3) nell’esperimento.

Se la risposta di interesse Y, che è una variabile dipendente, è un’unica variabile

casuale, l’analisi del piano è detta univariata, se è mutipla l’analisi è detta multivariata.

Scopo dell’analisi è capire se gli effetti dei fattori influenzano significativamente la

risposta ovvero se provocano una variabilità in Y superiore a quella dell’errore

sperimentale.

Per quanto riguarda i fattori essi possono essere:




33

• quantitativi, nel qual caso possono variare continuamente o discretamente; ogni fattore

potrà avere un effetto lineare, quadratico, cubico... e ognuna di questa componenti potrà

dar luogo a un’interazione con le componenti di altri fattori;

• qualitativi, nel qual caso non posso parlare di componente lineare, quadratica... ma

posso fare dei confronti (contrasts) fra le risposte ai vari livelli del fattore;

In questa tesi cercheremo di rendere sfumata la differenza fra i 2 tipi di variabile:

• considerando che gli effetti lineari, quadratici ... non sono altro che confronti fra le

risposte ai vari livelli del fattore (analogamente alle variabili qualitative),

• codificando i livelli delle variabili quantitative, analogamente a quanto è fatto con i

fattori qualitativi,

al fine di adottare un approccio unificato all’analisi dei piani sperimentali e di far vedere

che i 3 tipi principali di analisi, regressione, ANOVA e ANCOV (par. 3.5) conducono agli

stessi risultati, indipendentemente dal tipo di variabile presente nel piano.

I fattori possono essere:

• fissi, se allo sperimentatore interessa confrontare solo i livelli considerati

nell’esperimento

• casuali, se i livelli considerati nell’esperimento sono presi casualmente da una

popolazione di livelli più ampia.

I modelli con fattori fissi vengono definiti in letteratura fixed models; quelli con fattori

casuali random models; quelli con entrambi i tipi di fattori mixed models; per gli ultimi 2

tipi di modelli l’analisi è più complicata e mai completamente rigorosa: viene introdotto,

rispetto all’analisi dei modelli fissi, il problema dei variance components, che non ètrattato in questa tesi.

3.3 I 3 PRINCIPI DI FISHER

Come abbiamo detto, Fisher nel 1926 esplicitò i principi che usava nei suoi

esperimenti; il più importante e controverso fu quello di randomization, ovvero di

casualizzazione dell’applicazione dei trattamenti; Fisher usò tale principio perché l’analisi(par. 3.7) richiedeva che gli errori sperimentali fossero indipendenti fra di loro e distribuiti

normalmente ma tale condizione era (ed è) difficilmente verificabile perché le misurazioni

effettuate sono troppo vicine nel tempo e nello spazio per essere scorrelate fra loro:

l’allocazione casuale dei trattamenti, se da un lato aumenta la variabilità, fornisce una

valida giustificazione all’assunzione di normalità4 dell’errore sperimentale, permettendo

dunque l’uso dei test t, F e χ2; la randomization protegge anche contro possibili distorsioni

della stima dell’errore e degli effetti dei fattori e interazioni, perché bilancia gli effetti delle

variabili che non sono considerate nell’esperimento. La completa casualizzazione in un4 La dimostrazione di tale affermazione è in Box et al. (1978).




34

piano con molti stati di prova può essere però molto costosa per cui le esigenze

economiche possono forzare una parziale casualizzazione; in questo caso, a rigore,

bisognerebbe introdurre quello che in Lorenzen et el. (1993) è chiamato restriction error :

nella tesi non approfondiremo questo discorso. Inoltre, per piani con molti trattamenti, la

randomization stessa può indurre delle distorsioni a causa della non uniformità delle unità

sperimentali: in questo caso entra in gioco il blocking.

Il bloccaggio o controllo consiste appunto nel bloccare una variabile, solitamente di

poca importanza, cosicché all’interno del blocco l’ambiente sperimentale sia il più

omogeneo possibile per non creare distorsioni; l’effetto della variabile bloccata viene così

sottratto all’errore sperimentale. Solitamente si fa l’assunzione che la variabile bloccata

non interagisca con i trattamenti: viene dunque usato un modello additivo5 (fra trattamenti

e blocchi) nell’analisi dei risultati.

Abbiamo parlato dell’errore sperimentale o residuo: esso è dovuto

principalmente alla variabilità intrinseca del materiale, alla mancata uniformità

dell’esperimento e agli errori di misurazione (di qui l’importanza che il misuratore e lo

strumento siano congiuntamente in controllo statistico come ricorda Deming (1986) nel

cap.8 del suo libro); per cercare di diminuire questo errore bisogna ripetere le prove

(replication), il che serve anche a bilanciare l’effetto di variabili sconosciute e di fattori di

disturbo che possono agire in modo diverso da una prova all’altra; diminuendo l’errore

sperimentale, cresce la precisione delle stime e dunque l’efficienza del piano: se si riesce

ad avere un residuo molto piccolo, si può trascurare6 il fatto che gli stimatori siano un

po’ correlati fra di loro rinunciando quindi a una completa ortogonalità del piano (cap.8). Sottolineiamo che, per il principio F2, l’errore sperimentale è sempre presente in

ogni misurazione, dunque coloro che affermano di aver realizzato un esperimento con

residuo nullo, hanno capito poco dell’experimental design.

Negli esperimenti non replicati non c’è nessun grado di libertà per l’errore

sperimentale dunque bisogna fare l’assunzione (non sempre giustificata

) che qualche

effetto sia trascurabile, solitamente le interazioni di ordine più elevato, e usarle come stima

del residuo . È altresì vero che spesso nei piani completi si verifica quella che Fisher

chiamava la hidden replication, nel senso che certe interazioni sono trascurabili quindiservono in realtà meno stati di prova (rispetto a quelli del piano completo) e quelli in più

possono considerarsi una replicazione degli altri: nei piani completi tende quindi ad esserci

una sorta di ridondanza, sfruttata nei piani frazionati, per ridurre il numero delle prove.

L’ultima osservazione da fare è che nei metodi Taguchi non avvengono delle

semplici replicazioni nello stesso stato di prova perché i fattori di disturbo (noise factor)

vengono fatti variare sistematicamente (nell’outer array): nel cap.11 vedremo che questa

5 A volte tale modello può risultare inadeguato.

6 Fino a un certo punto.




35

costituisce una procedura inefficiente, come, del resto, la quasi totalità delle metodologie

propugnate da Taguchi.

3.4 PRINCIPALI FAMIGLIE DI PIANI SPERIMENTALI

Il piano più semplice è quello completamente randomizzato in cui c’è un solo

fattore i cui trattamenti vengono applicati a caso sulle unità sperimentali a caso; notiamo

che quasi tutti libri tendono a condensare una sola somma dei quadrati l’effetto dei

trattamenti: più avanti (cap. 8 e 10) sosterremo che tale somma di quadrati non mi dà

grande informazione per cui conviene sempre dividerla in somme di quadrati, riferite a

singoli confronti con un solo grado di libertà, che mettono in evidenza l’effettiva sorgente

di variazione. In pratica questo tipo di piano è usato raramente nella realtà perché è

difficile che un esperimento sia influenzato da una sola variabile indipendente.

Infatti nella realtà è molto più usato il piano a blocchi randomizzati in cui si può

sottrarre all’errore sperimentale l’effetto della variabile bloccata; all’interno di ciascun

blocco tutti trattamenti vengono applicati a caso sulle unità sperimentali a caso: se ciò non

è possibile si parla di piani split-plot; la struttura del residuo si complica notevolmente.

Se all’interno di un blocco non si possono applicare tutti trattamenti il piano è detto

a blocchi incompleti, bilanciato o parzialmente bilanciato a seconda che ogni coppia di

trattamenti appaia o meno una sola volta nei vari blocchi.

Altri piani usati, e rispolverati dai metodi Taguchi sono i quadrati latini in cuiabbiamo un solo fattore di interesse principale e 2 background variables che sono

bloccate; tali piani non prendono in considerazione possibili interazioni fra le variabili.

Una variante di questi piani è il quadrato Youden che estende il numero di variabili

trattabili (se ci sono 3 background variables è detto anche quadrato greco - latino).

Fra i piani sperimentali più usati ci sono senz’altro quelli fattoriali (o crossed),

oggetto principale di questa tesi; possono essere bloccati o meno su qualche variabile,

completi o frazionati: in questo caso si perde informazione e nasce il problema degli

Alias; se i fattori hanno lo stesso numero di livelli vengono detti simmetrici, altrimenti asimmetrici. I piani fattoriali fanno uso del principio di variazione simultanea dei fattori

cosicché si riesce a capire anche l’effetto delle interazioni fra fattori; sono molto più

efficienti dei classici piani OFAT usati solitamente dagli scienziati, in cui facendo variare

un fattore alla volta, l’effetto dei fattori è parzialmente confuso con quello delle

interazioni. Se i fattori sono quantitativi e indicano la percentuale di una miscela, c’è il

vincolo che la somma dei fattori deve essere uguale a 1: si parla allora di mixture designs.

Quando non interessa tanto studiare l’effetto assoluto di un fattore sulla variabilità

della risposta, quanto piuttosto la variabilità relativa dei fattori rispetto alla risposta,conviene “incapsulare” i fattori, nel senso che alcuni livelli di un fattore compariranno solo




36

per certi livelli di un altro fattore in una struttura gerarchica: sono i cosiddetti nested

designs.

Se i fattori possono variare in modo continuo può essere interessante costruirsi una

grafico in cui la risposta, vista come una superficie nello spazio, viene proiettata sui piani

composti dalle variabili indipendenti, a due, a due: osservando questi grafici, si riesce a

capire quali sono i punti stazionari della superficie di risposta; è questa la problematica

della response surface methodology (RSM). Quando questa metodologia è applicata su

processi già operanti in cui non si possono fare grossi cambiamenti nei livelli dei fattori

(potrebbero peggiorare la produzione), si parla allora di evolutionary operations (EVOP):

in questo modo si riesce a raccogliere informazione sul processo mentre la normale

produzione può continuare indisturbata.

Infine abbiamo il robust design che, facendo uso dei piani sopra descritti, si

propone un obiettivo diverso dal solito (che è indagare la significatività degli effetti),

cercando la miglior combinazione dei livelli per cui la risposta operi su un certo valore

(target) con una dispersione minima; è una problematica DOE in fase di ricerca.

3.5 GLI OBIETTIVI DELLA SPERIMENTAZIONE

Come vedremo nel par. 3.8 l’obiettivo principale del DOE dovrebbe essere sempre

una progressiva conoscenza del fenomeno, nell’ottica di uno studio continuo dei processi

per diminuire la variabilità, migliorarli, aumentando così la Qualità: questo mette ilmanager nella miglior condizione possibile per gestire, ovvero decidere e agire, sulla base

della teoria e dell’esperienza. È molto pericoloso agire sulla base della sola esperienza

soprattutto se questo atteggiamento vuole mascherare l’ignoranza dei manager; attenti a

non entrare nel circolo vizioso: è sempre la teoria che deve guidare il piano sperimentale.

Un’altra cosa da mettere in evidenza è che lo sperimentatore deve essere

consapevole che nel mondo reale non esistono linee rette e distribuzioni normali e quindi i

modelli matematici che egli costruisce sono tutti sbagliati: ciononostante con tali

assunzioni si trovano dei risultati che, con una certa approssimazione, rispecchiano quellidel mondo reale; il fatto che tutti modelli siano sbagliati ci fa capire che non conviene

costruire modelli troppo complessi per avere il “modello giusto”: è meglio cercare una

descrizione semplice e nel contempo, informativa, dei fenomeni naturali (Box 1976).

Ricordiamo ciò che dice Deming sulla sperimentazione, “The reason to study the

results of a change is to try to learn how to improve tomorrow’s product... Planning

requires prediction” ma possiamo prevedere solo se il sistema è in controllo statistico (par.

2.3). Dunque può essere importante:

•studiare la significatività degli effetti• prevedere media e varianza di qualche variabile di interesse nei vari stati di prova




37

Nel prosieguo della tesi sarà importante distinguere i due tipi di situazione perché, voler

studiare proprio l’effetto di certe variabili può causare una perdita di precisione nella stima

della risposta; se invece si è disposti a modificare le variabili di interesse stimo con più

precisione le variabili trasformate e quindi anche la risposta: questo discorso, che può

sembrare un po’ fumoso risulterà più chiaro, quando si parlerà di ortogonalizzazione

nell’analisi dei piani sperimentali.

Cosa significa che una variabile è significativa? Nel cap.2 abbiamo visto che la

caratteristica di un processo in controllo statistico ha una sua variabilità naturale, indotta

da tante cause non controllate che, complessivamente, hanno un effetto ridotto: misuriamo

tale variabilità con la varianza della caratteristica; un fattore ha un effetto significativo

sulla caratteristica se un suo cambiamento provoca una variabilità superiore7 a

quella naturale della caratteristica.

Un altro obiettivo del DOE può essere quello di ottimizzare una qualche funzione

obiettivo; nella sperimentazione classica questo obiettivo era quasi sempre il valor medio

di una variabile dipendente; Taguchi ha invece portato all’attenzione degli specialisti di

Qualità che, come funzione da ottimizzare, è meglio considerare una loss function

(cap.11), che tiene conto anche della varianza dei vari trattamenti, che nell’analisi classica

è considerata costante8.

Il robust design, utilizzando queste idee, si propone, come abbiamo detto, di

cercare la miglior combinazione dei livelli per cui la risposta operi su un certo valore

(target) con una dispersione minima. Questa idea non è di Taguchi (cap.11), sebbene molti

pensino il contrario, tuttavia l’ingegnere giapponese ha avuto l’innegabile merito di propagandarla.

Un’ultima notazione riguarda la moderna distinzione che si fa oggi fra:

• on-line quality control, ovvero gestione della Qualità quando la linea produttiva è già

operante: tipici strumenti statistici usati sono le carte di controllo

• off-line quality control, ovvero gestione della Qualità prima che il processo sia

operativo, dunque nelle prime fasi del ciclo di sviluppo dei prodotti; è il discorso che ho

affrontato nel par. 1.5 in cui si diceva che gli strumenti statistici più idonei in questa

fase erano le tecniche di affidabilità congiunte con il DOE: il DOE è uno strumento di prevenzione che serve a costruire la qualità nel prodotto. Invece spesso si identifica

l’off-line quality control col robust design; e si identifica il robust design con i metodi

Taguchi che sono tutt’altro che robust ...

Ricordiamoci allora che Taguchi non ha inventato l’off-line quality control e che

quest’ultimo è sempre stato usato dagli specialisti di Qualità che sapevano come ottenere

la Qualità: è vero che pochi manager si erano resi conto dell’importanza del DOE nella

gestione della Qualità ma non per questo bisogna attribuire questa scoperta a Taguchi; e

ricordiamoci che il robust design non è una metodologia distinta dal DOE (come invece7 Il termine “superiore” viene quantificato con il livello di fiducia (CL) dunque è un concetto relativo.8 E quindi non influenza la loss function




38

viene dipinto in De Risi 1996), ma ne costituisce una particolare problematica ancora in

fase di ricerca perché i metodi Taguchi non sono corretti statisticamente (cap.11).

3.6 IL DOE NELLA PRATICA Any claim to make use of relevant experience

without a plan based on theory

is a disguise for rationalization of a decision that has already been made”


La teoria statistica del DOE è fondamentale nella pratica perché le prove possono

essere molto costose: i dati che abbiamo sono stati acquisiti a caro prezzo, ecco perché

dobbiamo usare gli stimatori migliori (efficienti) che la teoria ci offre (Galetto 1995). Visto

che la sperimentazione è molto costosa, il piano va progettato bene e con metodo

scientifico: prima di eseguire le prove, bisogna calcolare quanta informazione

dobbiamo raccogliere, dopo avere definito i rischi di sbagliare; meno voglio rischiare

più informazione bisogna avere e quindi più bisogna spendere: ciò è assolutamente logico.

Per di più vi sono 2 tipi di errori possibili: quello di rifiutare l’ipotesi nulla quando

è vera (I specie) e quello di accettare l’ipotesi nulla quando essa è falsa (II specie) 9; a

parità di informazione raccolta, quando si vuol diminuire il rischio di un tipo, aumenta

quello dell’altro: ciò è perfettamente logico ed è illustrato in figura 1. L’unico modo per

diminuire entrambi i rischi è quello di raccogliere altri dati ovvero spendere più soldi: senon facciamo le prove necessarie, nessun artificio matematico o presunto tale (vedi i

signal-to-noise), ci farà stimare meglio la realtà.

Figura 6: relazioni fra i rischi di sbagliare e l’informazione da raccogliere

Può essere che vari piani sperimentali soddisfino le nostre esigenze: in tal caso,

bisogna scegliere quello che ci dà la precisione massima delle stime che vogliamo

effettuare: notiamo che la teoria statistica, se usata correttamente, ci dà molte informazioni

prima che le prove siano fisicamente effettuate; anche per questo Hahn et al. (1976)9 L’analogia con un processo giudiziario presentata in Galetto (1995) rende molto bene l’idea dei 2 tipi dierrore

Rischio di prima specie.

Rischio disecondaspecie.

Quantità diinformazionerichiesta

=

soldi daspendere

Quantità diinformazionerichiesta

=

soldi daspendere




39

consigliano di avere, prima di eseguire il piano, una stima dello s.q.m. dell’errore

sperimentale, visto che gli s.q.m. degli stimatori sono tutti proporzionali ad esso: in questo

modo, prima delle prove, possiamo sapere approssimativamente la precisione delle nostre

stime. Se i piani esaminati che soddisfano le nostre esigenze di precisione, hanno un costo

che supera il budget a disposizione, è meglio considerare anche la possibilità di non

eseguire l’esperimento.

Concludo il paragrafo sottolineando che la sperimentazione, se fatta in modo

scientifico, può rendere molto dal punto di vista economico. Galetto ha realizzato un

esperimento presso uno stabilimento di Desenzano, della Borgonova, un’azienda

metalmeccanica produttrice di pistoni e segmenti per motori di autoveicoli; l’esperimento

riguardava un processo di cromatura dei segmenti per motori automobilistici, e l’analisi

corretta dei risultati ha permesso di ottimizzare la combinazione dei parametri riducendo il

tempo di cromatura, realizzando:

• un aumento di produttività del 17%, corrispondenti a circa 200 milioni all’anno

• un risparmio di energia per circa 20 milioni all’anno

• un risparmio di acido cromico per circa 28 milioni all’anno

• una riduzione della difettosità del prodotto per 210 milioni all’anno

Visto che ci sono in ballo tanti soldi, vale la pena di progettare e analizzare bene

l’esperimento.

3.7 METODI DI ANALISI

Seguendo la classificazione di Scheffe (1959):

• i piani con fattori tutti quantitativi vengono solitamente analizzati con la regressione,

• i piani con fattori tutti qualitativi sono analizzati con l’ANOVA o con l‘ANCON

(ANalysis of CONtrast) che vedremo essere collegate (cap.4);

• i piani con fattori di entrambi i tipi vengono analizzati con l’ANCOV (ANalysis of

COVariance).

Presentiamo questi 3 approcci di analisi nella loro versione originaria, visto che nel temposono stati adattati anche ad altre situazioni, fino a rendere molto sfumata la loro differenza;

nella tesi li useremo tutti e quattro e vedremo che danno sempre gli stessi risultati

(principio F1). La presentazione si limita all’essenziale, rimandando ad altri testi (Mood et

al.1963, Miller et al. 1990, Allen 1985, Box et al.1978,...) la trattazione rigorosa.

3.7.1 REGRESSIONE LINEARE

Nel caso più semplice di regressione si costruisce un modello in cui una variabile

dipendente Y è influenzata da una variabile indipendente quantitativa X, secondo unarelazione lineare, e da un disturbo casuale (per il principio F2 esso esiste sempre),

chiamato errore sperimentale:




40

Y = A + B*X + ε

dove è assunto che:

E(ε)=0

VAR(ε) = σ2

Notiamo che, se il modello è corretto, Y è una variabile casuale che ha la stessa forma di

distribuzione dell’errore sperimentale ε.

Scopo della regressione è stimare i 2 parametri A e B, sulla base di una serie di Ni

osservazioni sperimentali Yij fatte per ogni livello di X, Xi; in tutto abbiamo N=∑ Ni dati; la

stima è fatta seguendo il metodo dei minimi quadrati che minimizza la somma dei

quadrati degli errori sperimentali osservati:

( )min *, A B ij i j

N

i

N

Y A B X i

− −==

∑∑11

2

La procedura di minimizzazione dà luogo alle equazioni normali. Si trova che le stime dei

parametri, a e b, sono combinazioni lineari delle osservazioni sperimentali yij; quindi se

l’errore sperimentale è distribuito normalmente, allora anche gli stimatori a e b sono

distribuiti normalmente.L’assunzione di normalità dell’errore sperimentale è giustificata se pensiamo che su

Y agiscano tantissimi altri fattori (variabili casuali) che si compensano dando un effetto

complessivo nullo, che, in base al teorema del limite centrale10, è distribuito normalmente.

Sui parametri vengono poi fatti dei test di ipotesi o degli intervalli di fiducia, cosicché si

riesce a costruire un modello per la risposta media col relativo intervallo di fiducia per

prevedere in che limiti si manterrà in futuro la risposta. Attenzione: si può prevedere solo

se la risposta era in controllo statistico quando si è fatta la stima e la risposta permane in

controllo statistico ovvero se il futuro si mantiene uguale al passato.Quando abbiamo più di una variabile, conviene usare la forma matriciale per scrivere il

modello:

Y = X * β

10 Non però nella versione che si trova sui libri di Statistica, dove è assunto che le variabili sonoidenticamente distribuite e indipendenti. Nel nostro caso i fattori (variabili casuali) possono averedistribuzioni diverse ed essere correlati fra di loro.




41

dove in X ci sono i valori sperimentali della X, o delle loro codifiche (allocated codes)

come vedremo nei cap.7 e 8, e β è il vettore contenente i parametri da stimare. La forma

matriciale delle equazioni normali è:

(XT*X)* β = XT * Y

essa sarà ampiamente usata nel prosieguo della tesi.

Notiamo che questo metodo era già del tutto noto a Gauss nel 1796, che lo usava per i suoi

calcoli in astronomia e non per niente il teorema che sancisce l’ottimalità degli stimatori

provenienti dalle equazioni normali, è detto teorema di Gauss-Markov (cap.7).

3.7.2 ANOVA

Questa analisi nell’impostazione originaria di Fisher serviva a capire se c’è

differenza significativa fra le risposte medie effettuate per diversi livelli qualitativi di un

fattore; in altre parole se il fattore influisce in modo non casuale sulla risposta: “casuale”

vuol dire dovuto a tutti fattori non controllati nell’esperimento, che hanno un’influenza

ridotta (si spera!!!) sulla risposta.

Consideriamo la classica ANOVA one-way, con un fattore X a p livelli:

X1 X2 ... Xp

Y11 Y21 ... Y p1

Y12 Y22 ... Y p2 ... ... ... ...

Y1N1 Y2N2 ... Y pNp

dove N=N1 + N2 + ... + N p è il numero totale dei dati.

L’ipotesi nulla che vogliamo testare è che il fattore X non abbia influenza su Y, ovvero che

le varie risposte abbiano media e varianza uguali; nell’ANOVA classica si suppone che la

varianza sia la stessa11 nei p trattamenti quindi resta da testare il fatto che le medie siano

uguali. L’ipotesi nulla che facciamo è allora:

H0: µ1 = µ2 = ... = µ p

Se l’ipotesi nulla è vera possiamo pensare che tutte le risposte sperimentali Yij siano

costituite dalla media più un disturbo casuale, il cui valore atteso è nullo:

Y = µ + ε

E(ε) = 0

11I metodi Taguchi non fanno questo tipo di assunzione




42

VAR(ε) = σ2

dunque

VAR(Y) = σ2

Se ciò è vero l’errore sperimentale consiste nella differenza fra i valori osservati di Y e la

risposta media stimata, chiamata anche grande media. La somma dei quadrati di tali errori

sperimentali, chiamata anche somma totale corretta dei quadrati, SScor, è dunque:

( )Y Y Y N Y SStot SS ij j

Ni

i

p

ij j

Ni

i

p

− =⎛

⎝ ⎜

⎞

⎠⎟ − = −

== ==∑∑ ∑∑

11

2

2

11

* µ

dove SStot è la somma dei quadrati delle risposte e SSµ è il cosiddetto fattore di

correzione; se è vera l’ipotesi nulla, SStot, diviso per i suoi gradi di libertà, N-1, è uno

stimatore corretto della varianza σ2, poiché posso trattare tutti dati come se non fossero

stratificati.

SScor può essere scomposta in 2 termini, uno legato alla varianza delle medie Yi.

dei trattamenti rispetto alla grande media, SStr; l’altro legato alla varianza all’interno dei

trattamenti, chiamato SSe: quest’ultimo, diviso i gradi di libertà, n-p, è sempre uno

stimatore corretto della varianza della risposta Y perché è una varianza pooled delle

varianze dei vari trattamenti. Partendo dall’identità:

Y Y Y Y Y Y ij ij i i− = − + −. .

è possibile dimostrare velocemente (Miller et al. 1990) che:

( ) ( ) ( )SScor Y Y Y Y N Y Y SSe SStr ij j

Ni

i

p

ij i j

Ni

i

p

i ii

p

= − = − + −⎛ ⎝ ⎜ ⎞

⎠⎟ = +

== == =∑∑ ∑∑ ∑

11

2

11

22

1. .*

Questa decomposizione può essere vista anche geometricamente se pensiamo a Y come un

vettore le cui N componenti sono le N risposte Yij, che possono essere scomposte in 3

elementi, secondo l’identità:

( ) ( )Y Y Y Y Y Y ij i ij i= + − + −. .

corrispondenti ai 3 vettori I, T, E:

Y = I + T + E




43

come si vede dalla fig.1 (che comprime uno spazio N-dimensionale in uno tridimensionale)

i 3 vettori sono ortogonali e quindi su di essi si può applicare il teorema di Pitagora,

esteso a N dimensioni: i quadrati dei loro moduli rappresentano le varie somme dei

quadrati che abbiamo introdotto. Chi volesse approfondire la spiegazione geometrica

dell’ANOVA, può consultare Box et al. (1978).

Figura 7: interpretazione geometrica dell’ANOVA (Box et al.1978).

Se è vera l’ipotesi nulla, allora SScor, diviso i suoi gradi di libertà, non deve essere

significativamente diverso da SSe, diviso i suoi gradi di libertà; quindi l’ipotesi nulla di

partenza:

H0: µ1 = µ2 = ... = µ p

è del tutto equivalente a:

H0: SScor/(N-1) = SSe/(N-p)

e questa, ricordando che SScor = SSe + SStr , è equivalente a:

H0: SStr/(p-1) = SSe/(N-p)

Quest’ultima è la forma in cui viene testata l’ipotesi nulla nell’ANOVA; infatti a questo

punto viene fatta l’assunzione di normalità dell’errore ε e quindi di Y così le somme di

quadrati, divisi per i rispettivi gradi di libertà, sono delle χ2 e i loro rapporti sono delle F

visto che il teorema di Cochran (cap.7) sancisce la loro indipendenza. La classica tabella

ANOVA è la seguente:

I

I+T

E

Y

T




44

Sorgente Somme di quadrati Gradi di libertà Quadrati medi F calcolata

Totale SStot N

Media SSµ 1

Totale corretto SScor = SStot - SSµ N-1 MScor=SScor/N-1

Trattamenti SStr p-1 MStr=SStr/p-1 MStr/MSeResiduo SSe N-p MSe=SSe/N-p

Qualcuno aggiunge alla tabella una sesta colonna col livello di probabilità di F a

cui corrisponde la F calcolata (i famosi “P-values”): è una procedura che noi non

seguiremo in quanto pensiamo che vada contro l’approccio scientifico del cap.2: bisogna

decidere prima delle prove quanto vogliamo rischiare per calcolare quanta

informazione ci serve. Quindi semplicemente confrontiamo la F calcolata con la F che

corrisponde al livello di fiducia prestabilito, e decidiamo se i trattamenti hanno effetto

significativo sulla risposta o no.

Notiamo che l’ipotesi nulla testata ci dice solo se esiste almeno un trattamento che

influenza la risposta, non dice quali sono, dunque nasconde l’effettiva sorgente di

variabilità: conviene allora sempre scomporre SStr in somme dei quadrati che spiegano i

confronti (contrast, cap.4) fra le varie medie.

Abbiamo detto che:

( )SStr N Y Y i ii

p

= −

⎛

⎝ ⎜

⎞

⎠⎟=∑ * .

2

1

essa può essere sviluppata, con pochi calcoli, per ottenere:

( ) ( )SStr N Y N Y T Y N Y i ii

p

i ii

p

=⎛

⎝ ⎜

⎞

⎠⎟ − =

⎛

⎝ ⎜

⎞

⎠⎟ −

= =∑ ∑* * * *. .

2

1 1

essa è quella che chiameremo “regola del Questo per questo”, seguendo la

denominazione di Galetto (1995) che deriva dal fatto che devo moltiplicare le medie deitrattamenti per i rispettivi totali per trovare la somma dei quadrati spiegata dai trattamenti

(a meno del fattore di correzione).

Nei cap.7 e 8 vedremo che è possibile riottenere tutte questa formule dell’ANOVA,

scrivendo le equazioni normali a partire dai modelli:

Yij = µ + αi + εij modello “overperametrized” (non full-rank)

Y = I + A1*X1 + A2*X2 +...+ AP-1*XP-1 modello “full-regression” (full-rank)

Yij = µij + εij modello “cell-means” (full-rank)




45

Questi modelli danno luogo a una regressione multipla per cui vale di nuovo la forma

matriciale delle equazioni normali:

(XT*X)* β = XT * Y

L’introduzione delle equazioni normali nell’ANOVA (metodo G nel cap.7 e 8) costituisce

una procedura nota da tempo12, anche se pochi libri di Statistica ne parlano.

Riprendiamo la suddivisione che abbiamo fatto della somma dei quadrati delle

risposte:

SStot = SSµ + SStr + SSe

Essa vale sempre, anche con:

• più di 1 fattore13; si divide SStr in somme dei quadrati che spiegano l’effetto dei fattori

e delle loro interazioni,

• variabili bloccate; si divide SSe nell’errore sperimentale puro SSep (a cui bisogna

riferirsi nel test F) e nella somma dei quadrati spiegata dall’effetto dei blocchi SSbl; in

alternativa si può pensare a una variabile fittizia i cui livelli sono pari al numero dei

blocchi, da inserire fra i trattamenti e quindi SSbl finisce per far parte di SStr: la

sostanza non cambia,

• stati di prova mancanti, cosa che accade nei piani frazionati (cap.4) regolari eirregolari,

• la regressione (par. 3.6.1) in quanto possiamo considerare i vari livelli del fattore

quantitativo come trattamenti; da quanto abbiamo visto le somme dei quadrati non

dipendono dalla X, ma solo dalla Y, e quindi possiamo codificare (cap.8) a piacere i

livelli di X; se col test t alcuni parametri della regressione sono significativi anche le

somme dei quadrati associate a tali parametri nell’ANOVA, sono significative col test

F.

3.7.3 ANCON

L’analisi dei contrast consiste nel confrontare le medie dei vari trattamenti; i

contrast sono appunto combinazioni lineari delle medie tali che la somma dei coefficienti

della combinazione lineare è uguale a zero. Nel cap.4 vedremo che questo metodo è il più

usato nei piani fattoriali bilanciati dove, col metodo di Yates, si riescono a calcolare

12 Per quanto ne so il primo a introdurla fu Yates nel 1934, come riferiscono Nelder (1974) e Speed etal.(1978).

13 Con più fattori, si possono vedere i vari stati di prova come tanti trattamenti di uno stesso fattore: è questoun punto che non ho mai visto essere messo in evidenza sui libri di DOE.




46

facilmente i contrast di interesse, e vedremo che ad ogni contrast è associata sempre una

somma di quadrati.

Questa analisi è anche alla base del modello full-rank che vedremo nel cap.8 e dal

punto di vista ingegneristico e senz’altro la più facile da capire.

3.7.4 ANCOV

L’analisi della covarianza, che integra la regressione e l’ANOVA, in origine era

fatta quando si avevano delle variabili quantitative e una qualitativa. Prima si fittano i dati

come se i livelli della variabile qualitativa non fossero influenti, trattando quindi le risposte

ai vari livelli come semplici replicazioni e poi, invece fittando dei modelli diversi per ogni

livello della variabile qualitativa.

Facendo l’ANOVA, ogni modello ha una sua somma dei quadrati e, facendo

opportune differenze fra di esse, si capisce l’effetto della variabile qualitativa e le sue

possibili interazioni con i fattori quantitativi. Non ci dilunghiamo ora su questa procedura,

in quanto verrà trattata ampiamente nel cap.6.

3.7.5 TRASFORMAZIONI DI VARIABILI

In tutti 3 tipi di analisi vengono solitamente fatte le 3 assunzioni seguenti sugli

errori sperimentali:

• indipendenza degli errori sperimentali nell’osservazione

• errori sperimentali distribuiti normalmente

• varianza dell’errore sperimentale costante in ogni stato di prova (omoschedasticità)In Miller et al. (1990) si dice che anche se queste ipotesi non sono verificate, l’ANOVA, si

mantiene un procedura valida; in Stephens (1996) si riporta che, se non c’è

omoschedasticità, l’errore di I specie non cambia anche se diminuisce l’errore di II specie.

Consideriamo inoltre che l’ipotesi di normalità è fatta solo quando si fa il test di ipotesi

sulla significatività dei parametri; se gli seguono altre distribuzioni, in teoria si può

ricavare la distribuzione delle loro somme di quadrati, e del rapporto di questa: bisogna

vedere se ne vale la pena; Steinberg e Hunter (1984) riferiscono che Pearson nel 1931

aveva scoperto che l’ANOVA è “robusta” all’assunzione di normalità.Tuttavia se le 3 ipotesi non sono verificate statisticamente, può essere molto utile

trasformare le variabili affinché esse siano verificate. In particolare si trova che per una

grande quantità di esperimenti la varianza dell’errore tende a crescere con la media della

risposta, nel qual caso una trasformazione logaritmica della risposta può rendere costante

la varianza.

La trasformazione logaritmica può essere anche molto utile a smussare l’effetto

delle interazioni se il modello risposta - fattori è moltiplicativo e quindi può semplificare

l’analisi; ciò non significa che bisogna assumere acriticamente la bontà dellatrasformazione logaritmica (cosa che può parzialmente giustificare il signal to noise nei

metodi Taguchi, cap.11): uno deve studiare, volta per volta, qual è la trasformazione che




47

meglio si adatta alla situazione per semplificare l’analisi, considerando anche la non

trasformazione dei dati (Box 1988), se non c’è evidenza statistica per rifiutare la validità

delle 3 assunzioni classiche.

3.8 APPROCCIO SCIENTIFICO NELLA SPERIMENTAZIONE

“Experience can be cataloged and put to use rationally only

by application of statistical theory.

One function of statistical methods is to design experiments

and to make use of relevant experience in a way that is effective”


L’approccio scientifico che abbiamo introdotto nel cap.2 vale anche e soprattutto

per la sperimentazione che attraverso una continua iterazione fra pratica e teoria deve

condurre ad un progressivo avvicinamento alla realtà: se vogliamo che ciò avvenga

bisogna interrogare la Natura con delle domande logiche; come afferma Galetto (1995),

essa è un testimone molto scrupoloso e se le facciamo domande stupide, darà risposte

stupide.

Figura 8: approccio scientifico nella sperimentazione (Box 1976)

Una ipotesi iniziale conduce, attraverso un ragionamento deduttivo, a certe

conseguenze che possono confrontate con i dati a disposizione. Le differenze fra le

conseguenze dedotte teoricamente e i dati pratici sperimentali possono condurre, con unragionamento induttivo alla modifica delle ipotesi i partenza e così riinizia un nuovo ciclo

di iterazione.

Pratica Dati

Esperimenti

Teoria IpotesiModelli

Congetture

DeduzioniInduzioni Deduzioni Induzioni

CONOSCENZA

DEL FENOMENO




48

Le conseguenze relative alle ipotesi modificate sono nuovamente confrontate con i

dati (vecchi e nuovi) che possono condurre a ulteriori modifiche, guadagnando comunque

sempre maggior conoscenza del fenomeno in esame; i dati nuovi generati dipendono

sempre dalle ipotesi correnti in corso di verifica. Il progetto del piano sperimentale è

rappresentato da una finestra mobile, attraverso la quale alcuni aspetti dello stato reale del

fenomeno, sempre distorto dal rumore, possono essere osservati: se posizioniamo male la

finestra (leggi “progettiamo male la prova”) osserviamo aspetti del fenomeno che non ci

interessano.

Figura 9: determinazione e analisi dei dati nella sperimentazione scientifica (Box 1976)

Ipotesi corrente Deduzione Conseguenzadell’ipotesi Hi

InduzioneIpotesimodificata Hi+1

Dati disponibili Nuovi dati

Progettazione

STATO REALE DELFENOMENO

Hi := Hi+1

Piano sperimentale

Rumore

Finestra mobile




49

Dalla figura 4 vediamo che, anche se le nostre congetture sono errate, i dati sono

sempre comunque generati dal fenomeno: ecco perché, se ci basiamo solo su di essi

• il continuo aggiornamento delle ipotesi

• il confronto delle congetture riguardo lo stato di natura con i dati reali

può condurre alla convergenza verso la reale conoscenza del fenomeno stesso: attenzione

dunque ai metodi bayesiani, che aggiungono all’analisi che non provengono dal fenomeno

(Galetto 1989c).

Questa filosofia scientifica, formalizzata da Box (1976), è in contrasto con quella di

Taguchi, che invece non vuole avanzare lo stato di conoscenza del fenomeno (Nair 1992),

ma solo ottimizzare una certa funzione obiettivo trascurando a priori elementi che

potrebbero essere importanti. “The ultimate objective of the experimental investigation

must surely be to understand the engineering system” (Box in Nair 1992)




50

CAPITOLO 4

PIANI FATTORIALI ORTOGONALICOMPLETI E FRAZIONATI

4.1 PIANI FATTORIALI 2n

Nel capitolo precedente abbiamo visto che Fisher ebbe la grande idea di variare più

di un fattore alla volta negli esperimenti; nacquero così i piani fattoriali, che per la prima

volta permettevano di valutare l’effetto combinato dei fattori (interazione).

Limitiamo il nostro studio ai modelli fissi.I piani fattoriali 2n presentano n variabili quantitative o qualitative a 2 livelli, alto e

basso14 che sono codificati -1 e +1 oppure 0 e 1: sono le variabili che lo sperimentatore

pensa possano influenzare significativo la risposta Y che è sempre una variabile casuale15.

Come si vede vi sono 2n possibili combinazioni dei livelli degli n fattori ovvero 2n

trattamenti o stati di prova: da ciò che abbiamo detto nel par. 3.6.2 se nessuno di questi

stati di prova viene replicato, non c’è nessun grado di libertà per l’errore sperimentale.

I fattori vengono solitamente indicati con le lettere maiuscole mentre per i

trattamenti vi sono essenzialmente 3 tipi di notazione.1. lo stato di prova è associato a un vettore di n elementi che assumono il valore 0 o 1 a

seconda che il fattore sia al livello alto o basso; per esempio in un piano a 3 fattori, il

trattamento (0, 0, 1) è quello in cui i primi 2 fattori sono al livello basso e il terzo al

livello alto; è chiaro che questo tipo di notazione può essere estesa a fattori con più

livelli.

2. nella cosiddetta notazione di Yates i fattori sono associati a delle lettere e lo stato di

prova è una stringa alfabetica in cui compare la lettera associata al fattore solo se questo

è al livello alto; ad esempio il trattamento ac è quello in cui il primo e il terzo fattore

14La nozione di alto e basso ha senso solo con variabili quantitative, per quelle qualitative è solo fittizia.

15 Fra le variabili può essercene anche qualcuna bloccata, se vi sono solo 2 blocchi.




51

sono al livello alto e il secondo è al livello basso; la lettera i indica lo stato di prova con

tutti fattori al livello basso. Questo tipo di notazione chiaramente non può essere estesa

a fattori con più di 2 livelli.

3. ogni stato è associato a un numero che corrisponde alla sua posizione nell’ordine

canonico di Yates (tab.1)

Per chiarire le idee tracciamo la corrispondenza fra i 3 tipi di notazione per un piano a 3

fattori:

000 100 010 110 001 101 011 111

i a b ab c ac bc abc

1 2 3 4 5 6 7 8

Tabella 1: diverse notazioni per indicare gli stati

L’ordine in cui sono stati messi è l’ordine di Yates, che prende in considerazione i fattori

in sequenza così si possono aggiungere altri stati corrispondenti ad altri fattori senza

modificare l’ordine iniziale.

Puntualizzo che nel seguito le codifiche dei trattamenti, oltre ad indicare gli stati di

prova indicheranno anche la stima della media della risposta in quei trattamenti: ad

esempio se nello stato ab si sono effettuate 2 misure della risposta, rispettivamente 25 e

27, ab sarà uguale a 26.

La tecnica di analisi più comune per questi piani è l’ANOVA, che, come abbiamo

detto, aiuta a distinguere se, cambiando di livello un fattore, la risposta Y varia in modo

significativo, ovvero in modo superiore alla variazione dell’errore sperimentale; si fa

l’ipotesi che quest’ultima sia costante per la risposta in ogni stato di prova ovvero:

Yijkr = µ ijk + εijkr

VAR (Yijkr ) = VAR (εijkr ) = σ2 = cost

dove gli indici i, j e k indicano il livello dei primi fattori mentre r indica le ripetizioni nello

stato (i,j,k).

Oltre all’ANOVA è usatissima l’ANCON ovvero l’analisi dei contrast; nel par. 4.2

definiremo rigorosamente un contrast; per ora cerchiamo una rappresentazione intuitiva

come quella, nel caso di 3 fattori, di un cubo sui cui vertici vengono posti gli 8 stati di

prova:




52

Figura 1: confronto fra i vari stati per ottenere l’effetto di A

Questa rappresentazione grafica è molto utile perché permette di giustificare

intuitivamente il calcolo dei vari effetti. Infatti ci interessa capire se, passando da un livelloall’altro dei vari fattori, la risposta cambia in modo significativo e la cosa più logica appare

confrontare le risposte che si hanno quando il fattore è al livello alto e quelle al livello

basso. Per ora supponiamo che in ogni stato di prova vi sia lo stesso numero di

replicazioni, così che è lo stesso considerare le medie o i totali dei vari trattamenti. La

stima dell’effetto del fattore A è dunque:

A = abc + ab +ac + a - i - b - c - bc

Questa relazione si presta ad interessanti osservazioni:

• sul cubo si vede che praticamente si confrontano 2 facce opposte (quella con gli stati

ombreggiati e l’altra). Si può pensare di fare analogamente per i fattori B e C

• questa relazione è scritta su tutti libri di DOE ma non mi ricordo nessuno che

puntualizzi se le lettere indicano i totali o le medie delle risposte nei vari stati di prova;

per ora supponiamo che vi siano uguali ripetizioni per ogni trattamento, dunque il

valore A cambia solo per un fattore moltiplicativo16 se passiamo dalle medie ai totali

• sarà opportuno ricordarsi della relazione sopra quando si introdurrà il frazionamento e

gli alias (par. 4.5)

16 Vedremo che questo fattore non influenza la somma dei quadrati spiegata dal fattore A.

i a

ab b

c

bc abc

ac




53

• i termini della relazione rappresentano le stime ma potrebbero essere anche i parametri

della popolazione oppure i rispettivi stimatori: più avanti cercherò di distinguere fra le 3

situazioni anche se mi pare che la distinzione sia evidente dal contesto.

Ripensando all’ANOVA, abbiamo 8 trattamenti, dunque la somma dei quadrati

SStr spiegata da essi ha 7 gradi di libertà; come abbiamo detto (par. 3.6.2) conviene

dividere questa SStr in 7 componenti per mettere in evidenza le effettive sorgenti di

variabilità: 3 di queste componenti le abbiamo individuate, sono gli effetti dei fattori A, B

e C, ovvero i 3 confronti fra le facce opposte del cubo; e le altre? A parte la media (il cui

grado di libertà non rientra in quelli di SStr 17) che è la somma delle medie di tutti gli stati

di prova.

I = abc + ab +ac + a + i + b + c + bc

le altre 4 componenti rappresentano le cosiddette interazioni fra i fattori a coppie

(interazione del primo ordine), e fra i 3 fattori (interazione del secondo ordine);

consideriamo l’interazione fra i fattori A e B: essa si manifesta quando il comportamento

di Y in funzione di A, cambia a seconda dei livelli di B18. Può essere calcolata

confrontando le risposte nei trattamenti in cui A e B sono allo stesso livello:

AB = abc + ab + c + i - a - b - ac- bc

Esso corrisponde al confronto di 2 piani diagonali nel cubo:

Figura 2: confronto fra i vari stati per ottenere l’effetto di AB

17 Nella convenzione assunta nel par. 3.7.2.

18Il significato dell’interazione si capirà meglio con l’analisi della covarianza nel cap.6.

i a

ab b

c

bc abc

ac




54

Analogamente si può fare per le interazioni AC e BC; per calcolare l’effetto

dell’interazione del secondo ordine ABC, si confrontano tutti gli stati di prova in cui un

numero dispari dei fattori A, B e C hanno il livello alto, con gli altri stati.

ABC = abc + a + b + c - i - ab - ac - bc

Sul cubo può essere visto come il confronto fra i 2 tetraedri:

Figura 3: confronto fra i vari stati per ottenere l’effetto di ABC

In generale, per stimare l’effetto di un fattore basta sommare le medie di tutti gli

stati in cui il fattore è al livello alto meno quelle dove il fattore è al livello basso.

Per stimare l’effetto di un interazione bisogna vedere quanti fattori coinvolge l’interazione:

1. Se essi sono in numero pari, si sommano tutte le medie degli stati con un numero pari

di quei fattori al livello alto e si sottraggono le altre medie.2. Se essi sono in numero dispari, si sommano tutte le medie degli stati con un numero

dispari di quei fattori al livello alto e si sottraggono le altre medie.

Sottolineo che è intuitiva la formula per il calcolo degli effetti di un fattore ma non è

affatto intuitiva quella per le interazioni. Comunque il calcolo è più facile a farsi che a

dirsi; supponiamo di avere 5 fattori A, B, C, D, E (vi sono dunque 25 stati di prova) e che

vogliamo calcolare l’interazione del quarto ordine ABCDE: essa coinvolge un numero

dispari di fattori quindi dobbiamo sommare tutte le medie degli stati in cui vi è un numero

dispari di fattori al livello alto e sottrarre le altre. Il risultato è:

ABCDE = abcde + abc + abd + abe + acd + ace + ade + bcd + bce + bde + cde + a + b + c + d + e

i a

ab b

c

bc abc

ac




55

- abcd - abce - abde - acde - bcde - ab - ac - ad - ae - bc - bd - be - cd - ce - de - i

Questi calcoli diventano molto pesanti, all’aumentare del numero di fattori per cui abbiamo

bisogno di un algoritmo che calcoli gli effetti in modo meccanico (metodo di Yates nel par.

4.5).

4.2 I CONTRAST

Un contrast C* è una combinazione lineare delle medie µi nei vari stati di prova,

tale che la somma di tali coefficienti è uguale a zero. Con n fattori abbiamo 2 n stati di

prova distinti dunque:

C* = cii

i

n

=∑

1

2

* µ

cii

n

=∑ =

1

2

0

In Galetto (1995) a pag.273 si scrive una condizione diversa:

(1) c nii

i

n

=∑ =

1

2

0*

chiaramente sbagliata, oltre che fuorviante quando si passa agli stimatori del contrast eall’esame di piani con diverse replicazioni per ogni stato. Notiamo l’assurdità a cui ci

porterebbe la condizione di Galetto in un esempio facile con un solo fattore a 2 livelli, 1 e

2: ci sono dunque 2 stati di prova; supponiamo di avere una numerosità n 1=5 per il primo

stato di prova e n2=10 per il secondo; i 2 parametri che rappresentano le medie nei 2 stati

di prova sono µ1 e µ2 ; seguendo la definizione di Galetto, µ1 - µ2 non sarebbe un contrast

(!!!) perché non soddisfa la condizione (1):

1*5-1*10 = -5 ≠ 0

mentre 2µ1 - µ2 sarebbe un contrast (!!!) perché soddisfa la condizione (1): 2*5-1*10 = 0

Comunque basta prendere un qualunque libro che parli di contrast (ad esempio Searle 1987

o Wheeler 1988) per rendersi conto dell’errore.

I contrast ammettono i seguenti stimatori corretti:

C = c yii

i

n

=∑

1

2

*

Le notazioni che usiamo sono:

Yij risposta (v.c.) j-ma nello stato i




56

yi stimatore (v.c.) della media µi dello stato i

Ti totale (v.c.) dello stato i

ni numerosità dello stato i

Per definizione abbiamo che: yi = Ti/ni

dunque lo stimatore del contrast può essere scritto anche in forma dei totali:

C c

nT k T

i

iii i

ii

n n

= == =∑ ∑

1

2

1

2

* * dove k c

ni

i

i

=

ma ovviamente cambia la condizione sui coefficienti:

k nii

i

n

=∑ =

1

2

0*

Per le ipotesi classiche (par 3.7), Yij è una variabile casuale con media µi e varianza

costante, e gli errori sperimentali delle risposte sono indipendenti:

Yij = µi + εij

E(εij) = 0 ∀i, j

E(Yij) = µi ∀i,jE( yi ) = µi ∀i

VAR(εij) = σ2 ∀i, j

VAR(Yij) = σ2 ∀i, jVAR( yi ) = σ2 / ni ∀i

COV(εij, εkr ) = 0 ∀i≠ j, k ≠r

COV(Yij, Ykr ) = 0 ∀i≠ j, k ≠r

COV( y yi i, ' ) = 0 ∀i≠i’

Sulla base di queste ipotesi possiamo testare se il contrast è significativamente diverso da

zero:

H0: C* = 0

Sappiamo però che per testare un ipotesi dobbiamo introdurre la distribuzione delle

variabili casuali in gioco. Come già detto per gli errori si usa la normale in virtù del

teorema limite centrale:

εij ∼ N(0, σ2)dunque, viste le assunzioni fatte:




57

Yij ∼ N(µ, σ2) yi ∼ N(µ, σ2/ni)

C ∼ N( E(C), VAR(C))

Possiamo allora trovare il valore atteso e, soprattutto, la varianza dello stimatore del

contrast C:

E (C) = ci ii

n

* µ =∑

1

2

= C*

VAR (C) = cn

i

ii

n

22

1

2

*σ

=∑

Se conoscessimo il valore di σ2 potremmo usare la normale nel test di ipotesi ma poiché

dobbiamo stimarlo dobbiamo usare la t di Student. Nel par. 3.7 abbiamo visto che uno

stimatore sempre corretto di σ2 è rappresentato dalla somma pesata delle varianze

campionarie dei vari trattamenti:

( ) )σ 2

1

2

11

2 2

1

2

2 2

=⎛

⎝ ⎜

⎞

⎠⎟ −

⎡

⎣⎢⎢

⎤

⎦⎥⎥

=

−

⎛

⎝ ⎜

⎞

⎠⎟ −

⎡

⎣⎢⎢

⎤

⎦⎥⎥=

==

=∑

∑∑

∑

SSe

n

Y Y

nii

n

ij i

j

n

i

ii

n

n

in

n

dunque per il test di ipotesi dobbiamo usare la t con v= nii

n

n

=∑

⎛

⎝ ⎜

⎞

⎠⎟ −

⎡

⎣⎢⎢

⎤

⎦⎥⎥1

2

2 gradi di libertà: ciò

vale ovviamente nei piani completi dove vengono sperimentati effettivamente 2n stati di

prova; nei piani ridotti dove ci sono p effettivi stati prova bisogna sostituire p a 2n nella

formula dello stimatore di σ2 e dei suoi g.l..

Diciamo che il contrast è significativamente maggiore19 di zero, con un livello di

fiducia (CL) (1-α), se:

C > t v, 1-α * cn

i

ii

n

22

1

2

* )

σ

=∑

Vediamo ora quanto vale la covarianza fra 2 generici stimatori di contrast:

C c yi

i

i

n

=

=

∑1

2

*

19 Analogamente si può testare C minore di zero.




58

C c yii

i

n

' ' *==∑

1

2

( ) ( )( ) ( )( )[ ]COV C C E C E C C E C , ' * ' '= − −

( ) ( ) ( )COV C C E c y c yi i i

i

i i i

i

n n

, ' * * ' *= −⎛

⎝

⎜ ⎞

⎠

⎟ −⎛

⎝

⎜ ⎞

⎠

⎟⎡

⎣

⎢

⎢

⎤

⎦

⎥

⎥= =

∑ ∑µ µ

1

2

1

2

( ) ( ) ( ) ( )COV C C E c c y c c y yi i i ii

i j i i j j j ii

n

, ' * ' * * ' * *= −⎛

⎝ ⎜

⎞

⎠⎟ + − −

⎛

⎝ ⎜

⎞

⎠⎟

⎡

⎣⎢⎢

⎤

⎦⎥⎥= ≠

∑ ∑∑µ µ µ 2

1

2

Il secondo termine è nullo perché rappresenta la sommatoria delle covarianze fra glistimatori delle medie degli stati di prova ma, per ipotesi: COV( y yi i, ' ) = 0 ∀i, i’

dunque:

( ) ( )COV C C c c E y c c ni i i ii

i iii

n n

, ' * ' * * ' *= − == =∑ ∑µ

σ

1

2 2 2

1

2

dunque abbiamo la proprietà notevole che 2 stimatori di contrast sono non correlati20 se e

solo se:

c c

n

i i

ii

n

* '

=∑ =

1

2

0

quando la condizione sopra è verificata i 2 contrast sono detti ortogonali e secondo la

terminologia classica un piano con n trattamenti è detto ortogonale se vengono stimati n-1

contrast ortogonali fra di loro. Notiamo che la condizione di ortogonalità sui contrast è

nuovamente errata in Galetto (1995) perché tale condizione deriva necessariamente daquella di non correlazione degli stimatori dei contrast; le equazioni normali non hanno

niente a che vedere con questo discorso: nel cap.7 vedremo che le equazioni normali

portano alle funzioni stimabili (qualunque combinazione lineare delle medie µi) ma queste

non vanno confuse con i contrast; anticipiamo che:

• ogni contrast è una funzione stimabile

• non tutte le funzioni stimabili sono dei contrast

Plackett e Burman nel 1946 avevano trovato che le matrici di Hadamard (par. 4.4)

permettono di avere dei contrast ortogonali con coefficienti -1 e +1. In generale se il pianoè completo ovvero vengono sperimentati tutti gli stati di prova e le numerosità degli stati

sono uguali il piano è ortogonale.

20 Se vale la distribuzione normale essi sono anche indipendenti.




59

4.3 COLLEGAMENTO FRA ANOVA E ANCON

Finora abbiamo fatto l’analisi dei contrast (test t) sui piani fattoriali: essa richiede il

calcolo delle varianze che può essere abbastanza oneroso per cui solitamente l’analisi dei

piani ortogonali è fatta con l’ANOVA (test F). I 2 approcci sono comunque equivalenti,

perché ad ogni contrast si riesce ad associare univocamente una somma dei quadrati con 1

grado di libertà: con essa si può fare poi il test F, mettendo a numeratore la stima della

varianza dell’errore sperimentale: come vedremo il test di ipotesi fatto è uguale.

Per trovare la somma dei quadrati SS(C) associata al contrast riscriviamo la

varianza dello stimatore del contrast:

VAR C cn

ii

n

i

( ) *==∑ 2

1

2σ

invertendo questa formula vediamo che riusciamo a legare la stima della varianza della

popolazione con quella della varianza dello stimatore C del contrast visto che σ2 è

costante e visto che abbiamo supposto indipendenti gli stimatori delle medie negli stati di

prova (quindi covarianze nulle fra gli stimatori delle medie degli stati di prova) e

indipendenti anche le variabili casuali le cui determinazioni sono i dati nei singoli stati di

prova; la varianza dello stimatore del contrast può essere sviluppata ricordando la nota

formula:

VAR C E C E C ( ) ( ) [ ( )]= −2 2

per cui vediamo che la stima della varianza di C dipende dal valore atteso dello stimatore

del contrast; ma a noi interessa testare l’ipotesi nulla che E(C)=0 per cui otteniamo

una stima della varianza di C, posto che sia vera l’ipotesi nulla.

VÂR(C) = C2 sotto l’ipotesi nulla E(C)=0

È ora evidente che la stima della varianza della popolazione con 1 grado di libertà, se vale

l’ipotesi nulla, è:

)σ C

i

ii

C

c

n

n

22

2

1

2=

=∑

= SS(C)21

se l’ipotesi nulla è da rifiutarsi, la quantità sopra sovrastima la varianza della popolazione

di una quantità legata al valor medio dello stimatore del contrast E(C) al quadrato. Per

capire se questa differenza è significativa si possono confrontare la SS(C) e la stima della

21 Notiamo che in Galetto (1995) la formula è ancora errata perché Galetto non lega i contrast con i lorostimatori.




60

varianza della popolazione σ2 che ha v= nii

n

n

=∑

⎛

⎝ ⎜

⎞

⎠⎟ −

⎡

⎣⎢⎢

⎤

⎦⎥⎥1

2

2 gradi di libertà (nei piani

completi):

( ) )σ 2

1

2

11

2 2

1

2

2 2

=⎛

⎝ ⎜

⎞

⎠⎟ −

⎡

⎣⎢⎢

⎤

⎦⎥⎥

=

−

⎛

⎝ ⎜

⎞

⎠⎟ −

⎡

⎣⎢⎢

⎤

⎦⎥⎥=

==

=∑

∑∑

∑

SSe

n

Y Y

nii

n

ij i

j

n

i

ii

n

n

i

n

n

Dunque, facendo il test F, rifiutiamo l’ipotesi nulla con un livello di fiducia (1-α), ovvero

diciamo che il contrast è significativamente diverso da zero se:

(1) SS C F v( ) , , )σ α 2 1 1> −

Se consideriamo che F1, v, 1-α = t2v, 1-α (Galetto 1995), vediamo che la (1) è identica ai 2 test

di ipotesi dell’ANCON:

C > t v, 1-α * cn

i

ii

n

22

1

2

* )

σ

=∑

C < - t v, 1-α * cn

i

ii

n

22

1

2

* )

σ =∑

Ciò è perfettamente logico perché usando metodi diversi (test t e F) per una stessa ipotesi

nulla il risultato deve (principio F1) essere lo stesso; nel prosieguo della tesi faremo

ampiamente uso della formula di SS(C), essa rappresenta uno strumento potentissimo

per poter passare dai contrast alle somme di quadrati usate nell’analisi della varianza: ne

apprezzeremo l’utilità quando introdurremo la non ortogonalità con stati di prova mancanti

e con numerosità diverse; infatti è di portata assolutamente generale stanti ovviamente leipotesi fatte:

1. la varianza della popolazione è costante ovvero VAR (yij) = σ2 = cost,2. le medie degli stati di prova non sono correlate fra loro ovvero COV( , ) y y j k = 0 per

ogni j ≠ k, dove j e k indicano gli stati di prova,

3. le risposte nei singoli stati di prova sono fra loro indipendenti, ovvero COV (y i, y j)= 0

per ogni i ≠ j, all’interno di ogni stato di prova.

Stranamente tale formula non si trova su molti libri di DOE, e Fornasieri (1995)

dimostra di non conoscerla quando afferma a pag.72 che non si può applicare il metodo di

Yates quando le numerosità sono differenti. Infatti di solito si conosce solo la formula

semplificata quando la numerosità degli stati di prova è costante (ni = r)




61

SS(C) = r * C2 / 2n se lo stimatore del contrast è scritto con le medie e ci = ±1

Riprendiamo la formula generale:

SS C C

c

n

i

ii

n( ) =

=∑

2

2

1

2

Come si vede, SS(C) non cambia se i coefficienti del contrast (e del conseguente stimatore)

vengono moltiplicati per una costante k ∈ℜ:

C k c yii

i

n

' * *= =∑1

2

SS C k C

k c

n

SS C i

ii

n( ' )

*

*

( )= =

=∑

2 2

22

1

È una proprietà importantissima perché in letteratura i contrast associati agli effetti

spesso differiscono per una costante moltiplicativa. Vediamo questo problema con un

esempio a 3 fattori e con 2 ripetizioni negli stati di prova, i cui risultati sono nella tab.2:

Stati di prova Y1 Y2 Totali Medie

i 30 31 61 30,5

a 24 26 50 25

b 25 23 48 24

ab 25 26 51 25,5

c 29 30 59 29,5

ac 25 23 48 24

bc 28 29 57 28,5

abc 29 27 56 28

Tabella 2

Qual è il contrast rappresentante l’effetto A? In letteratura si trovano almeno 6 tipi

differenti di contrast, che differiscono solamente per un fattore di proporzionalità:

1. Si può pensare di sommare le medie22 degli stati in cui A è al livello alto meno le altre

dunque in questo caso la determinazione dello stimatore del contrast sarebbe:

22 È ovvio che adesso sto parlando delle stime delle medie perché nella formula sotto ci sono dei numeri, chesono le determinazioni degli stimatori dei parametri “medie”; anche se uso lo stesso termine per nonappesantire la notazione, spero che il lettore non si lasci confondere.




62

A = 25+25,5+24+28-30,5-24-29,5-28,5 = -10

2. Si può pensare di sommare i totali degli stati in cui A è al livello alto meno gli altri:

A = 50+51+48+56-61-48-59-57 = -20

3. Possiamo sommare le medie degli stati in cui A è al livello alto meno le altre e dividere

tutto per il numero di stati in cui A è al livello alto:

A = -10 / 4 = -2,5

4. Possiamo sommare i totali degli stati in cui A è al livello alto meno le altre e dividere

tutto per il numero di stati in cui A è al livello alto:

A = -20 / 4 = -5

5. Possiamo sommare le medie degli stati in cui A è al livello alto meno le altre e dividere

tutto per il numero di stati totali:

A = -10 / 8 = -1,25

6. Possiamo sommare i totali degli stati in cui A è al livello alto meno le altre e dividere

tutto per il numero di stati totali:

A = -20 / 8 = -2,5

Non tutti specificano a che contrast si riferiscono per calcolare l’effetto ma per fortuna la

somma dei quadrati associati ad A non è influenzata dal tipo di contrast usato: infatti nel

nostro esempio la sua determinazione è sempre:

SS(A) = 25

Il risultato si ricava subito dalla formula che abbiamo scritto quando la numerosità degli

stati è costante e pari a r (in questo caso r=2 e n=3) quando il contrast è scritto con lemedie e i coefficienti sono tutti +1 o -1, ovvero dal primo dei 6 contrast che abbiamo

scritto, A = -10.

SS(A) = r * A2 / 2n

Quindi usiamo pure la forma di contrast che più ci aggrada, purché siamo consapevoli di

quale stiamo usando perché altrimenti non sappiamo come calcolare la SS(A) che, lo

ripetiamo, non deve cambiare al variare della forma che usiamo per i contrast

rappresentanti gli effetti.




63

4.4 TABELLA DEI SEGNI E MATRICI DI HADAMARD

Abbiamo visto che un modo per ricavare i cosiddetti “effetti” si può fare la

sommatoria delle medie dei vari stati di prova pesate per +1 o -1; la tabella dei segni ci

dice esattamente quali sono i pesi da attribuire agli stati di prova, per ciascun effetto; ad

esempio con 3 fattori la tabella è23:

I A B AB C AC BC ABC

i 1 -1 -1 1 -1 1 1 -1

a 1 1 -1 -1 -1 -1 1 1

b 1 -1 1 -1 -1 1 -1 1

ab 1 1 1 1 -1 -1 -1 -1

c 1 -1 -1 1 1 -1 -1 1

ac 1 1 -1 -1 1 1 -1 -1

bc 1 -1 1 -1 1 -1 1 -1

abc 1 1 1 1 1 1 1 1

Tabella 3: tabella dei segni

Sia i trattamenti che gli effetti sono messi nell’ordine canonico di Yates e questo ci

consente di poter aggiungere un altro fattore e, conseguentemente, altri stati di prova senza

dover alterare la tabella iniziale.

Nel capitolo 8 vedremo che scrivendo il modello associato al piano fattoriale informa full regression, la tabella rappresenta la matrice X di tale modello scritto in forma

matriciale:

Y = X * β

Vista come matrice, le colonne e le righe si possono considerare dei vettori: ci si accorge

che la tabella presenta una proprietà molto importante ovvero i vettori riga e colonna sono

tutti ortogonali fra di loro; visto che tali vettori contengono i ci

dei contrast, se la

numerosità degli stati è costante, si dice che i contrast sono:

• ortogonali il che deriva dal fatto che i vettori formati dai c i che sono ortogonali;

conseguentemente gli stimatori dei contrast sono non correlati.

La tabella rappresenta dunque una matrice ortogonale (a meno di un fattore

moltiplicativo) composta da -1 e +1 ovvero una matrice di Hadamard, il tipo di matrice

che Plackett e Burman nel 1946 hanno usato per trovare una teoria unificata sui piani

sperimentali ortogonali. Le matrici di Hadamard danno allora sempre dei contrast

ortogonali? No, solo se la numerosità degli stati di prova è uguale perché altrimenti le

covarianze fra gli stimatori dei contrast non sono più nulle: nessuno mette in evidenza in

23 La prima colonna indica sempre la media: non è un contrast.




64

questo importantissimo punto. Già ora iniziamo ad intuire che la nozione di ortogonalità

può essere molto ambigua perché esistono 2 tipi di ortogonalità (algebrica e statistica,

cap.5 e 9) anche se molti li confondono.

Plackett e Burman nel 1946 trovarono delle matrici di Hadamard per ogni

n = 4*k ∀k ∈ N: k<25 e k ≠23

Dopo sono state trovate altre matrici di Hadamard (anche quella con k=23) ma Fontana

(1995) riferisce che a tutt’oggi nessuno ha ancora dimostrato che le matrici di

Hadamard esistano per ∀k ∈N.

Qualunque matrice di Hadamard di ordine n può essere generata partendo da un

particolare vettore di n-1 elementi e facendolo ruotare ricorsivamente per n-1 volte; poi si

aggiunge all’inizio una colonna di +1 e una riga di -1, così da ottenere una matrice di

ordine n; il vettore di partenza da cui partire è ottenuto dalla teoria dei gruppi e del campo

di Galois.

Le matrici di Hadamard di dimensione uguale a una potenza di 2 danno luogo ai

cosiddetti piani geometrici e corrispondono alle tabelle dei segni comunemente usate24

per i piani 2n; le altre sono le matrici dei piani sperimentali non geometrici, meglio noti

come i piani di Plackett-Burman (PB) che, come vedremo, hanno una struttura un po'

particolare. In tutti i libri di DOE c’è scritto che i piani PB sono ortogonali: non si precisa

che si parla di ortogonalità algebrica nello spazio dei contrast (cap.9); se però

consideriamo l’ortogonalità statistica, ovvero la non correlazione degli stimatori, i piani

PB essi sono ortogonali solo se la numerosità degli stati di prova è costante e questo vale

per tutti piani classici “ortogonali”.

4.5 METODO DI YATES

In precedenza abbiamo più volte accennato a questo metodo che non rappresenta

nient’altro che un modo veloce per ottenere numericamente il valore dei contrast associati

agli effetti e interazioni quando i fattori hanno 2 livelli. Per questo non ha senso dire che il

metodo non è applicabile ai piani non ortogonali, come affermano invece Galetto (1995),Fornasieri (1995), Actis (1995). Anche in casi non ortogonali in cui la numerosità delle

celle non è costante, il metodo applicato alle medie fornisce sempre degli stimatori di

contrast25, associati a delle particolari ipotesi nulle sui contrast: è lo sperimentatore che

decide se tali ipotesi sono di suo interesse26. Il metodo è molto semplice: per n fattori ci

vogliono n colonne più una all’inizio e una alla fine. Nella prima colonna si scrivono le

24 A parte le interazioni scambiate di segno.

25 Se metto i totali in generale non si hanno più delle stime di contrast.

26 Le stime dei contrast forniti dal metodo di Yates, di per sè, interessano sempre lo sperimentatore, però segli stimatori sono troppo correlati fra di loro, le stime possono essere molto lontana dalla realtà: è questo ilvero problema della non ortogonalità (statistica).




65

determinazioni degli stimatori delle medie degli stati di prova in ordine canonico o di

Yates;

• il primo elemento della seconda colonna è la somma dei primi 2 elementi della prima

colonna,

• il secondo è la somma del terzo e del quarto,

• il terzo è la somma del quinto e del sesto,... e così fino al (2n-1)-mo elemento della

seconda colonna che sarà la somma delle ultime due medie della prima colonna,

• il (2n-1+1)-mo elemento della seconda colonna è la differenza fra la seconda media e la

prima,

• il (2n-1+2)-mo elemento della seconda colonna è la differenza fra il quarto e il terzo

elemento della prima colonna...

• l’ultimo elemento è la differenza fra l’ultima e la penultima media.

Nella terza colonna si esegue l’algoritmo descritto sopra sulla seconda colonna e così via

fino alla (n+1)-ma colonna che contiene il valore numerico del contrast: esso è un contrast

di tipo 1 (par. 4.3).

A questo punto, si opera con la solita formula che calcola la somma dei quadrati associata

allo stimatore C del contrast, che ha i ci=±1:

SS CC

n ii

n( ) =

=∑

2

1

2 1

Se la numerosità è costante ni = r, dunque la formula si semplifica:

SS(C) = r * C2 / 2n

Se la numerosità è costante posso mettere i totali al posto delle medie nella prima colonna,

il metodo di Yates fornisce degli stimatori C’ di tipo 2 (par. 4.3); per calcolare la somma

dei quadrati associata si usa allora:

SS(C’) = C’2 / (r * 2n)

Quasi tutti libri (Galetto 1995 e 1996 rappresenta un’eccezione) riportano la formula sopra

• senza dire da dove arriva

• senza specificare che vale se nella prima colonna del metodo di Yates si mettono i

totali.

Non mi stupisco quindi che molti non riescano ad analizzare i dati quando le numerosità

dei trattamenti non sono uguali.

Facciamo un esempio per capire come funziona l’algoritmo di Yates, usando gli

stessi dati della tabella 2: con 3 fattori abbiamo dunque 5 colonne.




66

I II III IV V

i 30,5 55,5 105 215 11556,25 SS(I)

a 25 49,5 110 -10 25 SS(A)

b 24 53,5 -4 -3 2,25 SS(B)ab 25,5 56,5 -6 12 36 SS(AB)

c 29,5 -5,5 -6 5 6,25 SS(C)

ac 24 1,5 3 -2 1 SS(AC)

bc 28,5 -5,5 7 9 20,25 SS(BC)

abc 28 -0,5 5 -2 1 SS(ABC)

Tabella 4: metodo di Yates

Se usiamo i totali, le stime dei contrast (colonna 4) sarebbero moltiplicate per 2 e

dunque, elevati al quadrato sarebbero 4 volte questi, ma nell’ultima colonna bisogna

dividere per 2 anzichè moltiplicare per 2 dunque le somme dei quadrati non cambiano,

come ripetuto più volte. Ricordiamo che nell’esempio posso usare i totali solo perchè la

numerosità è costante.

La somma delle SS associate agli n-1 effetti dà quella che abbiamo chiamato SStr e

quindi per avere la SSe, ricordando le formule dell’ANOVA, dobbiamo fare la sommatoria

dei quadrati delle osservazioni e sottrarre il fattore di correzione (SS(I) oppure SSµ) e la

SStr; abbiamo allora tutti gli elementi per fare l’ANOVA e “valutare la significatività degli

effetti”: quest’ultima frase induce in errore molte persone che perdono di vista la realeipotesi nulla che stanno testando, ovvero che una certa combinazione lineare delle

medie è uguale a zero. Vediamo la tabella ANOVA:

SS df MS F calcolata F0,95 (1,8) Effetti sign. 5%

Totale 11658 16

Media 11556,25 1 11556,25 9245

Trattamenti 91,75 7 13,107143 10,4857143 5,31764499

A 25 1 25 20 5,31764499 A

B 2,25 1 2,25 1,8 5,31764499

AB 36 1 36 28,8 5,31764499 AB

C 6,25 1 6,25 5 5,31764499

AC 1 1 1 0,8 5,31764499

BC 20,25 1 20,25 16,2 5,31764499 BC

ABC 1 1 1 0,8 5,31764499

Residuo 10 8 1,25

Tabella 5: ANOVA per i dati di tab.2.




67

Ad esempio nell’ANOVA, la SS(A)=25 sta testando che:

(1) µ111+µ110+µ101+µ100-µ000-µ001-µ010-µ011 = 0

ma anche:

(2) µ11.+µ10.-µ00.-µ01. = 0

(3) µ1.1+µ1.0-µ0.0-µ0.1 = 0

(4) µ1..-µ0.. = 0

.....

in tutto vi sono 64 ipotesi equivalenti che la SS(A)=25 sta testando27.

Queste ipotesi nulle coincidono solo perché la numerosità degli stati di prova è

costante; ma se le numerosità delle celle non è costante (piani non ortogonali), le 4 ipotesi

di sopra non coincidono più e bisogna scegliere quale di esse testa “l’effetto di A”:

anticipo già ora che l’ipotesi più logica da testare anche in casi non ortogonali, secondo

me, è la (1) perché, considerando tutti gli stati di prova, tiene conto della stratificazione

completa dei dati; la (2) ignora il fattore C, la (3) ignora il fattore B, la (4) li ignora

entrambi e infatti vedremo nel cap.7 che corrisponde alla regola del “Questo per Questo”;

si potrebbero pensare altre 60 modi diversi di pesare le medie degli stati di prova in base

alla loro numerosità... purtroppo spesso si dice che si sta testando l’effetto del fattore A

senza esplicitare l’ipotesi che si vuole testare.

Sarà importante ricordarsi di queste osservazioni quando introdurremo nel cap.7 il modello

sovraparametrizzato; fin da ora però mi preme sottolineare che

1. le uniche ipotesi nulle testabili sono quelle esprimibili in termini di combinazioni

lineari delle medie (parametri) degli stati di prova28.

2. il termine “effetto del fattore A” deve essere espresso sotto forma di una specifica

combinazione lineare delle medie.

4.5.1 ALGORITMO INVERSO DI YATES

Il metodo di Yates può essere invertito dando luogo all’algoritmo inverso di Yatesin cui bisogna mettere i contrast calcolati (nell’ordine canonico invertito

) nella prima

colonna e nell’ultima si riottengono, in ordine inverso, gli stessi valori medi di partenza,

dopo aver diviso per 2n i risultati della quarta colonna.

Questo algoritmo è perfettamente giustificabile se si assume il modello full-

regression (cap.8), non quello sovraparametrizzato (cap.7) perché presuppone un modello

che colleghi la risposta direttamente agli effetti.

27 Nel cap.8 sarà chiaro perché ci sono 64 ipotesi che possono testare “l’effetto” di A. È però ovvio fin da orache al massimo 8 di esse possono essere algebricamente indipendenti fra di loro.

28 Ciò è messo perfettamente in evidenza dal teorema di Gauss-Markov e dalle funzioni stimabili (Cap.7)




68

I II III IV V

ABC -2 7 10 224 28 abc

BC 9 3 214 228 28,5 bc

AC -2 9 18 192 24 ac

C 5 205 210 236 29,5 c

AB 12 11 -4 204 25,5 ab

B -3 7 196 192 24 b

A -10 -15 -4 200 25 a

I 215 225 240 244 30,5 i

Tabella 6: algoritmo inverso di Yates col modello completo

Ma l’algoritmo inverso di Yates non va usato come abbiamo fatto sopra dove

abbiamo considerato nel modello della risposta anche gli effetti non significativi; questi

infatti vanno esclusi perché abbiamo detto che i modelli devono essere il meno complicati

possibili dunque è inutile porvi dei termini che hanno un effetto non distinguibile

dall’errore sperimentale. Allora nell’algoritmo inverso porremo solo gli effetti che sono

risultati significativi, negli altri mettiamo 0: ovviamente così non riotteniamo più le medie

di partenza; otteniamo dei residui che vanno analizzati con tecniche grafiche (carte di

probabilità) che ci consentono di controllare se le ipotesi di normalità dell’errore sono

verificate statisticamente.

Nell’esempio di prima gli effetti significativi erano A, AB e BC, dunque al postodegli altri effetti B, C, AC, ABC mettiamo zero.

I II III IV V Medie osservate Residui

ABC 0 9 9 226 28,25 28 -0,25 abc

BC 9 0 217 222 27,75 28,5 0,75 bc

AC 0 12 9 184 23 24 1 ac

C 0 205 213 228 28,5 29,5 1 c

AB 12 9 -9 208 26 25,5 -0,5 ab

B 0 0 193 204 25,5 24 -1,5 b

A -10 -12 -9 202 25,25 25 -0,25 a

I 215 225 237 246 30,75 30,5 -0,25 i

Tabella 7: algoritmo inverso di Yates con un modello ridotto

La somma dei residui è nulla ma, poste su una carta di probabilità seminormale,

non hanno un andamento normale29: bisogna fare l’opportuno test di ipotesi sulla

distribuzione e se è rifiutata l’ipotesi di normalità, bisogna provare ad aggiungere altri

29 Ciò può essere dovuto anche al ridotto numero degli stati di prova.




69

termini (quelli che abbiamo posto uguale a zero perché sono risultati non significativi) al

modello; il controllo dell’adeguatezza del modello scelto è una fase molto delicata nella

quale non ci addentreremo nella tesi.

4.6 PIANI FRAZIONATI 2n-p

I piani completi permettono la stima degli effetti (con tutta l’ambiguità di questo

termine) di tutti i fattori e interazioni; qual è allora il problema? Pensiamo a un

esperimento in cui ci interessano 10 fattori e a quanti stati di prova bisogna sperimentare:

210 = 1024 diverse condizioni sperimentali; il costo di un tale esperimento può essere di

alcuni miliardi, soprattutto se il sistema è complesso ed è difficile far variare alcuni

fattori

30

; può anche esserci il problema che alcune combinazioni dei livelli dei fattori nonsiano fisicamente realizzabili. Allora bisogna forzatamente ridurre il numero degli stati di

prova, con delle conseguenze piuttosto pesanti, nel senso che, non solo si stimano meno

parametri di prima, ma quelli che restano non sono più quelli di prima. Nasce il problema

degli alias o del confounding.

Con n fattori, a partire dal piano completo 2n, se si esegue solo una certa metà31

delle prove, si dice che si è operato 1 taglio dando luogo al piano frazionato 2n-1. Se si

operano p tagli successivi, si ottiene il piano ridotto 2n-p e si possono stimare quindi solo

più 2n-p ‘quantità’ (che chiameremo alias).

4.6.1 UN SOLO TAGLIO: PIANI 2n-1

Riprendiamo l’esempio di prima per chiarire le idee e usiamo nuovamente la

rappresentazione del cubo che è molto intuitiva; supponiamo di non aver condotto

l’esperimento nei 4 stati di prova i, ab, ac, bc. Dal cubo si vede che non si riesce più a

stimare l’interazione ABC perché nei trattamenti effettuati è sempre al livello alto, dunque

essa coincide con la media I che somma i risultati di tutti gli stati di prova.

Vediamo anche che il confronto fra gli stati rimasti per ottenere A è identico a

quello per ottenere BC; sono altresì identici i confronti rappresentanti B e AC e quelli di Ce AB. Si dice che A è confuso con B, B con AC e C con AB: ecco perché si parla di

confounding nei piani ridotti.

30 In questo caso converrebbe bloccare qualche variabile oppure usare i nested design.

31Scelta in modo da mantenere l’ortogonalità dei contrast di interesse.




70

Figura 4: i confronti fra gli stati per ottenere A e BC sono identici nel piano ridotto

Nella terminologia tradizionale32 si dice che:

I = abc + a + b + c

ABC = abc + a + b + c

A = abc + a - b - c

BC = abc + a - b - c

B = abc + b - a - c

AC = abc + b - a - c

C = abc + c - a -b

AB = abc + c - a -b

e che dunque si genera la seguente struttura degli alias:

I = ABC oppure I+ABC

A = BC oppure A+BC

B = AC oppure B+AC

C = AB oppure C+AB

perché i contrast che rappresentano quegli effetti sono identici. Come si può vedere gli

alias si ottengono tutti dal primo moltiplicando per A, B e C e usando l’aritmetica modulo

2, in cui I è l’elemento neutro; si opera dunque con le seguenti regole:

I * A = A

A * A = I

A * B = AB

A * AB = (A * A) * B = B

32 Nel par. 4.8 vedremo delle definizioni alternative.

i a

ab b

c

bc abc

ac




71

Dunque tutti gli alias si generano dalla relazione I = ABC che è detta defining relation del

piano frazionato mentre ABC è detto defining contrast . Se si effettuava l’altra metà del

piano (ovvero gli stati i, ab, ac, bc) si sarebbero ottenuta la seguente struttura degli alias,

che aveva come defining contrast -ABC:

I = -ABC oppure I-ABC

A = -BC oppure A-BC

B = -AC oppure B-AC

C = -AB oppure C-AB

anche se molti33, considerano la situazione sopra equivalente a quella di prima e ritengono

equivalenti i 2 piani:

(a, b, c, abc) e (i, ab, ac, bc)

Ciò non è assolutamente ammissibile teoricamente (nei 2 piani “equivalenti” si stimano dei

contrast diversi) ma può essere parzialmente giustificato nella pratica aziendale dove

conoscere A-BC o A+BC è lo stesso se non si ha alcuna conoscenza della direzione degli

effetti.

4.6.2 CLASSE DI EQUIVALENZA

Galetto (1995) spiega la struttura degli alias ricorrendo al concetto di classe di

equivalenza e vedendo i coefficienti dei contrast (rappresentanti gli effetti) come dei

vettori che formano lo spazio delle interazioni; anche gli stati di prova sono visti come deivettori di dimensione pari al numero dei fattori, formati da 0 o 1 a seconda che in quello

stato il fattore sia al livello alto o basso: tali vettori formano lo spazio degli stati.

X@Y significa “interazione34 X non distinguibile dall’interazione Y”; essa è una relazione

di equivalenza nello spazio delle interazioni e induce delle classi di equivalenza che

determinano una partizione dello spazio degli stati. La defining relation è vista quindi

come una relazione di equivalenza che genera il gruppo degli alias.

Questo tipo di impostazione35 ha il grosso merito di sottolineare, ad esempio, che la

stima del contrast(1) a + abc - b - c

non spiega l’effetto del fattore A, ma della classe di equivalenza A@BC quindi non

sappiamo più niente dei singoli A e BC; essi potrebbero essere molto significativi ma con

effetti opposti sulla risposta per cui, bilanciandosi, potrebbe risultare che il contrast stimato

da (1) è non significativo; viceversa potrebbe risultare che A e BC non sono significativi

33 Anche Galetto (1995 e 1996).

34 Considerando anche i fattori come interazioni di ordine zero.

35 Per quanto ne so, Galetto è l’unico che la usi.




72

ma, sommati, danno un effetto totale che lo è (par 4.7). Ciò che noi stimiamo non è

l’effetto dei singoli fattori e interazioni ma una loro funzione (quale???).

La classe di equivalenza di Galetto presenta però, mio parere, i seguenti

inconvenienti:

• non dice che tipo di funzione lega gli effetti nella classe di equivalenza, anche perché

non vengono definiti a priori gli effetti.

• non riesce a interpretare la struttura degli alias dei piani “irregolari”, come quelli dei

piani non geometrici di Plackett-Burman.

• trascura il segno + e - delle interazioni e di conseguenza induce a pensare che in un

piano frazionato 2n-p vi siano p piani “equivalenti” per una data struttura degli Alias; ciò

è falso perché, considerando il segno (principio F1), c’è una corrispondenza biunivoca

fra struttura degli alias e piano sperimentale

• se si sperimentano entrambe le metà del piano, (i, ab, ac, bc) e (a, b, c, abc), dalla prima

conoscerei A@BC e dall’altra A@-BC (non trascurando il segno); il concetto di classe

di equivalenza non spiega come unire quelle 2 quantità per ottenere gli effetti puri A e

BC: sicuramente però A@BC e A@-BC devono (principio F1) poter essere unite una

volta che si ha il piano completo .

Comunque è un concetto fondamentalmente corretto (se si considera anche il segno delle

interazioni36), anche se incompleto e inutilmente complicato.

4.6.3 PIÚ TAGLI: PIANI 2n-p

Se opero in tutto p tagli ho bisogno di p defining contrast , si ottengono 2n-p alias,ciascuno contenente 2 p termini (effetti); nell’esempio di prima, partendo da I+ABC, se

aggiungo I-BC ottengo la defining relation che identifica univocamente la struttura degli

alias:

(I+ABC)*(I-BC) = I + ABC - BC -A

che dà luogo all’altro alias:

B + AC - C - AB

Su alcuni libri i 2 alias sono anche scritti mettendo sempre + anche dove dovrebbe esserci

il - oppure mettendo l’uguale (Lorenzen 1993, Actis 1995,...) al posto dei segni: a mio parere ciò può essere fuorviante perché impedisce di vedere la corrispondenza biunivoca

fra l’insieme delle prove e la struttura degli alias.

Figura 5: corrispondenza biunivoca fra prove e struttura degli alias

36 In ogni caso è un concetto che va formalizzato meglio.

INSIEME DELE PROVEDEL PIANOSPERIMENTALE

STRUTTURA DEGLI ALIASDEL PIANO SPERIMENTALE




73

Con n fattori e p tagli, data una certa struttura degli alias, si ha uno e un solo piano

corrispondente ad essa. Come si trova tale piano? Bisogna partire dai p defining contrast37

(d.c.): si parte dal primo e si prendono tutti quegli stati di prova che hanno un numero di

lettere

• pari, se il d.c. ha segno + ed è un interazione fra un numero pari di fattori o se il d.c. ha

segno - ed è un interazione fra un numero dispari di fattori,

• dispari, se il d.c. ha segno + ed è un interazione fra un numero dispari di fattori o se il

d.c. ha segno - ed è un interazione fra un numero pari di fattori.

Si ottengono così 2n-1 stati di prova distinti; su questi si fa la stessa selezione col secondo

d.c. e così via fino all’ultimo d.c.: si ottengono 2n-p stati di prova che corrispondono alla

defining relation di partenza.

4.6.4 TABELLA DEI SEGNI

Gli alias si vedono chiaramente dalla tabella dei segni se si cancellano le righe

corrispondenti ai trattamenti dove non si hanno dati. Se partiamo dalla tabella 3:


i 1 -1 -1 1 -1 1 1 -1

a 1 1 -1 -1 -1 -1 1 1

b 1 -1 1 -1 -1 1 -1 1

ab 1 1 1 1 -1 -1 -1 -1

c 1 -1 -1 1 1 -1 -1 1

ac 1 1 -1 -1 1 1 -1 -1

bc 1 -1 1 -1 1 -1 1 -1

abc 1 1 1 1 1 1 1 1

e cancelliamo gli stati di prova i, ab, ac, bc ottteniamo:


a 1 1 -1 -1 -1 -1 1 1

b 1 -1 1 -1 -1 1 -1 1

c 1 -1 -1 1 1 -1 -1 1

abc 1 1 1 1 1 1 1 1

37 Val la pena di notare che i defining contrast non definiscono univocamente la struttura degli alias mentre ladefining relation sì.




74

e vediamo che:

I = ABC

A = BC

B = AC

C = AB

ovvero gli alias che avevamo già ottenuto in 4.6.1. Se operiamo un altro taglio, eliminando

i trattamenti a, abc, ottengo:


b 1 -1 1 -1 -1 1 -1 1

c 1 -1 -1 1 1 -1 -1 1

che corrispondono agli alias già ottenuti in 4.6.3:

I = ABC = -BC = -A

B = AC = -C = -AB

4.6.5 RISOLUZIONE DEI PIANI RIDOTTI

Nei piani ridotti uno cerca in generale di non confondere gli effetti dei fattori con la

media, fra di loro e, se possibile, con le interazioni del primo ordine; nei 2 piani che

abbiamo visto sopra, corrispondenti alle defining relation:

I + ABC

I + ABC - A - BC

il primo è detto un piano di risoluzione III perché non confonde i fattori fra di loro, ma li

confonde con le interazioni del primo ordine; il secondo addirittura è solo di risoluzione I

perché confonde la media col fattore A. In generale, per le frazioni regolari la risoluzione

di un piano è il numero di fattori che compaiono nell’interazione38 di ordine più

basso, presente nella defining relation; per le frazioni irregolari vedremo che non c’èun’unica defining relation, quindi non è possibile adottare una definizione generale: è però

ancora possibile parlare di risoluzione, come vedremo nel cap.5 (in Addelman 1972 c’è

una definizione generale per tutti piani).

Con 3 fattori il miglior piano ridotto ortogonale che si può avere è di risoluzione III

e corrisponde a quello visto, definito da I + ABC; aumentando il numero di fattori, cresce

la possibilità di aumentare la risoluzione del piano sperimentale ma cresce anche il numero

di trattamenti da sperimentare; è ovvio che vorremmo avere la massima risoluzione

possibile ma questa esigenza è necessariamente mediata da quella di budget.38 Considerando i fattori come interazioni di ordine zero.




75

4.7 ATTENZIONE AI FRAZIONAMENTI

I piani ridotti sono stati introdotti da tantissimi anni: Bisgaard (1989) riferisce che il

primo fu un piano 25-3, eseguito nel 1934 da Tippett39, anche se poi furono formalizzati

solo nel 1945 da Finney. Il frazionamento non nasce solo da esigenze di budget ma anche

dal principio di Pareto, “vital few, trivial many” , per il quale sono pochi i fattori e

interazioni veramente importanti, dunque nei piani completi c’è una sorta di ridondanza fra

i vari stati di prova: Fisher la chiamava hidden replication, ovvero alcuni trattamenti in

realtà possono essere considerati semplici replicazioni di altri perché il fattore che li

differenzia non ha un effetto significativo.

Box et al. (1978), partendo da un piano40 completo 25, a pag.376 simulano un

frazionamento e trovano risultati analoghi a quelli del piano completo: ma con quello

ridotto si sarebbero risparmiate 16 prove. Ciò si spiega col fatto che, nel loro esempio, le

interazioni di ordine elevato erano trascurabili e quindi negli alias predominano i fattori e

le interazioni del primo ordine; ad esempio se la stima dell’alias è:

A + BCDE = -2

nell’esempio di Box et al., possiamo assumere che:

BCDE ≅ 0

A ≅ -2Box, J.S. Hunter e W.G. Hunter (1978), 3 fra le voci più autorevoli del DOE, a pag.375

affermano:

“It is often true, then, that at some point higher order interaction tend to become

negligible and can properly be disregarded”.

“Often” non vuol dire “always”.

E infatti vi possono essere casi in cui nell’alias predominano i termini di ordine più

elevato: dipende dal fenomeno sotto indagine e se non si ha una certa conoscenza a priori

(possibilmente derivante da precedenti esperimenti), non si può escludere niente altrimentisi rischia di fare dei grandissimi errori.

Ad esempio con i dati della tabella 2 operiamo il frazionamento

I + ABC

che genera gli alias:

A+BC

B+AC

C+AB

39 E i taguchiani dicono che Taguchi ha inventato i piani che fanno risparmiare le prove.

40 Ne parleremo nel cap.10.




76


a 24 26 50 25

b 25 23 48 24

c 29 30 59 29,5abc 29 27 56 28

Tabella 8: piano della tab.2 frazionato

Con i 4 stati di prova a, b, c, abc otteniamo le stime dei seguenti contrast (di tipo 1, par.

4.3):

a + abc - b - c = -0,5

b + abc - a- c = -2,5

c + abc - a - b = 8,5che danno luogo alle seguenti somme dei quadrati, nella tabella ANOVA.

SS df MS F calcolata F0,95 (1,4)

Totale 5717 8

I+ABC 5671,125 1 5671,125 3489,923077

A+BC 0,125 1 0,125 0,076923077 7,708649719

B+AC 3,125 1 3,125 1,923076923 7,708649719

C+AB 36,125 1 36,125 22,23076923 7,708649719

Residuo 6,5 4 1,625

Tabella 9

Come si vede A+BC è non significativo mentre sappiamo dal piano completo

(tab.5) che sia A che BC sono significativi con CL=95%; se a priori si sa la direzione

(ovvero il segno algebrico dei contrast) di questi 2 effetti si può anche immaginare che A eBC si siano annullati una volta combinati nell’alias A+BC; da questo capiamo quanto è

importante tenere conto del segno del contrast; se avessi fatto il piano frazionato

complementare (i, ab, ac, bc) avrei stimato A-BC, non A+BC e otterrei che A-BC è molto

significativo. Dunque i 2 piani frazionati non sono decisamente equivalenti perchè portano

a risultati diversi (coerenti con quelli del piano completo). Abbiamo dunque visto un primo

tipo di errore che si può commettere nell’analisi dei piani frazionati: pensare che gli

effetti confusi nell’alias non sono significativi perchè l’alias è non significativo.

Un altro tipo di errore consiste nel pensare che se l’alias risulta significativo,almeno uno dei termini che lo compongono deve essere significativo.




77

Un ultimo tipo di errore, piuttosto comune, a quanto sostiene Galetto (1995), è

ritenere che le interazioni abbiano un effetto secondario rispetto ai fattori; con i dati

della tab.9 si vede che:

C + AB è significativo

e si tende a pensare che l’effetto sia da ascrivere al fattore C piuttosto che all’interazione

AB: dal piano completo sappiamo invece che AB è significativa e C non lo è. Questo

errore è collegato con l’assurda credenza che se i fattori sono non significativi, anche la

loro interazione, non deve esserlo. Nel nostro esempio invece notiamo che nel piano

completo (tab.5) B e C sono non significativi, mentre la loro interazione BC lo è.

A questo punto, presi dallo sconforto, si sarebbe tentati di dire:

“Ma allora nei piani ridotti non conosco niente!”: in effetti è così...

L’esempio è stato fatto volutamente per mettere in evidenza tutti possibili errori

nell’analisi dei piani frazionati. Forse nella realtà non capitano casi così sfortunati o forse

sì... Bisogna stare molto attenti e accettare il fatto che col frazionamento non si conosce

più niente di preciso, dunque è fondamentale:

• la conoscenza del fenomeno da parte dei tecnici che, con la loro esperienza, possono

provare a individuare a priori elementi non significativi41

• conoscere la struttura degli alias del piano sperimentale da eseguire per fare in modo

che non mischi gli elementi di interesse: “planned confounding...in which important

effects either are uncounfounded or are only confounded with effects that are believed

to be negligible, is the basis for the statistical constructions of fractional factorial

experiments” (Mason et a1. 1989)

Dunque il successo di un piano sperimentale dipende dalla conoscenza scientifica

del fenomeno sotto indagine e dalla teoria statistica che indica quali sono le prove da

eseguire, compatibilmente con le esigenze dei tecnici; per il principio F2 la variabilità

esiste, “We are working, whether we like it or not , in the presence of variability” (John

1990), dunque anche studiando scrupolosamente quali prove fare, si può sbagliare ma

almeno si hanno delle solide basi per capire dove si è sbagliato e si può ripartire con unaltra iterazione (par. 3.8) nella sperimentazione: è con tale onestà intellettuale che occorre

rivolgersi allo sperimentatore se si vuole operare con Qualità. Invece i metodi Taguchi

fanno sempre uso di piani frazionati (come i quadrati latini), ma non indicano mai gli alias

e ciò non mi stupisce visto che Taguchi assume a priori42 che le interazioni sono

trascurabili.

41 Possono anche sbagliare.

42 Taguchi dà alcune giustificazioni di questa assunzione: le vedremo nel cap.11.




78

4.8 EFFETTI E ALIAS: DEFINIAMOLI UN PÓ MEGLIO

Finora abbiamo usato questi 2 termini in modo volutamente ambiguo per

rispecchiare la confusione presente nella letteratura sul DOE. Quando il piano è completo e

la numerosità è costante nessuno dubita che l’effetto (contrast) di A è stimato, con 3

fattori, da:

A = abc + ab +ac + a - i - b - c - bc

Su questa relazione, già vista all’inizio del capitolo, facciamo alcune considerazioni:

1. cosa succede se la numerosità non è più costante? Bisogna specificare se le lettere

scritte sopra indicano medie o totali: basta ragionare poco per capire che se sono totali

l’espressione non stima più un contrast43, dunque usiamo le medie. In questo modo è

risolto il problema delle numerosità differenti (a parte il fatto della correlazione fra gli

stimatori dei contrast di cui parleremo),

2. se l’effetto del fattore è una combinazione lineare di parametri della popolazione

ovvero:

A* = µ111+µ110+µ101+µ100-µ000-µ001-µ010-µ011

tale combinazione lineare non è più stimabile se manca anche un solo stato di prova:

ciò è assolutamente evidente. E allora non ha senso dire che nel piano frazionato (a, b,

c, abc):

A = a + abc - b -c

perché tale stimatore di A * è non corretto infatti il suo valore atteso è:

E (a+abc-b-c) = (A* + BC*)/2

dove il simbolo + rappresenta un segno algebrico, non un simbolo di equivalenza comenel par. 4.5. Questo fatto è innegabile ed è messo in evidenza da Daniel (1976), Box et

al.(1978), Mongomery (1991)....

Dunque io definisco l’effetto medio44 del fattore i-mo come:

E k* b *i ij j j

n

==

∑ µ 1

2

43 Oppure lo è ma per puro caso.

44 Per distinguerlo da quello marginale (Cap.6); quando dico solo effetto, intendo l’effetto medio.




79

con bij = ±1 a seconda che nello stato j il fattore rappresentato da E i sia al livello basso o

alto; la media I ha tutti bij = 1 e non è quindi un contrast. Per quanta riguarda l’ interazione

fra i fattori 1,2....t rappresentati dagli effetti E1, E2...Et, il suo effetto lo definisco come:

E k* b *t iji

t

j j

n

1211

2

... =⎛ ⎝ ⎜

⎞ ⎠⎟== ∏∑ µ

La costante moltiplicativa non influenza in alcun modo l’analisi45 come abbiamo

visto perché la somma dei quadrati associata a Ei (che è un contrast) rimane invariata con k

(par. 4.3): una volta scelto un k però non bisogna cambiarlo. Da questa definizione si vede

che, se manca anche un solo stato di prova, l’effetto non è più stimabile: questo concetto è

messo in evidenza anche da John (1979) e Daniel (1976). Una tale definizione di effetto

equivale a esaminare gli esperimenti secondo quella che è chiamata “weighted analysis of

means” in Speed et al. (1978), Allen (1985) e Searle (1987).

Cosa si può stimare nei piani frazionati se gli effetti non si possono più stimare? Si

possono stimare delle combinazioni lineari degli effetti stessi: ad esempio nel piano

frazionato (a, b, c, abc):

A* = µ111+µ110+µ101+µ100-µ000-µ001-µ010-µ011

BC* = µ111+µ011+µ100+µ000-µ101-µ001-µ010-µ110

non si possono stimare ma la loro somma:

A* + BC* = 2 * (µ111+µ100-µ001-µ010)

è stimabile perché richiede solamente le medie degli stati di prova a, b, c, abc. E infatti il

valore atteso del contrast:

E (a+abc-b-c) = (A* + BC*)/2

Il fattore 2 a denominatore, non influenza l’analisi, come già detto. I parametri della

popolazione, o delle loro combinazioni lineari, sono stimabili per un dato piano se esiste

una combinazione lineare degli stimatori delle medie degli stati di prova il cui valore

atteso è la c.l. dei parametri.

Abbiamo trovato dunque una spiegazione semplice e razionale degli alias nei piani

frazionati: in questi ultimi gli effetti dei fattori e delle interazioni non sono più

stimabili ma sono stimabili delle loro combinazioni lineari ovvero gli alias. Dunque l’alias

A j è definito così :

45 Rispecchia i 6 tipi di contrast del par. 4.3




80

A E i ij j j

n

==

∑α *1

2

l’unico accenno a questa definizione l’ho trovato in Box (1993): “The expected value of a

data contrast is called its alias and is a linear combination of various main effects and interactions”. Una tale impostazione risolve i problemi della classe di equivalenza di

Galetto (par. 4.5.2) perché:

• specifica il tipo di funzione che lega gli effetti nell’alias: è una funzione lineare, molto

semplice; i segni + e - sono dunque segni algebrici che collegano gli effetti e non dei

semplici simboli come nell’impostazione tradizionale

• si riesce a interpretare qualunque tipo di piano sperimentale come vedremo nel

prosieguo della tesi

• non trascura il segno + e - perché mette in evidenza che nel piano (a, b, c, abc) si può

stimare:

A* + BC*

mentre nel piano complementare (i, ab, ac, bc) si può stimare:

A* - BC*

• Se nel piano ridotto (a, b, c, abc) conosciamo l’alias:

A+BC = 10

e per ipotesi supponiamo46 che BC = 0, posso concludere giustamente che:

A = 10

perché il fatto che BC = 0, implica che:abc + bc + a + i - b - c - ac - ab = 0

ovvero:

(1) abc + a - b - c = ac + ab -i - bc

dunque l’espressione per il calcolo di A si semplifica, richiedendo solo 4 stati di prova.

Vediamo perchè:

A = abc + ab +ac + a - i - b - c - bc = (abc + a - b - c) + (ac + ab -i - bc )

Ma per la (1) si ha che i 2 termini sono uguali quindi:

(abc + a - b - c) + (ac + ab -i - bc ) = 2 * (abc + a - b - c) = 2 * (ac + ab -i - bc )ovvero, se BC=0, mi bastano 4 stati al posto di 8 per conoscere A. Questo perché

abbiamo supposto che BC fosse nullo, ovvero abbiamo aggiunto un grado di libertà

artificiale all’analisi: nella realtà non abbiamo quasi mai questo tipo di informazione per

cui è meglio dire che una certa somma dei quadrati è associata all’alias non ai fattori o

interazioni

• se dal piano (i, ab, ac, bc) conosco:

X = A-BC = 20

e da quello (a, b, c, abc) conosco:Y = A+BC = 30

46 Se non abbiamo fatto o non faremo altre prove non potremmo mai sapere se l’ipotesi è corretta.




81

trovo subito:

A = (X+Y)/2 = 25

BC = (Y-X)/2 = 5

dunque riesco a unire le 2 quantità stimate con i piani ridotti mentre con la classe di

equivalenza non posso sommare algebricamente gli alias

• l’alias visto come c.l. degli effetti così definito è molto più semplice ed intuitivo della

classe di equivalenza; se uno legge una relazione del tipo:

x + y = 250

anche se è corretto dire che x è indistinguibile da y e che quindi x e y formano una

classe di equivalenza, non penso che ciò sia necessario per capire la realtà: ecco perché

penso che la classe di equivalenza sia un inutile complicazione per capire la struttura

degli alias.

Comunque sottolineo che la combinazione lineare degli effetti non è in contrasto con la

classe di equivalenza: è semplicemente un concetto più completo che, mantenendo la

proprietà dell’indistinguibilità, aggiunge all’alias altre proprietà molto utili in casi

irregolari.

4.9 FATTORI QUANTITATIVI E QUALITATIVI A PIÚ DI 2 LIVELLI

Fino ad ora non abbiamo mai specificato se i fattori erano quantitativi o qualitativi:

ma ce n’era bisogno? No, perchè non abbiamo mai considerato il valore dei livelli delle

variabili; ad esempio, se il fattore è la temperatura e i suoi livelli sono 300K e 350K, i

valori 300 e 350 non influenzano l’analisi di significatività della temperatura: è come se

avessimo codificato i 2 livelli con -1 e +1. Se il fattore è qualitativo ad esempio un colore a

2 livelli, blu e rosso, codifichiamo ancora i 2 livelli con -1 e +1; le somme dei quadrati

sono indipendenti dalla codifica usata.

Se ci sono 3 livelli le cose si complicano: la somma dei quadrati dovuta all’effettodi un fattore ha 2 gradi di libertà dunque può essere scomposta in 2 componenti (contrast):

• per fattori quantitativi si parla di una componente lineare e una quadratica; se vi sono

ripetizioni costanti nei trattamenti, per la codifica, conviene usare i coefficienti dei

polinomi ortogonali (cap.5): (-1,0,1) per l’effetto lineare e (1,-2,1) per quello

quadratico, assicurano l’ortogonalità algebrica (e statistica se la numerosità è

costante) delle 2 componenti. Se le numerosità degli stati sono diverse, i coefficienti

dei polinomi ortogonali sono più difficili da trovare quindi conviene usare il metodo

presentato nel cap.7, se si vuole avere gli effetti ortogonali (statisticamente)• per fattori qualitativi vi sono semplicemente 2 contrast rappresentanti l’effetto; secondo

me conviene usare una codifica che rispecchi confronti che interessano lo




82

sperimentatore, ad esempio (-1, 1, 0) e (0, -1, 1) confrontano il primo con il secondo

livello e il secondo col terzo, anche se possono essere un po' correlati fra di loro.

Anche l’interazione acquista dei gradi di libertà in più: in generale, se A e B hanno

rispettivamente p e q gradi di libertà, l’interazione ha p*q gradi di libertà47.

Nell’esempio a 2 fattori qualitativi presente in Galetto (1995), c’è un fattore, il

lotto, a 2 livelli e la bobina, a 3 livelli. La tabella dei segni può essere la seguente, dove il

primo numero dello stato di prova indica il lotto e il secondo la bobina.

Stati di prova I L B1 B2 LB1 LB2

11 1 -1 -1 0 1 0

12 1 -1 1 -1 -1 1

13 1 -1 0 1 0 0

21 1 1 -1 0 -1 0

22 1 1 1 -1 1 -1

23 1 1 0 1 0 0

Tabella 10: possibile tabella dei segni per l’analisi dei contrast

Come si vede, vi sono 2 contrast riguardanti il lotto e 2 per l’interazione lotto-

bobina: essi non sono ottenuti con i coefficienti dei polinomi ortogonali, perché, a mio

parere, lo sperimentare, in presenza di variabili qualitative, deve testare i confronti che gli

interessano48 e non affidarsi a “mathematical niceties like orthogonality” (Hocking e

Speed 1975). Con fattori quantitativi è invece ragionevole ortogonalizzare i contrast che

rappresentano un fattore perché essi hanno un significato fisico (componente lineare,

quadratica..): riprenderemo l’argomento più avanti.

47 Ovviamente sto parlando di piani completi, perché nei piani ridotti non si deve più parlare di fattori einterazioni ma di alias, come è stato evidenziato nel capitolo precedente.

48 Purché i contrast non siano eccessivamente correlati fra loro.




83

CAPITOLO 5

PIANI FATTORIALI NON ORTOGONALI

5.1 ORTOGONALITÁ: CHE CONFUSIONE!

Finora abbiamo usato questo termine in maniera volutamente ambigua: ciò riflette

l’ambiguità che si trova nella letteratura sull’experimental design.

In generale si dice che sono ortogonali quei piani sperimentali a 2 livelli, le cui

tabelle dei segni sono formate da -1 e +1 e i vettori colonna e riga sono ortogonali fra diloro: le matrici di Hadamard, come visto, soddisfano questa proprietà ovvero, fra 2

stimatori C e C’ di contrast:

(1) c ci ii

n

* '=∑ =

1

2

0

ma questa è la condizione per l’ortogonalità algebrica nello spazio dei contrast e non è

sufficiente per annullare la covarianza fra gli stimatori dei contrast perché tale condizione(ortogonalità statistica) è:

(2)c c

n

i i

ii

n

* '

=∑ =

1

2

0 per ogni coppia di stimatori di contrast (C, C’)

La (1) implica la (2) solo se ni = cost. Se nella (2) consideriamo i c i incogniti per ogni

contrast, chiamiamoli cij dove j indica il j-mo dei (2n-1) contrast, la (2) esprime un sistema

non lineare di [2n * (2n-1)] incognite in un certo numero di equazioni. Quante?

Il numero di coppie che si può formare con (2n-1) contrast è dato dall’espressione:




84

( )( )

( ) ( )2 1

2 1 2 2

2 1 2 2

22 2 2 12 1 1

n

n

n n

n n n−

− −=

− −= − − +− −!

!* !

*

in aggiunta alle 2n-1 condizioni dei contrast:

cii

n

=∑ =

1

2

0

vi sono dunque 22n-1 - 2n-1 vincoli sulle [2n * (2n-1)] cij: dunque c’è un numero di incognite

doppio del numero di equazioni il che ci dice che vi sono infinite49 soluzioni e infatti vi

sono infiniti modi di ortogonalizzare i contrast. Questo discorso, a mio parere, non può

essere collegato al procedimento di ortogonalizzazione di Graham-Shmidt che trova

un’insieme di N’ vettori ortonormali (in realtà a noi non serve la proprietà di

normalizzazione) dato un insieme di N vettori, di dimensione M=N; in questo caso

abbiamo M>N ma in più ci sono le condizioni sui contrast, per cui non penso che tale

procedura si possa applicare.

A parte le formule matematiche, il punto fondamentale è che, dato un piano con k

prove, esistono sempre k-1 contrast ortogonali fra di loro dunque è improprio parlare di

piani ortogonali; nell’analisi dei risultati si può ortogonalizzare sempre dunque è

meglio parlare di analisi ortogonale, che si esegue:

1. usando come cij i coefficienti dei polinomi ortogonali (difficili da ricavare quando ni

non è costante),2. aggiungendo i termini uno a uno nel modello della risposta e vedere le differenze fra le

somme dei quadrati (SS) spiegate dai vari modelli; tali SS sono associate sempre a

contrast fra loro ortogonali (metodo G),

Il problema è vedere se questi contrast ortogonali ottenuti interessano lo sperimentatore: in

generale non è detto. A mio parere l’unico caso in cui si può essere interessati ad

ortogonalizzare è quello con una sola variabile quantitativa in cui si può essere

interessati a vedere quanto il modello:

Y = a + b*X + c*X2 spieghi più del modello:

Y = a + b*X

Per testare la componente quadratica (H0: c=0) si fa la differenza di somma di quadrati50:

SS(c) = SSreg(a,b,c) - SSreg(a,b)

Solitamente si dice che la componente lineare è testata da:

SSreg (a,b) - SSreg(a)

49 Questo dovrebbe essere dimostrato rigorosamente: non lo faccio visto che non conosco bene i sistemi nonlineari.

50 Le formule presentate saranno più chiare quando parleremo del metodo G (cap.7 e 8).




85

ma la differenza sopra testa H0: b=0 solo quando la numerosità degli stati è costante:

quanti se ne rendono conto?

Nel caso di una sola variabile quantitativa c’è un ordine preferenziale con cui i

termini entrano nel modello, ovvero prima la componente lineare, poi quella quadratica,

quella cubica: come vedremo nel cap.7 e 8 in questo caso si riesce sempre a

ortogonalizzare col metodo G.

Se c’è una sola variabile qualitativa, l’ortogonalizzazione porta già dei problemi:

prendiamo l’esempio in Galetto (1995) a pag. 274 in cui si vuole studiare se 5 diversi tipi

di pneumatici (X) influenzano lo spazio di frenata (Y): per avere 4 contrast ortogonali si fa

un confronto fra i primi 3 pneumatici e gli ultimi 2, anche se sarebbe stato più interessante

confrontare51 i primi 2 con gli ultimi 3 perché i primi 2 erano pneumatici non radiali e gli

altri erano radiali: vedremo questo caso nel cap.10.

Con più fattori, se c’è un ordine preferenziale52 per farli entrare nel modello, si può

ortogonalizzare, altrimenti non c’è nessun motivo, se non quello di volere una stima più

precisa della Y.

Il problema della non ortogonalità statistica è che i contrast che ci interessa stimare

danno luogo a degli stimatori che sono variabili casuali correlate, quindi la varianza dello

stimatore C del contrast C* non rispecchia solo la variabilità di C, ma anche quella degli

stimatori C’ degli altri contrast che sono correlati con C; in altre parole VAR(C) aumenta e

così si allarga l’intervallo di fiducia dello stimatore C: la stima puntuale ottenuta può

essere molto lontana dal valore vero; dunque dobbiamo attuare un compromesso fra 2

esigenze:• costruire contrast di interesse

• fare in modo che i loro stimatori non siano troppo correlati fra loro, e quindi le stime

siano poco precise.

Chiameremo allora ortogonali quei piani con (n) trattamenti per cui è possibile

stimare (n-1) contrast di interesse i cui stimatori non sono correlati fra loro: sono tali

tutti piani fattoriali completi che hanno un numero costante di ripetizioni per ogni stato di

prova.

La tesi di Fornasieri (1995) è intitolata “DOE: piani di prova frazionati nonortogonali . Considerazioni teoriche e pratiche”; trovo strano che in tutta la tesi non si

parli del problema primario53 della non ortogonalità statistica ovvero l’aumento della

varianza degli stimatori, causato dalla correlazione fra di essi, che si traduce in una perdita

di precisione delle stime puntuali.

51 Si sarebbe dovuto rinunciare all’ortogonalità.

52Ad esempio nei nested design.

53Per quello che ho letto io (vedi ad esempio Hahn et al.1976 e 1978 oppure Snee 1973).




86

Spesso la nozione di piano ortogonale è sostituita con quella di piano bilanciato:

Galetto (1995) a pag.278 afferma che un piano è bilanciato quando tutti gli stati

sperimentali hanno la stessa numerosità dei dati; però a pag.289 dice che è bilanciato

“quando sia i vettori riga, tra loro, sia i vettori colonna, tra loro, sono paralleli. [vettori

proporzionali sono paralleli]”. La prima condizione citata da Galetto è più restrittiva della

seconda.

Mason et al. (1989) dicono che i piani bilanciati hanno un ugual numero di

ripetizioni per tutti gli stati di prova: è la prima definizione di Galetto. Prendiamo per

buona questa definizione: allora i piani ridotti come quello che abbiamo visto nel par. 4.7

con numerosità costante sono non bilanciati:


a 24 26 50 25

b 25 23 48 24

c 29 30 59 29,5

abc 29 27 56 28

Tabella 11: esempio di piano ridotto ortogonale

quindi, seguendo Galetto (pag.290) e Mason (pag.312), questo piano si può esaminare solo

col metodo G (Mason lo chiama “reduction in error sums of squares”, ma è la stessa

cosa); invece i 2 autori analizzano i piani come quello sopra con le stesse tecniche dei piani

bilanciati, introducendo in più gli alias: e infatti si può analizzare col metodo di Yates, conla tabella dei segni o col “Questo per questo”. Dunque occhio alle definizioni (par. 2.6) per

evitare confusione e contraddizioni.

Nel prosieguo il termine “bilanciato” sarà sinonimo di “ortogonale”(in senso

statistico, non algebrico): un piano con n trattamenti per cui lo sperimentatore riesce a

stimare n-1 contrast che gli interessano usando stimatori non correlati.

Come riferito da Galetto (1995) nella realtà è molto comune trovare delle situazioni

non bilanciate. Esse possono quindi derivare da:

1. Diverse ripetizioni per ogni stato di prova2. Stati di prova mancanti

per vincoli fisici (non si può sperimentare praticamente uno stato di prova), matematici

(nei mixture designs) o di budget...

5.2 DIVERSE RIPETIZIONI PER OGNI STATO DI PROVA

Iniziamo con un caso molto semplice con 2 fattori, operatore e macchina, a 2 livelli,

che codificheremo con 0 e 1: ad esempio lo stato di prova 01 è quello con la prima

macchina e il secondo operatore; i dati presi sono uguali a quelli di Fornasieri (1995) a




87

pag.58, salvo il fatto che nello stato di prova 11 è stato volutamente omesso un dato di

prova per rendere il piano sperimentale “non ortogonale”, non essendo più costante la

numerosità degli stati di prova.

MACCHINA 0 MACCHINA 1OPERATORE 0 64,67 41,48

OPERATORE 1 39,35 41

Tabella 12

La prima cosa da fare, in qualunque analisi (soprattutto nelle più complicate), è

farsi una tabella ANOVA, come ci fosse solo un fattore e gli stati di prova fossero i

trattamenti di uno stesso fattore: in questo caso abbiamo quindi 4 trattamenti e la tabella

ANOVA è la seguente:


Totale 16997 7

Media 16032,14286 1 16032,14

Trattamenti 927,8571429 3 309,2857 25,0772201 9,276619

Residuo 37 3 12,33333

Tabella 13: ANOVA one-way per l’esempio macchina - operatore

A questo punto si tratta di scomporre la SStr in 3 componenti, ciascuna con 1grado di libertà, rappresentanti rispettivamente l’effetto della macchina, dell’operatore e

della loro interazione. L’unico strumento che abbiamo a disposizione per ora è l’analisi dei

contrast a cui possiamo associare una somma di quadrati. Conviene allora scrivere le 4

medie dei 4 stati di prova (ricordiamo che il primo indice indica la macchina e il secondo

l’operatore):

Stato di

prova

Media

00 65,5

01 37

10 44,5

11 41

Quale contrast possiamo scegliere per identificare l’effetto della macchina? A mio

parere (come ho detto nel par. 4.8) il più logico è:

µ11 + µ10 - µ01 - µ00

o qualunque suo multiplo, come chiarito nel par.4.8; esso ammette lo stimatore:




88

(1) C M y y y y( ) ( )= + − −10 11 00 01

la cui determinazione è:

C(M) = -17 54

il contrast considerato è quello che somma le medie in cui il fattore macchina è al livello

“alto”1, meno quello in cui essa è al livello “basso”0, considerando tutti gli stati di prova,

ovvero tenendo conto della stratificazione massima dei dati; ciò corrisponde alla

definizione di effetto che ho dato nel par.4.8. Potremmo pensare ad un altro stimatore per

l’effetto, che non tiene conto dell’altro fattore (operatore) e che vede i dati stratificati in

soli 2 macrostati:

MACCHINA 0 MACCHINA 1

64,67,39,35 41,48,41

(2) C M y y( ) ( ). .= −1 0 = - 7,9166655

Il primo stimatore che abbiamo scritto sta testando l’ipotesi nulla:

µ11 + µ10 - µ01 - µ00 = 0

mentre il secondo stimatore sta testando:

( ) ( )n n

n n

n n

n n

11 11 10 10

11 10

01 01 00 00

01 00

0* * * *µ µ µ µ +

+−

+

+=

quindi nel nostro esempio lo stimatore (2) sta testando:

(1/3) * µ11 + (2/3) * µ10 - (1/2) * µ01 - (1/2) * µ00 = 0

Secondo me, una volta stratificati al massimo i dati, non è di interesse testare delle

ipotesi dipendenti dalla numerosità degli stati (come fa lo stimatore (2)), a meno che le

numerosità non rispecchino qualche caratteristica della popolazione; ecco perché, lo ripeto

e lo ripeterò in tutta la tesi, l’ipotesi più logica da testare in questo caso è:

54 Spero che a questo punto sia chiaro che, se fosse moltiplicato per una costante moltiplicativa, questacomunque non influenzerebbe l’analisi.

55 Tale contrast è quello derivante dalla regola del “Questo per questo” (Cap.7).




89

µ11 + µ10 - µ01 - µ00 = 0

Consideriamo ancora un ultima ipotesi nulla riguardante l’effetto della macchina:

(2/10) * µ11 + (3/10) * µ10 - (2/10) * µ01 - (3/10) * µ00 = 0

testata dallo stimatore56:

(3) C M y y y y( ) * * * *= + − −3

10

2

10

3

10

2

1010 11 00 01 = -5,5

Essa sembra che non testi niente di interessante (in effetti è così, secondo me),

tuttavia l’ho introdotta per riottenere alcuni risultati che vedremo nel cap.6, 7 e 8: esso

testa l’ipotesi nulla che si testerebbe usando la procedura descritta in Galetto (1995 e1996): anche il fattore 10 a denominatore (che non influenza l’analisi) è stato introdotto a

questo scopo. Tutti i ragionamenti fatti col fattore macchina valgono per il fattore

operatore per cui posso ricalcolare le stime dei 3 tipi di contrast visti sopra per l’operatore:

(1’) C O y y y y( ) ( )= + − −01 11 10 00 = -32

(2’) C O y y( ) ( ). .= −1 0 = -16,666

(3’) C O y y y y( ) * * * *= + − −3

10

2

10

3

10

2

1001 11 00 10 = -9,25

Passiamo ora all’interazione fra i 2 fattori; lo stimatore più ragionevole che può

rappresentarla è:

(4) C MO y y y y( ) ( )= + − −00 11 10 01 = 25

Come abbiamo fatto per i fattori, si potrebbe pensare di pesare le medie per le numerosità

degli stati di prova; non lo faccio perché nella letteratura DOE c’è accordo nel dire che la

(4) rappresenta l’interazione mentre per i fattori non c’è ancora completo accordo (vedere

ad esempio Speed et al.1978).

A tutti contrast possiamo associare una somma di quadrati, ricorrendo alla solita formula:

SS C C

c

n

i

ii

n( ) =

=∑

2

2

1

2

(1) C M y y y y( ) ( )= + − −10 11 00 01 = -17

SS(M) = 115,6

56 Non distinguo più fra stimatore, che è una variabile casuale, e la sua determinazione che è un numero: ladifferenza è evidente dal contesto.




90

(2) C M y y( ) ( ). .= −1 0 = - 7,91666

SS(M) = 107,4405

(3) C M y y y y( ) * * * *= + − −3

10

2

10

3

10

2

1010 11 00 01 = -5,5

SS(M) = 201,666

(1’) C O y y y y( ) ( )= + − −01 11 10 00 = -32

SS(O) = 409,6

(2’) C O y y( ) ( ). .= −1 0 = -16,666

SS(O) = 476,1905

(3’) C O y y y y( ) * * * *= + − −310

210

310

21001 11 00 10 = -9,25

SS(O) = 570,4166

(4) C MO y y y y( ) ( )= + − −00 11 10 01 = 25

SS(MO) = 250

Per testare la significatività degli effetti, come visto nel par. 4.3, abbiamo 2 metodi

equivalenti: il primo è calcolare la varianza dello stimatore del contrast e usare la t di

Student con 3 gradi di libertà (quelli del residuo); il secondo è usare la distribuzione F per

confrontare la somma dei quadrati dello stimatore del contrast e il residuo SSe, diviso per i

suoi gradi di libertà, ovvero la classica procedura usata nell’ANOVA.

Il secondo metodo è senz’altro più veloce del primo per cui in generale useremo

sempre quello; comunque, per far vedere come funzione il primo test applichiamolo sullo

stimatore (1):

(1) M y y y y= + − −( )10 11 00 01 = -17

VAR(M) = (0,5 + 1 + 0,5 + 0,5) * σ2

dunque può essere facilmente stimata se si conosce la stima della varianza della

popolazione: noi conosciamo questa stima dalla tabella ANOVA (tab.3).

$ ,σ 237

312 333= = =

SSe

df SSe

3

la stima della varianza dello stimatore (1), con 3 gradi di libertà , è dunque:

VÂR(C) = 30,8333

s.q.m. (C) = 5,5527




91

t3;0,05 = -3,1824

s.q.m. (C) * t3;0,05 = -17,6709

visto che C=-17> s.q.m. (C) * t3;0,05 = -17,6709, con un livello di fiducia del 95%

accettiamo l’ipotesi nulla:

µ11 + µ10 - µ01 - µ00 = 0

Se facevamo il test F, avremmo trovato che:

SS(M) = 115,6

SSe = 37

F1;3;0,95 = 10,1279

105,6 / (37/3) = 9,3729 < 10,1279

il che ci portava (ovviamente) alla stessa decisione, ovvero all’accettazione dell’ipotesi

nulla.

SE pensiamo che il contrast (1) rappresenta l’effetto medio (par. 4.8) del fattore macchina,

diciamo che nel nostro esperimento, con un rischio di I specie del 5%, la macchina non

ha un effetto medio significativo.

Se per stimare l’effetto della macchina usiamo lo stimatore (3), ovvero quello

derivante dalla procedura descritta in Galetto57 (1995 e 1996, pag.291):

C M y y y y( ) * * * *= + − −3

10

2

10

3

10

2

1010 11 00 01 = - 5,5

SS(M) = 201,6666

facciamo il test F:

201,6666 / (37/3) = 16,3513 > 10,1279

dunque, con un livello di fiducia del 95%, dobbiamo rifiutare l’ipotesi nulla:

(2/10) * µ11 + (3/10) * µ10 - (2/10) * µ01 - (3/10) * µ00 = 0

SE pensiamo che lo stimatore (3) stimi l’effetto della macchina, dobbiamo concludere che,

con un rischio di I specie del 5%, la macchina ha un effetto significativo sulla

risposta.

Questi risultati si prestano ad alcune interessanti osservazioni:

1. È evidente a questo punto che, a seconda di quale contrast decidiamo che

rappresenti l’effetto di un fattore, prendiamo decisioni diverse.

57 Sui 2 libri non si fa l’analisi dei contrast ma si ragiona solo sulle somme di quadrati: io ho trovato (colmodello full-regression, cap.8) che tali somme di quadrati derivano dai contrast riportati sopra.




92

2. È evidente che il termine “fattore macchina”, di per sé, NON SIGNIFICA NULLA

se non viene definito in termini di uno specifico contrast che testa una particolare

ipotesi nulla.

3. È completamente errato affermare in generale che un tipo di contrast è errato e un altro

è giusto; semplicemente contrast diversi testano ipotesi differenti: è lo sperimentatore

che decide quale ipotesi vuole testare.

Nei libri e relazioni consultati per la tesi, molto raramente ho trovato considerazioni

di questo tipo (Hocking e Speed 1975, Speed et al.1978,); nella maggior parte dei casi

viene usato il termine “effetto di in fattore” senza specificare l’ipotesi nulla che ci sta

dietro: e poi si dice che metodi diversi portano a stime differenti della somma dei quadrati

SS associata all’ “effetto del fattore”: invece NO. Metodi diversi (purché

scientificamente corretti) danno esattamente la stessa SS per una data ipotesi nulla:

in questo paragrafo abbiamo fatto l’analisi dei contrast sull’esempio operatore-macchina;

nel cap.6 vedremo l’analisi della covarianza; nel cap.7 la regressione col modello

sovraparametrizzato, riparametrizzato o no; nel cap.8 la regressione col modello cell-

means e quello full-regression. Tutti questi metodi daranno esattamente le stesse somme

dei quadrati associate alle ipotesi nulle, trovate in questo paragrafo (principio F1).

5.2.1 ANOVA

Riprendiamo la tabella ANOVA che avevamo fatto per l’esempio macchina-

operatore:


Totale 16997 7

Media 16032,14286 1 16032,14

Trattamenti 927,8571429 3 309,2857 25,0772201 9,276619

Residuo 37 3 12,33333

Tabella 14

Abbiamo detto che dovevamo scomporre la SStr in 3 componenti che mettano in

luce l’effettiva sorgente di variabilità ovvero gli effetti della macchina, dell’operatore e

della loro interazione; come ho già ripetuto più volte le stime di tali effetti, per me, sono

rappresentati dalle somme dei quadrati associate alle stime di contrast58:C M y y y y( ) ( )= + − −10 11 00 01 = -17

SS(M) = 115,6

C O y y y y( ) ( )= + − −01 11 10 00 = -32

58 Il loro valore e quello della SS associata potrebbero essere trovati col metodo di Yates; questa analisi èanche chiamata “Weighted analysis of means” (Speed e Hocking 1978, Allen 1985,...).




93

SS(O) = 409,6

C MO y y y y( ) ( )= + − −00 11 10 01 = 27

SS(MO) = 250

e danno luogo alla seguente tabella ANOVA:


Totale 16997 7

Media 16032,14286 1 16032,14

M 115,6 1 115,6 9,37297297 10,12796

O 409,6 1 409,6 33,2108108 10,12796

MO 250 1 250 20,2702703 10,12796

Residuo 37 3 12,33333

Tabella 15: ANOVA non ortogonale full-regression (cap.8)

Come si vede dalla tabella la somma delle 3 SS rappresentanti la macchina,

l’operatore e la loro interazione, sommate, non danno il valore di SStr:

SS(M) + SS(O) + SS(MO) = 775,2

SStr = 927,8571

Come mai? Perché gli stimatori dei 3 contrast che abbiamo usato per rappresentare glieffetti sono correlati: per verificarlo basta applicare la formula ai contrast, presi a coppie:

( )COV C C c cn

i i

ii

n

, ' * ' *==∑

σ 2

1

2

Dunque la varianza dello stimatore del contrast non rispecchia solo la sua

variabilità ma anche quella degli altri stimatori: la varianza dunque è più alta rispetto a

quella che si avrebbe in un piano ortogonale, in cui gli stimatori dei contrast sonoindipendenti gli uni dagli altri.

Se si volessero 3 contrast ortogonali, si potrebbero ottenere risolvendo il sistema

non lineare presentato nel par. 5.1: avremmo 12 incognite e 6 equazioni (3 di non

correlazione e 3 condizioni dei contrast) e otterremmo infinite soluzioni; noi non

seguiremo questo approccio che è abbastanza lungo.

Seguiamo dunque un’altra strada che spiegheremo nel par.8.2.2: anticipiamo che

essa può portarci ai seguenti stimatori59:

59 Esistono infiniti set di 3 contrast ortogonali: gli stimatori presentati ne individuano uno dei tanti.




94

C M y y y y( ) * * * *= + − −2

3

1

3

1

2

1

210 11 00 01 = - 7,91666

SS(M) = 107,4405

C O y y y y( ) * * * *= + − −3

10

2

10

3

10

2

1001 11 00 10

= -19

SS(O) = 570,4166

C MO y y y y( ) ( )= + − −00 11 10 01 = 27

SS(MO) = 250

Come si può vedere

SS(M) + SS(O) + SS(MO) = SStr = 927,8571

e ciò deriva dall’ortogonalità dei contrast; chi volesse verificare che la covarianza fra i 3stimatori, presi a coppie, è nulla, può ricorrere alla solita formula:

( )COV C C c cn

i i

ii

n

, ' * ' *==∑

σ 2

1

2

Considerando questi 3 contrast ortogonali, la tabella ANOVA diventa la seguente:


Totale 16997 7

Media 16032,14286 1 16032,14M 107,4404762 1 107,4405 8,71138996 10,12796

O 570,4166667 1 570,4167 46,25 10,12796

MO 250 1 250 20,2702703 10,12796

Residuo 37 3 12,33333

Tabella 16: ANOVA ortogonale 1

È diversa dalla tabella 5 perché le somme di quadrati derivano da contrast diversi che

stanno testando diverse ipotesi nulle.

Come si è visto, nell’analisi dell’esperimento abbiamo ortogonalizzato un piano

che sarebbe considerato “non ortogonale” o “non bilanciato”. Le stime ottenute, essendo

indipendenti, sono indubbiamente più precise di quelle correlate della tab.5; ma tali stime

interessano lo sperimentatore? Per rispondere egli deve almeno sapere cosa si sta testando

ovvero :2

3

1

3

1

2

1

2010 11 00 01* * * *µ µ µ µ + − − =

3

10

2

10

3

10

2

10001 11 00 10* * * *µ µ µ µ + − − =

µ 00 11 10 01 0+ − − =




95

Le prime 2 ipotesi non sono, in generale, di interesse (a meno che non ci siano dei motivi

per giustificare i differenti pesi dati alle medie, ma in tal caso non si capisce perché non

dovrebbero valere per l’interazione) mentre la terza sì perché è la classica ipotesi che testa

l’interazione; dunque, ortogonalizzando, testiamo con la massima precisione, delle

ipotesi che non è detto siano di interesse. Per di più non c’è un unico set di contrast

ortogonali: ad esempio anche i 3 seguenti stimatori:

C M y y y y( ) * * * *= + − −3

10

2

10

3

10

2

1010 11 00 01 = -11

SS(M) = 201,6666

C O y y y y( ) * * * *= + − −2

3

1

3

1

2

1

201 11 00 10 = -16,6666

SS(O) = 476,1905

C MO y y y y( ) ( )= + − −00 11 10 01 = 27SS(MO) = 250

individuano 3 contrast ortogonali e la tabella ANOVA risultante condurrebbe a decisioni

diverse dalle precedenti (è ovvio: stiamo testando ipotesi diverse; ma quanti se ne rendono

conto???).


Totale 16997 7

Media 16032,14286 1 16032,14

M 201,6666667 1 201,6667 16,3513514 10,12796

O 476,1904762 1 476,1905 38,6100386 10,12796

MO 250 1 250 20,2702703 10,12796

Residuo 37 3 12,33333

Tabella 17: ANOVA ortogonale 2

Ecco un altro buon motivo per non affidarsi a “mathematical niceties like orthogonality”

(Hocking e Speed 1975): ci sono infiniti modi di ortogonalizzare che, in generale, non mi

portano alle stesse decisioni.

Infine consideriamo un’ultima tabella ANOVA che deriva implicitamente dalla

procedura descritta in Galetto (1995 pag.283, 1996 pag.291): tale procedura utilizza

direttamente le somme di quadrati senza passare attraverso i contrast e infatti nasconde

l’ipotesi nulla testata60.

60 Bisogna dunque applicarla con molta cautela.




96


Totale 16997 7

Media 16032,14286 1 16032,14

M 201,6666667 1 201,6667 16,3513514 10,12796O 570,4166667 1 570,4167 46,25 10,12796

MO 250 1 250 20,2702703 10,12796

Residuo 37 3 12,33333

Tabella 18: ANOVA non ortogonale col metodo di Galetto (1995 e 1996).

L’interazione è sempre la stessa; la SS(M) è la stessa della tab.7; la SS(O) è quella della

tab.6; dunque la tabella 8 sta testando le 3 seguenti ipotesi:

310

210

310

210

010 11 00 01* * * *µ µ µ µ + − − =

3

10

2

10

3

10

2

10001 11 00 10* * * *µ µ µ µ + − − =

µ 00 11 10 01 0+ − − =

ma lo sperimentatore e l’analista che applica brutalmente il metodo di Galetto (1995 e

1996) non ne è consapevole; se si vogliono pesare diversamente le medie deve esserci

qualche motivo e se si pesano diversamente per i fattori perché vengono pesate ugualmente

nell’interazione? Mi sembra ci sia una contraddizione...

I 3 stimatori utilizzati (inconsapevolmente, lo ripeto) sono correlati e infatti:

SS(M) + SS(O) + SS(MO) = 1022,0833 ≠ SStr = 927,8571

5.2.2 UN ALTRO ESEMPIO CON 3 FATTORI

Complichiamo le cose aggiungendo un terzo fattore: in questo modo abbiamo 7

effetti. Adesso non ripeterò più le moltissime ipotesi che si possono testare: testerò quelle

che mi sembrano le più logiche ovvero gli effetti definiti nel par. 4.8, ovvero i confronti fra

le medie pesate ugualmente. Ad esempio il parametro effetto di A per me è dato dal

contrast:

A* = µ111+µ110+µ101+µ100-µ000-µ001-µ010-µ011

ed è stimato da:

A = abc + ab + ac + a - b - c- bc - i

il parametro che rappresenta l’effetto medio dell’interazione BC è dato dal contrast:

BC* = µ111+µ011+µ100+µ000-µ101-µ001-µ010-µ110




97

ed è stimato da:

BC = abc + bc + i + a - b - c - ab - ac

e così per tutti gli altri effetti....

I dati sono quelli della tabella 9:

Stati di prova Risposte Medie

i 76 75 75,5

a 80 78 81 79,666667

b 86 92 90 89,333333

ab 79 77 80 77 76 77,8

c 70 69 73 71 70,75

ac 79 83 81bc 78 74 76

abc 82 85 79 82

Tabella 19

La prima cosa da fare è l’ANOVA one-way che mette in luce i trattamenti e il residuo.


Totale 149592 24

Media 148837,5 1

Trattamenti 677,1166667 7 96,73095238 20,00036922 2,65719535

Residuo 77,38333333 16 4,836458333

Tabella 20

Per scomporre la SStr nei 7 “effetti”, calcoliamo gli effetti col metodo di Yates,

applicato sulle medie; nell’ultima colonna bisogna passare dal contrast alla somma di

quadrati con la formula:

SS C C

n ii

n( ) =

=∑

2

1

2 1

si vede facilmente che il denominatore è proporzionale alla media armonica delle

numerosità ed è fisso per ogni contrast; il suo valore è:1

1

8

nii=∑ = 2,95




98

Abbiamo ora tutti gli elementi per applicare il metodo di Yates:

i 75,5 155,166667 322,3 632,05 135419,391 SS(I)

a 79,6666667 167,133333 309,75 8,88333333 26,7503766 SS(A)

b 89,3333333 151,75 -7,3666667 18,216667 112,49049 SS(B)

ab 77,8 158 16,25 -19,95 134,916102 SS(AB)

c 70,75 4,16666667 11,9666667 -12,55 53,390678 SS(C)

ac 81 -11,533333 6,25 23,6166667 189,066761 SS(AC)

bc 76 10,25 -15,7 -5,7166667 11,0780603 SS(BC)

abc 82 6 -4,25 11,45 44,4415254 SS(ABC)

Tabella 21: metodo di Yates applicato a dati non bilanciati

La somma dei quadrati SS(I) associata alla media I non va considerata visto che

nell’ANOVA (tab.10) l’abbiamo già isolata: i 2 risultati sono diversi perché col metodo diYates, viene fuori da:

I = i + a + b + c + ac + ab + bc + abc

mentre quella dell’ANOVA viene fuori da:

I = 2i + 3a + 4c + 2ac + 5ab + 2bc + 3abc

comunque non interessa mai testare la media. La tabella ANOVA completa è dunque:

SS df MS F calcolata F0,95(1,16)

Totale 149592 24

Media 148837,5 1

A 26,75037665 1 26,75037665 5,530984618 4,49399806

B 112,4904896 1 112,4904896 23,25885636 4,49399806

AB 134,9161017 1 134,9161017 27,89564024 4,49399806

C 53,39067797 1 53,39067797 11,03920975 4,49399806

AC 189,0667608 1 189,0667608 39,09198587 4,49399806

BC 11,07806026 1 11,07806026 2,290531521 4,49399806

ABC 44,44152542 1 44,44152542 9,188857292 4,49399806

Residuo 77,38333333 16 4,836458333

Tabella 22

Come si vede la somma delle 7 SS degli effetti è minore della SStr:

SS(A)+SS(B)+SS(C)+SS(AB)+SS(AC)+SS(BC)+SS(ABC)=572,1339≠ SStr = 677,1166

Come nel precedente esempio, ciò è dovuto al fatto che gli stimatori dei contrast da cui

sono state ricavate le somme dei quadrati sono correlati.




99

5.3 PIANI DI PLACKETT-BURMAN

Finora abbiamo visto la non ortogonalità derivante da diverse numerosità degli

stati; adesso consideriamo l’altro caso ovvero quando mancano degli stati di prova, ovvero

si fraziona il piano ma in modo “irregolare”, rispetto ai piani 2 n-p che abbiamo visto nel

cap.4.

I piani di Plackett e Burman, come già detto, risalgono al 1946 e per brevità di

notazione saranno talvolta chiamati piani PB: nelle intenzioni degli autori tali piani di

dimensione n=4*k (k ∈ N), dovevano servire quando nelle prime fasi di un esperimento

(screning design) si voleva indagare l’effetto di (n-1) fattori trascurando le loro

interazioni61. Tutti piani PB di dimensione (n-1) si costruiscono a partire da un vettore di

dimensione (n-1), ricavato con la teoria dei gruppi. Ad esempio per n=8 il vettore è:

1

1

1

-1

1

-1

-1

la seconda colonna è generata dalla prima spostando gli elementi del vettore verso il basso

e ponendo l’ultimo elemento in testa. La terza colonna è ricavata in modo analogo a partire

dalla seconda e così fino alla settima colonna.

1 -1 -1 1 -1 1 1

1 1 -1 -1 1 -1 1

1 1 1 -1 -1 1 -1

-1 1 1 1 -1 -1 1

1 -1 1 1 1 -1 -1-1 1 -1 1 1 1 -1

-1 -1 1 -1 1 1 1

A questa tabella bisogna poi aggiungere all’inizio una colonna di 1 e alla fine una

riga di -1; in questo modo si ottiene una matrice di Hadamard che assicura l’ortogonalità

algebrica dei contrast e quella statistica se le numerosità degli stati siano costanti.

61 Infatti non è indicata la struttura degli alias.




100

1 1 -1 -1 1 -1 1 11 1 1 -1 -1 1 -1 11 1 1 1 -1 -1 1 -11 -1 1 1 1 -1 -1 1

1 1 -1 1 1 1 -1 -1- - -

1 -1 -1 1 -1 1 1 11 -1 -1 -1 -1 -1 -1 -1

Tabella 23: matrice di Hadamard di dimensione 8.

Tale piano può essere usato negli screening design (in cui si trascurano le

interazioni) per studiare 7 fattori (viene allora detto saturated design, secondo Wheeler

1988) e in tal caso corrisponde al piano ridotto 27-4:

I A B C D E F G

adfg 1 1 -1 -1 1 -1 1 1

abeg 1 1 1 -1 -1 1 -1 1

abcf 1 1 1 1 -1 -1 1 -1

bcdg 1 -1 1 1 1 -1 -1 1

acde 1 1 -1 1 1 1 -1 -1

bdef 1 -1 1 -1 1 1 1 -1

cefg 1 -1 -1 1 -1 1 1 1

i 1 -1 -1 -1 -1 -1 -1 -1

Tabella 24: saturated design, 7 fattori e la media con 8 stati di prova

Se invece ad esempio si vuole usare la tabella 13 per studiare 3 fattori (non saturated

design) si vede che essa corrisponde alla tabella dei segni di un piano completo a 3 fattori,

a parte il segno delle interazioni del primo ordine e l’ordine degli stati di prova diverso da

quello di Yates.

I A B C -AB -BC ABC -AC

a 1 1 -1 -1 1 -1 1 1

ab 1 1 1 -1 -1 1 -1 1

abc 1 1 1 1 -1 -1 1 -1

bc 1 -1 1 1 1 -1 -1 1

ac 1 1 -1 1 1 1 -1 -1

b 1 -1 1 -1 1 1 1 -1

c 1 -1 -1 1 -1 1 1 1

i 1 -1 -1 -1 -1 -1 -1 -1

Tabella 25: non saturated design, 3 fattori e la media con 8 stati di prova




101

Abbiamo visto dunque che i piani PB di dimensione n = 2k sono identici a quelli

esaminati nel cap.4, completi o frazionati: essi sono detti piani geometrici PB e possono

essere considerati ortogonali se la numerosità degli stati di prova è costante: Plackett e

Burman nel 1946 non indicarono la struttura degli alias per i loro piani ma per quelli

geometrici è facilmente ricavabile anche se può essere un lavoro molto lungo: basta

scrivere la tabella dei segni per tutti i fattori e interazioni (in tutto sono 128 nell’esempio di

tab.14) e vedere quali effetti sono rappresentati dallo stesso contrast.

5.3.1 PIANI NON GEOMETRICI PB

Sono quei piani la cui dimensione è un multiplo di 4 ma non è una potenza di 2. Il

piano più noto presentato sui libri di DOE è indubbiamente quello di dimensione 12: esso

si ottiene facendo ruotare il vettore:

1

-1111

-1-1-1

-1e aggiungendo la colonna di 1 e la riga di 1, si ottiene dunque la seguente tabella dei segni:

I A B C D E F G H L M Nacghln 1 1 -1 1 -1 -1 -1 1 1 1 -1 1abdhlm 1 1 1 -1 1 -1 -1 -1 1 1 1 -1bcelmn 1 -1 1 1 -1 1 -1 -1 -1 1 1 1acdfmn - - - - -abdegn 1 1 1 -1 1 1 -1 1 -1 -1 -1 1abcefh 1 1 1 1 -1 1 1 -1 1 -1 -1 -1bcdfgl 1 -1 1 1 1 -1 1 1 -1 1 -1 -1cdeghm 1 -1 -1 1 1 1 -1 1 1 -1 1 -1defhln 1 -1 -1 -1 1 1 1 -1 1 1 -1 1aefglm 1 1 -1 -1 -1 1 1 1 -1 1 1 -1bfghmn - - - - -i 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1

Tabella 26: PB non geometrico saturated , 11 fattori e la media con 12 stati di prova

questa tabella può essere usata per studiare 11 fattori se si trascurano le interazioni:questa volta è impossibile trovare la struttura degli alias con la tabella dei segni completa

perché nessuno degli 11 contrast sopra rappresenta più di un effetto: la classe di




102

equivalenza di Galetto (1995) in questo caso non riesce ad interpretare la struttura degli

alias di questo piano. Questo succede anche se con la tab.16 vogliamo studiare meno

fattori, ad esempio 5.

I A B C D E ? ? ? ? ? ?ac - - - - -abd 1 1 1 -1 1 -1 -1 -1 1 1 1 -1bce 1 -1 1 1 -1 1 -1 -1 -1 1 1 1acd 1 1 -1 1 1 -1 1 -1 -1 -1 1 1abde 1 1 1 -1 1 1 -1 1 -1 -1 -1 1abce 1 1 1 1 -1 1 1 -1 1 -1 -1 -1bcd 1 -1 1 1 1 -1 1 1 -1 1 -1 -1cde - - - - -de

1 -1 -1 -1 1 1 1 -1 1 1 -1 1ae 1 1 -1 -1 -1 1 1 1 -1 1 1 -1b 1 -1 1 -1 -1 -1 1 1 1 -1 1 1i 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1

Tabella 27: PB non geometrico non saturated , 5 fattori con 12 stati di prova

Anche in questo caso non si riesce a trovare la struttura degli alias con la tabella dei

segni; inoltre 6 dei contrast sopra non indicano nessuna interazione fra i fattori. Per capire

la struttura degli alias di questi piani bisogna per forza considerare l’alias come una

combinazione lineare degli effetti. Nel 1951 Box e Wilson presentarono un metodo per trovare la struttura degli alias per i piani PB (e qualsiasi altro piano sperimentale) che si

basa proprio sulle definizioni di effetto e alias che ho dato nel par. 4.8 e sul modello full-

regression: lo vedremo nel cap.8.

Fornasieri (1995) asserisce a pag.89 e 91 che i piani PB come quelli di tab.16 e 17

sono non ortogonali: io non ho capito come mai faccia una tale affermazione, anche perché

nella sua tesi non è ben definito cosa sia un piano ortogonale. I libri sull’experimental

design che parlano dei piani PB non geometrici (Daniel 1976, Box et al.1978, Diamond

1981, Wheeler 1988) dicono che tali piani di dimensione n sono ortogonali, probabilmente

perché la matrice dei segni fornisce n-1 contrast ortogonali fra di loro62. Secondo la mia

definizione (par.5.1) un piano è ortogonale se questi n-1 contrast interessano lo

sperimentatore: come vedremo nel cap.8, i contrast ottenuti coi piani PB non geometrici

confondono gli effetti in modo molto complicato, quindi secondo me non è detto che siano

sempre di interesse: ecco perché preferisco considerarli non ortogonali.

Infine diciamo che i piani PB non geometrici sono sempre di risoluzione III in

quanto i fattori non sono mai confusi fra di loro, ma lo sono sempre con tutte le interazioni;

i piani PB possono essere reflected ovvero replicati negli stati “complementari” (tabella dei

62 Ma questa è l’ortogonalità algebrica nello spazio dei contrast che implica quella statistica solo se lanumerosità degli stati è costante.




103

segni con segni opposti): tale tecnica è denominata “fold-over”; con essa i piani PB non

geometrici diventano di risoluzione IV.

5.4 I 3/4 DI JOHN

Questo tipo di piano sperimentale risale al 1962 quando fu introdotto da John; negli

anni ’60 ci fu un’intensa ricerca (Addelman 1972, Margolin 1969 e 1972, John 1966 e

1969, Webb 1971) riguardo piani “irregolari”: nei 6 articoli che ho citato sopra si fa uso di

un’algebra non sempre facilissima per indagare le proprietà di tali piani che spesso

richiedono un numero elevato di stati di prova; inoltre si fa sempre l’ipotesi iniziale che

alcune interazioni siano trascurabili: i 4 studiosi parlano di interazioni “negligible a

priori”; nella tesi io eviterò sempre di dire a priori che un’interazione è nulla: lo studio

della struttura degli alias serve proprio a capire come tutte le interazioni si confondono fra

di loro. In questa sede ci soffermeremo sui piani irregolari più semplici ovvero i 3/4 di

John.

L’idea di John è molto semplice: a partire da un piano completo 2n si eliminano 1/4

degli stati di prova e si sperimentano solamente i restanti 3/4 (di qui il nome); dato un

piano completo 2n, esso è sempre scomponibile in 4 parti, ciascuna corrispondente a una

certa una defining relation: se consideriamo solo 3 di queste 4 parti, unendo a coppie

queste 3 parti, arriviamo a 3 piani definiti da una defining relation contenente solo un

defining contrast. Facciamo un esempio con 3 fattori: il piano completo può essere diviso,ad esempio, in queste 4 parti, ciascuna corrispondente a una certa defining relation:

i, b I - A - C + AC

ac, abc I + A + C + AC

a, ab I + A - C - AC

c, bc I - A + C - AC

Supponiamo di non volere (o potere, vedi il caso Iveco nel cap.10) sperimentare glistati di prova a e ab: otteniamo un 3/4 di John. Usiamo la rappresentazione del cubo per

visualizzare bene l’esperimento con cui abbiamo a che fare.




104

Figura 6: 3/4 di John (caso Iveco)

A questo punto si uniscono a coppie le 3 defining relation rimanenti:

I - A - C + AC

I + A + C +AC

I - A + C - AC

• Unendo le prime 2 si ha

I + AC

che porta agli alias:

A + C

B + ABC

AB + BC

tale struttura corrisponde al piano (i, b, ac, abc)

• Unendo la prima e la terza:

I - AB - AB

C - AC

BC - ABC

tale struttura corrisponde al piano (i, b, c, bc)

• Unendo le ultime 2 defining relation si ha:

I + C

A + AC

B + BCAB + ABC

tale struttura corrisponde al piano (c, bc, ac, abc)

i a

ab b

c

bc abc

ac




105

In pratica l’idea di John consiste nel considerare separatamente le 3 possibili metà del

piano a 6 stati.

Come si era già verificato per i piani di Plackett-Burman, anche per un piano come

questo non si riesce a capire la struttura degli alias concepita in maniera classica (par. 4.6)

perché osservando la tabella dei segni completa non c’è nessun contrast uguale agli altri (e

alcuni non sono nemmeno contrast):


- - - -

- - - -

- - - -

- - - -

- - - -

1 1 1 1 1 1 1 1

Tabella 28: tabella dei segni per i 3/4 di John, utilizzando tutti dati e tutti gli effetti

Per capire la struttura degli alias dei 3/4 di John bisogna ridefinirne il concetto in

maniera chiara e univoca (cap.9). Nei piani regolari (cap.4) abbiamo visto che il numero di

alias in un piano ridotto è sempre uguale a quello degli stati di prova; nel cap.9 vedremo

che questa è una situazione generale dunque in questo caso abbiamo 6 alias ‘indipendenti’;

dai 12 alias trovati sopra potremmo scegliere, ad esempio:

I + AC

A + ACB + ABC

C - AC

AB + ABC

BC - ABC

• ciascuno di essi utilizza solo 4 dei 6 dati a disposizione, come si vede dalla tabella dei

segni dalla quale si possono stimare numericamente gli alias63:

I+AC A+AC B+ABC AB+ABC C-AC BC-ABC

- -

- -

- -

- -

- -

1 1 1 1

Tabella 29: tabella dei segni ridotta per i 6 alias considerati

63 Volendo, si possono calcolare anche le somme dei quadrati associate ad ogni alias, con la solita formula.




106

• alcuni alias hanno forzatamente degli stimatori correlati (ad esempio A+AC e C-AC),

• se si fa l’ipotesi che BC e ABC sono trascurabili, si conoscono tutti gli altri 6 effetti,

• nel cap.9 vedremo che quella sopra è solo una delle tante strutture degli alias,

• anticipo che il caso Iveco (cap.10), già trattato in Fornasieri (1995) e Actis (1995),

rientra fra i 3/4 di John e, in particolare, ha la stessa struttura di questo esempio; esso si

può dunque risolvere adeguatamente senza ricorrere alle equazioni normali,

semplicemente usando l’analisi dei contrast e i 3/4 di John,

• il piano ha risoluzione III perché gli effetti principali non sono confusi fra di loro.

John (1969) ha dimostrato che, se un alias P±Q contiene un effetto P non

trascurabile e Q trascurabile, e un altro alias P±S contiene l’effetto di prima P non

trascurabile e un effetto S trascurabile, la media algebrica dei 2 alias dà la stima di P

uguale a quella proveniente dal metodo dei minimi quadrati; ciò si estende a n alias che

contengano l’effetto P e altri effetti trascurabili.

Nel nostro esempio, se ABC e BC sono trascurabili, la media aritmetica dei 2 alias:

B+ABC

B+BC

dà la stessa stima di B che sarebbe fornita dalle equazioni normali.

Io ho verificato (non dimostrato) che, anche senza fare l’ipotesi delle interazioni

trascurabili, gli alias provenienti dai 3/4 di John derivano dalle equazioni normali: lo

vedremo nel cap.8.

I 3/4 di John sono ignorati da tutti libri di DOE a parte quello di Diamond (1981), probabilmente perché sono piani non ortogonali ovvero danno luogo a degli stimatori

parzialmente correlati fra di loro: quando non si sa come affrontare un problema (la non

ortogonalità), è molto facile dimenticarsi del problema e abbandonarlo......

5.4.1 PIANO A 6 STATI DI WEBB

Tale piano sperimentale fu introdotto insieme ad altri, da Webb nel 1968 in un

famoso articolo, “Non orthogonal designs of even resolution”, che purtroppo non sono

riuscito a trovare. Da ciò che ho capito, tale piano è essenzialmente un 3/4 di John che, partendo dal piano completo 23, elimina 2 stati di prova opposti sul cubo, ovvero una delle

4 coppie:

(i, abc) (a,bc) (b,ac) (c,ab)

tale piano è il più efficiente (nel senso di maggior risoluzione) dei 3/4 di John con 3 fattori

perché è l’unico che confonde tutti i fattori con l’interazione di secondo ordine ABC,

ovvero è l’unico 3/4 che abbia risoluzione IV.




107

Per verificarlo eliminiamo, ad esempio, la coppia (i, abc):

Figura 7: piano di Webb a 6 stati

Seguendo la procedura di prima, vediamo che il piano sopra è generato

dall’intersezione dei 3 piani a 4 stati:

1. (a, ab, c, bc) generato da I-AC, porta agli alias:

A-C

B-ABC

AB-BC

2. (b, c, ac, ab) generato da I-BC, porta agli alias:

A-ABCB-C

AB-AC

3. (a, b, ac, bc) generato da I-AB, porta agli alias:

C-ABC

B-A

BC-AC

Come anticipato, tutti fattori sono confusi con l’interazione di ordine superioreABC: in questo senso è il 3/4 di John “migliore” per 3 fattori; se si ritiene di poter

trascurare un’interazione di primo ordine, ad esempio AC, si può scegliere di stimare la

seguente struttura degli alias:

I-BC

A-ABC

B-ABC

C-ABCAB-AC

BC-AC

i a

ab b

c

bc abc

ac




108

si può usare la tabella dei segni in cui, come prima, ogni alias impiega solamente 4 dei 6

dati. Alcuni stimatori sono correlati qualunque sia la numerosità degli stati di prova (ad

esempio A-ABC e B-ABC).

I-AC A-ABC B-ABC AB-AC C-ABC BC-AC

a 1 -1 -1 1

b -1 -1 -1 -1

ab 1 1 1 1

c 1 -1 -1 1

ac 1 -1 1 -1

bc 1 1 1 1

Figura 8: tabella dei segni per il piano di Webb

5.5 ESTENSIONE AI 3/4 DI JOHN

Riepiloghiamo l’idea di John: considerare una frazione “irregolare” (3/4) come

l’intersezione di 3 piani “regolari” e stimare gli alias derivanti dalle varie intersezioni che

più interessano allo sperimentatore. Pensandoci, perché uno dovrebbe limitarsi ai 3/4?

Sono convinto che lo stesso John, già negli anni’60, fosse consapevole di poter estendere il

suo ragionamento ad altre frazioni e probabilmente l’ha anche pubblicato.È utile a questo punto definire il concetto di “regolarità “ per una frazione del piano

completo; abbiamo visto che le frazioni (regolari) del cap.4 si ottengono tutte da un’unica

defining relation, mentre quelle viste in questo capitolo (PB non geometrici e 3/4 di John)

no. Dunque per frazione regolare intendo una frazione i cui alias possono essere ricavati

tutti da un’unica defining relation; le frazioni irregolari sono quelle non regolari.

5.5.1 ALTRE FRAZIONI: 3/8

Torniamo al solito esempio di 3 fattori. Se dal piano completo decidessimo dieseguire solo i 3 trattamenti i, a, b, qualcuno potrebbe obiettare che è un 3/4 di John con

soli 2 fattori in cui lo stato mancante è ab; nella realtà però potrebbe accadere che noi

studiamo solo 2 fattori (A e B) ma in realtà vi è un terzo fattore (C) tenuto costante che

influenza la risposta e dunque può distorcere i risultati ottenuti degli effetti di A e B; in

questo caso saremmo di fronte a una frazione 3/8.

Tuttavia per la frazione 3/8 preferisco presentare un piano in cui vengono variati 3

fattori, ovvero (i, ab, bc); la rappresentazione sul cubo è la seguente:




109

Figura 9: frazione 3/8

deriva dall’intersezione di 3 piani 23-2:

• (i, ab) I-C+AB-ABC A-AC+B-BC

• (i, bc) I-A+BC-ABC B-AB+C-AC

• (ab, bc) I+B-AC-ABC A+AB-C-BC

Per cui, se ci interessano i fattori A e B, possiamo considerare la seguente struttura deglialias:

I-C+AB-ABC

A+AB-C-BC

B-AB+C-AC

questi 3 alias ammettono i 3 stimatori (correlati) forniti dalla seguente tabella dei segni:

I-C+AB-ABC A+AB-C-BC B-AB+C-AC

i 1 -1

ab 1 1

bc -1 1

Tabella 30: tabella dei segni per la frazione 3/8


Prendiamo l’esempio su Fornasieri (1995) a pag.95, visto che è l’unico riferimento,

a mia conoscenza, in cui si cerca di esaminare una frazione così irregolare, usando il

metodo di Box-Wilson che vedremo nel cap.8; in questo paragrafo io lo studio ricorrendoal solito ragionamento di John.

i a

ab b

c

bc abc

ac




110

Figura 10

Possiamo vederlo come l’intersezione dei 2 piani:

• (i, ab, ac, bc) I-ABC che genera:

A-BC

B-ACC-AB

• (b, bc) I-A+B-AB che genera:

C-AC+BC-ABC

Avendo 5 stati possiamo stimare 5 quantità (alias): ad esempio, se ci interessano A, B, C e

AB dobbiamo combinare i 2 alias sopra64:

C-AB = ac + bc - ab - i

C-AC+BC-ABC = 2(bc-b)

Sottraendo il primo dal secondo si ottiene l’alias:

(1) AB - AC + BC - ABC = i - 2b + ab - ac + bc

Notiamo che questo uso algebrico degli alias è possibile solamente con la mia definizione

di alias (par. 4.8), è assolutamente impensabile con la classe di equivalenza di Galetto

(1995 e 1996).

La struttura degli alias per questo piano può dunque essere la seguente:

64 I 2 alias sotto potrebbero anche essere moltiplicati per una costante moltiplicativa, purchè sia la stessa per

tutti e due (par. 4.8).

i a

ab b

c

bc abc

ac




111

I-ABC

A-BC

B-AC

AB - AC + BC - ABC

C-AC+BC-ABC

Come si vede, siamo riusciti a isolare gli elementi che ci interessano. Per calcolare i

5 alias si usa la tabella dei segni, in cui compare per la prima volta un numero in modulo

diverso dall’unità: questo a causa dell’operazione (1) che abbiamo fatto per isolare AB.

Ciò non deve stupire: ricordiamoci che la tabella dei segni è solo un modo per visualizzare

i coefficienti da applicare alle medie degli stati di prova per stimare il contrast

rappresentante l’effetto o l’alias (nei piani ridotti come questo).

I-ABC A-BC B-AC AB-AC+BC-ABC C-AC+BC-ABC

i 1 -1 -1 1

b -2 -1

ab 1 1 1 1

ac 1 1 -1 -1

bc 1 -1 1 1 1

Tabella 31: tabella dei segni per la frazione 5/8


Come per la precedente frazione, ci rifacciamo all’esempio presentato in

Fornasieri (1995) a pag. 106, in cui a partire dal piano completo si elimina lo stato di prova

c. Ecco la rappresentazione sul cubo:


i a

ab b

c

bc abc

ac




112

Possiamo considerare il piano sopra come l’intersezione di sette piani 23-1:

1. (i,ab,ac,bc) I-ABC

2. (i,a,bc,abc) I+BC che genera l’alias65 A+ABC

3. (i,b,ac,abc) I+AC che genera l’alias B+ABC

4. (a,b,ac,bc) I-AB che genera l’alias C-ABC

5. (i,a,b,ab) I-C che genera l’alias AB-ABC

6. (b,ab,bc,abc) I+B che genera l’alias AC+ABC

7. (a,ab,ac,abc) I+A che genera l’alias BC+ABC

Se ci interessa stimare i sei effetti A,B,C,AB,AC,BC, pensando che l’interazione del

secondo ordine ABC sia trascurabile, possiamo assumere la seguente struttura degli alias

di cui si trova traccia anche in Daniel (1976) a pag.65:

I-ABC

A+ABC

B+ABC

C-ABC

AB-ABC

AC+ABC

BC+ABC

Questi sette alias possono essere stimati con la seguente tabella dei segni, e nuovamente

ciascun alias utilizzerà solo quattro stati di prova:

I-ABC A+ABC B+ABC AB-ABC C-ABC AC+ABC BC+ABC

i 1 -1 -1 1

a 1 -1 -1 1

b 1 -1 -1 1

ab 1 1 -1 -1

ac 1 -1 1 -1

bc 1 -1 1 -1

abc 1 1 1 1

Tabella 32: frazione 7/8

65 Genera anche altri alias ma nel nostro esempio ci interessa solo questo; ciò vale anche per le definingrelation successive.




113

5.5.4 CONCLUSIONI

In questo paragrafo abbiamo studiato alcune frazioni “irregolari” in maniera molto

intuitiva, considerandoli come intersezioni di piani “regolari”: da quel che ho capito è

questa l’essenza del ragionamento di John per la costruzione dei suoi 3/4.

Tuttavia non abbiamo dato alcuna giustificazione statistica per l’uso degli alias e

delle tabelle dei segni proposti; inoltre gli esempi fatti sono stati molto semplici nel senso

che la struttura degli alias si adattava sempre a ciò che volevamo conoscere; infine ci

siamo limitati a frazioni semplici con 3 fattori: immaginiamo invece di avere 25 stati di

prova sperimentabili e di poter fare solo 13 prove: avremmo la frazione 13/32, molto

irregolare, che necessita di metodi appositi (metodo di Box-Wilson) per essere studiata.

Nel cap.8 supereremo questi due problemi introducendo il metodo di Box-Wilson

che ci consentirà di:

• verificare che gli alias trovati e i contrast proposti derivano dalle equazioni normali,

• di verificare se, per un dato piano, è possibile trovare una struttura degli alias che

soddisfa le esigenze dello sperimentatore,

• operare con un numero qualsiasi di fattori e con qualunque frazione.

Tutto ciò è possibile usando il modello full-regression (cap.8).




114

CAPITOLO 6

ANALISI DELLA COVARIANZA EINTERPRETAZIONE GRAFICA DEI PIANI

FATTORIALI

6.1 ANCOV: A COSA SERVE?

In Mason et al. (1989) e Miller et al. (1990) l’analisi della covarianza è descritta

come un metodo per eliminare dal residuo l’effetto delle covariates o covariables, ovvero

di quelle variabili che influenzano la risposta Y ma non possono essere controllate pur

essendo misurate durante l’esperimento. In Sheffè (1959) è descritta come un metodo per

eliminare l’effetto delle variabili qualitative quando si costruisce un modello con variabili

quantitative. L’ANCOV integra dunque la regressione e l’analisi della varianza. Noi la

applicheremo come una procedura generale, per variabili qualitative e quantitative,

attraverso opportune codifiche.

Io userò questo approccio soprattutto perché si presta molto bene a

un’interpretazione grafica, dunque piuttosto intuitiva; l’essenza dell’ANCOV consiste nel

fittare i dati che si hanno con dei modelli diversi:

Y = X * β

sui quali si esegue la regressione trovando la soluzione alle equazioni normali:

β = (XT*X)-1 * XT *Y

visto che i modelli usati sono tutti full-rank 66 (del tipo allocated codes, secondo Searle

1971).

66 E quindi la matrice (XT*X) è invertibile; lo vedremo nei cap.7 e 8.




115

Le conseguenti somme dei quadrati associate ai modelli si calcolano con la formula

matriciale:

(1) SSreg = βT * XT * Y = YT * X * (X*XT)-1 * XT * Y

dalla (1) si vede che la SSreg è una forma quadratica e si potrebbe dimostrare che la SSreg

non dipende dai valori assoluti presenti nella matrice X: questo ci offre la possibilità di

codificare le variabili, siano esse quantitative o qualitative.

Facendo delle opportune differenze fra le somme dei quadrati dei vari modelli si

ottengono le somme dei quadrati che spiegano l’”effetto” dei fattori; l’effetto della

covariate è presente nell’ordinata all’origine. Applicheremo questa procedura all’esempio

macchina-operatore del capitolo precedente, ma prima affrontiamo l’interpretazione

grafica dei piani fattoriali 22.

6.2 INTEPRETAZIONE GRAFICA DEGLI EFFETTI DEI FATTORI EINTERAZIONI

Supponiamo di avere un esperimento con 2 fattori A e B, a 2 livelli con 2

ripetizioni:

B1 B2A1 12, 13 22, 23

A2 26, 29 35, 40

Tabella 33

Proviamo a calcolare le stime dei contrast rappresentanti gli effetti col metodo di Yates.

A = 30

B = 20

AB = 0

In questo esperimento dunque l’interazione sicuramente risulterà non significativa. Ma ciò

cosa vuol dire? Per scoprirlo tracciamo un grafico dei valori medi di Y in funzione dei

livelli del fattore A, per ogni livello di B; nell’analisi della covarianza B sarebbe

considerato la covariate e A una variabile quantitativa: la sua scala nel grafico è stata

codificata (1, 2).




116

0

5

10

15

20

25

30

35

40

1 2

fattore A

Y B al livello bassoB al livello alto

Figura 12: interazione nulla

Come si può vedere le 2 rette fatte ai 2 livelli di B sono parallele; ciò si verifica

anche se sulle ascisse mettiamo il fattore B e trattiamo il fattore A come covariate. Infatti

quando AB è nulla si ha che:

ab + i - a - b = 0

ovvero:

ab - b = a - i

consideriamo che le 2 quantità rappresentano i coefficienti angolari delle 2 rette disegnate

sopra nel piano Y-fattore A: essendo uguali i c.a. le rette sono ovviamente parallele

ogniqualvolta l’interazione è nulla67.

Analogamente nel piano Y-fattore B, trattando A come covariate, si avrebbe avuto:

ab - a = b - i

e si sarebbe ottenuta l’uguaglianza fra i coefficienti delle 2 rette nel piano Y-fattore B.

Questa è l’interpretazione grafica delle interazioni ovvero il non parallelismo fra le rette.

Quando vogliamo fittare i dati con un modello senza interazione (additivo), dobbiamo

quindi imporre che le rette corrispondenti ai diversi livelli della covariate siano parallele.

6.2.1 EFFETTI MEDI E MARGINALI DEI FATTORIOsserviamo di nuovo la figura 1: nel passare dal livello 1 al 2 del fattore A, la

risposta Y aumenta decisamente sia con B al livello basso che alto dunque diciamo che il

fattore A ha un effetto marginale positivo significativo68 sia con B basso che alto:

l’effetto medio di A è allora chiaramente significativo. In formule abbiamo:

• effetto marginale di A su B basso:

67 Nella realtà è difficile che l’interazione sia proprio nulla tuttavia se è trascurabile le rette sonoapprossimativamente parallele. Ricordiamo comunque che noi stimiamo delle rette perché quelle vere rimarranno sempre sconosciute

68 Anche senza fare l’ANOVA e specificare un livello di fiducia, ciò è evidente dal grafico.




117

a-i = 15

• effetto marginale di A su B alto:

ab-b = 15

• effetto medio di A:

a+ab-i-b69 = 30

Nell’analisi della varianza e dei contrast vengono sempre considerati solo gli effetti

medi, e ciò va benissimo; vorrei però che si fosse consapevoli che quando si afferma:

“il fattore A non ha effetto”

si sta parlando dell’effetto medio e anche se esso è nullo ciò non toglie che può avere

effetti marginali molto significativi; anche io nella tesi quando dico “effetto” senza

specificare se marginale o medio, intendo l’effetto medio.

Prendiamo i seguenti dati:

B1 B2

A1 27, 30,5 20, 22,5

A2 13,5, 14 36, 36,5

Tabella 34

Calcoliamo gli effetti medi:

A = 0

B = 15

AB = 30

Anche se l’effetto medio di A è nullo, sarebbe un grave errore pensare che il fattore A

non influenzi la risposta dell’esperimento. Infatti se vediamo agli effetti marginali:

• effetto marginale di A al livello basso di B:

a-i = -15

• effetto marginale di A al livello alto di B:

ab-b = 15

È evidente che gli effetti marginali di A sono significativi ma, essendo di segno opposto,

danno luogo a un effetto medio nullo. Vediamo il grafico di questo esperimento:

69 Sarebbe opportuno dividere per 2 ma, come sappiamo, per l’analisi dei contrast è ininfluente.




118

0

5

10

15

20

25

30

35

40

1 2

Fattore A

YB al livello basso

B al livello alto

Figura 13: grafico di un modello non gerarchico

Come vediamo le 2 rette hanno coefficienti angolari opposti ovvero:

a - i = b - ab

e ciò deriva dal fatto che:A = a + ab - i - b = 0

Le 2 rette sono decisamente non parallele e infatti si trova che l’interazione AB è molto

significativa.

AB = 30

Infatti nell’interazione sono nascosti gli effetti marginali di A: ecco un buon motivo per

non trascurare le interazioni; esse esplicitano l’effetto marginale di un fattore. I 3 stimatori

proposti A, B, AB sono dunque sufficienti70 per descrivere i risultati di un esperimento

con 2 fattori a 2 livelli; vediamo una proprietà molto importante degli effetti medi e

marginali:

• se i fattori A e B hanno tutti gli effetti marginali non significativi anche la loro

interazione è necessariamente non significativa, di conseguenza:

• se l’interazione AB è significativa allora deve esistere per forza un effetto marginale di

A o B significativo.

È dunque assolutamente impensabile poter trascurare l’interazione AB: si rischia di fare

degli errori gravissimi come nel seguente esempio.

6.2.2 L’IMPORTANZA DELLE INTERAZIONI“There really are interactions, and you need to watch out for them”

(John 1990).

Consideriamo i seguenti dati:

B1 B2

A1 37, 38 10, 15

A2 11, 14 36, 39

Tabella 35

70 Ecco perché io li uso come definizione di effetto (par. 4.8).




119

A = 0

B = 0

In questo esperimento se ci limitassimo allo studio dei fattori A e B, troveremmo che i loro

effetti medi sono nulli e dovremmo pensare che niente influenza la risposta Y

dell’esperimento. Invece se non trascuriamo l’iterazione:

AB = 50

vediamo che essa è molto significativa: ciò vuol dire che gli effetti marginali dei fattori A e

B sono tutt’altro che trascurabili. Se i fattori A e B fossero stati i parametri di un processo

e la Y una variabile da massimizzare, trascurando l’interazione, non avrei potuto

individuare le 2 condizioni ottimali i e ab.

0

5

10

15

20

2530

35

40

1 2

Fattore A

Y

B al livello basso

B al livello alto

Figura 14: solo l’interazione è significativa

Questi esempi fatti sono molto banali ma fanno capire il tipo di errore che si puòfare anche con più fattori e più livelli. Spero che a questo punto sia evidente l’importanza

di considerare le interazioni: nel suo libro Galetto (1995 e 1996) afferma ripetutamente che

le interazioni sono importanti tanto quanto i fattori. Invece Taguchi (1987 e 1996) trascura

sistematicamente le interazioni. Molti autori (fra cui Box et al. 1978) le considerano un

effetto del secondo ordine pensando di sviluppare in serie di Taylor la funzione di

risposta: questo può andar bene per fattori quantitativi però, se per esempio la risposta è

esponenziale, è lecito trascurare i termini di ordine superiore nello sviluppo di

Taylor?...

Alcune considerazioni molto importanti riguardo le interazioni si trovano in

Lorenzen e Anderson (1993) a pag. 212:

“If there is no knowledge about interactions, they cannot be assumed negligible

and larger designs will have to be run”.

“We constantly hear subject matter experts claim that there are a few two factor

interactions but there definitely no three factor interactions. Yet we have observed at least

one significant three factor interaction almost 50% of the time three factor interactions

could be tested . The reason is twofold. One, the expert did not actually know there were no

three factor interactions, and two, the increased sample size required to test three factor

interactions made the tests more sensitive”.




120

“As processes get more complex, more and higher order interactions are going to

exist ... we predict that more and more processes will contain higher order interactions

that need to be properly modeled to be fully understood and optimized”.

Anche Galetto (1995) fa delle considerazioni analoghe e soprattutto afferma che nelle sue

applicazioni ha trovato spesso interazioni del secondo ordine quando la struttura del piano

era tale che esse si potevano esaminare.

6.3 ESEMPIO MACCHINA - OPERATORE

Ora che abbiamo introdotto l’analisi della covarianza e sappiamo intepretare

graficamente gli effetti, possiamo applicare l’ANCOV all’esempio del cap.5. Riportiamo i

dati:


OPERATORE 0 64,67 41,48


Tabella 36

Immaginiamo un grafico in cui Y è funzione solamente dell’operatore: trattiamo

questo fattore come una variabile quantitativa, codificando i suoi livelli con 1 e 2. Il fattore

macchina è dunque una covariate: il suo effetto è esplicitato attraverso l’ordinata

all’origine. Il primo modello da considerare è quello in cui si fittano i dati come se la

macchina non avesse effetto dunque si usa solo un’ordinata all’origine. Il modello è:

Y = A + B*O

che rappresentiamo in forma matriciale:

Y = X * β

dove β contiene i 2 parametri A e B e la matrice X contiene una colonna di 1 e un’altra con

i valori della variabile operatore 1 e 2.

Vediamo i valori numerici:




121

Y X

64 1 167 1 1

41 1 1 β

48 = 1 1 * A

39 1 2 B

35 1 2

41 1 2

Le equazioni normali in forma matriciale sono:(XT * X) * β = XT * Y

non riportiamo i calcoli, effettuati con Excel, che non presentano alcuna difficoltà, a parte

l’inversione della matrice (XT*X). Il risultato è71:

β = (XT * X)-1 * XT * Y

contenente le stime dei 2 parametri:

A = 71,666

B = -16,666

La somma dei quadrati spiegata da questo modello che tiene conto solo dell’effetto

dell’operatore è:

SSreg = βT * XT * Y

SSreg (I+O) = 16508,333

71 Uso lo stesso termine β per i parametri e la loro stima: non credo che il lettore si possa confondere.




122

Y = A + B*O

y = -16,667*O + 71,667

0

10

20

3040

50

60

70

1 2

Operatore

Y

Figura 15: considero solo l’effetto dell’operatore

Ripetiamo che un tale modello considera solo l’effetto dell’operatore (oltre che la

media). Analogamente, scambiando i ruoli di macchina e operatore, avremmo potuto

trovare la somma dei quadrati di un modello che consideri solo l’effetto della macchina: il

ragionamento è identico a prima, quindi non sarà ripetuto; riporto solo il risultato:

SSreg (I + M) = 16139,58333

A questo punto costruiamo un modello nel piano Y-operatore in cui però

permettiamo che la macchina abbia un effetto: ciò vuol dire che i dati sono divisi con la

prima e la seconda macchina, avremo quindi 2 rette con diversa ordinata all’origine ma

uguale pendenza visto che per ora ammettiamo che non ci sia interazione fra macchina eoperatore. Il modello è dunque:

Y = A0 + A1 + B*O

scritto in forma matriciale:

Y = X * β

dove β contiene i 3 parametri (A0, A1, B) e la matrice X è la seguente:

I0 I1 O

1 0 11 0 1

0 1 1

0 1 1

1 0 2

1 0 2

0 1 2

Tabella 37

Le equazioni normali:

(XT * X) * β = XT * Y




123

danno la seguente soluzione:

A0 = 79

A1 = 68

B = -18,5

ovvero con la prima macchina, abbiamo la seguente retta:

Y = 79 - 18,5*O

mentre con la seconda macchina:

Y = 68 - 18,5*O

le 2 rette sono parallele perché in questo modello non è prevista l’interazione.

Il grafico è:

Y = A0 + A1 + B*O

y = -18,5*O + 79

y = -18,5*O + 68

0

10

20

30

40

50

60

70

1 2

Fattore O

YPrima macchina

Seconda macchina

Figura 16: interazione nulla fra macchina e operatore

Questo è un modello che chiamiamo additivo perché non considera la possibile

interazione fra i 2 fattori avendo imposto che i coefficienti angolari delle 2 rette siano

uguali. La somma dei quadrati associata a questo modello è:


SSreg (I+M+O) = 16710

Il modello più completo che possiamo pensare è quello in cui oltre all’ordinata

all’origine varia anche il coefficiente angolare quando si passa fra le 2 macchine. Il

modello è dunque:

Y = A0 + A1 + B0*O0 + B1*O1il vettore β della forma matriciale contiene i parametri A0, A1, B0 e B1 mentre la matrice

X è la seguente:




124

I0 I1 O0 O11 0 1 01 0 1 00 1 0 1

0 1 0 1

1 0 2 00 1 0 2

Tabella 38

La soluzione alle equazioni normali è la seguente:

A0 = 94

A1 = 48

B0 = -28,5B1 = -3,5

si hanno allora le 2 rette:

Y = 94 - 28,5*O con la prima macchina

Y = 48 - 3,5*O con la seconda macchina

Y =A0 + A1 + B0*O0 + B1*O1

y = -3,5x*O1 + 48

y = -28,5*O0 + 94

0

10

20

30

40

50

60

70

1 2

Fattore O

YPrima macchina

Seconda macchina

Figura17: modello più completo

e la somma dei quadrati associata a quel modello è:

SSreg (I+M+O+MO) = 16960

Riepilogando, abbiamo 4 costruito 4 modelli di cui abbiamo calcolata le somme dei

quadrati associate:

SSreg (I+O) = 16508,333




125

SSreg (I + M) = 16139,58333

SSreg (I+M+O) = 16710

SSreg (I+M+O+MO) = 16960

Secondo l’analisi della covarianza a questo punto si possono ottenere le somme dei

quadrati associate ai fattori nel modo seguente:

(1) SS(M) = SSreg (I+M+O) - SSreg (I+O) = 201,66666

(2) SS(O) = SSreg (I+M+O) - SSreg (I+M) = 570,41666

mentre l’interazione si calcola a partire dal modello più completo:

(3) SS(MO) = SSreg (I+M+O+MO) - SSreg (I+M+O) = 250

come si vede sono gli stessi risultati, ottenuti con il metodo di Galetto (par. 5.2.1): anche

questi però non si sa quale ipotesi testano sulle medie degli stati di prova; si può trovare

l’ipotesi nulla solo per l’interazione perché a partire dal modello più completo è stato posto

il vincolo:

µ11 + µ00 + µ01 - µ10 = 0

che corrisponde all’ipotesi nulla testata da SS(MO)=250; le 2 SS relative ai fattori non si

sa cosa testino: nel par. 5.2.1 possiamo vedere le 2 corrispondenti ipotesi nulle, ma esse

sono state ricavate solo a posteriori col modello full-regression (cap.8).

6.3.1 CRITICHE ALL’ANALISI DELLA COVARIANZA CHE NON USA MODELLI

NON GERARCHICI

A mio parere questa procedura è soggetta a 2 critiche:1. Facendo semplici differenze di somme di quadrati, in generale non si capisce qual è la

reale ipotesi testata in forma di medie degli stati di prova: ricordiamo che le uniche

ipotesi testabili sono quelle che si possono esprimere in funzione delle medie degli stati

di prova.

2. Perché l’interazione è calcolata a partire dal modello più completo e i fattori no???

La cosa più logica sarebbe introdurre altri 2 modelli (non gerarchici):

(4) Y = I+M+MO

(5) Y = I+O+MOe calcolare:

SS(M) = SSreg (I+M+O+MO) - SSreg (I+O+MO)

SS(O) = SSreg (I+M+O+MO) - SSreg (I+M+MO)

Il primo problema è facilmente superabile, ad esempio, con l’analisi dei contrast

(cap.4); il lettore accorto infatti ricorderà che le somme dei quadrati (1), (2) e (3) le

avevamo già incontrate nel cap.5 nella tabella 8; già allora avevamo detto che si stavano

testando le 3 ipotesi:




126

3

10

2

10

3

10

2

10010 11 00 01* * * *µ µ µ µ + − − =

3

10

2

10

3

10

2

10001 11 00 10* * * *µ µ µ µ + − − =

µ 00 11 10 01 0+ − − =

L’ultima sta testando l’effetto dell’interazione, le prime 2 non credo che siano di interesse

generale (a meno che non si giustifichino i diversi pesi per le medie, ma in tal caso perché

nell’interazione le medie vengono pesate ugualmente???) per cui bisogna stare molto

attenti ad applicare l’analisi della covarianza e qualsiasi altro metodo che nasconde

l’ipotesi nulla testata.

Il secondo problema, per essere superato richiede l’introduzione dei modelli non

gerarchici (4) e (5); questo ci permette di superare anche il primo problema perché con i

modelli non gerarchici perché tutti gli effetti X sono calcolati a partire dal modello piùcompleto

SS(X) = SS(completo) - SS(ridotto)

dunque siamo in grado di capire l’ipotesi nulla dal vincolo posto per ricavare il modello

ridotto, esattamente come abbiamo fatto prima per l’interazione che era l’unico effetto

calcolato a partire dal modello più completo.

6.4 MODELLI NON GERARCHICI

Un modello è gerarchico se un interazione fra n fattori è inclusa nel modello solo

una volta aver incluso in esso i fattori e le interazioni di ordine più basso che coinvolgono

gli n fattori considerati; tale definizione è data in Mason et al. (1989) che dice anche che è

convenzione usare solo modelli gerarchici (senza dire il perché di tale convenzione); è

comunque l’unico libro che si preoccupa di affrontare questo problema.

Io definisco (visto che non l’ho trovato in letteratura), il termine “modello

gerarchizzato”, associabile a ogni modello non gerarchico: con esso intendo un modello

con i parametri di quello non gerarchico più il completamento minimo di parametri per

renderlo gerarchico; ad esempio il modello gerarchizzato di

Y = I+AB

è:

Y = I+A+B+AB

I modelli che abbiamo considerato nel paragrafo precedente erano tutti gerarchici. Ma in

effetti non c’è motivo per non usare un modello del tipo:

Y = I + M + MO

purché lo si sappia costruire; un modello simile prevederebbe nel nostro esempio un effettomedio della macchina e dell’interazione significativi ma un effetto medio dell’operatore

nullo: ma nel par. 6.2.1 abbiamo già incontrato una simile situazione: nella




127

rappresentazione grafica si hanno 2 rette con coefficienti angolari opposti. Nelder (1974)

afferma che un modello di questo tipo non sono di interesse perché il fattore tolto dal

modello può comunque avere un effetto marginale significativo quindi la SSreg è uguale a

quella del modello completo: ciò è vero sole se si ragiona in termini di modelli

sovraparametrizzati (cap.7).

Comunque nel modello non gerarchico:

Y = I + M + MO

bisogna forzare il fit dei dati con le 2 rette:

Y = A0 + B*O con la prima macchina

Y = A1 - B*O con la seconda macchina

In forma matriciale Y = X * β abbiamo che β contiene i parametri (A0, A1, B), Y è il

solito vettore con le 7 risposte, mentre la matrice X è la seguente:

I0 I1 O

1 0 1

1 0 1

0 1 -1

0 1 -1

1 0 2

1 0 2

0 1 -2

Tabella 39

I dati relativi alla seconda macchina sono cambiati di segno per far sì che le 2 rette

relative alle 2 macchine abbiano coefficiente angolare opposto. La soluzione delle

equazioni normali è:

A0 = 74,8

A1 = 22,4

B = -15,7




128

Y = A0 + A1 + B*O0 - B*O1

y = -15,7*O0 + 74,8

y = 15,7*O1 + 22,4

0

10

20

30

40

50

60

70

1 2

Fattore O

YPrima macchina

Seconda macchina

Figura 18: modello Y = I+M+MO

Le 2 rette sono dunque:

Y = 74,8 - 15,7*O

Y = 22,4 + 15,7*O

Un tale modello (non gerarchico perché compare l’interazione MO ma non il fattore O)

fornisce una somma dei quadrati:

SSreg (I+M+MO) = βT * XT * Y = 16550,4

Analogamente sul piano Y - macchina, trattando l’operatore come covariate, si poteva

pensare si fittare i dati con 2 rette aventi coefficienti angolari opposti, costruendo così il

modello:

Y = I + O + MO

non riporto la procedura che è identica al modello costruito. Riporto solo il risultato della

somma dei quadrati associata che ci sarà molto utile nel calcolare l’ “effetto” del fattore

macchina.

SSreg (I+O+MO) = 16844,4

e il grafico è:




129

Y = A0 + A1 + B*M0 - B*M1

y = -14,2*M0 + 76,3

y = 14,2*M1 + 19,4

0

10

20

30

40

50

60

70

1 2

Fattore M

Y

Primo operatore

Secondo operatore

Figura 19: modello Y = I+O+MO

A questo punto possiamo rimediare agli “errori” del par. 6.3 che concludeva:

SS(M) = SSreg (I+M+O) - SSreg (I+O) = 201,66666

SS(O) = SSreg (I+M+O) - SSreg (I+M) = 570,41666visto che adesso siamo in grado di calcolare gli effetti dei fattori a partire dal modello più

completo.

SS(M) = SSreg (I+M+O+MO) - SSreg (I+O+MO) = 115,6

SS(O) = SSreg (I+M+O+MO) - SSreg (I+M+MO) = 409,6

Non è più nascosta l’ipotesi nulla sulle medie perché sappiamo che il modello

Y=I+O+MO è stato costruito col vincolo:µ11 + µ10 + µ01 - µ00 = 0

mentre il modello Y=I+M+MO è stato costruito col vincolo:

µ11 + µ01 + µ10 - µ00 = 0

dunque sappiamo le ipotesi nulle testate, solo perché abbiamo calcolato gli effetti dei

fattori a partire dal modello più completo come era stato fatto per l’interazione. Se

ripensiamo all’analisi dei contrast fatta sull’esempio macchina-operatore fatta nel cap.5

vediamo che le 2 somme dei quadrati le avevamo già trovate; erano associate

rispettivamente alle stime:

C M y y y y( ) ( )= + − −10 11 00 01




130

C O y y y y( ) ( )= + − −01 11 10 00

Avremmo anche potuto testare le ipotesi del “Questo per questo” o quelle implicite nel

metodo di Galetto, ad esempio per la macchina:

2µ11 + 3µ10 - 2µ01 - 3µ00 = 0

non si avrà più la condizione che le 2 rette abbiano coefficiente angolare opposto ma si

avrà un’altra condizione sui coefficienti angolari delle 2 rette del modello ridotto: il lettore

può provare e vedere che ottiene gli stessi risultati dell’analisi dei contrast perché per una

data ipotesi nulla, si ha sempre la stessa somma dei quadrati , se usiamo un metodo

corretto per trovarla.

Mi pare dunque evidente che l’analisi della covarianza, modificata per tenere conto

dell’esistenza dei modelli non gerarchici, è un metodo corretto anche se più lungo

dell’analisi dei contrast, che quindi è da preferirsi.




131

CAPITOLO 7

METODO G: MODELLOSOVRAPARAMETRIZZATO

7.1 METODO G“...analysis of variance and regression.

The relationship between these two apparently dissimilar statistical procedures

is not only a theoretical fact,

but also of considerable practical advantage”

(Schilling 1974)

Il nome “metodo G” è stato dato da Galetto nel 1989 all’uso delle equazioni

normali nell’ANOVA, per contrapporlo ai dilaganti “metodi Taguchi” nell’analisi dei dati

stratificati. La lettera G indica “Gauss-Markov” ovvero il nome del teorema che sancisce

l’ottimalità degli stimatori provenienti dalle equazioni normali. In pratica si tratta di

costruire un modello che colleghi la risposta ai fattori che si vogliono studiare conl’ANOVA e fare la regressione su questo modello, ricavando le somme dei quadrati per

l’ANOVA; nel capitolo precedente sull’analisi della covarianza abbiamo fatto qualcosa di

simile, ma i modelli costruiti erano quelli tipicamente usati nella regressione, con i livelli

delle variabili codificate (allocated codes, secondo Searle 1971).

A quanto riferito da Speed et al.(1978), Yates già nel 1934 usò la regressione per

l’ANOVA: nell’articolo citato il metodo è chiamato “method of fitting constants” ma non

è nient’altro che il metodo G.

Si può pensare di costruire i modelli in vari modi; noi ne vedremo tre:1. Modello sovraparametrizzato (“overparametrized”); in Searle (1971) e Snee (1973) è

denominato come “dummy variable (0, 1)”; per il primo fattore A si introducono i




132

parametri α1, α2, ... α p1, dove p1 è il numero dei livelli del fattore A; per il secondo

fattore i parametri β1, β2,... β p2, dove p2 è il numero di livelli del secondo fattore e così

via; per quanto riguarda l’interazione AB essa è presente con i parametri αβ11, αβ12,...

αβ p1 p2. La variabile xi corrispondente al parametro vale 0 o 1 a seconda che il

parametro sia presente nello stato di prova. Ad esempio con 2 fattori a 2 livelli abbiamo

che il modello è:

(1) yijr = µ + xi * α i + y j * β j + zij * αβ ij + εijr i = 1,2 j=1,2

che in tutti libri è sempre scritto semplicemente come:

(2) yijr = µ + α i + β j + αβ ij + εijr i = 1,2 j=1,2

che in forma ulteriormente abbreviata potrà essere scritto come:

Y = I + A+ B + AB

dalla (1) vediamo che nel modello vi sono 9 parametri; al massimo però si possono

sperimentare 4 stati di prova quindi se pensiamo all’analisi della varianza (par 3.7.2) vi

sono solo 4 gradi di libertà (compreso quello della media) e dunque si possono stimare

solo 4 parametri.

2. Modello “full-regression”, secondo la denominazione di Krishnaiah (1980). Introduce

p-1 parametri per ogni fattore a p livelli; l’interazione fra due fattori a p e q livelli è

presente con (p-1)*(q-1) parametri. Le variabili corrispondenti ai parametri dei fattori

sono codificate opportunamente e quelle delle interazioni sono il prodotto; con 2 livelli

la codifica impiegata è -1 e +1 per i 2 livelli. Con 2 fattori a 2 livelli il modello è:

yijr = Ι∗x0 + Α ∗ x1 + B * x2 + AB * x1x2 + εijr

che in forma abbreviata potrà essere scritto come:

Y = I + A+ B + AB

se vengono sperimentati tutti gli stati si riesce sempre a stimare tutti i parametri; se

alcuni stati di prova non contengono dati siamo davanti a un frazionamento che produce

una distorsione dei parametri che vogliamo stimare (è il problema degli alias). Vedremo

questo modello nel cap.8.

3. Modello “cell-means”, secondo la denominazione di Searle et al.(1981), Jennings et al.(1982), Searle (1987)... È molto semplice in quanto i parametri sono le medie dei vari




133

stati di prova, dunque è ovvio che si possano stimare tutti parametri corrispondenti agli

stati di prova sperimentati.

Yij = µij + εij modello “cell-means”

vedremo questo modello nel cap.8.

Come già detto questi 3 modelli ammettono tutti la forma matriciale:

E(Y) = X * β

le equazioni normali diventano:

(XT*X)* β = XT * Y

A seconda del modello che usiamo, la matrice (XT*X) può essere invertibile o meno. In

particolare il modello sovraparametrizzato dà sempre luogo a una matrice (XT*X) non

invertibile. Il teorema di Gauss-Markov assicura però alcune proprietà che valgono

sempre, qualunque modello si usi, anche se in questo capitolo ci soffermeremo sul

modello sovraparametrizzato.

7.2 TEOREMA DI GAUSS-MARKOV

La gran parte dei risultati presentati in questo paragrafo è presa dal Mood e

Graybill (1963) nel cap.14, a cui consiglio vivamente di riferirsi per la comprensione e

l’utilizzo corretto del modello sovraparametrizzato e in generale delle equazioni normali.

Sia Y un vettore colonna di n variabili casuali tale che:

Y = X * β + e

dove X è una matrice nota (che dipende dal modello usato) di dimensioni n*p, di rango r con r ≤ p, dove r è il numero degli stati di prova. β è un vettore di p parametri incogniti; e

è un vettore colonna di n variabili casuali con valor medio 0 e varianza uguale σ2.

Scriviamo il modello in forma sovraparametrizzata cosicché la matrice X è composta tutta

da 0 e 1, dunque r < p.

Gli elementi di e possono essere variabili casuali normali oppure no; nel primo caso si può

usare il metodo della massima verosimiglianza mentre nel secondo caso si usa il metodo

dei minimi quadrati. In entrambi i casi il sistema di equazioni per ottenere i parametri β è

uguale:

(XT*X)* $ β = XT * Y




134

dove XT * Y è il vettore contenente i totali negli stati di prova aggregati secondo i

parametri.

• se la matrice (XT*X) ammette inversa (modello full-rank ) abbiamo un unico vettore

soluzione:$ β = (XT*X)-1 * XT * Y

• se la matrice (XT*X) non ammette inversa (modello overparametrized, non full-rank

o less than full-rank

), col teorema di Rouchè-Capelli, si dimostra che vi sono infinite

soluzioni alle equazioni normali. Infatti, se il rango di X è r, anche il rango della

matrice (XT*X) sarà r ed è uguale al rango della matrice (XT*X ⎟ XT*Y) perché il

numero di elementi indipendenti in XT*Y è sempre uguale a r.

Qualcuna di queste infinite soluzioni alle equazioni normali dà luogo a degli stimatori

corretti? Consideriamo che ogni soluzione delle equazioni normali deve essere

combinazione lineare delle risposte Y, dunque:$ β = A * Y

dove A è una matrice di dimensioni p*n. Se esistesse uno stimatore corretto di β, dovrebbe

risultare che:

E ( $ β ) = β = E (A * Y) = A * E(Y) = A * X * β

dunque, se esistesse uno stimatore corretto di β, sarebbe verificata la seguente identità:

A * X = I

ma l’uguaglianza sopra non può mai essere verificata col modello sovraparametrizzato

perché la matrice I ha rango p, mentre la matrice A * X, non può avere un rango superiore

a r che è sempre minore di p se il modello è sovraparametrizzato: con questo modello non

esistono degli stimatori corretti dei parametri.

Con dei modelli full-rank, r=p, dunque gli stimatori dei parametri derivanti dalle equazioni

normali sono corretti.

FUNZIONI STIMABILI

Sia λ un vettore riga di p elementi noti; allora il prodotto (λ * β) fornisce unacombinazione lineare dei parametri. (λ * β) è detta una funzione stimabile se esiste una

combinazione lineare delle risposte Y tale che il suo valore atteso sia uguale a ( λ * β). In

formule deve esistere un vettore riga a di n elementi tale che:

E (a * Y) = (λ * β)

Generalizzando, λ1*β, λ2*β,....λk *β, è un set di k funzioni stimabili se, costruita una

matrice con i vettori riga λi, Λ, di dimensione k*p, esiste una matrice A di dimensione k*ntale:




135

(1) E (A * Y) = (Λ * β)

TEOREMA 1

• Se pensiamo che Λ sia la nostra X, sostituendo A=I di dimensione n*n, si vede subito

che la (1) è verificata dunque X*β rappresenta un set di n funzioni stimabili: se ci si

pensa, ciò è perfettamente logico visto che X*β non rappresenta altro che il valore

atteso delle variabili casuali le cui determinazioni sono le n osservazioni fatte, il cui

valor medio è certamente stimabile.

• Se pensiamo che Λ sia (XT*X), sostituendo A=XT di dimensione p*n, si vede che la (1)

è verificata dunque (XT*X)* β rappresenta un set di p funzioni stimabili.

FUNZIONI STIMABILI LINEARMENTE INDIPENDENTI

Se λ1*β, λ2*β,....λt*β sono t funzioni stimabili e il rango della matrice Λ, formata

dai λi, è uguale a t, allora λ1*β, λ2*β,....λt*β sono dette funzioni stimabili linearmente

indipendenti.

TEOREMA 2

Poiché (XT*X)* β rappresenta un set di p funzioni stimabili e il rango di (XT*X) è

r<p (nel modello sovraparametrizzato), al massimo ci saranno r funzioni stimabili

linearmente indipendenti dove r è il numero degli stati di prova; dunque ogni funzione

stimabile è una combinazione lineare delle medie degli stati di prova. Abbiamo visto che

tutte le funzioni stimabili sono combinazioni lineari delle medie degli stati di prova,dunque i contrast del cap.4 sono particolari funzioni stimabili ed esistono tanti

contrast indipendenti quanti sono gli stati di prova meno 1 (che riguarda la media è

non è un contrast pur essendo una c.l. delle medie degli stati di prova).

I contrast sono sempre funzioni stimabili mentre non tutte le funzioni stimabili sono dei

contrast: ciò è assolutamente evidente dalle definizioni date.

A questo punto possiamo enunciare il teorema di Gauss-Markov per i modelli scritti in

forma sovraparametrizzata (less than full-rank).

TEOREMA 3

Sia λ*β una funzione stimabile; allora esiste un vettore riga b di p elementi tale

che:

b * XT * X = λ

e b*XT*Y è lo stimatore BLUE (best linear unbiased estimator) di λ*β, ed è lo stimatore

di massima verosimiglianza se le variabili errore e sono normali.

Per i modelli full-rank non c’è il problema delle funzioni stimabili perché tutti

parametri β sono funzioni stimabili e il teorema di Gauss-Markov afferma quindi che glistimatori dei parametri β provenienti dalle equazioni normali sono BLUE.




136

TEOREMA 4

Se una funzione λ*β è stimabile, ognuna delle infinite soluzioni alle equazioni

normali fornisce lo stesso valore per λ*β. Prendiamo 2 soluzioni $ β 1 e $ β 2, che

soddisfano le equazioni normali:

(2) (X

T

*X)*

$

β 1 = X

T

* Y(3) (XT*X)* $ β 2 = XT * Y

Ma se λ*β è stimabile, esiste b tale che:

(4) b * XT * X = λ

dunque se moltiplichiamo a destra la (2) e la (3) per il vettore riga b, abbiamo che:

b * (XT*X)* $ β 1 = b * XT * Y

b * (XT*X)* $ β 2 = b * XT * Y

Per la (4) si ha che:

λ *$

β 1 = b * XT

* Yλ * $ β 2 = b * XT * Y

Quindi:

λ * $ β 1 = λ * $ β 2

dunque le 2 soluzioni danno lo stesso valore per la funzione stimabile λ*β. Inoltre:

E (λ * $ β 1) = E (λ * $ β 2) = E (b * XT * Y) = b * XT * E(Y) = b * XT * X * β = λ*β

STIMATORE DELLA VARIANZA DELLA POPOLAZIONE

Abbiamo detto che X*β rappresenta un set di n funzioni stimabili, dunque (Y-X* $ β ), ilvettore dei residui, è anche invariante rispetto alla soluzione che si sceglie. I minimi

quadrati minimizzano la sommatoria dei quadrati dei residui, ovvero in forma matriciale:

SSe = (Y-X* $ β )T*(Y-X* $ β )

Se viene sviluppato si ottiene:

(5) SSe = YT*Y - $ β T*XT*Y

considerando che:

E (YT*Y - $ β T*XT*Y) = n*σ2 - r*σ2 = (n-r)* σ2

Abbiamo dunque ritrovato lo stimatore per la varianza delle risposte Y:

( ) )σ 2 =

−SSe

n r

Dalla (5) si ricava anche l’invarianza della somma dei quadrati associata a un modello

al variare della soluzione:$ β T*XT*Y = YT*Y - SSe

visto che YT*Y è la sommatoria dei quadrati delle risposte, indipendente dalla soluzione

delle equazioni normali; SSe è la sommatoria dei residui e per ciò che abbiamo detto è

pure indipendente dalla soluzione.

TEOREMA 5




137

Date λ1*β, λ2*β,....λk *β sono k funzioni stimabili linearmente indipendenti si può testare

l’ipotesi nulla che esse siano simultaneamente uguali a zero. Si calcola una soluzione

qualsiasi alle equazioni normali:

(XT*X)* $ β = XT * Y

e poi si calcola la somma dei quadrati associata a quel modello:SSreg = $ β T * XT * Y

Poi si sostituiscono nel modello:

E(Y) = X * β

le ipotesi nulle da testare:

H0: λ1*β = λ2*β = λ3*β = ..... = λk *β = 0

ottenendo un modello ridotto:

E(Y) = Z * γ Si calcola una soluzione delle equazioni normali

)γ di quel modello ridotto:

(XT*X)* )γ = XT * Y

e la somma dei quadrati associata ad esso: )γ T * XT * Y

Se le variabili casuali nel vettore e sono distribuite normalmente, la statistica:

u =

( ) ( )

( ) ( )

$ * * $ * *

* $ * *

β γ

β

T T T T

T T T

X Y X Y

k

Y Y X Y

n r

−

−

−

segue una distribuzione F con k e (n-r) gradi di libertà dunque, con un livello di fiducia (1-

α) rifiutiamo l’ipotesi nulla:

H0: λ1*β = λ2*β = λ3*β = ..... = λk *β = 0

se u > F1-α(k, n-r)

Notiamo che tutte le funzioni stimabili per il teorema 1 e 2 possono essere espresse in

funzione delle medie degli stati di prova dunque le uniche ipotesi che si possono testare

sono quelle esprimibili in funzione delle medie degli stati di prova.

7.2.1 OSSERVAZIONI

Il teorema di Gausss-Markov, in pratica afferma che se la matrice (XT*X) è

invertibile (modelli full-rank: full-regression e cell-means), gli stimatori di β provenienti

dalle equazioni normali:

(XT*X)* $ β = XT * Y

sono i migliori nel senso che sono corretti e a varianza minima: si dice che sono stimatori

BLUE; se la matrice (XT*X) non è invertibile (modello sovraparametrizzato), gli stimatoridelle funzioni stimabili provenienti dalle equazioni normali sono stimatori BLUE. Tutto




138

ciò è perfettamente logico: in ogni caso, con r stati di prova stimo correttamente al

massimo r parametri (o loro c.l.) indipendenti.

Nell’ambito delle equazioni normali e il teorema di Gauss-Markov, abbiamo poi

enunciato altri teoremi, presi dal Mood e Graybill (1963): dei 5 teoremi il più importante

è indubbiamente l’ultimo (5) perché indica quali ipotesi si possono testare e come fare.

È un vero peccato che Actis (1995) e Fornasieri (1995), dopo aver enunciato il teorema 5

come sopra, non lo applicano mai come lo hanno esposto: inoltre essi dichiarano che il

teorema 5 è il teorema di Gauss-Markov mentre in Mood e Graybill (1963) e Zyskind

(1969) si riporta che il teorema di Gauss-Markov è quello che dice che gli stimatori

provenienti dalle equazioni normali sono quelli a varianza minima (teorema 3).

Anche Galetto (1995 e 1996) cita moltissimo il teorema di Gauss-Markov, alla base

del metodo G, ma poi non enuncia il teorema 5 come è scritto sul Mood e Graybill (1963)

e non lo applica mai in modo rigoroso. Il teorema richiede che:

1. si parta da un’ipotesi sulle funzioni stimabili linearmente indipendenti,

2. si sostituisca l’ipotesi nulla nel modello più completo, ottenendo un modello ridotto,

3. si risolvano le equazioni normali sul modello ridotto,

4. si calcoli il numeratore della F calcolata per il test, a partire dal modello più

completo, secondo il teorema 5.

Purtroppo spesso non si dichiara la (o le) funzione stimabile che vuole testare, dunque è

ovvio che poi i modelli ridotti non si ottengono dal più completo.Le funzioni stimabili si possono sempre esprimere in funzione delle medie degli

stati di prova quindi l’analisi dei contrast introdotta nel cap.4 è equivalente all’uso del

teorema di Gauss-Markov essendo però molto più veloce; d’altra parte, questa

equivalenza conferisce agli stimatori dei contrast le proprietà di ottimalità, dunque ne

legittima l’analisi.

Notiamo che nell’enunciare il teorema non abbiamo mai invocato l’ortogonalità

statistica ovvero la non correlazione fra gli stimatori di Gauss-Markov: ciò vuol dire che

anche l’analisi dei contrast (fatta ad esempio col metodo di Yates) si può fare in ognisituazione: gli stimatori dei contrast restano BLUE.

Il teorema di Gauss-Markov è quindi un importantissimo risultato teorico ma

nell’applicazione pratica è decisamente conveniente usare l’analisi dei contrast;

tuttavia se si vuole usare a tutti costi il modello sovraparametrizzato invocando il teorema

di Gauss-Markov, bisogna farlo rigorosamente, applicando il teorema 5.




139

7.3 MODELLO SOVRAPARAMETRIZZATO: FUNZIONI STIMABILI

Mi appresto ad illustrare ciò che io ritengo un’inutile complicazione che può

generare notevole confusione; iniziamo con un esempio di 2 fattori a 2 livelli, il modello

sovraparametrizzato è:yijr = µ + α i + β j + αβ ij + εijr i=1, 2 j=1, 2

in forma matriciale:

E(Y) = X * β

dove la matrice X, se ci fosse solo un osservazione per ogni stato di prova, sarebbe così

composta:

µ α0 α1 β0 β1 αβ00 αβ01 αβ10 αβ11

1 1 0 1 0 1 0 0 01 1 0 0 1 0 1 0 0

1 0 1 1 0 0 0 1 0

1 0 1 0 1 0 0 0 1

Tabella 40

Se ci sono più dati nei vari stati di prova, bisogna replicare le righe relative a quegli stati.

In questo modo la matrice possiamo scrivere la matrice (XT*X) delle equazioni normali e il

termine noto XT*Y, contenente i totali:

µ α0 α1 β0 β1 αβ00 αβ01 αβ10 αβ11 XT*Y

1 n.. n0. n1. n.0 n.1 n00 n01 n10 n11 T..

2 n0. n0. 0 n00 n01 n00 n01 0 0 T0.

3 n1. 0 n1. n10 n11 0 0 n10 n11 T1.

4 n.0 n00 n10 n.0 0 n00 0 n10 0 T.0

5 n.1 n01 n11 0 n.1 0 n01 0 n11 T.1

6 n00 n00 0 n00 0 n00 0 0 0 T00

7 n01 n01 0 0 n01 0 n01 0 0 T01

8 n10 0 n10 n10 0 0 0 n10 0 T10

9 n11 0 n11 0 n11 0 0 0 n11 T11

Tabella 41: equazioni normali per 2 fattori a 2 livelli

e il vettore dei parametri β contiene i 9 parametri (µ, α0, α1, β0, β1, αβ00, αβ01, αβ10, αβ11).

Tij indicano i totali e yij indicheranno le medie degli stati prova.

Il sistema, come abbiamo già detto, ammette infinite soluzioni: la prima riga è la

somma delle ultime 4; la riga 2 è la somma della 6 e 7; la 3 è la somma della 8 e 9; la 4 è

la somma della 6 e 8; la 5 è la somma della 7 e 9; dunque le ultime 4 righe sono

linearmente dipendenti e tutte le altre si possono generare con queste; la matrice di




140

dimensione 9 ha dunque rango 4 (ecco perché il modello sovraparametrizzato è chiamato

anche non full-rank o, più precisamente, less than full-rank ), pari al numero degli stati di

prova. In questo caso posso eliminare le prime 5 righe perchè dipendenti dalle ultime 4.

Pongo uguali a zero le variabili corrispondenti alle righe cancellate per cui consideriamo

solo più le ultime 4 righe e colonne; è subito evidente che la soluzione è:

µ = α0 = α1 = β0 = β1 = 0;

αβ00 = T00/n00 = y00

αβ01 = T01/n01 = y01

αβ10 = T10/n10 = y10

αβ11 = T11/n11 = y11

dunque il vettore soluzione72 trasposto βT è (0, 0, 0, 0, 0, y00, y01, y10, y11). Per calcolare la

somma dei quadrati associata a questo modello, bisogna calcolare:


Il vettore XT * Y è quello dei totali dunque abbiamo che:

SSreg (I+A+B+AB) = T00*y00 + T01*y01 + T10*y10 + T11*y11

quella scritta sopra è quella che Galetto (1995) chiama “regola del Questo per questo” ovvero il prodotto dei totali per le medie degli stati di prova per trovare la somma dei

quadrati di un modello completo.

Il fatto di aver posto le stime dei parametri uguali a zero, quelli corrispondenti alle

righe linearmente dipendenti, vuol dire prendere una soluzione basica del sistema; ciò è

analogo a quanto viene fatto nel simplesso in ricerca operativa. Ogni volte che troveremo

un sistema con infinite soluzioni prenderemo sempre una soluzione basica perché sono le

più semplici. L’idea di usare le soluzioni basiche, piuttosto ovvia, l’ho trovata anche in

Searle et al. (1981).

7.3.1 FUNZIONI STIMABILI

I teoremi visti prima ci dicono che non esistono degli stimatori corretti per quei 9

parametri; ma c’è da stupirsi? Assolutamente NO: nell’ANOVA si hanno solo 4 gradi di

libertà per i parametri del modello e quindi si possono stimare solo 4 quantità che sono 4

funzioni stimabili linearmente indipendenti; una di esse riguarda la media ovvero la

sommatoria di tutti dati e non ci interessa; le altre 3 potrebbero essere gli effetti (par. 4.8)

dei 2 fattori e della loro interazione:72 È una delle infinite soluzioni che si possono trovare. Ho di nuovo usato la stessa lettera per indicare il parametro e la sua stima puntuale: il lettore non si lasci confondere.




141

effetto medio di A µ11 + µ10 - µ01 - µ00

effetto medio di B µ11 + µ01 - µ10 - µ00

effetto di AB µ11 + µ00 - µ01 - µ10

essendo 3 c.l. delle medie sono sicuramente 3 funzioni stimabili; esse sono anche

linearmente indipendenti73 (teorema 2) visto che la matrice:

µ00 µ01 µ10 µ00

-1 -1 1 1

-1 1 -1 1

1 -1 -1 1

.

ha rango 3. Esprimiamo le medie µij in funzione dei 9 parametri del modello:

µ00 = µ + α0 + β0 + αβ00

µ01 = µ + α0 + β1 + αβ01

µ10 = µ + α1 + β0 + αβ10

µ11 = µ + α1 + β1 + αβ11

Ora siamo in grado di esprimere le 3 funzioni stimabili che abbiamo scritto sopra, in

funzione dei parametri del modello:

(1) A = µ11 + µ10 - µ01 - µ00 = 2α1 - 2α0 + αβ11 + αβ10 - αβ01 - αβ00

(2) B = µ11 + µ01 - µ10 - µ00 = 2β1 - 2β0 + αβ11 + αβ10 - αβ01 - αβ00

(3) AB = µ11 + µ00 - µ01 - µ10 = αβ11 + αβ00 - αβ01 - αβ10

Ecco perché il modello sovraparametrizzato può essere fuorviante; introduce dei parametri

in più che ovviamente non si possono stimare e quindi bisogna ricorrere alle funzioni

stimabili che non sono nient’altro che combinazioni lineari delle medie. Pochi (Searle et al.

1981, Speed et al. 1978, Hocking e Speed 1975) esplicitano il fatto che le somme dei

quadrati usualmente impiegate nell’ANOVA con dati bilanciati per stimare l’effetto deifattori testano la (1) e la (2) in termini dei parametri del modello sovraparametrizzato;

coloro che dichiarano di voler usare le funzioni stimabili (fra cui Galetto 1995 e 1996) poi

non specificano quale funzione stimabile stanno testando; forse qualcuno crede che le

somme dei quadrati SS(A) e SS(B) testino:

α1 - α0 = 0

β1 - β0 = 0

e invece le 2 funzioni sopra non sono stimabili; per dimostrarlo partiamo dalla definizione

di funzione stimabile (Mood e Graybilll 1963 pag.363): una funzione dei parametri è

73 E algebricamente ortogonali nello spazio dei contrast.




142

stimabile se esiste una combinazione lineare delle risposte Yijr , il cui valore atteso è la

funzione dei parametri.

Ragioniamo solo su α1 - α0, visto che è lo stesso per β1 - β0. Supponiamo di avere N dati

distribuiti secondo le seguenti numerosità degli stati di prova:

A

0 1

B 0 n00 n10

1 n01 n11

N = n00 + n10 + n01 + n11

Dobbiamo chiederci se esiste un vettore K (k 1, k 2, k 3,.... k N) tale che il valore atteso del

prodotto scalare di K per il vettore Y contenete le n osservazioni, è uguale ad α1 - α0.

∃K ∈ℜ N: E (K*Y) = α1 - α0

E k y k y k y k yi ii

n

j j j

n

k k k

n

h hh

n

* * * *001

011

101

111

1 0

00 01 10 11

= = = =∑ ∑ ∑ ∑

⎛

⎝ ⎜

⎞

⎠⎟ +

⎛

⎝ ⎜

⎞

⎠⎟ +

⎛

⎝ ⎜

⎞

⎠⎟ +

⎛

⎝ ⎜

⎞

⎠⎟

⎡

⎣⎢⎢

⎤

⎦⎥⎥

= −α α

k E y k E y k E y k E yi ii

n

j j j

n

k k k

n

h hh

n

* ( ) * ( ) * ( ) * ( )001

011

101

111

1 0

00 01 10 11

= = = =∑ ∑ ∑ ∑

⎛

⎝ ⎜

⎞

⎠⎟ +

⎛

⎝ ⎜

⎞

⎠⎟ +

⎛

⎝ ⎜

⎞

⎠⎟ +

⎛

⎝ ⎜

⎞

⎠⎟

⎡

⎣⎢⎢

⎤

⎦⎥⎥

= −α α

k k k k i

i

n

j

j

n

k

k

n

h

h

n

= = = =

∑ ∑ ∑ ∑⎛

⎝

⎜ ⎞

⎠

⎟ +⎛

⎝

⎜ ⎞

⎠

⎟ +⎛

⎝

⎜ ⎞

⎠

⎟ +⎛

⎝

⎜ ⎞

⎠

⎟⎡

⎣

⎢

⎢

⎤

⎦

⎥

⎥

= −1

00

1

01

1

10

1

11 1 0

00 01 10 11

* * * *µ µ µ µ α α

Se ridefiniamo gli elementi k i nel seguente modo:

k k ii

n

001

00

==∑

k k j j

n

011

01

==

∑

k k k k

n

101

10

= =∑

k k hh

n

111

11

==

∑

si ottiene:

k 00 * µ00 + k 01 * µ01 + k 10 * µ10 + k 11 * µ11 = α1 - α0

Quindi abbiamo dimostrato di nuovo (l’avevamo già fatto col teorema 2) che qualsiasi

funzione stimabile deve essere esprimibile in funzione delle medie degli stati di prova. α1 - α0 lo è? NO, infatti se sviluppiamo le medie in funzione dei parametri del modello

sovraparametrizzato, otteniamo l’identità:




143

µ*(k 00 + k 10 + k 01 + k 11) + α0*(k 00 + k 01) + α1*(k 10 + k 11) + β0*(k 00 + k 10) + β1*(k 01 + k 11)

+ αβ00*k 00 + αβ01*k 01 + αβ10*k 10 + αβ11*k 11 = α1 - α0

che dà luogo a un sistema incompatibile nelle incognite k 00, k 01, k 10, k 11. Dunque non si

trova nessun valore di (k 00, k 01, k 10, k 11) che verifichi l’uguaglianza sopra quindi α1 -

α0 non è stimabile. C.V.D.

Lo stesso discorso vale per β1 - β0: non è una funzione stimabile.

Chi non volesse credere alla logica delle dimostrazioni può provare numericamente con dei

dati qualsiasi; si calcoli 2 delle infinite soluzioni delle equazioni normali; esse daranno dei

valori diversi di

α1 - α0 (e anche di β1 - β0)

mentre sappiamo dal teorema 4 che il valore numerico delle funzioni stimabili non cambia

qualunque soluzione si prenda alle equazioni normali.

Anche in Searle (1987) è chiaramente dimostrato in generale (con un numero qualsisaisi di

livelli) che con 2 fattori le funzioni αi - α j e βi - β j sono non stimabili.

In Searle (1987) si riferisce a pag.207 che lo stesso Searle e altri hanno dimostrato nel

1984 che un’ipotesi non testabile ovvero un’ipotesi nulla su una funzione non stimabile

porta a un numeratore della F calcolata identicamente nullo.

7.3.2 ESEMPIO MACCHINA-OPERATORE

Facciamo un esempio per far vedere come andrebbe applicato rigorosamente ilteorema 5, così come è descritto sul Mood e Graybill (1963): nella bibliografia consultata

per la tesi non ho mai visto l’esplicitazione di tale procedura (a parte nel testo citato).

Riportiamo i dati del solito esempio:


OPERATORE 0 64,67 41,48


Tabella 42

Testiamo alcune ipotesi che abbiamo già testato con l’analisi dei contrast; i risultati

dovranno ovviamente venire uguali per il principio F1. La macchina è il fattore A e

l’operatore è il fattore B: ad esempio quello che io definisco effetto medio del fattore

operatore:

O = µ11 + µ01 - µ10 - µ00

O = 2β1 - 2β0 + αβ11 + αβ01 - αβ10 - αβ00 (in termini del modello sovraparametrizzato)

Testare l’effetto dell’operatore sia nullo vuol dunque dire che:

(1) 2β1 - 2β0 + αβ11 + αβ01 - αβ10 - αβ00 = 0

(2) β1 = β0 - (αβ11 + αβ01 - αβ10 - αβ00) / 2




144

dunque la (1) rappresenta la funzione stimabile che vogliamo testare; dobbiamo quindi

sostituire la (2) nel modello completo:

µ00 = µ + α0 + β0 + αβ00 ripetuto 2 volte

µ10 = µ + α1 + β0 + αβ10 ripetuto 2 volte µ01 = µ + α0 + β1 + αβ01 ripetuto 2 volte µ11 = µ + α1 + β1 + αβ11

per ottenere il modello ridotto74 senza il parametro β1:

µ00 = µ + α0 + β0 + αβ00 ripetuto 2 volte µ10 = µ + α1 + β0 + αβ10 ripetuto 2 volte µ01 = µ + α0 + (β0 - (αβ11 + αβ01 - αβ10 - αβ00) / 2 ) + αβ01

= µ + α0 + β0 + 0,5*(-αβ11 + αβ10 + αβ01 + αβ00) ripetuto 2 volte

µ11 = µ + α1 + (β0 - (αβ11 + αβ01 - αβ10 - αβ00) / 2 ) + αβ11

= µ + α1 + β0 + 0,5*(αβ11 + αβ10 - αβ01 + αβ00)

scritto in forma matriciale Y=Z*β, dove Z è la seguente matrice, ricavata dalle 4

uguaglianze scritte sopra:

µ α0 α1 β0 αβ00 αβ10 αβ01 αβ10

1 1 0 1 1 0 0 0

1 1 0 1 1 0 0 0

1 0 1 1 0 1 0 0

1 0 1 1 0 1 0 0

1 1 0 1 0,5 0,5 0,5 -0,5

1 1 0 1 0,5 0,5 0,5 -0,5

1 0 1 1 0,5 0,5 -0,5 0,5

Tabella 43: matrice Z del modello ridotto

Le equazioni normali in forma matriciale del modello ridotto sono:

(ZT*Z) * γ = (ZT * Y)

dunque dobbiamo trovare (ZT * Z) e (ZT * Y):

µ α0 α1 β0 αβ00 αβ10 αβ01 αβ10 ΖΤ ∗ Y

7 4 3 7 3,5 3,5 0,5 -0,5 335

4 4 0 4 3 1 1 -1 205

3 0 3 3 0,5 2,5 -0,5 0,5 130

7 4 3 7 3,5 3,5 0,5 -0,5 335

74 Ogni volta che parliamo di un modello ridotto i parametri non sono più quelli del modello originariocompleto, dunque bisognerebbe distinguerli da essi con qualche simbolo: non lo faccio per non appesantirela rappresentazione.




145

3,5 3 0,5 3,5 2,75 0,75 0,25 -0,25 188,5

3,5 1 2,5 3,5 0,75 2,75 0,25 -0,25 146,5

0,5 1 -0,5 0,5 0,25 0,25 0,75 -0,75 16,5

-0,5 -1 0,5 -0,5 -0,25 -0,25 -0,75 0,75 -16,5

Tabella 44: equazioni normali del modello ridotto

La matrice ha dimensione 8, ma il rango è 3 perché la riga 3 si ottiene dalla differenza

delle prime 2; la 4 è uguale alla prima. La 6 è la 4 meno la 5; la 7 è la differenza fra la riga

2 e 5 e la 8 è l’opposto della 7.

Dunque prendiamo le righe 1, 2 e 5 come indipendenti; facciamo entrare in base i

parametri corrispondenti a quelle 3 righe ovvero µ, α0 e αβ00; poniamo le stime degli altri

parametri uguali a zero, ottenendo così una delle ∞5 soluzioni del sistema delle equazioni

normali. Otteniamo così un sistema ridotto, di cui scriviamo la matrice e il termine noto:

µ α0 αβ00 termine noto

7 4 3,5 335

4 4 3 205

3,5 3 2,75 188,5

Tabella 45: sistema ridotto del modello ridotto

La cui soluzione è75:

µ = 38,1α0 = -10,4

αβ00 = 31,4

Allora il vettore soluzione trasposto γT è il seguente: (38.1, -10.4, 0, 0, 31.4, 0, 0, 0) e la

somma dei quadrati associata al modello ridotto Y = I + M + MO (lo scrivo così visto che

ho impostato che l’effetto medio dell’operatore sia nullo) è dunque:

SSreg (I + M + MO)

= γ

T

* Z

T

* Y = (38,1 * 335 - 10,4 * 205 + 31,4 * 188,5) = 16550,4

il valore conferma (principio F1!!!) quello trovato con l’analisi della covarianza nel cap.6.

Per trovare la SSreg del modello completo, come visto prima, si applica la regola del

Questo per questo, ovvero le medie per i totali degli stati di prova:

SSreg (I + M + O + MO) =

βT * XT * Y = (65,5 * 131 + 44,5 * 99 + 37 * 74 + 41*41) = 16960

75 Le stesse lettere indicano sia il parametro che la sua stima: il lettore non si lasci confondere. Anche inseguito userò questa notazione semplificata.




146

Il residuo l’avevamo già calcolato con l’analisi della varianza nel par.5.2.1 ed era:

SSe = SStot - SSreg (I + M + O + MO) = 37

Dunque il numeratore della F calcolata secondo il teorema 5 è:

SSreg (I + M + O + MO) - SSreg (I + M + MO) = 409,6

ovvero lo stesso valore trovato con l’analisi della covarianza (cap.6) e con l’analisi dei

contrast (cap.5); abbiamo dunque visto finora 3 metodi diversi applicati sullo stesso

esempio:

1. analisi dei contrast

2. analisi della covarianza

3. regressione col modello sovraparametrizzato usando le funzioni stimabili

essi sono scientificamente corretti e, applicati in modo rigoroso, devono dare gli stessi

risultati: notiamo dire che però l’analisi dei contrast è molto più veloce e quindi è da

preferirsi. Se avessi testato a zero l’effetto medio della macchina:

H0 : µ11 + µ10 - µ01 - µ00 = 0

H0 : 2α1 - 2α0 + αβ11 + αβ10 - αβ01 - αβ00 = 0

avrei ottenuto un modello ridotto Y = Z * γ che potevo scrivere Y = I + O + MO (visto che

si impostava a zero l’effetto medio della macchina) e che avrebbe dato la seguente somma

dei quadrati:

SSreg (I + O + MO) = 16844,4 SSreg (I + M + O + MO) - SSreg (I + O + MO) = 115,6

anche essa conferma i risultati dell’analisi dei contrast e della covarianza. Non riporto il

procedimento per arrivare al risultato sopra visto che è del tutto identico a prima. Testiamo

invece l’effetto dell’interazione:

H0 : µ11 + µ00 - µ01 - µ10 = 0

H0 : αβ11 + αβ00 - αβ01 - αβ10 = 0

H0 : αβ11 = αβ01 + αβ10 - αβ00

si ottiene la seguente matrice Z del modello ridotto:

µ α0 α1 β0 β1 αβ00 αβ10 αβ01

-





147

che dà luogo ala seguente matrice (ZT*Z) e termine noto (ZT*Y) delle equazioni normali

del modello ridotto per testare le interazioni:

µ α0 α1 β0 β1 αβ00 αβ10 αβ01 ZT*Y

4 4 0 2 2 2 0 2 205

-

3 2 1 0 3 -1 1 3 115

- - - -

-

-


La matrice ha rango 3 perché si riescono ad esprimere tutte le righe in funzione della prima, della seconda e della quarta; come al solito scegliamo una soluzione basica del

sistema: facciamo entrare in base i parametri µ, α0 e β0; dobbiamo quindi risolvere il

sistema:

µ α0 β0 termine noto

7 4 4 335

4 4 2 205

4 2 4 220


La soluzione è:

µ = 31

α0 = 11

β0 = 18,5

tutti gli altri parametri sono uguali a zero nella soluzione che abbiamo scelto (una delle

∞

5

). Per trovare la somma dei quadrati associata a questo modello Y = I + M + O, come alsolito si calcola:

SSreg (I + M + O) =

γT * ZT * Y = (31 * 335 + 11 * 205 + 18,5 * 220) = 16710

e dunque il numeratore della F calcolata è:

SSreg (I + M + O + MO) - SSreg (I + M + O) = 250

ovviamente conferma il valore dell’analisi dei contrast e della covarianza.

Se volessimo testare a 0 le 2 funzioni:

α1 - α0

β1 - β0




148

troveremo che il numeratore della F calcolata è identicamente nullo, perché le 2 funzioni

sopra sono non stimabili. Non riportiamo i calcoli visto che il modo di procedere è

assolutamente identico a sopra.

Testiamo invece l’ipotesi che avevamo già introdotto nel cap.5 come possibile

effetto dell’operatore, per spiegare che il metodo descritto in Galetto (1995 e 1996, cap.9)

testa inconsapevolmente quell’ipotesi:

H0 : 3*µ01 + 2*µ11 - 3*µ00 - 2*µ10 = 0

H0 : 3*(α0+β1+αβ01) + 2*(α1+β1+αβ11) - 3*(α0+β0+αβ00) - 2*(α1+β0+αβ10) = 0

H0 : αβ11 = 2,5*(β0 - β1) + αβ10 - 1,5*αβ01 + 1,5*αβ00

Vediamo a cosa conduce l’ipotesi sopra, sostituendola nel modello completo; il

modello ridotto è Y = Z*γ dove γ contiene tutti parametri del modello completo tranne

αβ11 che è espresso in funzione degli altri secondo l’ipotesi nulla. La matrice Z diventa

allora:

µ α0 α1 β0 β1 αβ00 αβ10 αβ01

1 1 0 1 0 1 0 0

1 1 0 1 0 1 0 0

1 0 1 1 0 0 1 0

1 0 1 1 0 0 1 0

1 1 0 0 1 0 0 1

1 1 0 0 1 0 0 1

1 0 1 2,5 -1,5 1,5 1 -1,5


La matrice (ZT*Z) delle equazioni normali e il termine noto (ZT*Y) sono i seguenti:

µ α0 α1 β0 β1 αβ00 αβ10 αβ01 ZT*Y

7 4 3 6,5 0,5 3,5 3 0,5 335

4 4 0 2 2 2 0 2 205

3 0 3 4,5 -1,5 1,5 3 -1,5 130

6,5 2 4,5 10,25 -3,75 5,75 4,5 -3,75 322,5

0,5 2 -1,5 -3,75 4,25 -2,25 -1,5 4,25 12,5

3,5 2 1,5 5,75 -2,25 4,25 1,5 -2,25 192,5

3 0 3 4,5 -1,5 1,5 3 -1,5 130

0,5 2 -1,5 -3,75 4,25 -2,25 -1,5 4,25 12,5

Tabella 50: equazioni del modello ridotto




149

La matrice ha rango 3 quindi dobbiamo scegliere una soluzione basica: facciamo entrare in

base i parametri µ, α0 e β0: gli altri assumeranno valore uguale a zero; il sistema ridotto è:


7 4 6,5 3354 4 2 205

6,5 2 10,25 322,5


La soluzione è:

µ = 28,3333

α0 = 17,916666

β0 = 10

gli altri parametri del vettore γ sono uguali a zero quindi la somma dei quadrati associata aquesto modello ridotto è:

SSreg (.....)76 = γT * ZT * Y =

(28,3333 * 335 + 17,196666 * 205 + 10 * 322,5) = 16389,583333

Il numeratore della F calcolata secondo il teorema 5 è:

SSreg (I + M + O + MO) - SSreg (......) = 16960 - 16389,583333 = 570,416666

conferma (principio F1) il valore trovato con l’analisi dei contrast. Comunque ribadiscoche, secondo me, l’ipotesi testata

H0 : 5*(β1-β0) +3*αβ01 + 2*αβ11 - 3*αβ00 - 2*αβ10 = 0

H0 : 3*µ01 + 2*µ11 - 3*µ00 - 2*µ10 = 0

è di interesse per lo sperimentatore solo se sono giustificati i pesi differenti per le medie;

Galetto probabilmente col suo metodo crede di testare:

H0 : β1-β0 = 0

che invece non è testabile, come ho dimostrato.L’altra ipotesi che si testa col metodo di Galetto riguarda la macchina ed è:

H0 : 5*(α1-α0) +3*αβ10 + 2*αβ11 - 3*αβ00 - 2*αβ01 = 0

H0 : 3*µ10 + 2*µ11 - 3*µ00 - 2*µ01 = 0

non rifaccio l’intero procedimento che è uguale a prima; esso comunque porta a una

somma dei quadrati:

SSreg (....) = 16758,33333

76 È indicato con i puntini perché tale modello non si sa bene quale effetto testi, secondo le mie definizioni(par. 4.8).




150

dunque il numeratore della F calcolata è:

SSreg (I + M + O + MO) - SSreg (......) = 16960 - 16758,33333 = 201,66666

e ovviamente conferma il valore ottenuto (molto più velocemente) con l’analisi dei

contrast.

Tutte le soluzioni alle equazioni normali dei modelli ridotti che abbiamo visto in

questo paragrafo, soddisfano le equazioni normali sul modello completo (tab.2), visto

che non abbiamo messo alcun vincolo sul modello.

7.4 MODELLO SOVRAPARAMETRIZZATO: PROCEDURA DIGALETTO (1995)

“...a natural criterion for the selection of a method would appear to be the

appropriateness of the hypothesis being tested”

(Speed et al.1978)

Galetto (1995 e 1996) nell’ANOVA, usa il modello sovraparametrizzato

dichiarando di voler usare il teorema di Gauss-Markov come giustificazione teorica per il

metodo che propone; però nel testare gli effetti, non parte mai dalle funzioni stimabili,come ho fatto invece io nel paragrafo precedente: Galetto ragiona solamente sulle somme

dei quadrati senza usare rigorosamente il teorema di Gauss-Markov e gli altri teoremi

presenti sul Mood e Graybill (1963); ricordiamoci che il teorema 5 prevede che nel

numeratore della F calcolata si sia:

• la SSreg del modello più completo meno

• la SSreg di un modello ridotto ottenuto sostituendo l’ipotesi nulla sule funzioni

stimabili nel modello più completo.

Galetto, per testare l’effetto dell’interazione, propone di usare il modello additivo:

yijr = µ + α i + β j + εijr

trovarne la SSreg e sottrarla dalla SSreg del modello più completo. Cosa c’è che non va?

Non è indicata l’ipotesi nulla da cui arriva quello che Galetto chiama “modello additivo”;

provo a scoprirlo io, limitandomi per semplicità all’esempio di sopra con 2 fattori e 2livelli. Esso deriva dalle ipotesi nulle:




151

H01 : αβ00 = k

H02 : αβ10 = k

H03 : αβ01 = k

H04 : αβ11 = k

in cui si introduce un ulteriore parametro, k, che, comparendo in tutti gli stati di prova, può

essere conglobato senza problemi nella media77. L’ipotesi sopra è equivalente alle tre:

H’01 : αβ00 - αβ10 = 0

H’02 : αβ10 - αβ01 = 0

H’03 : αβ01 - αβ11 = 0

che però vanno espresse (se è possibile), in termini di funzioni stimabili, se vogliamo

sfruttare il teorema di Gauss-Markov e il teorema 5; ad esempio possiamo esprimerle

così:

H’’01 : αβ11 + αβ00 - αβ10 - αβ01 = 0 (unendo H’01 e H’03)

H’02 : αβ10 - αβ01 = 0

H’03 : αβ01 - αβ11 = 0

Di queste 3 solo la prima è una funzione stimabile e dà quindi luogo a un’ipotesi testabile.

Le altre 2 sono ipotesi non testabili. Dunque l’ipotesi H0 (implicita nella scrittura delmodello additivo di Galetto), composta di H’’01, H’02, H’03, è parzialmente testabile,

secondo la terminologia di Searle (1987) a pag.297. L’ipotesi H0, sebbene sia diversa da

H’’01 non è distinguibile da essa: questo singolare fatto è dovuto al fatto di non avere

formulato a priori un’ipotesi nulla sulle funzioni stimabili; il risultato è che uno crede di

testare H0 e invece testa H’’01; quest’ultima è già stata testata nel paragrafo precedente: il

modello ridotto da H’’01 dava luogo a una somma dei quadrati:

SSreg = 16710

Per far vedere che H0 (l’ipotesi implicita nella procedura di Galetto) non è distinguibile daH’’01 usiamo il suo modello additivo nell’esempio macchina-operatore; la matrice Z del

modello ridotto da H0: Y = Z * γ è la seguente:

77 Chi non ne fosse convinto provi a scriversi le equazioni normali introducendo il parametro k: vedrà che si può eliminare perché rappresenta una colonna unitaria della matrice Z, esattamente uguale a quella dellamedia. È una situazione analoga a quella di tab.4 del par.7.3.2 dove la colonna di β0 e uguale a quella dellamedia µ e può essere eliminata, senza cambiare la SSreg del modello ridotto.




152

µ α0 α1 β0 β1

1 1 0 1 0

1 1 0 1 0

1 0 1 1 01 0 1 1 0

1 1 0 0 1

1 1 0 0 1

1 0 1 0 1


La matrice (ZT*Z) delle equazioni normali e il termine noto (ZT*Y) sono i seguenti:

µ α0 α1 β0 β1 ZT*Y

7 4 3 4 3 335

4 4 0 2 2 205

3 0 3 2 1 130

4 2 2 4 0 220

3 2 1 0 3 115


La matrice di dimensione 5 ha rango 3 dunque dobbiamo scegliere 3 parametri che entrano

in base corrispondenti a 3 righe linearmente indipendenti. Scelgo µ, α0 e β0: gli altri

assumeranno valore uguale a zero; il sistema ridotto è:


7 4 4 335

4 4 2 220

4 2 4 205Tabella 54: sistema ridotto del modello ridotto

identico a quello di tabella 9 per l’ipotesi testabile H’’01 che dunque è indistinguibile78

all’ipotesi parzialmente testabile H0 dunque porta alla stessa SSreg = 16710.

È la stessa situazione dell’ANOVA one-way a p livelli col modello E(Yij) = µ + αi:

l’ipotesi

α1 = α2 = .... = α p = 0 è parzialmente testabile e indistinguibile da

78 Quando dico indistinguibile mi riferisco al numeratore della F calcolata; nella realtà le 2 ipotesi sonodiverse.




153

α1 = α2 = .... = α p che invece è testabile, potendosi esprimere con (p-1) funzioni

stimabili

Ma le 2 ipotesi sono diverse (principio F1) e solo numericamente danno lo stesso risultato.

Le ipotesi parzialmente testabili sono decisamente da evitarsi perché illudono di

testare una cosa mentre in realtà ne testano un’altra: se si parte dalle funzioni stimabili non

c’è il rischio di imbattersi in ipotesi parzialmente testabili, quindi invitiamo a seguire

questa strada.

Per quanto riguarda gli effetti dei fattori Galetto (1996) a pag.291 dichiara:

“l’effetto di A si ottiene con la differenza SSreg(µ + α + β)-SSreg(µ + β)”

“l’effetto di B si ottiene con la differenza SSreg(µ + α + β)-SSreg(µ + α)”

Purtroppo non è fornita alcuna giustificazione a queste affermazioni e ciò non deve stupire

visto

• che nel libro citato non è mai esplicitato (in termini dei parametri del modello) cosa si

intende per “effetto di A” e “effetto di B”,

• dunque non si sa quali ipotesi nulle stiano testando quelle differenze di SSreg

• perché non si sono applicati né enunciati rigorosamente il teorema di Gauss-Markov e

gli altri teoremi del Mood e Graybill (1963)

Comunque seguiamo la procedura di Galetto per vedere dove ci porta con l’esempio

operatore-macchina. La SSreg del “modello additivo” è già stata trovata come abbiamo

visto sopra:

SSreg(µ + α + β) = 16710dove α è la macchina e β è l’operatore.

Per calcolare SSreg(µ + α) bisogna usare il modello:

yijr = µ + α i + εir

è immediato verificare che quando si ha un solo fattore nel modello, le equazioni normali

portano alla regola del “Questo per questo” per il calcolo della somma dei quadratiassociata al modello (basta far entrare in base i parametri α0 e α1). Dunque, considerando

solo la macchina, abbiamo i 2 macrostati:

Media Totale Media*Totale

Macchina 0 51,25 205 10506,25

Macchina 1 43,333 130 5633,333

Tabella 55: i 2 macrostati del fattore macchina

SSreg(µ + α) = 10506,25 + 5633,333 = 16139,583

Considerando solo l’operatore:




154

Media Totale Media*Totale

Operatore 0 55 220 12100

Operatore 1 38,333 115 4408,333

Tabella 56: i 2 macrostati del fattore operatore

SSreg(µ + β) = 12100 + 4408,333 = 16508,333

Seguendo la procedura di Galetto avremmo che:

SS(A) = SSreg(µ + α + β) - SSreg(µ + β) = 16710 - 16508,333 = 201,6666

SS(B) = SSreg(µ + α + β) - SSreg(µ + α) = 16710 - 16139,583 = 570,4166

SS(AB) = SSreg(µ + α + β+ αβ) - SSreg(µ + α + β) = 16960 - 16710 = 250

senza sapere cosa stiano testando in realtà queste differenze di somme di quadrati. Nel

paragrafo precedente abbiamo visto che le prime 2 testano rispettivamente le ipotesi:

H01 : 5*(α1-α0) +3*αβ10 + 2*αβ11 - 3*αβ00 - 2*αβ01 = 0

H02 : 5*(β1-β0) +3*αβ01 + 2*αβ11 - 3*αβ00 - 2*αβ10 = 0

che, espresse in funzione delle medie, diventano:

H01 : 3*µ11 + 2*µ10 - 3*µ00 - 2*µ01 = 0

H02 : 3*µ01 + 2*µ11 - 3*µ00 - 2*µ10 = 0Io non escludo che possano essere di interesse per lo sperimentatore che però dovrebbe

giustificare perché usa quei pesi delle medie. E se pesa diversamente le medie, nel

calcolo degli effetti dei fattori, perché invece le pesa ugualmente nel calcolo

dell’interazione???

H03 : µ11 + µ00 - µ01 - µ10 = 0

Mi pare che dunque vi sia una contraddizione nel testare queste 3 ipotesi come

rappresentanti gli effetti dei fattori.

La tabella ANOVA sarebbe la seguente; l’avevamo già vista nel par.5.2.1 (tabella 8).


Totale 16997 7

Media 16032,14286 1 16032,14

M 201,6666667 1 201,6667 16,3513514 10,12796

O 570,4166667 1 570,4167 46,25 10,12796

MO 250 1 250 20,2702703 10,12796

Residuo 37 3 12,33333Tabella 57: ANOVA col metodo di Galetto




155

Nella procedura di Galetto le SS(A) e SS(B) non sono ottenute sostituendo

un’ipotesi nulla nel modello completo: a posteriori sappiamo che è così, ma a priori chi

ci garantisce che le 2 statistiche:

( ) ( )( ) ( )

( )( )

SSreg +µ α β µ β + − + −

−

SSreg a

SSe N a b

/

/ *

1

( ) ( )( ) ( )

( )( )

SSreg +µ α β µ α + − + −

−

SSreg b

SSe N a b

/

/ *

179

seguano una distribuzione F con 1 e 3 gradi di libertà? Il teorema di Cochran.

7.4.1 TEOREMA DI COCHRAN

Date N variabili Xi che seguono una normale una distribuzione normale con media

µ e varianza σ2, sappiamo che la variabile casuale:

( ) X ii

N

−=∑ µ

σ

1

2

2

segue una distribuzione χ2 con N gradi di libertà. Se si scompongono:

Q = ( ) X ii

N

−=∑ µ

1

2

= Q1 + Q2 + Q3 +.....+ QK

N = N1 + N2 + N3 +.....+ NK

il teorema di Cochran assicura che:

• il rapporto ( Qi / σ2 ) segue una distribuzione χ2 con Ni gradi di libertà.

• le variabili casuali ( Qi / σ2 ) e ( Q j / σ2 ) sono indipendenti, ∀i,j

dunque

• il rapporto di variabili casuali:

( )

( )Q N

Q N

i i

j j

/

/

segue una distribuzione F con Ni e N j gradi di libertà, ∀i,j

Applichiamo tale teorema al nostro esempio con 2 fattori, dove Q è la somma dei quadraticorretta e scriviamo le seguenti identità, una per le somme dei quadrati e l’altra per i gradi

di libertà:

Q = SStot - SSreg(µ) =

[SSreg(µ+α) - SSreg(µ)]80

79 Nel nostro esempio N=7, a=2, b=2.

80 È l’effetto del fattore A calcolato con la regola del Questo per questo; non è sbagliato come affermaGaletto (1996 pag.290): semplicemente sta testando una particolare ipotesi nulla:H0 : µ1. - µ0. Il fatto che essa probabilmente non è di interesse non vuol dire che è sbagliato.




156

+ [SSreg(µ+α+β) - SSreg(µ+α)]

+ [SSreg(µ+α+β+αβ) - SSreg(µ+α+β)]

+ [SStot - SSreg(µ+α+β+αβ)]

N -1 = (a-1) + (b-1) + (a-1)*(b-1) + (N-ab)

dove N è il numero totale di osservazioni, a è il numero di livelli del fattore A e b è il

numero di livelli del fattore B. L’ultimo addendo rappresenta SSe dunque il teorema di

Cochran assicura che:

( ) ( )( ) ( )

( )( )

SSreg +µ α β µ α + − + −

−

SSreg b

SSe N a b

/

/ *

1

segue una distribuzione F con (a-1) e (N-a*b) gradi di libertà. Analogamente potevo

mostrare che la statistica:

( ) ( )( ) ( )

( )( )

SSreg +µ α β µ β + − + −

−

SSreg a

SSe N a b

/

/ *

1

segue una distribuzione F con (b-1) e (N-a*b) gradi di libertà. La decomposizione di Q

effettuata sopra dà luogo a un’analisi ortogonale, appropriata solo se il fattore A è più

importante del fattore B, ovvero se esiste un ordine preferenziale dei fattori: non credo che

questa sia una situazione comune nei piani fattoriali.

Il teorema non dice però quale ipotesi nulla si sta testando con queste statistiche. Dunque

con la procedura di Galetto si eseguono dei test corretti. Però:

• non si sa cosa si testa

• i test non sono indipendenti81, perché le SS(.) del numeratore F provengono da contrast

non ortogonali, se le numerosità sono diverse.

7.4.2 METODO DI GALETTO IN LETTERAURA

Comunque Galetto non è l’unico che usa questo metodo. In Speed et al. (1978) si

riferisce al metodo qua esposto come “method of fitting constants” (inventato da Yates nel

1934) oppure come “experimental design” (di Overall e Spiegel 1969); anche in

Krishnaiah (1980) è chiamato “experimental design”.

I testi citati riferiscono che il metodo 2 usato dal programma statistico SAS-76 fa

esattamente l’analisi che farebbe Galetto: tale analisi non è ortogonale se la numerosità

degli stati di prova non è costante come abbiamo visto nell’esempio macchina-operatore.

Il metodo 1 di quel programma richiede un ordine preferenziale di fattori e

interazioni e fa dunque un’analisi sempre ortogonale, conducendo quindi dei test

81 È il problema della non ortogonalità statistica, non è causato dal metodo di Galetto.




157

indipendenti. In Speed et al. (1978) si riferisce tale metodo è denominato “A Priori

Ordering” di Overall e Spiegel (1969).

I metodi 3 e 4 di SAS-76 impiegano il modello full-regression che vedremo nel

prossimo capitolo: danno comunque i risultati dell’analisi dei contrast e quindi se gli stati

di prova hanno numerosità diverse, l’analisi non è ortogonale. Il metodo impiegato, in

Speed et al.(1978) è chiamato “Complete Least Squares” di Overall e Spiegel (1969)

oppure “Weighted Squares of Means”, inventato da Yates nel 1934.

Per quanto riguarda l’opportunità o meno di fare un’analisi ortogonale (sempre

possibile) ricordiamo le sagge parole di Speed e Hocking (1978):

“Since the statement of a model and the testing of hypothesis about the parameters

of that model are fundamental concepts in statistical analysis, particularly the analysis of

variance, a natural criterion for the selection of a method would appear to be the

appropriateness of the hypothesis being tested . Other factors such as ease of computation

and orthogonality of quadratic forms cannot be justified if the hypothesis tested have no

meaningful interpretation”.

7.4.3 MODELLI NON GERARCHICI

Riprendiamo il discorso sui modelli non gerarchici (par. 6.4): un modello è

gerarchico se un interazione fra n fattori è inclusa nel modello solo una volta aver incluso

in esso i fattori e le interazioni di ordine più basso che coinvolgono gli n fattori

considerati. Per esempio y =I+A+AB non è gerarchico perché è stata inserita AB senza

che fosse inserito B; non è gerarchico y = I+B+C+AC+BC+AB poiché ci sono AC e ABma non c’è A; non è gerarchico y = I+A+B+C+AB+AC+ABC perché c’è ABC ma non

BC. E’ invece gerarchico y = I+A+B+C+AB+AC+BC+ABC.

Il fatto di poter usare solo modelli gerarchici è un fatto che ha importanti

conseguenze: ad esempio per calcolare l’effetto di A facendo la differenza fra le SS di 2

modelli non potrò usare i modelli più completi ovvero con 3 fattori non potrò scrivere:

SS(A) = SS(I+A+B+C+AB+AC+BC+ABC) - SS(I+B+C+AB+AC+BC+ABC)

perché il secondo non è gerarchico avendo incluso AB, AC, ABC senza aver incluso A.

Ma perché non bisogna usare modelli non gerarchici? A priori non c'è alcun motivo.Il problema è che se scriviamo i modelli sovraparametrizzati come li scrive Galetto82, e su

di essi applichiamo le equazioni normali troviamo che:

SS(I+B+C+AB+AC+BC+ABC) = SS(I+A+B+C+AB+AC+BC+ABC)

per cui SS(A)=0 se vogliamo calcolarlo per differenza dei 2 modelli sopra. Questa è una

situazione generale che vale ogni volta che uso scrivo i modelli nella forma di Galetto:

82 Essi non sono giustificati dal teorema 5 del Mood e Graybill (1963) ma dal teorema di Cochran, comeabbiamo visto.




158

La SS di un modello non gerarchico è sempre uguale a quella del modello

gerarchizzato.

Il termine modello gerarchizzato non è presente in letteratura (almeno quella che ho

esaminato): con esso intendo il modello non gerarchico più il completamento minimo di

parametri per renderlo gerarchico; ad esempio il modello gerarchizzato di

Y = I+AB

è Y = I+A+B+AB

Dalla legge che abbiamo esposto sopra sappiamo:

SS (I+AB) = SS (I+A+B+AB)

Dimostriamolo con le equazioni normali; nel par. 7.2 abbiamo visto che:

SSreg (I+A+B+AB) = T00*y00 + T01*y01 + T10*y10 + T11*y11

A questo punto scriviamo le equazioni normali per il modello Y = I+AB:

µ αβ00 αβ01 αβ10 αβ11 ZT*Y

n.. n00 n01 n10 n11 T..n00 n00 0 0 0 T00n01 0 n01 0 0 T01n10 0 0 n10 0 T10n11 0 0 0 n11 T11

Tabella 58: equazioni normali su un modello non gerarchico

La prima riga è la somma delle altre per cui la elimino e pongo µ = 0 (soluzione basica);

come si vede la soluzione è:αβ00 =(T00/n00); αβ01 =(T01/n01); αβ10 =(T10/n10); αβ11 =(T11/n11);

che dà luogo alla stessa SSreg calcolata prima. Abbiamo così mostrato che:

SS (I+AB) = SS (I+A+B+AB)

Analogamente potevamo mostrare che :

SS (I+A+AB) = SS (I+A+B+AB)

oppure

SS (I+B+AB) = SS (I+A+B+AB)

Scrivendo dunque i modelli sovraparametrizzati nella forma di Galetto, non si possono

usare modelli non gerarchici perché danno una somma dei quadrati uguale a quella del

corrispondente modello gerarchizzato83.

Nelder (1974) si era reso conto di questo fatto: infatti nella lettera citata in

bibliografia, aveva scritto all’editore della rivista Journal of the Royal Statistical Society

83 Lascio al lettore il “piacere” di collegare tali eguaglianze al discorso delle ipotesi non testabili e

parzialmente testabili.




159

dicendo che, con 2 fattori R e S, l’interazione RS non è indipendente dai 2 fattori perché i

2 fattori sono un sottospazio dell’interazione; Nelder afferma che, partire dal modelloY = I + R i + S j + RSij + Eijr

e poi togliere R, ottenendo quindi:Y = I + S j + RSij + Eijr

equivale solo a mettere i vincoli:R i = 0 ###i

nel modello principale Y = I + R + S + RS, ma essendo questo sovraparametrizzato, tali

vincoli non influenzano il fit dei dati, ovvero la SSreg, dunque si ha che:

SSreg (I+R+S+RS) = SSreg (I+S+RS)

che è quello che ho dimostrato sopra con 2 fattori a 2 livelli.

Nelder afferma che il modello non gerarchico (non usando però questo termine)Y = I + S j + RSij + Eijr

è concepibile in teoria ma non è di interesse pratico neanche se viene aggiunto un vincolo

che forzi una situazione in cui R ha un’influenza attraverso l’interazione con S, ma,

mediato sui valori di S ha un effetto complessivamente nullo. A mio parere invece un tale

modello è di grande interesse (l’abbiamo già visto nell’analisi della covarianza) perché

permette di calcolare l’effetto di R nel modo più completo, ovvero:

SS (R) = SS(I+R+S+RS) - SS(I+S+RS)

come prescrive il teorema 5; la formula sopra è però identicamente nulla se ci riferiamo almodello overparameterized dunque dobbiamo abbandonare tale riferimento se vogliamo

usarla.

7.4.4 ESEMPIO CON 3 FATTORI

Riprendiamo l’esempio del paragrafo 5.2.3, per evidenziare le debolezze implicite

nel metodo di Galetto per calcolare la significatività degli effetti dei fattori e interazioni.


Tabella 59




160

La tabella ANOVA che divide la somma totale dei quadrati in media, trattamenti e residuo

è la seguente:


Totale 149592 24Media 148837,5 1

Trattamenti 677,1166667 7 96,73095238 20,00036922 2,65719535

Residuo 77,38333333 16 4,836458333

Tabella 60

Adesso si tratta di scomporre la SSreg dei trattamenti in 7 componenti con 1 grado

di libertà, relative ai 3 fattori, alle 3 interazioni del primo ordine e all’interazione del

secondo ordine. Nel cap.5 ho già proposto quella che io ritengo la scomposizione corretta,

ovvero quella che testa gli effetti come io li ho definiti nel par. 4.8: può anche darsi che lamia scomposizione non interessi l’analista; in tal caso egli deve costruirsi i contrast che più

gli interessano: l’importante è che sappia cosa sta testando.

Ciò non si verifica con il metodo di Galetto che, con 3 fattori, introduce alcune

ambiguità. Ad esempio per calcolare l’ “effetto” di A, potrei fare:

SS(A) = SS(I+A+B) - SS(I+B)

ma questa volta ho un altro modello additivo a 2 fattori per cui potrei anche fare:

SS(A) = SS(I+A+C) - SS(I+C)

I due modi daranno risultati uguali? Prima di rispondere consideriamo che si possono pensare altri modi per calcolare l’effetto di A (se lo si definisce bene come ho fatto io nel

par. 4.8, invece c’è solo un modo); usando solo modelli gerarchici nella forma di

Galetto, ci possono essere 5 modi:

SS(A) = SS(I+A) - SS(I)


SS(A) = SS(I+A+C) - SS(I+C)

SS(A) = SS(I+A+B+C) - SS(I+B+C)

SS(A) = SS(I+A+B+C+BC) - SS(I+B+C+BC)

L’esempio sopra è ovviamente con numerosità diverse: se fossero uguali non ci sarebbe

nessun problema perché in tutti modi la SS(A) sarebbe uguale. Anche per le interazioni

del primo ordine vi sono 5 modi possibili per calcolarle; l’interazione del secondo ordine si

calcola invece solo in un modo:

SS(ABC) = SS(I+A+B+C+AB+AC+BC+ABC) - SS(I+A+B+C+AB+AC+BC)

La SSreg del modello completo:

yijkr = µ + α i + β j + γ k + αβ ij + γβ kj+ αγ ik + αβγ ijk + εijkr

si calcola con il “Questo per questo”:SSreg(I+A+B+C+AB+AC+BC+ABC) = 149514,6167




161

Per trovare le SSreg dei vari modelli ridotti (come li scrive Galetto, senza partire da un

ipotesi nulla sui parametri) ho sempre usato il metodo delle soluzioni basiche. Ad

esempio per trovare la SSreg del modello:yijkr = µ + α i + β j + γk + αβ ij + αγik + εijkr

abbreviato con:

Y = I + A + B + C + AB + AC

so già in partenza che darà luogo a una matrice delle equazioni normali con rango 6 visto

che sono stati sperimentati tutti gli stati di prova, dunque faccio entrare in base i 6 parametri µ, α0 , β0 , γ0, αβ00 , αγ00; le stime degli altri parametri sono poste uguali a zero,

dunque devo solo risolvere il sistema:

µ α0 β0 γ0, αβ00 αγ00 ZT*Y

24 11 11 13 6 5 1890 T...

11 11 6 5 6 5 854 T0..

11 6 11 5 6 2 835 T.0.

13 5 5 13 2 5 1047 T..0

6 6 6 2 6 2 434 T00.

5 5 2 5 2 5 419 T0.0


La soluzione è:µ = 81,30081

α0 = -2,590287

β0 = 0,747967

γ0 = -3,081301

αβ00 = -10,06376

αγ00 = 11,89709

e la somma dei quadrati associata a questo modello è il prodotto scalare del vettore sopra per i totali ZT*Y scritti in tab.22.

SSreg = 149462,073




162

In questo modo, con Excel, ho calcolato velocemente le SSreg dei seguenti modelli:

1 SS (I) 148837,5

2 SS (I+A) 148862,6853

3 SS (I+B) 149001,39864 SS (I+C) 148928,2238

5 SS (I+A+B) 149010,3892

6 SS (I +A+C) 148940,7024

7 SS (I+B+C) 149058,6169

8 SS (I+A+B+AB) 149235,9917

9 SS (I+ A+C+AC) 149240,5

10 SS (I+B+C+BC) 149061,0917

11 SS (I+A+B+C) 149062,495212 SS (I+A+B+C+AB) 149265,4722

13 SS (I+A+B+C+AC) 149321,3957

14 SS (I+A+B+C+BC) 149064,2997

15 SS (I+A+B+C+AB+AC) 149462,073

16 SS (I +A+B+C+AB+BC) 149266,304

17 SS (I+A+B+C+AC+BC) 149322,8502

18 SS (I+A+B+C+AB+AC+BC) 149470,1751

19 SS( I+A+B+C+AB+AC+BC+ABC) 149514,6167Tabella 62: SSreg di tutti possibili modelli gerarchici

Per i modelli evidenziati in neretto, il metodo delle soluzioni basiche nelle

equazioni normali porta al “Questo per questo”, perché la matrice del sistema ridotto è

diagonale. Possiamo calcolare gli effetti dei fattori e interazioni in vari modi: per brevità

di notazione indico il modo con cui un effetto è calcolato con 2 numeri, indicanti

rispettivamente minuendo e sottraendo della differenza fra le SSreg della tab.23; ad

esempio la notazione (5-3) significa:

SSreg(I+A+B) - SSreg(I+B)




163

2-1 5-3 6-4 11-7 14-10

SS (A) 25,18531469 8,990555228 12,4786 3,878370625 3,208036157

3-1 7-4 5-2 11-6 13-9SS (B) 163,8986014 130,3930912 147,704 121,7928285 80,89569094

4-1 6-2 7-3 11-5 12-8

SS (C) 90,72377622 78,01709495 57,2183 52,10608147 29,4805473

8-5 12-11 16-14 15-13 18-17

SS (AB) 225,60251 202,9769759 202,004 140,6772658 147,3249059

9-6 13-11 15-12 17-14 18-16

SS (AC) 299,7975904 258,9004528 196,601 258,5505325 203,871119

10-7 14-11 17-13 16-12 18-15

SS (BC) 2,474799197 1,804464728 1,45454 0,831808283 8,10218446

19-18

SS (ABC) 44,44152542

Tabella 63: tutti modi per calcolare l’effetto di fattori e interazioni con modelli gerarchici

Ma quale di questi numeri rappresenta l’effetto del fattore o dell’interazione? ... seguendo

solo ciò che c’è scritto in Galetto (1995 e 1996) non si trova risposta. A questo punto chi

applica il metodo di Galetto si renderebbe conto che• non ha definito cos’è un “effetto”. “Terms like ‘main effects’ are not adequate to

describe the hypothesis...their definitions should be dictated by the needs of the

researcher”(Hocking e Speed 1975),

• fare semplicemente la differenza di somme di quadrati non ci dice quale ipotesi stiamo

testando. “...serious drawback of the R( ) notation is that it does not provide an

indication of the hypothesis being tested”(Speed et al.1978).

Il metodo “experimental design”, descritto in Speed et al. (1978) e Krishnaiah

(1980) prevederebbe come risultati corretti la quarta colonna per i fattori e la quintacolonna per le interazioni del primo ordine: questa scelta però è assunta a priori, senza

indagare che ipotesi viene testata sui parametri del modello.

Il metodo “a priori ordering”, descritto in Speed et al. (1978), Krishnaiah (1980),

Allen (1985), prevederebbe una decomposizione ortogonale: essa richiede un ordine di

fattori e interazioni, usando sempre modelli gerarchici84, per cui non si può dire che AB è

più importante dei 2 fattori A e B dunque la media I è sempre la prima e l’interazione di

ordine superiore è sempre l’ultima. Uno dei tanti ordini gerarchici potrebbe essere:

I, A, C, AC, B, BC, AB, ABC

84 L’uso del modello full-regression consente di superare questa limitazione, ammesso che sia di interesse...




164

che richiederebbe l’uso delle somme di quadrati (indicate per brevità dai numeri della

tab.23):

1, (2-1), (6-2), (9-6), (13-9), (17-13), (18-17), (19-18)

La somma di queste SS è ovviamente quella indicata dal numero 19 ovvero:

SSreg(I+A+B+C+AB+AC+BC+ABC) = 149514,6167

dunque l’analisi è ortogonale (ovvero i test F sono indipendenti) per costruzione; ma

cosa si sta testando in termini dei parametri del modello?...

Confrontando con l’analisi dei contrast che avevamo fatto nel par. 5.2.3 vediamo

che solo l’interazione ABC è uguale a ciò che io definisco “effetto” di ABC; non è un

caso: infatti è l’unica calcolata a partire dal modello più completo come richiede il teorema

5 del Mood e Graybill (1963).

Concludiamo il paragrafo dicendo che col modello full-regression (cap.8) si riesce

a capire cosa stiano testando le differenze di somme di quadrati sopra.

7.5 MODELLO SOVRAPARAMETRIZZATO RIPARAMETRIZZATO

Si tratta di un approccio molto usato (Lorenzen et al.1993, Mason et al.1989, Miller

et al.1990, Box et al.1978), studiato da Hocking e Speed (1975), Speed e Hocking(1978),

Searle et al.(1981), Searle(1987); esso consiste nell’uso del modello sovraparametrizzato

con l’aggiunta di un numero di vincoli tale da farlo diventare full-rank: in questo modo

non c’è più il problema delle funzioni stimabili. Ad esempio con 2 fattori conrispettivamente a e b livelli si scrive:

E (yij ) = µ + α i + β j + αβ ij i=1,..., a j=1,..., b

ci sarebbero (1+a+b+a*b) parametri ma solo a*b stati di prova dunque, per riprametrizare

il modello per farlo diventare full-rank bisogna porre (1+a+b) vincoli. Di solito si pongono

quelle che in Searle et al.(1981), Searle(1987) sono chiamate “∑-restrictions”, ovvero:

α ii

a

==∑ 0

1

β j j

b

=∑ =

1

0

αβ iji

a

==∑ 0

1

per j=1,...b

αβ ij j

b

==

∑ 01

per i=1,...(a-1) 85

I nuovi parametri, in numero a*b sono tutti stimabili correttamente, secondo i

teoremi che abbiamo visto nel par. 7.1, perché la matrice delle equazioni normali adesso è

85 Il vincolo per i=a sarebbe dipendente dagli altri quindi non si mette.




165

invertibile. Bisogna però stare molto attenti perché adesso questi vincoli valgono sempre

anche quando si usano dei modelli ridotti. Nell’esempio macchina-operatore ci sarebbero i

seguenti vincoli:

α0 + α1 = 0

β0 + β1 = 0

αβ 00 + αβ 01 = 0

αβ 10 + αβ 11 = 0

αβ 01 + αβ 11 = 0

dunque il modello completo riparametrizzato in funzione di soli 4 parametri diventa ad

esempio:

µ00 = µ + α0 + β0 + αβ00

µ10 = µ − α0 + β0 - αβ00

µ01 = µ + α0 - β0 - αβ00

µ11 = µ − α0 - β0 + αβ00

in forma matriciale E(Y) = X*β dove X è:

µ α0 β0 αβ00

1 1 1 11 1 1 1

1 -1 1 -1

1 -1 1 -1

1 1 -1 -1

1 1 -1 -1

1 -1 -1 1

Tabella 64: matrice X del modello completo

Adesso, avendo aggiunto i vincoli, è ovviamente possibile testare ad esempio:

(1) Η0: α0 (= α1 ) = 0

esso testa quello che io definisco effetto (par. 4.8) di A (in questo caso il fattore macchina)

ovvero:

µ11 + µ10 - µ01 - µ00 = 0

2α1 - 2α0 + αβ11 + αβ10 - αβ01 - αβ00 = 0

perché con le “∑-restrictions”, diventa:

-4α0 = 0

che è equivalente all’ipotesi nulla (1). Il modello ridotto dall’ipotesi nulla (1) ha la

seguente matrice Z:




166

µ β0 αβ00

1 1 1

1 1 1

1 1 -11 1 -1

1 -1 -1

1 -1 -1

1 -1 1


Essa porta a una matrice (ZT*Z) e a un vettore (ZT*Y):

µ β0 αβ00 ZT*Y

7 1 -1 335

1 7 1 105

-1 1 7 9


La soluzione è:

µ = 47,85

β0 = 7,15αβ00 = 7,1

essa non soddisfa le equazioni normali sul modello completo non riparametrizzato (tab.2)

perché abbiamo aggiunto dei vincoli (le “∑-restrictions” ) che hanno cambiato il sistema

di tab.2. La soluzione sopra fornisce una somma dei quadrati associata al modello ridotto

SSreg = 47,85*335 + 7,15*105 + 9*7,1 = 16844,4

che conferma il valore ottenuto:

• con l’analisi dei contrast

• con l’analisi della covarianza• col modello sovraparametrizzato usando le funzioni stimabili

per il principio F1, perché anche la regressione col modello sovraparametrizzato,

riparametrizzato con le “∑-restrictions” è un metodo scientificamente corretto. Se avessi

usato vincoli diversi (Searle et al.1981) dalle “∑-restrictions” avrei comunque ottenuto lo

stesso valore per la stessa ipotesi nulla sulle medie degli stati di prova.

Analogamente potevo testare l’effetto dell’operatore:

µ11 + µ01 - µ10 - µ00 = 0

che diventa:

(1) Η0: β0 (= β1 ) = 0




167

non riporto i calcoli perché sono identici a quelli per l’effetto della macchina; il risultato

finale è:

SSreg (I+M+MO) = 16550,4

Si possono testare tutte le ipotesi che abbiamo già testato: quella del “Questo per questo”,

quelle del metodo di Galetto,....I risultati sarebbero certamente uguali a quelli già trovati

con altri metodi per il principio F1; dunque conviene usare il metodo più semplice.

Le soluzioni alle equazioni normali dei modelli ridotti visti in questo paragrafo

possono non soddisfare le equazioni normali sul modello completo non

riparametrizzato (tab.2), perché, avendo aggiunto dei vincoli, il sistema di equazioni

normali, è cambiato.

7.6 MODELLO SOVRAPARAMETRIZZATO: GLI ALIAS

Finora non abbiamo mai parlato di piani frazionati, ovvero dove mancano degli

stati di prova. Vedere gli alias col modello sovraparametrizzato è molto complicato e

richiede la perfetta comprensione del concetto di funzione stimabile, altrimenti si rischia di

fare degli errori molto gravi.

Ad esempio in Galetto (1989a), in un piano sperimentale (cap.10) “taguchiano”,l’autore analizza i dati trascurando i fattori di rumore; vi sono 4 fattori a 3 livelli e solo 9

stati di prova, ciascuno con 8 ‘replicazioni’; è ovvio che i parametri del modello hanno

solo 9 gradi di libertà (compresa la media) ovvero posso stimare solo 9 funzioni stimabili.

Galetto invece dice di poter stimare anche tutte le interazioni del primo ordine e dice di

conglobare le altre nel residuo: ciò è assolutamente sbagliato perché le interazioni si sono

mischiate (confounded) con i fattori e in tutto gli alias non possono avere più di 9 gradi di

libertà; gli altri 63 sono del residuo: si può certamente ridurre i g.l. del residuo

introducendo i fattori di rumore ma in questo caso i g.l. guadagnati riguardano il fattore dirumore aggiunto e le loro interazioni. Questo errore forse è provocato proprio dall’uso del

modello sovraparametrizzato che introduce più parametri di quanti se ne possano stimare:

il punto è che in un modello io posso mettere tutti parametri che voglio ma se ho solo k

stati di prova stimo soltanto k parametri (aliased).

Un errore analogo è contenuto in Fornasieri (1995) a pag.139 nell’analisi del caso

Iveco (cap.10), dove ci sono 6 stati di prova e 40 dati in tutto. Anche Fornasieri usa il

modello sovraparametrizzato e attribuisce 8 (!!!) gradi di libertà ai parametri del modello e

32 al residuo. Con 6 stati di prova si possono attribuire solo 6 gradi di libertà aiparametri (aliased) del modello e il residuo ha 34 gradi di libertà.




168

Questi 2 errori fanno capire che il modello sovraparametrizzato nei piani ridotti è

fonte di confusione e porta a risultati corretti solo se si usano in modo rigoroso i concetti

esposti nel par.7.1 che si possono ritrovare sul Mood e Graybill (1963). Vediamo come

fare nel piano ridotto del par 4.7:


a 24 26 50 25

b 25 23 48 24

c 29 30 59 29,5

abc 29 27 56 28

Tabella 67

Il modello da usare, se si vogliono vedere gli alias è il seguente:

(1) yijkr = µ + α i + β j + γ k + αβ ij + γβ kj+ αγ ik + αβγ ijk + εijkr

Esso ha una SSreg = (25*50 + 24*48+59*29,5+56*28) = 5710,5 (“Questo per questo”)

Vediamo che la funzione che rappresenta l’effetto (par. 4.8) del fattore A:

µ111+µ110+µ101+µ100-µ000-µ001-µ010-µ011 86

non è stimabile perché mancano gli stati di prova (000), (110), (011), (101); se manca

anche un solo stato di prova la funzione che definisce l’effetto medio di A non è più

stimabile. Invece è stimabile la funzione che confonde l’effetto di A e di BC (comedefiniti nel par.4.8):

A*+BC* 87= µ111+µ100-µ001-µ010 = 2α1 - 2α0 + αβ11 + αβ10 - αβ00 - αβ01 + βγ11 + βγ00 - βγ01

- βγ10 + αγ11 + αγ10 - αγ01 - αγ00 + αβγ111 + αβγ100 - αβγ001

- αβγ010

in quanto è esprimibile per mezzo delle medie degli stati di prova. Se nel modello

completo sostituissimo l’ipotesi nulla:

H0 : 2α1 - 2α0 + αβ11 + αβ10 - αβ00 - αβ01 + βγ11 + βγ00 - βγ01 - βγ10 + αγ11 + αγ10 - αγ01 -

αγ00 + αβγ111 + αβγ100 - αβγ001 - αβγ010 = 0

otterremo un modello ridotto che darebbe una SSreg:

86 Non lo scrivo in termini dei parametri dl modello sovraparametrizzato perché è troppo lungo.

87 Metto gli asterischi per far vedere che sono dei parametri per distinguerli dagli stimatori A e BC; nonsempre nella tesi è fatta questa distinzione: in ogni caso si capisce dal contesto se si sta parlando di unostimatore o di un parametro.




169

SSreg = 5710,375

Non riporto i calcoli che, pur semplici, richiedono la scrittura di matrici abbastanza grandi.

Comunque la somma dei quadrati associata all’alias A+BC è:

SSreg(completo) - SSreg(ridotto) = 5710,5 - 5710,375 = 0,125

Esso conferma il valore trovato con l’analisi dei contrast (tab.9 del par.4.7). Il mio giudizio

è comunque che le funzioni stimabili e il teorema 5 non possono essere considerati

strumenti operativi perché richiedono troppi calcoli: però rappresentano l’unico modo

di vedere gli alias col modello sovraparametrizzato; con il metodo di Galetto (1995 e 1996)

è impossibile vedere gli alias (anche perché nel suo libro non sono ben definiti); anche con

il modello sovraparametrizzato, riparametrizzato per renderlo full-rank, è difficile spiegare

gli alias e sarebbe, secondo me, un’inutile forzatura. Dunque è meglio usare il modello

full-regression, oggetto del prossimo capitolo.

7.7 CONCLUSIONI

In questo capitolo abbiamo visto che il teorema di Gauss-Markov legittima l’uso

dei contrast perché gli stimatori presentati nel cap.4 sono BLUE; l’analisi dei contrast(ANCON) è indubbiamente la più veloce per ottenere gli effetti dei fattori e interazioni.

L’uso del teorema 5 e delle funzioni stimabili conduce agli stessi risultati

dell’ANCON, ma in modo molto più lungo; già con 3 fattori le dimensioni delle matrici

aumentano in modo spropositato dunque il teorema di Gauss-Markov e gli altri teoremi del

Mood e Graybill vanno usati solo come base teorica per l’ANCON, ma non come

strumento operativo.

Chi vuole usare il modello sovraparametrizzato deve rendersi conto che il numero

dei parametri aumenta esponenzialmente con il numero dei fattori e in modo polinomialecon i livelli quindi diventa sempre più difficile maneggiare i modelli sovraparametrizzati;

per dare un’idea supponiamo che ogni fattore abbia K livelli:

con 2 fattori abbiamo (1+K)2 parametri

con 3 fattori ne abbiamo (1+K)3 parametri

...

con N fattori ne abbiamo (1+K) N.




170

Con 4 fattori a 3 livelli, un caso abbastanza comune, avremmo 256 (!!!) parametri mentre

le funzioni stimabili linearmente indipendenti restano in numero pari a quello degli stati di

prova.

Figura 20: come usare il modello sovraparametrizzato.

Comunque se si vuole proprio usare il modello sovraparametrizzato bisogna farlo:

• o sulla base del teorema 5, usando le funzioni stimabili (par.7.3), • o riparametrizzarlo per farlo diventare full-rank (par. 7.5)

come messo perfettamente in evidenza da Freund (1980) e nella fig.1; usando il modellosovraparametrizzato, uno deve subito decidere se usare le funzioni stimabili o se

PIANO SPERIMENTALE

R STATI DI PROVA

MODELLOSOVRAPARAMETRIZZATO K (>R ) PARAMETRI

NON STIMABILI

E.N.M.C. EQUAZIONI NORMALIMODELLO COMPLETO

∞ (K - R) SOLUZIONI

R FUNZIONI STIMABILI LINEARMENTE INDIPENDENTI

Le soluzioni alle equazioni normalidei modelli ridotti soddisfano sempreE.N.M.C.

RIPARAMETRIZZAZIONE(K - R) VINCOLI SUL MODELLOCOMPLETO→ R PARAMETRI STIMABILI

Le soluzioni alle equazioni normalidei modelli ridotti possono nonsoddisfare E.N.M.C., perché conl’aggiunta dei vincoli, il sistema è

cambiato




171

riparametrizzare il modello (quest’ultima è la scelta preferita nei libri di Statistica e DOE):

sono 2 strade distinte e ci portano agli stessi risultati come abbiamo visto; bisogna stare

attenti a non confonderle.

Galetto (1995 e 1996) non impone vincoli al modello dunque dovrebbe seguire la

prima strada però l’autore citato scrive i modelli ridotti senza derivarli dalle ipotesi nulle

(par. 7.4) sulle funzioni stimabili e questa è una procedura molto pericolosa perché alla

fine non si conosce l’ipotesi nulla testata e si rischia di imbattersi nelle indesiderate ipotesi

parzialmente testabili.

È chiaro adesso perché il modello sovraparametrizzato è un’inutile complicazione?

“We do not believe that the overparameterization is, per se, a source of serious difficulty;

it is simply unnecessary...”(Jennings e Ward 1982).




172

CAPITOLO 8

METODO G: MODELLI FULL-RANK

8.1 MODELLO CELL MEANS“Although the full-rank approach we advocate

will not tell an investigator what hypothesis he ought to test ,

the approach does provide the conceptual tools...

that will enable him to test what he wants to test ”

(Jennings e Ward 1982)

Questo modello è descritto in Searle (1971), Hocking e Speed (1975), Speed etal.(1978), Urquhart e Weeks (1978), Searle et al. (1981), Jennings e Ward (1982), Searle

(1987); esso è considerato dagli autori citati sopra l’approccio migliore nell’analisi di ciò

che chiamano “unbalanced data” ovvero i dati dei piani non ortogonali. Considerando un

qualsiasi piano con N stati di prova con numrosità Ni, il modello, come dice il nome stesso,

è:

Yij = µi + εij i=1,...N j = 1, ...Ni

si può scrivere in forma matriciale E(Y) = X*β dove β contiene gli N parametri µi mentre

la matrice X, se ci fosse solo un dato negli stati di prova, sarebbe:

µ1 µ2 µ3 .... µN

1 0 0 0 00 1 0 0 0

... ... ... ... ...0 0 0 0 1

Tabella 68




173

Se nello stato di prova i ci sono Ni replicazioni, bisogna replicare la riga relativa allo stato i

Ni volte; in questo modo la matrice XT*X delle equazioni normali, di dimensione N*N e

diagonale, e il vettore XT*Y sono i seguenti:

µ1 µ

2 µ

3.... µ

NXT*Y

n1 0 0 0 0 T1

0 n2 0 0 0 T2

0 0 n3 0 0 T3

.... ... ... .... ... ...

0 0 0 0 n N T N

Tabella 69: equazioni normali del modello completo

La matrice ha rango N, pari al numero dei parametri quindi, secondo ciò che

abbiamo visto nel capitolo precedente, il modello è full-rank essendo ovviamente

invertibile la matrice XT*X. La soluzione alle equazioni normali del modello completo è

semplicissima:

µ1 = T1/ n1 = y1.

µ2 = T2/ n2 = y2.

....

µ N = T N/ n N = y N.

Si ritrova la regola del “Questo per questo” infatti la SSreg del modello completo è:

SSreg = βT * XT * Y = (y1.* T1 +y2.* T2 + ......+ y N.* T N)

Questo approccio non dice quale ipotesi testare con procedure preconfezionate,

obbliga lo sperimentatore a pensare quale combinazione lineare delle medie degli stati

di prova lo interessa maggiormente. Per testare l’ipotesi nulla su queste combinazionilineari, come al solito si sostituisce l’ipotesi nel modello. Per fissare le idee riprendiamo

l’esempio macchina - operatore:


OPERATORE 0 64,67 41,48


Il vettore β contiene i 4 parametri (µ00, µ10, µ01, µ11) e la matrice X è la seguente:




174

µ00 µ10 µ01 µ11

1 0 0 0

1 0 0 0

0 1 0 00 1 0 0

0 0 1 0

0 0 1 0

0 1 0 1

Tabella 70: matrice X del modello completo

Se vogliamo testare quello che io ho definito essere l’effetto della macchina:

H0 : µ11 + µ10 - µ01 - µ00 = 0

dobbiamo scrivere, come al solito, un modello ridotto E(Y) = Z*γ ottenendo Z, sostituendoH0 in X; in questo caso:

µ11 = µ01 + µ00 - µ10

dunque la matrice Z diventa:

µ00 µ10 µ01

1 0 0

1 0 0

0 1 0

0 1 0

0 0 1

0 0 1

1 -1 1


la matrice ZT*Z e il vettore ZT*Y delle equazioni normali del modello ridotto sono:

µ00 µ10 µ01 ZT

*Y

3 -1 1 172

-1 3 -1 48

1 -1 3 115


La soluzione del sistema è:

µ00 = 62,1

µ00 = 47,9

µ00 = 33,6che dà una SSreg:




175

SSreg = (62,1*172+47,9*48+33,6*115) = 16844,4

che conferma il valore ottenuto con gli altri metodi che abbiamo visto:

• analisi dei contrast

• analisi della covarianza

• regressione col modello overparameterized, usando le funzioni stimabili

• regressione col modello overparameterized, riparametrizzato

Potrei testare tutte le altre ipotesi già testate con gli altri metodi e riotterrei (principio F1)

gli stessi risultati; non lo faccio perché spero che ormai sia chiaro il modo corretto di

procedere:

1. Si parte da un’ipotesi nulla sulle medie degli stati di prova88

2. La si sostituisce nel modello completo

3. Si calcola la SSreg del modello ridotto

4. Si fa la differenza fra la SSreg del modello completo meno quella del modello ridotto

5. Questa differenza rappresenta il numeratore della F calcolata; il denominatore è la stima

della varianza della popolazione.

8.1.1 CELL MEANS: GLI ALIAS

Con questo modello è possibile vedere gli alias come li ho definiti nel par. 4.8: è

esattamente lo stesso discorso già fatto per le funzioni stimabili (par. 7.6) perché queste

ultime non sono nient’altro che combinazioni lineari delle medie degli stati di prova; sono

stimabili solamente quelle combinazioni di medie degli stati che sono stati sperimentati.Con 3 fattori la combinazione lineare:

A* = µ111+µ110+µ101+µ100-µ000-µ001-µ010-µ011

è stimabile solo se tutti gli 8 stati di prova sono sperimentati almeno una volta, esattamente

per come accadeva con le funzioni stimabili. Se abbiamo solo gli stati (100), (010), (001),

(111) e prendiamo per buone le mie definizioni di effetto, diciamo che non riesco a

stimare gli effetti puri A*

e BC*

, ma solo l’alias A*

+BC*

. Nulla e nessuno obbliga lo sperimentatore a prendere per buone le mie definizioni

di effetto; egli può costruirsi delle combinazioni lineari delle medie che rappresentano gli

effetti dei fattori e interazioni come messo in evidenza da Speed et al.(1978), Searle et al.

(1981), Freund (1980), Jennings e Ward (1982). Ad esempio in una situazione irregolare

come quella esaminata nel par. 5.4

88 Le uniche che si possono testare come è stato dimostrato nel capitolo precedente.




176

Figura 21: frazione irregolare 3/4 (John)

io assumo a priori (par. 4.8) che:

A* = µ111+µ110+µ101+µ100-µ000-µ001-µ010-µ011

e quindi dico che l’effetto medio di A non è stimabile perché mancano gli stati di prova

(100) e (110), ma sono stimabili gli aliasA* + AC*

A* + C*

ma lo sperimentatore può benissimo fare altre assunzioni e dire ad esempio che:

A* = 2*(µ111+µ101) - (µ000+µ001+µ010+µ011)

e testare questa combinazione lineare. L’importante è che egli sappia ciò che sta

testando e che in un piano come quello di figura 1 può testare al massimo 6 (di cui una

rappresenta la media I) combinazioni lineari indipendenti delle medie degli stati di prova.

L’alias confonde in qualche modo gli effetti ma se non si definiscono gli effetti,

come si fa a sapere quali fattori e interazioni e in che modo sono confusi? Quando si parla

di alias bisogna decidere a priori cosa intendiamo per effetto e alias altrimenti si rischia

di scrivere delle formule senza conoscerne più il significato.

Per il motivo sopra, ovvero la soggettività nel decidere cosa rappresenta l’effetto

dei fattori e interazioni, Freund (1980) scrive: “no universally acceptable or correct

methodology for handling missing cells has been developed”. Io proporrò nel cap.9 quella

che ritengo una soluzione adeguata ovvero l’uso del modello full-regression, unito alle miedefinizioni di effetto e di alias.

i a

ab b

c

bc abc

ac




177

8.2 MODELLO FULL-REGRESSION (FR)

Il nome di tale modello è preso da Krishnaiah (1980); gli autori che usano il

modello FR (senza chiamarlo cosí) sono Snee (1973), Daniel (1976), Hahn et al. (1976 e

1978), Hunter (1985), Khuri e Cornell (1987), John (1990), ovvero tutti coloro che usano il

metodo di Box-Wilson (par. 8.4) per trovare gli alias: tale metodo si applica infatti col

modello full-regression (FR).

Questo modello introduce un numero di parametri sempre uguale a quello degli

stati di prova; in un esempio con 2 fattori A e B a 2 livelli, abbiamo che il modello FR:

(1) yijr = Ι∗x0 + Α ∗ x1 + B * x2 + AB * x1x2 + εijr (col piano completo)

(che in forma abbreviata potrà essere scritto come Y = I + A+ B + AB)

la variabile x0 vale sempre +1 perché è la media; bisogna poi codificare le variabili x1 e x2:

con 2 livelli è universalmente accettata la codifica -1 quando il fattore rappresentato dalla

variabile è al livello basso e +1 quando il livello del fattore è al livello alto; notiamo che -1

e +1 sono i coefficienti dei polinomi ortogonali per 2 livelli quando gli stati di prova sono

equispaziati. I coefficienti delle variabili rappresentano i parametri da stimare e sono gli

effetti dei fattori e interazioni; ad esempio nella (1) il parametro A rappresenta proprio

l’effetto di A.

La (1), se le variabili sono quantitative, può essere vista come un’approssimazionedi una funzione f di 2 variabili x e y, con uno sviluppo di Taylor nell’intorno x0 e y0:

( ) ( )( )

( )( )

( )

( )( )

( )( ) ( )

( )( )

f x y f x y f x y

x x x

f x y

y y y

f x y

x x x

f x y

x y x x y y

f x y

y y y

x y x y

x y x y x y

, ,,

*,

*

*,

*,

* *,

*

, ,

, , ,

= + − + −⎛

⎝ ⎜

⎞

⎠⎟ +

+ − + − − + −⎛

⎝ ⎜

⎞

⎠⎟

0 0 0 0

2

2 0

22

0 0

2

2 0

2

0 0 0 0

0 0 0 0 0 0

1

2

∂

∂

∂

∂

∂

∂

∂

∂ ∂

∂

∂

dove x≡x1 e y≡x2 nel nostro caso siamo nell’intorno dell’origine ovvero:

x0 = 0

y0 = 0

e x e y assumono solo i valori -1 e +1.

Come si vede gli effetti dei fattori A e B possono essere assimilati alle derivate

parziali prime, gli effetti quadratici89 alle derivate seconde, e l’effetto dell’interazione

alla derivata mista. Dallo sviluppo di Taylor vediamo che la variabile interazione x1x2 è

in effetti il prodotto fra x1 e x2 ma ciò non significa che la derivata mista (AB) sia il

prodotto di A e B. Come abbiamo già visto (par. 6.2.2) il “peso”(effetto) dell’interazione89 Nel modello (1) non ci sono perché con 2 livelli si possono testare solo gli effetti lineari.




178

può essere alto anche quando i pesi (effetti medi) dei fattori sono bassi. L’effetto

dell’interazione è dunque, per variabili quantitative, di secondo ordine rispetto a quello

(lineare) dei fattori alla stessa stregua degli effetti quadratici che sono secondari rispetto

agli effetti lineari; penso che l’affermazione riportata in Box et al.(1978) a pag.374,

“Ignoring, say, 3-factor interactions corresponds to ignoring terms of third order in the

Taylor expansion”, derivi da un ragionamento simile a quello che ho esposto io adesso.

Nei piani a 2 livelli, oggetto principale della tesi, si trascurano forzatamente le

componenti quadratiche dei fattori quindi uno potrebbe sentirsi legittimato a trascurare

anche le interazioni che sono effetti del secondo ordine; a mio parere farebbe un grosso

sbaglio perché:

• il concetto “effetto del secondo ordine” ha senso solo nell’intorno dello sviluppo di

Taylor: è un concetto puramente puntuale mentre a noi, con i piani fattoriali, interessa

studiare il fenomeno in un certo intervallo,

• se nell’intervallo che ci interessa il fenomeno è esponenziale, non è pensabile trascurare

gli effetti del “secondo ordine” (nemmeno del terzo, del quarto...90)

• nello sviluppo di Taylor, col modello FR con 2 fattori a 2 livelli si ha sempre:

(x-x0) = ±1

(y-y0) = ±1

dunque:

(x-x0)2 = 1

(y-y0)2 = 1(x-x0)* (y-y0) = ±1

il peso degli effetti del “secondo ordine” (quadratici e interazione) è esattamente uguale

a quello degli effetti lineari a parte il fattore (1/2) della formula di Taylor.

I piani fattoriali a 2 livelli hanno già il grosso svantaggio di non poter individuare gli

effetti parabolici. Non ha quindi nessun senso trascurare le interazioni che invece sono

individuabili con tali piani: sarebbe un modo di diminuire volontariamente (e

inspiegabilmente) la potenza dei piani fattoriali a 2 livelli: ciò può produrre elevati costidella disqualità (Galetto 1995).

Il fatto di usare proprio -1 e +1 può derivare dai polinomi ortogonali (e in tal caso

sarebbe limitato a piani bilanciati), ma anche dalla standardizzazione delle variabili

secondo la seguente procedura: supponiamo che un fattore abbia i livelli a e b>a. La media

dei 2 livelli è (a+b)/2 mentre una misura della loro dispersione è (b-a)/2 dunque si può

standardizzare i livelli delle variabili sottraendo la media e dividendo per la dispersione.

Mason et al.(1989) e Khuri e Cornell (1987) raccomandano sempre di standardizzare

perché diminuisce la correlazione fra le stime dei parametri e il termine costante I. Per i 2livelli a e b si ottiene:

90 Potrei pensare di trasformare logaritmicamente i dati per rendere lineare la funzione.




179

a

aa b

b a

b

b a b

b a

'

'

=−

+

− = −

=− +

− =

2

2

1

2

2

1

Ovviamente il modello FR ammette, come gli altri, la forma matriciale:

E(Y) = X * β

dove β contiene i parametri “effetti” (I, A, B, AB, C, AC .....), quelli che si stimerebbero

col metodo di Yates e X è proprio la tabella dei segni che abbiamo introdotto nel par. 4.4,

per piani bilanciati, in cui bisognerebbe91 ripetere le righe tante volte quanto è lanumerosità (costante) degli stati di prova; se la numerosità non è più costante si devono

ripetere le righe secondo le numerosità degli stati. Notiamo che il modello FR giustifica

pienamente l’applicazione del metodo inverso di Yates per stimare le medie degli stati di

prova perché non è nient’altro che la moltiplicazione della matrice X per il vettore delle

stime di β.

Per la prima volta scriviamo un modello i cui parametri sono proprio gli effetti

che ci interessano; quindi possiamo sfruttare le proprietà notevoli degli stimatori

provenienti dalle equazioni normali su un modello full-rank:

COV(β) = (XT*X)-1 * σ2

VAR(Y/X0) = X0*(XT*X)-1*X0T

dunque la matrice (XT*X)-1 contiene le varianze e covarianze degli stimatori β, a meno del

fattore σ2: da questa matrice si può calcolare facilmente la matrice di correlazione ovvero

quella contenente i coefficienti di correlazione fra le varie stime: questa matrice sarà molto

utile per misurare la non ortogonalità; abbiamo per ora un criterio semplicissimo per dire

se il piano è ortogonale oppure no: basta vedere se la matrice (XT

*X)-1

è diagonale.Inoltre sappiamo che gli stimatori β sono combinazioni lineari delle variabili

casuali Y e, guardando la matrice ((XT*X)-1 * XT), siamo in grado di sapere i coefficienti

di queste combinazioni lineari (a parte la media le altre stimano tutte dei contrast); in altre

parole siamo in grado di sapere come sono calcolati gli “effetti”:

β = ((XT*X)-1 * XT) * Y

La matrice ((XT*X)-1*XT) contiene i coefficienti dei contrast dunque, per calcolare la

somma dei quadrati associata agli effetti, abbiamo davanti a noi 2 strade equivalenti:

91 In pratica non è necessario se le numerosità degli stati sono uguali perché le equazioni normali sisemplificano.




180

1. Applicare la formula:

SS C C

c

n

i

ii

n( ) =

=∑

2

2

1

2

ai contrast contenuti nel vettore β, dove i ci si capiscono dalla matrice ((XT*X)-1 * XT).

2. Trovare la SSreg del modello completo:

SSreg1 = ((XT*X)-1 * XT)*Y

e poi quella di un modello ridotto che contiene tutti parametri tranne quello C che ci

interessa:

SSreg2 = ((ZT*Z)-1 * ZT)*Y

e poi fare la differenza:

SS(C) = SSreg1 - SSreg2

tutto ciò sulla base del teorema 5 del capitolo 7, adattato a modelli full-rank (in cui tutti

parametri sono funzioni stimabili)

La validità delle 2 strade è già stata dimostrata rispettivamente nei par. 4.3 e 7.2 dunque

per il principio F1 dovrà dare gli stessi risultati. Verifichiamo questa affermazione

applicando il modello FR al solito esempio macchina - operatore.

8.2.1 ESEMPIO MACCHINA - OPERATORE

Riportiamo i soliti dati:


OPERATORE 0 64,67 41,48


Tabella 73

e scriviamo il modello full-regression:

yijr = Ι∗x0 + Μ ∗ x1 + O * x2 + MO * x1x2 + εijr

x1 è la variabile relativa alla macchina e vale -1 quando l’osservazione yijr riguarda la

prima macchina e +1 quando è relativa all seconda macchina; x2 è la variabile relativa

all’operatore e vale -1 quando l’osservazione yijr è relativa al primo operatore e +1 quando

è relativa al secondo; la variabile x1x2 è quella dell’interazione ed è il prodotto di x1e x2. È

più comodo usare la forma matriciale:

E(Y) = X * β

β contiene i parametri (I, M, O, MO); la matrice X e il vettore Y sono i seguenti:




181

X I M O MO Y

i 1 -1 -1 1 64

i 1 -1 -1 1 67

o 1 -1 1 -1 39o 1 -1 1 -1 35

m 1 1 -1 -1 41

m 1 1 -1 -1 48

mo 1 1 1 1 41

Tabella 74: matrice X e vettore Y

La matrice delle covarianze fra gli stimatori è (XT*X)-1:

I M O MOI 5/32 1/32 1/32 1/32

M 1/32 5/32 1/32 1/32

O 1/32 1/32 5/32 1/32

MO 1/32 1/32 1/32 5/32

Tabella 75: matrice delle covarianze

essendo il piano non bilanciato le covarianze fra gli stimatori sono non nulle: il fatto che

gli stimatori sono correlati significa che le variabili inserite nel modello sono collineari

ovvero che esiste una relazione lineare tra di esse: c’è una ridondanza di informazione

secondo quanto è spiegato in Mason et al. (1989) .

La non ortogonalità statistica dei piani fattoriali è così ricondotta al problema della

multicollinearità nella regressione multipla.

Se le variabili sono troppo correlate bisogna eliminare dei termini dal modello: in

questo modo le covarianze tra i parametri rimasti diminuiscono e contemporaneamente

diminuisce anche la varianza degli stimatori dei parametri rimasti: ciò è ovvio visto che in

presenza di variabili collineari, la varianza di uno stimatore esprime anche la variabilità

degli altri stimatori.Per vedere quando le variabili sono troppo correlate bisogna calcolare la matrice di

correlazione: lo vedremo più avanti. In generale per decidere quali variabili togliere dal

modello si possono impiegare le tecniche descritte in Mason et al.(1989) ( forward

selection, backward selection, stepwise iteration).

La matrice dei contrast è:




182

i i o o m m mo

I 1/8 1/8 1/8 1/8 1/8 1/8 1/4M - 1/8 - 1/8 - 1/8 - 1/8 1/8 1/8 1/4

- 1/8 - 1/8 1/8 1/8 - 1/8 - 1/8 1/4

MO 1/8 1/8 - 1/8 - 1/8 - 1/8 - 1/8 1/4Tabella 76: matrice dei contrast (XT*X)-1*XT

La soluzione è dunque92:

I = (1/4) * (i + o + m + mo) = 47

M = (1/4) * (m + mo - i - o) = -4,25

O = (1/4) * (o + mo - i - m) = -8

MO = (1/4) * (i + mo - o - m) = 6,25

che corrisponde alle definizioni di effetto che ho dato nel par. 4.8 in cui si prende

k=1/2n=1/4; le ipotesi testate sono infatti rispettivamente sui contrast:

µ11 + µ10 - µ01 - µ00

µ11 + µ01 - µ10 - µ00

µ11 + µ00 - µ01 - µ10

Il fattore (1/4), come il lettore accorto ha ormai capito, non influenza la somma dei

quadrati associata ai contrast. Tali somme di quadrati sono le seguenti:

SS(M) = 115,6

SS(O) = 409,6

SS(MO) = 250

come avevamo già visto nel par. 5.2 in tab.8. Per l’ennesima volta un metodo

scientificamente corretto conferma i risultati ottenuti con altri metodi e conferma la bontà

delle definizioni che ho dato nel par. 4.8.

Non ho considerato la media I: questa dà una SS= 14137,6 diversa93 da quella di

tab.4 e 8 del par. 5.2; in tale paragrafo viene fuori da un’altra combinazione lineare:

I’ = 2i + 2m + 2o + mo

92 Le lettere minuscole indicano le medie negli stati di prova.

93 Era successo anche nell’esempio a 3 fattori del par. 5.2.3; succede ogni volte che il piano non è bilanciato;ciò perché nell’ANOVA la media viene isolata prima dai trattamenti e quindi è la somma di tutti dati nontenendo conto della stratificazione.




183

essendo isolata subito rispetto ai trattamenti; la cosa è irrilevante tanto non ci interessa

testare la media .

Abbiamo detto che c’è un’altra strada per calcolare le somme dei quadrati dei 3

effetti. Bisogna usare dei modelli ridotti; ricordiamo che le somme dei quadrati testano

sempre un’ipotesi lineare (sui contrast). In questo caso le 3 ipotesi nulle da testare sono:

H0 : M = 0

H0 : O = 0

H0 : MO = 0

che richiedono dunque i 3 modelli ridotti:

Y = I + O + MO

Y = I + M + MO

Y = I + M + O

La SSreg del modello completo è, come sempre:

SSreg (I+M+O+MO)= βT*XT*Y = (47*335 -4,25*(-75)-8*(-105)+6,25*9) = 16960

non può che confermare il valore già ottenuto con altri tipi di modello nei cap.6 e 7.

8.2.2 MODELLI RIDOTTI

Iniziamo con il modello ridotto non gerarchico:

Y = I + O + MO

La matrice Z è la seguente:

Z I O MO

i 1 -1 1i 1 -1 1o 1 1 -1o 1 1 -1

- -m 1 -1 -1

mo 1 1 1Tabella 77: matrice Z del modello ridotto

La matrice delle equazioni normali (ZT*Z) e il vettore ZT*Y sono i seguenti:

I O MO ZT*Y

7 -1 -1 335

-1 7 -1 -105

-1 -1 7 9





184

Il lettore particolarmente attento avrà notato che quello sopra è un sistema

equivalente a quello di tab.27 del cap.7: non è un caso infatti stiamo testando la stessa

ipotesi con un modello diverso. La soluzione numerica è ovviamente la stessa:

I = 47,85

M = 7,15

O = 7,1

ma il significato dei parametri stimati è diverso. Comunque la somma dei quadrati è:

SSreg = 16844,4

Per cui si ha:

SS(M) = SSreg(I+M+O+MO)-SSreg(I+O+MO) = 115,6

Per quanto riguarda l’altro modello ridotto (non gerarchico) Y=I+M+MO, la matrice Z è la

seguente:

Z I M MO

i 1 -1 1i 1 -1 1o 1 -1 -1o 1 -1 -1m 1 1 -1

-mo 1 1 1Tabella 79: matrice Z del modello ridotto

la matrice delle equazioni normali (ZT*Z) e il vettore ZT*Y sono i seguenti:

I M MO ZT*Y

7 -1 -1 335- - -

-1 -1 7 9Tabella 80: equazioni normali del modello ridotto

La soluzione è:

I = 48,6

M = -2,65

MO = 7,85

SSreg = 16550,4

SS(O) = SSreg(I+M+O+MO)-SSreg(I+M+MO) = 409,6

L’ultimo (e il più interessante) modello ridotto da considerare è:




185

Y = I + M + O

La matrice Z è la seguente:

Z I M O

i 1 -1 -1i 1 -1 -1o 1 -1 1o 1 -1 1m 1 1 -1m 1 1 -1

Tabella 81

e dà luogo alla seguente matrice delle covarianze (ZT*Z)-1:

I M O

I 3/20 1/40 1/40

M 1/40 3/20 1/40

O 1/40 1/40 3/20


Confrontiamo i risultati sopra con quelli di tab.8, la varianza delle stime è

diminuita e così anche la correlazione fra gli stimatori: ciò accade perché abbiamo

eliminato il parametro MO dal modello e dunque il suo contributo di variabilità allevarianze degli stimatori dei parametri rimasti; se avessimo scritto la matrice delle

covarianze per i 2 modelli ridotti precedenti avremmo notato lo stesso fenomeno.

Mi pare il caso di rimarcare il contenuto della nota 2 del capitolo 7 ovvero che,

usando un modello ridotto, i parametri non sono più quelli di partenza 94 e infatti il loro

valore numerico è diverso: dunque nella tabella 15 dovremmo scrivere non I, M, O ma I’,

M’, O’: ciò non è fatto per non appesantire la notazione, comunque il lettore si ricordi che

ciò vale per tutti i modelli ridotti.

La matrice ((ZT*Z)-1)*ZT, contenente i coefficienti dei contrast è la seguente:

i i o o m m mo

I 1/10 1/10 3/20 3/20 3/20 3/20 1/5M - 3/20 - 3/20 - 1/10 - 1/10 3/20 3/20 1/5O - 3/20 - 3/20 3/20 3/20 - 1/10 - 1/10 1/5Tabella 83: matrice dei contrast

che fornisce i valori delle stime:

94 Tranne se il piano è ortogonale: gli stimatori sarebbero indipendenti l’uno dall’altro e il loro valore noncambierebbe se qualche parametro venisse tolto dal modello.




186

I = 45,75

M = -5,5

O = -9,25

e la seguente somma dei quadrati:

SSreg = 16710

che conferma i valori ottenuti con gli altri metodi (cap.6 e 7) e fornisce l’effetto

dell’interazione:

SS(MO) = SSreg(I+M+O+MO)-SSreg(I+M+O) = 250

che conferma i valori ottenuti nei cap.5, 6, 7 e 8.

Osserviamo gli stimatori che danno luogo ai valori di M e O riportati sopra95:

M = (3/10)m + (1/5)mo - (1/5)o - (3/10)i = -5,5

O = (3/10)o + (1/5)mo - (1/5)m - (3/10)i = -9,25

e applicando la formula che associa ai contrast una somma di quadrati si trova che:

SS(M) = 201,66666

SS(O) = 570,416666

li abbiamo già incontrati nei cap.5 e 7: sono i contrast impliciti nella procedura di Galetto

in cui si ragiona solo su delle somme di quadrati. Ecco come facevo a sapere le ipotesi

nulle testate dal metodo di Galetto (1995 e 1996): le avevo già ricavate usando il

modello full-regression ridotto Y=I+M+O , che porta alla tabella 16. Come detto

ripetutamente, non c’è motivo per usarle al posto dei contrast del modello principale (chetestano gli effetti come li ho definiti nel par. 4.8) stimati da:

M = (1/4) * (m + mo - i - o) = -4,25

O = (1/4) * (o + mo - i - m) = -8

L’unica ragione valida potrebbe essere quella che i contrast sopra sono troppo correlati

quindi il loro valore numerico (e il conseguente test F o t) potrebbe essere senza

significato.

Con il modello full-regression si sa sempre l’ipotesi lineare testata, basta guardare

la matrice ((ZT*Z)-1)*ZT e si capiscono subito i coefficienti dei contrast: è molto meglio

che usare le funzioni stimabili e il modello sovraparametrizzato. Provenendo da modelli

ridotti, mi pare intuitivo pensare che le stime ottenute saranno distorte (biased ) dai

parametri cancellati dal modello anche se sono meno correlate fra di loro. In questo caso M

e O sarebbero distorti dall’interazione MO cancellata dal modello .

Bisogna quindi trovare un trade-off fra:

95 Le lettere minuscole indicano le medie degli stati di prova.




187

• correlazione e conseguente aumento della varianza degli stimatori e perdita di

precisione delle stime

• distorsione degli stimatori causata dall’eliminazione dei termini nel modello

Questo compromesso è messo in evidenza anche in Hahn et al.(1978). Quando mancano

degli stati di prova si è costretti ad usare un modello ridotto: gli stimatori usati sono

necessariamente distorti: è il problema degli alias, messo perfettamente in evidenza dal

metodo di Box-Wilson.

Esaminiamo due ultimi modelli ridotti per far vedere le soluzioni derivanti dal

“Questo per questo”:

Y = I + M

Y =I + O

consideriamo solo il primo, tanto il discorso è uguale per l’altro.

La matrice Z del primo modello è:

Z I M

i 1 -1i 1 -1

1 -1o 1 -1m 1 1

mo 1 1Tabella 84: matrice Z del modello ridotto

mentre la matrice ((ZT*Z)-1)*ZT, contenente i coefficienti dei contrast, è la seguente:

i i o o m m mo

I 1/8 1/8 1/8 1/8 1/6 1/6 1/6

M - 1/8 - 1/8 - 1/8 - 1/8 1/6 1/6 1/6

Tabella 85: matrice dei contrast

M = (1/6)mo + (1/3)m - (1/4)i - (1/4)o = (1/2)*(y1. - y0.) = -3,95833333

l’avevamo già incontrato nel par. 5.2 (moltiplicato per 2) quindi sappiamo quanto vale la

sua somma dei quadrati:

SS(M) = 107,4405

essa equivale ovviamente a:

SS(I+M) - SS(I) = 16139,58333 - 16032,14286 = 107,4405Con il modello Y = I+O avremmo trovato:

O = (1/6)/mo + (1/3)o - (1/4)m - (1/4)i = (1/2)*(y.1 - y.0) = -8,33333




188

SS(O) = 476,19048

equivalente a:

SS(I+O) - SS(I) = 16508,33333 - 16032,14286 = 476,19048

Il metodo del “Questo per questo” considera solo un fattore e vede i dati stratificati

in dei macrostati individuati dai livelli dell’unico fattore considerato: con 2 livelli il

contrast è la differenza (o un suo multiplo) fra le medie dei 2 macrostati. Non ha senso

dire che il “Questo per questo” fornisce risultati sbagliati; fornisce dei risultati che testano

una particolare ipotesi nulla, che ignora la presenza degli altri fattori; è probabile che non

sia di interessa per lo sperimentatore (in effetti coincide con la mia definizione di effetto

solo in piani bilanciati): ciò non autorizza Galetto (1996 pag. 289) a dire che:

“Quando la situazione è non bilanciata il ‘metodo del questo per questo’ non funziona”

Il metodo funziona sempre nel senso che testa sempre la stessa ipotesi sia in casi bilanciati

che no. Ricordiamo che è lo sperimentatore a decidere cosa vuole testare. Nei nested

design l’ipotesi più logica da testare sul fattore principale è proprio quella derivante dal

“Questo per questo” come affermano anche Speed et al.(1978).

8.2.3 ANALISI ORTOGONALE: “A PRIORI ORDERING”

È un argomento che avevamo già visto nel par. 7.4.4 in cui però ci eravamo ristrettiad un ordine gerarchico fra i fattori. Con il modello full-regression si possono usare

tranquillamente modelli non gerarchici quindi si può scegliere qualsiasi ordine: nell caso

macchina-operatore, se pensiamo ad esempio che l’interazione MO sia più importante di

M, a sua volta più importante di O, c’è un ordine preferenziale:

I, MO, M, O

e quindi si può decomporre ortogonalmente la SStr:

SStr = [SS(I+MO)-SS(I)]+[SS(I+M+MO)-SS(I+MO)]+[SS(I+M+O+MO)-SS(I+MO+O)]= SS(MO) + SS(M) + SS(O)

= SS(I+M+O+MO)-SS(I)

Osservando le matrici ((ZT*Z)-1)*ZT dei 3 modelli:

Y = I + MO

Y = I + M + MO

Y = I + M + O + MO

si capiscono quali sono i contrast MO, M, O associati alle somme dei quadrati nelladecomposizione ortogonale; in questo modo si ottengono 3 contrast ortogonali. È in questo




189

modo che ho trovato i 2 set di contrast ortogonali nel par. 5.2.1 derivanti il primo

dall’ordine:

M, O, MO

e il secondo dall’ordine:

O, M, MO

Nell’analisi ortogonale il primo contrast è sempre quello derivante dal “Questo per

questo”. I 2 set di contrast del par.5.2.1 sono facilmente ricavabili numericamente dalle

matrici ((ZT*Z)-1)*ZT dei modelli ridotti che abbiamo scritto nel par. 8.2.2.

8.3 ESEMPIO A 3 FATTORI

Riprendiamo i dati del par. 5.2.3:


i 76 75 75,5

a 80 78 81 79,666667

b 86 92 90 89,333333

ab 79 77 80 77 76 77,8c 70 69 73 71 70,75

ac 79 83 81

bc 78 74 76

abc 82 85 79 82

Tabella 86

Il modello full-regression da usare è:

yijkr = Ι + Αx1 + Βx2 + Cx3 + ABx1x2 + ΑCx1x3 + BCx2x3 +ABCx1x2x3 + εijkr

in forma matriciale:

E(Y) = X * β

β contiene gli 8 parametri (I, A, B, C, AB, AC, BC, ABC) e X è piuttosto grande avendo

sempre96 un numero di righe uguale a quello dei dati totali, in questo caso 24:

96 Come già detto, se le numerosità degli stati sono uguali, la matrice si semplifica e ha un numero di righe pari a quello degli stati di prova.




190

X I A B AB C AC BC ABC Y

i 1 -1 -1 1 -1 1 1 -1 76

i 1 -1 -1 1 -1 1 1 -1 75

a 1 1 -1 -1 -1 -1 1 1 80

a 1 1 -1 -1 -1 -1 1 1 78

a 1 1 -1 -1 -1 -1 1 1 81b 1 -1 1 -1 -1 1 -1 1 86

b 1 -1 1 -1 -1 1 -1 1 92

b 1 -1 1 -1 -1 1 -1 1 90

ab 1 1 1 1 -1 -1 -1 -1 79

ab 1 1 1 1 -1 -1 -1 -1 77

ab 1 1 1 1 -1 -1 -1 -1 80

ab 1 1 1 1 -1 -1 -1 -1 77

ab 1 1 1 1 -1 -1 -1 -1 76

c 1 -1 -1 1 1 -1 -1 1 70

c 1 -1 -1 1 1 -1 -1 1 69

c 1 -1 -1 1 1 -1 -1 1 73c 1 -1 -1 1 1 -1 -1 1 71

ac 1 1 -1 -1 1 1 -1 -1 79

ac 1 1 -1 -1 1 1 -1 -1 83

bc 1 -1 1 -1 1 -1 1 -1 78

bc 1 -1 1 -1 1 -1 1 -1 74

abc 1 1 1 1 1 1 1 1 82

abc 1 1 1 1 1 1 1 1 85

abc 1 1 1 1 1 1 1 1 79

Tabella 87: matrice X e vettore Y

Il modello full-regression richiede, come tutti gli altri tipi di modelli, che sireplichino le righe relative agli stati tante volte quanto è la numerosità dello stato di prova;

Fornasieri (1995), peraltro inconsapevole delle differenze fra modello sovraparametrizzato

e full-regression, non si rende conto di questo importante fatto nell’uso del metodo di Box-

Wilson e ragiona come se le numerosità degli stati fosse sempre costante. La matrice delle

covarianze è la seguente:


I 0,046094 -0,00339 -0,00339 -0,00599 0,003385 0,00599 0,00599 -0,00703

A -0,00339 0,046094 -0,00599 -0,00339 0,00599 0,003385 -0,00703 0,00599

B -0,00339 -0,00599 0,046094 -0,00339 0,00599 -0,00703 0,003385 0,00599

AB -0,00599 -0,00339 -0,00339 0,046094 -0,00703 0,00599 0,00599 0,003385

C 0,003385 0,00599 0,00599 -0,00703 0,046094 -0,00339 -0,00339 -0,00599

AC 0,00599 0,003385 -0,00703 0,00599 -0,00339 0,046094 -0,00599 -0,00339

BC 0,00599 -0,00703 0,003385 0,00599 -0,00339 -0,00599 0,046094 -0,00339

ABC -0,00703 0,00599 0,00599 0,003385 -0,00599 -0,00339 -0,00339 0,046094





191

Le covarianze sono ovviamente non nulle perché il piano non è bilanciato. Non riporto la

matrice dei contrast ((XT*X)-1)*XT perché è troppo grande (dimensione 8*24) comunque è

facilmente calcolabile.

Si può vedere che le soluzioni delle equazioni normali:

β = ((XT*X)-1)*XT*Y

sono97:

I = (1/8)*(i+a+b+c+ab+bc+ac+abc) = 79,0063

A = (1/8)*(a+ab+ac+abc-i-b-c-bc) = 1,11042

B = (1/8)*(b+ab+bc+abc-i-a-c-ac) = 2,27708

C = (1/8)*(c+bc+ac+abc-i-b-a-ab) = -1,5688

AB = (1/8)*(ab+c+abc+i-a-b-ac-bc) = - 2,4937

AC = (1/8)*(ac+b+abc+i-a-c-ab-bc) = 2,95208

BC = (1/8)*(bc+a+abc+i-c-b-ac-ab) = -0,7146

ABC = (1/8)*(abc+a+b+c-i-ab-ac-bc) = 1,43125

sono esattamente i contrast prodotti dal metodo di Yates (tab.11 del par.5.2.3 nella IV

colonna) a parte il fattore (1/8) che non influenza le somme dei quadrati associate ai

contrast; si sono quindi stimati gli effetti così come li ho definiti nel par. 4.8, ponendo

k=1/2n=1/8

SS(A) 26,75037665SS(B) 112,4904896

SS (AB) 134,9161017

SS(C) 53,39067797

SS(AC) 189,0667608

SS(BC) 11,07806026

SS(ABC) 44,44152542

Tabella 89

che avevamo già trovato nel par. 5.3.2 applicando la formula:

SS C C

c

n

i

ii

n( ) =

=∑

2

2

1

2

ai contrast forniti dal metodo di Yates. Questa volta in più possiamo conoscere subito la

correlazione fra i vari contrast dalla matrice (XT*X)-1 e, ricavando la matrice di

correlazione, possiamo misurare la non ortogonalità, come vedremo in seguito.

97 Le lettere minuscole indicano le medie negli stati di prova.




192

I risultati di tabella 22 si possono anche ottenere facendo la differenza fra la SSreg

del modello completo:

SSreg = βT*XT*Y = 149514,61666666

e la SSreg dei modelli ridotti che contengono tutti parametri tranne quello che si vuole

calcolare; ad esempio:

SS(AB) = SSreg(I+A+B+C+AB+AC+BC+ABC) - SSreg(I+A+B+C +AC+BC+ABC)

gli effetti dei fattori e interazioni vengono calcolati a partire dal modello più completo,

come richiede il teorema 5 del cap.7. Ecco perché, a parte l’interazione ABC tutti gli altri

effetti sono diversi da quelli presentati in tabella 24 nel par. 7.4.4.

Le somme di quadrati presentate in quella tabella sono tutte ottenute da modelli ridotti;

usando i corrispondenti modelli full-regression si riesce a capire che cosa si sta testando.

Ad esempio abbiamo le 3 interazioni del primo ordine calcolate, ad esempio, a partire dal

modello Y=I+A+B+C+AB+AC+BC (ultima colonna della tab.24 del cap.7):

(1) SS(AB) = SSreg(I+A+B+C+AB+AC+BC) - SSreg(I+A+B+C +AC+BC) = 147,3249

(2) SS(AC) = SSreg(I+A+B+C+AB+AC+BC) - SSreg(I+A+B+C +AB+BC) = 203,8711

(3) SS(BC) = SSreg(I+A+B+C+AB+AC+BC) - SSreg(I+A+B+C +AC+AB) = 8,1021

Nel cap.7 sono state ricavate con il metodo di Galetto quindi non sappiamo cosa testano.

Usando il modello ridotto Y=I+A+B+C+AB+AC+BC in forma full-regression, calcoliamola stima dei parametri con la solita formula:

γ = ((ZT*Z)-1*ZT)*Y

dalla matrice ((ZT*Z)-1*ZT)98 capiamo che la (1), la (2) e la (3) testano rispettivamente le

seguenti ipotesi nulle:

82*µ111 + 95*µ110 + 82*µ001 + 95*µ000 - 95*µ100 -95*µ010 -82*µ101 -82*µ011 = 095*µ111 + 82*µ101 + 95*µ010 + 82*µ000 - 82*µ100 -82*µ001 -95*µ110 -95*µ011 = 0

95*µ111 + 82*µ011 + 95*µ100 + 82*µ000 - 82*µ010 -82*µ001 -95*µ110 -95*µ101 = 0

questo si può verificare applicando la formula che associa una somma di quadrati al

contrast. un contrast. Le 3 ipotesi sopra sono quelle implicite nell’applicazione del metodo

experimental design (Cap.7), ma chi usa tale metodo sa che si stanno testando le 3 ipotesi

sopra?...Facciamo ancora un esempio di risultato fornito dal metodo experimental design:

la somma dei quadrati associata ad A, calcolata dal modello Y=I+A+B+C (III colonnadella tab.24 del cap.7):

98 Non la scrivo perché è troppo grossa ma penso di avere dato tutti gli elementi per ricavarla.




193

SS(A) = SSreg(I+A+B+C) - SSreg(I+B+C) = 3,87837

osservando la matrice ((ZT*Z)-1*ZT) del modello ridotto Y=I+A+B+C, vediamo che si sta

testando il contrast:

1,3295*µ111+1,4772*µ101+1,3295*µ100+1,5625*µ110-1,8920*µ010-1,4772*µ001-µ000-µ011 =

0

si può di nuovo verificare con la formula della somma dei quadrati del contrast.

Scrivendo i modelli ridotti full-regression è quindi possibile trovare tutte le ipotesi

testate dalla tabella 24 del cap.7, come avevamo già anticipato.

8.3.1 QUANTI MODI CI SONO PER CALCOLARE L’EFFETTO DI A?

...e degli altri fattori e interazioni? Soffermiamoci sull’esempio a 3 fattori e

limitiamoci al fattore A visto che il ragionamento è identico per gli altri fattori e

interazioni. Il lettore che ha compreso l’utilizzo del modello full-regression avrà capito che

ad ogni modello ridotto contenente l’effetto A (e la media I), è associato un particolare

contrast rappresentante l’effetto A: per conoscere il contrast è sufficiente osservare la

matrice ((ZT*Z)-1*ZT) del modello ridotto. Non bisogna prendere in considerazione i

modelli che non contengono la media I perché in essi A sarebbe confuso con la media I, e

quindi tali modelli non danno luogo a un contrast per A.

Siamo dunque in grado di rispondere alla domanda:“Quanti contrast possono essere scelti a rappresentare l’effetto di A?”

perché essa è equivalente a:

“Quanti modelli si possono costruire, contenenti il fattore A (e la media I)?”

Proviamo a rispondere enumerando i vari modelli quando essi contengono 2,3....8

parametri; se nel modello ci sono solo 2 parametri, l’unico modello contenente A è:

(1) Y = I+A

Quando i modelli contengono 3 parametri, quanti modelli contenenti A si possono

pensare? Posso aggiungere al modello (1) 1 dei 6 parametri non presenti quindi il numero èequivalente a quello delle combinazioni di 1 elemento su 6, ovvero 6.

Con 4 parametri il numero è uguale alle combinazioni di 2 elementi su 6 e con k parametri

è uguale al numero di combinazioni di (k-2) elementi su 6. Dunque, indicando con

COMB(i,j) il numero di combinazioni di j elementi su i, il numero totale di modelli

contenenti A che si riescono a costruire è:

COMB ii

( , )60

6

=∑ = (1+1)6 = 64




194

a ognuno di questi modelli è associato un contrast che contrappone le medie degli stati di

prova (a, ab, ac, abc) e (i, c, b, bc): la tabella 24 del cap.7 presentava 5 di questi 64 modi

per calcolare l’effetto di A, precisamente quelli che coinvolgono solo modelli gerarchici:

usando anche quelli non gerarchici si arriva a 64 modelli, come dimostrato sopra. Vediamo

da quali modelli derivano i contrast per A più usati in letteratura:

SS(I+A) “Questo per questo”

SS(I+A+B) Metodo di Galetto???

SS(I+A+C) Metodo di Galetto???

SS(I+A+B+C) Experimental design

SS(I+A+B+C+BC) Modo più completo usando solo modelli gerarchici

SS(I+A+B+C+AB+AC+BC+ABC) Full-regression (modo più completo)

Spero che ormai sia chiaro che la mia definizione di effetto (par. 4.8) corrisponde all’uso

dell’ultimo dei modelli elencati sopra, usando k=2n=8.

Quando le numerosità degli stati sono uguali (piano ortogonale), questi 64 contrast

diventano tutti uguali quindi non esiste il problema di definire chiaramente cosa

intendiamo per “effetto di A”.

Quando le numerosità degli stati sono diverse (piano non ortogonale), i 64 contrast

sono, in generale, diversi99 fra di loro e quindi dobbiamo per forza definire cosa è l’”effetto di A”.

Solo dopo che si sono definiti chiaramente gli effetti, si può dire che un contrast va bene e

gli altri no; e comunque quest’ultima affermazione è subordinata alla validità della

definizione di effetto data.

8.4 METODO DI BOX-WILSON (1951)

Tale metodo è l’unico strumento di mia conoscenza che è d’aiuto

nell’identificazione della struttura degli Alias per qualunque tipo di piano; è grazie a

questo metodo che mi è venuta l’idea di associare la struttura degli Alias a un

sottospazio vettoriale di dimensione pari al numero degli stati di prova100; è grazie a

questo metodo che si riesce a trovare una base per quel sottospazio vettoriale. Si può

99Il lettore che conosce l’algebra sa che però al massimo 8 di questi 64 contrast saranno algebricamenteindipendenti.

100 Mostreremo tutto ciò nel capitolo 9.




195

applicare solo su modelli full-regression e, sostanzialmente, collega la struttura degli Alias

al ben noto “lack of fit” della regressione.

Tale metodo presuppone:

• l’uso del modello full-regression

• le definizioni di effetto e alias che ho dato nel par. 4.8

Y = X * β + e

E(Y) = X * β dove β = E(b)

Effettuiamo una partizione dei parametri β (e conseguentemente degli stimatori) del

modello in [β1, β2] e conseguentemente della matrice X in [X1, X2] e consideriamo il

modello ridotto che contiene solo i parametri β1 a cui corrispondono gli stimatori b1:

Y = X1* β 1 + e

rispetto a quello più completo che, dopo la partizione, diventa:

Y = X1* β 1 + X2 * β 2 + e

Ci sono situazioni in cui siamo costretti a usare un modello ridotto: quando

mancano degli stati di prova in un piano sperimentale; se ho p stati di prova posso usare

solo p parametri nel modello perché se ne metto di più non aggiungo comunque delle

equazioni normali linearmente indipendenti al modello e quindi ottengo una SS di quel

modello uguale a quella del modello con p parametri101: questo fatto è molto importante, è

ribadito in Actis (1995) a pag.310 ma è purtroppo ignorato da Fornasieri (1995)

nell’analisi del caso Iveco.Continuiamo la spiegazione del metodo Box-Wilson scrivendo le equazioni normali

sul modello ridotto (l’unico che possiamo usare quando mancano stati di prova come

spiegato sopra):

b1 = (X1T * X1)

-1 * X1T * Y

ma qual è il valore atteso degli stimatori dei parametri che crediamo di stimare?

E(b1) = (X1T

* X1)-1

* X1T

* E(Y)

noi sappiamo qual è il valore atteso di Y, esso dipende anche dai parametri β2 attraverso la

matrice X2, ignorati nel modello ridotto (ma essi esistono per il principio F1):

E(Y) = X1* β1 + X2 * β2

per cui abbiamo che il valore atteso degli stimatori b1 è:

E(b1) = (X1T * X1)

-1 * X1T * X1* β1 + (X1

T * X1)-1 * X1

T * X2 * β2

101 Questo deriva dai teoremi del cap.7




196

E(b1) = β1 + (X1T * X1)

-1 * X1T * X2 * β2

dove (X1T*X1)

-1*X1T*X2 è la matrice degli Alias; è questo un risultato di eccezionale

importanza trovato da Box e Wilson nel 1951 e che ho visto citato da molti autori, a

cominciare da Draper e Smith (1966) e per finire a Bisgaard (1993) che lo usa per trovare

le colonne generatrici dei piani fattoriali frazionati.

Fornasieri (1995), a mio parere con poco stile, cita questo risultato con un titolo

ambiguo, “Un metodo per definire la struttura degli alias” (pag. 81) senza dire che il

metodo è di Box e Wilson. Inoltre a pag. 82 dimostra di non averne capito i fondamenti

quando dice che X non è la matrice derivante dalle equazioni normali: invece essa deriva

proprio dalle equazioni normali se scrivo i modelli in forma full-regression, non è un

problema di codifica (-1 e +1 al posto di 0 e 1 come sostiene Fornasieri), i vettori e le

matrici con cui lavoro non contengono affatto simboli ma numeri che derivano

algebricamente dalle equazioni normali e che mi servono per effettuare le stime numeriche

dei parametri; a seconda della forma che uso nel modello ottengo -1 e +1 oppure 0 e 1.

La mancata comprensione del metodo di Box-Wilson porta Fornasieri (1995) a

fornire un’analisi del caso Iveco (cap.10) completamente errata.

Applichiamo il metodo BW a un piano ridotto molto semplice per far vedere che si

riottiene la struttura degli alias, intesa in maniera tradizionale.

Figura 22: frazione regolare I+ABC

Siamo costretti a usare un modello ridotto, perché abbiamo solo 4 stati di prova: nel

modello possiamo inserire solo 4 parametri di cui uno deve essere forzatamente la media I.

Il modello completo sarebbe:Y = I+A+B+C+AB+BC+AC+ABC

i a

ab b

c

bc abc

ac




197

con la seguente matrice X:


- - - -

- - - -

- - - -

Se provassimo a scrivere le equazioni normali full-regression sul modello completo

troveremmo la matrice XT*X non invertibile, perché il modello full-regression completo

usato in un piano ridotto diventa un modello non full-rank , quindi siamo costretti ad

usare un modello ridotto; ad esempio:

Y = I + A + B + C

con la matrice X1, così composta:

I A B C

a 1 1 -1 -1

b 1 -1 1 -1

c 1 -1 -1 1

abc 1 1 1 1

La matrice X2 è relativa ai parametri che sono stati cancellati dal modello (AB, AC, BC,

ABC):

AB AC BC ABC

a -1 -1 1 1

b -1 1 -1 1

c 1 -1 -1 1

abc 1 1 1 1

La matrice degli alias (X1T*X1)-1*X1T*X2 è la seguente:

AB AC BC ABC

I 0 0 0 1

A 0 0 1 0

B 0 1 0 0

C 1 0 0 0

da cui si capisce che la struttura degli alias conferma quella ben nota, che abbiamo giàvisto nel cap.4:




198

I +ABC

A+BC

B+AC

C+AB

quindi non si stimano i parametri del modello ridotto I, A, B, C ma i 4 alias sopra che sono

combinazioni lineari degli 8 parametri originari del modello. Le stime degli alias possono

essere calcolate numericamente (contrariamente a ciò che afferma Fornasieri (1995) a

pag.82) dal vettore:

(X1T*X1)

-1*X1T*Y

Ho usato il modello Y=I+A+B+C, e se usassi un altro modello, ad esempio

Y=I+A+B+AC? Fornasieri (1995) non si pone questa importante domanda e crede che ci

sia un modello “giusto”, unico, da usare per ogni piano; ciò è vero se la frazione è

“regolare” come in questo caso: infatti se in questo caso (a,b,c,abc) si provasse ad

applicare il metodo BW al modello Y=I+A+B+AC, si vedrebbe che la matrice (X1T*X1) è

non invertibile. Quando invece si hanno frazioni “irregolari” ci sono tanti modelli che

vanno bene, ciascuno che fornisce una diversa struttura degli alias: queste considerazioni

sono alla base della mia teoria degli alias del cap.9.

8.4.1 MODELLI RIDOTTI COL PIANO COMPLETO Nel paragrafo precedente abbiamo visto che siamo costretti ad usare un modello

ridotto; quando il piano è completo, possiamo sempre usare il modello completo ma se gli

stimatori sono troppo correlati possiamo usare un modello ridotto; le stime saranno distorte

dai parametri cancellati dal modello ridotto, quindi si stimano degli alias e non gli effetti

“puri” di fattori e interazioni. Per chiarire questo importante punto rifacciamoci al solito

esempio macchina operatore.

Nella tabella 8 abbiamo scritto le covarianze (a meno del fattore σ2) fra gli

stimatori dei parametri del modello completo:

I M O MO

I 5/32 1/32 1/32 1/32M 1/32 5/32 1/32 1/32O 1/32 1/32 5/32 1/32

1/32 1/32 1/32 5/32

Se cancelliamo il parametro MO, abbiamo visto che le covarianze fra gli stimatori e le loro

varianze diminuiscono (tab.15):




199

I M O

3/20 1/40 1/40M 1/40 3/20 1/40O 1/40 1/40 3/20

ma gli stimatori non sono più quelli di partenza, essendo distorti dal parametro cancellato

dal modello MO. Per vedere in che misura è presente questa distorsione scriviamo la

matrice X1 del modello ridotto Y = I+M+O

X1 I M O

i 1 -1 -1i 1 -1 -1o 1 -1 1

o 1 -1 1m 1 1 -1m 1 1 -1mo 1 1 1

L’abbiamo già vista nella tabella 10, dove si chiamava Z. La matrice dei parametri

cancellati è X2:

MO

11

-1-1--11

La matrice degli alias (X1T*X1)

-1*X1T*X2 è:

MO

I - 1/5

M - 1/5

O - 1/5

dunque le somme dei quadrati (che sono quelle che si troverebbero col metodo di Galetto):

SS(M’) = 201,66666SS(O’) = 570,416666




200

in realtà sono associate non agli effetti “puri” M e O ma ai 2 alias:

M’ = M-(1/5)MO

O’ = O-(1/5)MO

Tutto ciò è valido se si assumono le definizioni di effetto e alias che ho dato nel par. 4.8; il

fatto di usare il metodo di Box-Wilson (BW) presuppone tali definizioni anche se non tutti

se ne rendono conto. Le definizioni che ho dato consentono un uso algebrico degli effetti e

degli alias; verifichiamolo numericamente. Con il modello completo abbiamo trovato nel

par. 8.2.1 che:

M = -4,25

O = = -8

MO = 6,25

mentre con quello ridotto Y=I+M+O

M’= M-(1/5)MO = -5,5

O’= O-(1/5)MO = -9,25

Si vede che i risultati ottenuti sono perfettamente congruenti. Avendo il piano completo

siamo in grado di stimare tutte gli effetti puri e quindi anche delle loro combinazioni

lineari come mostrato sopra. Le somme dei quadrati calcolate con il “Questo per questo”sono:

SS(M’’) = 107,4405

SS(O’’) = 476,1905

sono relative ai 2 alias:

M’’= M - (1/6)O - (1/6)MO

O’’ = O - (1/6)M - (1/6)MO

per verificarlo basta scrivere la matrice degli alias dei 2 modelli ridotti Y=I+M e Y=I+O.Riprendiamo anche l’esempio con 3 fattori per fornire qualche altro dato numerico

sugli alias senza peraltro scrivere le matrici che sarebbero un po’ troppo grandi e che

comunque si possono calcolare facilmente con l’aiuto di un foglio elettronico. Ad esempio

per sapere a quale alias è associata la somma di quadrati:

SS(A’) = SS(I+A)-SS(I) = 25,18531

devo scrivere la matrice degli alias del modello ridotto Y=I+A; posso supporre che la stima

di A sarà distorta da tutti gli altri parametri cancellati dal modello ridotto e infatti si trova

che:

A’ = A+(23/143)B+(10/143)AB-(23/143)C-(10/143)AC+(14/143)BC-(25/143)ABC




201

Per sapere a quale alias si riferisce la somma dei quadrati:

SS(A’’) = SS(I+A+B+C) - SS(I+A+B)

bisogna scrivere la matrice degli alias del modello ridotto Y=I+A+B+C; si trova che:

A’’ = A+73/945AB-73/945AC+116/945BC-25/189ABC

Per trovare le determinazioni gli stimatori degli alias scritti sopra bisogna calcolare il

vettore (X1T*X1)

-1*X1T*Y.

A ogni modello ridotto contente il parametro X è associato un alias contenente X,

esattamente così come vi è associato un contrast (par. 8.3): ma gli alias non sono

nient’altro che dei contrast (a parte la media I) come vedremo nel cap.9.

8.5 METODO DI BOX-WILSON APPLICATO A PIANI RIDOTTIIRREGOLARI

Nel paragrafo precedente abbiamo applicato il metodo BW ai piani completi in cui

si possono sempre stimare gli effetti “puri” non aliased ; ciò è di interesse solo quando gli

stimatori degli effetti puri sono troppo correlati fra loro e quindi può essere utile usare un

modello ridotto.

In generale è molto più interessante usare il metodo BW quando i piani sono ridottie in particolare quando si ha a che fare con delle frazioni irregolari in cui il concetto

classico di struttura degli alias si rivela decisamente inadeguato.

Quali sono queste frazioni irregolari? Ne abbiamo viste alcune nel capitolo 5:

• piano non geometrico di Plackett-Burman a 12 stati, saturated (11 fattori) e non

saturated (5 fattori)

• 3/4 di John

• 3/8

• 5/8• 7/8

Sono le frazioni studiate anche da Fornasieri (1995).Troviamo la struttura degli alias di

questi piani applicando il metodo di Box-Wilson.




202

8.5.1 PIANI NON GEOMETRICI DI PLACKETT-BURMAN

Iniziamo con quello a 12 stati di tabella 17 del cap.5, in cui abbiamo supposto di

voler studiare 5 fattori. La matrice X1 del modello full-regression è la tabella dei segni che

avevamo visto nel capitolo 5 ovvero:

I A B C D E ? ? ? ? ? ?

ac 1 1 -1 1 -1 -1 -1 1 1 1 -1 1

abd 1 1 1 -1 1 -1 -1 -1 1 1 1 -1

bce 1 -1 1 1 -1 1 -1 -1 -1 1 1 1

acd 1 1 -1 1 1 -1 1 -1 -1 -1 1 1

abde 1 1 1 -1 1 1 -1 1 -1 -1 -1 1

abce 1 1 1 1 -1 1 1 -1 1 -1 -1 -1

bcd 1 -1 1 1 1 -1 1 1 -1 1 -1 -1

cde 1 -1 -1 1 1 1 -1 1 1 -1 1 -1

de 1 -1 -1 -1 1 1 1 -1 1 1 -1 1ae 1 1 -1 -1 -1 1 1 1 -1 1 1 -1

b 1 -1 1 -1 -1 -1 1 1 1 -1 1 1

i 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1

Tabella 90: PB non geometrico non saturated , a 5 fattori con 12 stati

Se ci fossero diverse ripetizioni per gli stati di prova bisognerebbe replicare le righe

tante volte quanto è la numerosità dello stato. Come avevamo già detto, gli ultimi 6

contrast non rappresentano nessun fattore o interazione noti. E allora perché si usano queicontrast? Perché sono ortogonali fra di loro e con i contrast dei 5 fattori: è l’uso di una

matrice di Hadamard che garantisce questa proprietà (cap.5). Nel cap.7 ho detto che

bisogna stare molto attenti ortogonalizzazione perché si rischia di avere dei contrast

ortogonali che non interessano lo sperimentatore.

Applicando il metodo BW riusciamo a scoprire che alias rappresentano gli ultimi 6

contrast. Scriviamo la matrice X2, valida se la numerosità degli stati di prova è costante:

A

B

A

C

A

D

A

E

B

C

B

D

B

E

C

D

C

E

D

E

A

BC

A

BD

A

BE

A

CD

A

CE

A

DE

B

CD

B

CE

B

DE

C

DE

A

BCD

A

BCE

A

BDE

A

CDE

B

CDE

A

BCDE

-1 1 -1 -1 -1 1 1 -1 -1 1 -1 1 1 -1 -1 1 1 1 -1 1 1 1 -1 1 -1 -1

1 -1 1 -1 -1 1 -1 -1 1 -1 -1 1 -1 -1 1 -1 -1 1 -1 1 -1 1 -1 1 1 1

-1 -1 1 -1 1 -1 1 -1 1 -1 -1 1 -1 1 -1 1 -1 1 -1 -1 1 -1 1 1 -1 1

-1 1 1 -1 -1 -1 1 1 -1 -1 -1 -1 1 1 -1 -1 -1 1 1 -1 -1 1 1 -1 1 1

1 -1 1 1 -1 1 1 -1 -1 1 -1 1 1 -1 -1 1 -1 -1 1 -1 -1 -1 1 -1 -1 -1

1 1 -1 1 1 -1 1 -1 1 -1 1 -1 1 -1 1 -1 -1 1 -1 -1 -1 1 -1 -1 -1 -1

-1 -1 -1 1 1 1 -1 1 -1 -1 -1 -1 1 -1 1 1 1 -1 -1 -1 -1 1 1 1 -1 1

1 -1 -1 -1 -1 -1 -1 1 1 1 1 1 1 -1 -1 -1 -1 -1 -1 1 1 1 1 -1 -1 1

1 1 -1 -1 1 -1 -1 -1 -1 1 -1 1 1 1 1 -1 1 1 -1 -1 -1 -1 1 1 1 -1

-1 -1 -1 1 1 1 -1 1 -1 -1 1 1 -1 1 -1 -1 -1 1 1 1 -1 1 1 1 -1 -1




203

-1 1 1 1 -1 -1 -1 1 1 1 1 1 1 -1 -1 -1 1 1 1 -1 -1 -1 -1 1 -1 1

1 1 1 1 1 1 1 1 1 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 1 1 1 1 1 -1

Tabella 91: matrice X2

Calcolando la matrice degli alias (X1T * X1)

-1 * X1T * X2 si trova la seguente struttura degli

alias, già riportata in Fornasieri (1995) e in Box e Meyer (1993):

I + interazioni di ordine superiore

A + (1/3)*(-BC+BD+BE-CD-CE-DE) + interazioni di ordine superiore

B + (1/3)*(-AC+AD+AE-CD+CE-DE) + interazioni di ordine superiore

C + (1/3)*(-AB+AD+AE-CD+CE-DE) + interazioni di ordine superiore

D + (1/3)*(AB-AC-AE-BC-BE-CE) + interazioni di ordine superiore

E + (1/3)*(AB-AC-AD+BC-BD-CD) + interazioni di ordine superiore

(1/3) * (-AB+AC-AD+AE+BC-BD-BE+CD-CE-DE) + interazioni di ordine superiore

(1/3) * (-AB-AC-AD+AE-BC+BD-BE+CD-CE-DE) + interazioni di ordine superiore

(1/3) * (AB+AC-AD-AE-BC-BD-BE-CD+CE+DE) + interazioni di ordine superiore

(1/3) * (-AB-AC-AD-AE+BC+BD-BE-CD-CE-DE) + interazioni di ordine superiore

(1/3) * (-AB-AC+AD-AE-BC-BD-BE+CD+CE-DE) + interazioni di ordine superiore

(1/3) * (-AB+AC+AD-AE-BC-BD+BE-CD-CE+DE) + interazioni di ordine superiore

La struttura completa è la seguente, indipendente102 dalla numerosità dei 12 stati di prova:

AB

AC

AD

AE

BC

BD

BE

CD

CE

DE

AB

C

AB

D

AB

E

AC

D

AC

E

AD

E

BC

D

BC

E

BD

E

CD

E

AB

CD

AB

CE

AB

DE

AC

DE

BC

DE

AB

CDE

I 0 0 0 -0 -0 0 0 -0 0 -0 - 1/3 1/3 1/3 - 1/3 - 1/3 - 1/3 - 1/3 1/3 - 1/3 - 1/3 - 1/3 1/3 1/3 1/3 - 1/3 0

A 0 0 0 0 - 1/3 1/3 1/3 - 1/3 - 1/3 - 1/3 -0 0 0 -0 0 -0 - 1/3 1/3 1/3 1/3 - 1/3 1/3 - 1/3 - 1/3 0 - 1/3

B 0 - 1/3 1/3 1/3 0 0 0 - 1/3 1/3 - 1/3 0 0 -0 - 1/3 1/3 1/3 -0 0 -0 - 1/3 - 1/3 - 1/3 - 1/3 0 - 1/3 1/3

C - 1/3 0 - 1/3 - 1/3 0 - 1/3 1/3 0 0 - 1/3 0 - 1/3 1/3 0 -0 1/3 0 0 - 1/3 -0 1/3 1/3 0 - 1/3 - 1/3 1/3

D 1/3 - 1/3 0 - 1/3 - 1/3 0 - 1/3 0 - 1/3 0 - 1/3 0 1/3 0 1/3 -0 -0 - 1/3 0 0 - 1/3 0 1/3 - 1/3 1/3 1/3

E 1/3 - 1/3 - 1/3 0 1/3 - 1/3 0 - 1/3 0 0 1/3 1/3 0 1 /3 0 0 - 1/3 -0 0 -0 0 - 1/3 1/3 - 1/3 - 1/3 - 1/3

1 - 1/3 1/3 - 1/3 1/3 1/3 - 1/3 - 1/3 1/3 - 1/3 - 1/3 1/3 - 1/3 1/3 1/3 1/3 - 1/3 1/3 1/3 1/3 - 1/3 - 2/3 0 0 -0 0 0

2 - 1/3 - 1/3 - 1/3 1/3 - 1/3 1/3 - 1/3 1/3 - 1/3 1/3 1/3 1/3 1/3 - 1/3 - 1/3 1/3 1/3 - 1/3 1/3 1/3 0 0 0 0 - 2/3 -0

31/3 1/3 - 1/3 - 1/3 - 1/3 - 1/3 - 1/3 - 1/3 1/3 1/3 1/3 1/3 1/3 - 1/3 1/3 - 1/3 1/3 1/3 - 1/3 1/3 0 0 - 2/3 0 0 -0

4 - 1/3 - 1/3 - 1/3 - 1/3 1/3 1/3 - 1/3 - 1/3 - 1/3 - 1/3 - 1/3 1/3 - 1/3 1/3 1/3 1/3 1/3 1/3 - 1/3 1/3 0 0 -0 2/3 0 0

5 - 1/3 - 1/3 1/3 - 1/3 - 1/3 - 1/3 - 1/3 1/3 1/3 - 1/3 1/3 1/3 - 1/3 1/3 - 1/3 - 1/3 - 1/3 1/3 1/3 1/3 0 0 0 0 0 2/3

6 - 1/3 1/3 1/3 - 1/3 - 1/3 - 1/3 1/3 - 1/3 - 1/3 1/3 - 1/3 1/3 1/3 1/3 - 1/3 1/3 1/3 1/3 1/3 - 1/3 0 - 2/3 0 0 -0 -0

Tabella 92: matrice degli alias

Come si vede i fattori sono parzialmente confusi con tutte le interazioni che non

contengono i fattori in questione mentre gli ultimi 6 contrast della matrice X1

rappresentano la somma di tute le interazioni pesate per ±(1/3) o ±(2/3) : non credo che

possano essere di interesse, ecco perché ritengo che i piani non geometrici PB sono non

ortogonali secondo la mia definizione del par. 5.1. Daniel (1976) riferisce che il piano di102 Il lettore può verificarlo rendendo diverse le numerosità dei 12 stati, cambiando dunque le matrici X 1 eX2; riotterrà la stessa matrice degli alias.




204

Plackett-Burman a 12 stati ha sempre una struttura degli alias simile a quella sopra,

qualunque sia il numero di fattori, anche 11 ( saturated design). Però non specifica un

punto importante ovvero che la struttura degli alias sopra

• presuppone la mia definizione di effetto e di alias

• deriva da un particolare modello in cui si sono usati 11 contrast ortogonali

(1) Y = I + A + B + C + D + E + ?1+ ?2 + ?3 + ?4 + ?5 + ?6

e se si usa un altro modello, più intelligente, che magari isoli le interazioni che più

interessano allo sperimentatore, al posto di sprecare 6 gradi di libertà per testare dei

contrast ‘strani’? È ovvio che in questo modo si rinuncia all’ortogonalità dei contrast ma

almeno si testano delle cose interessanti. Si otterrebbe una diversa struttura degli

alias...ecco che riscopriamo una cosa molto interessante: usando il metodo BW, la

struttura degli alias dipende dal modello con il quale si elaborano i dati ; è questo un

punto importante che Fornasieri (1995) non esplicita nella sua tesi, credendo che il

modello (1) sia quello “giusto”, l’unico che si possa o si debba usare: questo porta

Fornasieri fuori strada perché, anche quando esamina le frazioni 5/8, 6/8 e 7/8, cerca il

modello “giusto” e non lo trova. Nei prossimi paragrafi, riprendendo le frazioni studiate

nei par. 5.4 e 5.5, vediamo i problemi che ha incontrato Fornasieri.

8.5.2 FRAZIONI IRREGOLARI: 3/8

Questa frazione non è stata studiata da Fornasieri. Il piano è il seguente:

Figura 23: frazione irregolare 3/8

Se mi interessano i 2 fattori A e B, devo usare il modello ridotto Y=I+A+B quindi la

matrice X1 è la seguente:

I A B

i 1 -1 -11 1 1

bc 1 -1 1

i a

ab b

c

bc abc

ac




205

La matrice X2 dei parametri cancellati dal modello ridotto è:

AB C AC BC ABC- -

ab 1 -1 -1 -1 -1

bc -1 1 -1 1 -1 La matrice degli alias (X1

T*X1)-1*X1

T*X2 è la seguente:

AB C AC BC ABC1 -1 0 0 -1

A 1 -1 0 -1 0B -1 1 -1 0 0

I-C+AB-ABC

A+AB-C-BC

B-AB+C-AC

che conferma la struttura degli alias che abbiamo trovato nel par. 5.5.1; se si scrivesse la

matrice dei contrast (X1T*X1)

-1*X1T si vedrebbe che i 3 alias corrispondono a quelli di

tab.20 del par. 5.5.1, mentre dalla matrice (X1T*X1)

-1 si vedrebbe che i 3 stimatori degli

alias sono correlati. Abbiamo supposto che ci interessino A e B; e se ci interessano altri 2

elementi, ad esempio B e C? Dobbiamo usare il modello ridotto Y=I+B+C; le matrice X1 e

X2 sono:

X1 I B C

i 1 -1 -1

ab 1 1 -1

bc 1 1 1

X2 A AB AC BC ABC

i -1 1 1 1 -1ab 1 1 -1 -1 -1

bc -1 -1 -1 1 -1

la matrice degli alias (X1T*X1)

-1*X1T*X2 è:

A AB AC BC ABC

I -1 0 0 1 -1

B 1 0 -1 -1 0

C -1 -1 0 1 0




206

corrispondono a 3 degli alias che abbiamo già trovato col ragionamento dei 3/4 di John.

Non tutti modelli sono ammissibili, nel senso che alcuni danno luogo a una matrice

(X1T*X1)

-1 non invertibile; ciò accade quando gli elementi che l’analista vuole che non si

confondano non sono separabili per quel particolare piano. Ad esempio se per questo

piano l’analista volesse conoscere C e AB (nel senso che non siano confusi fra di loro),

troverebbe che i 2 elementi non possono appartenere a 2 alias diversi e la matrice

(X1T*X1)

-1 del modello ridotto Y=I+C+AB risulterebbe non invertibile: provare per

credere.

Il metodo BW per trovare la struttura degli alias è quindi molto potente; dati

1. un insieme di stati di prova (piano sperimentale)

2. un insieme di elementi103 che lo sperimentatore non vuole che si confondano fa loro

il metodo calcola (se possibile) la struttura degli alias che soddisfa le esigenze dello

sperimentatore; le stime degli alias si trovano nel vettore (X1T*X1)

-1*X1T*Y mentre la

matrice (X1T*X1)-1 ci indica le varianze e covarianze fra gli stimatori degli alias che ci

interessano. Se gli elementi che interessano allo sperimentatore non sono separabili,

applicando il metodo BW troviamo la matrice (X1T*X1)

non invertibile.


Riprendiamo il piano del par.5.5.2, studiato da Fornasieri (1995):


103 In numero pari a quello degli stati di prova: è ovvio che lo sperimentatore con 3 stati di prova non può pretendere di conoscere 8 elementi; al massimo può conoscerne 3 (di cui uno riguarda la media I) e ricordarsiche non sono gli effetti “puri” ma alias che confondono gli effetti che vuole conoscere con altri che eglinon ritiene importanti (ma che potrebbero anche esserlo).

i a

a b

c

bc abc

ac




207

Se ci interessano gli elementi A, B, C e AB, usiamo il modello ridotto Y=I+A+B+C+AB,

che ha le seguenti matrici X1 e X2:

X1 I A B AB C

i 1 -1 -1 1 -1

b 1 -1 1 -1 -1ab 1 1 1 1 -1

ac 1 1 -1 -1 1

bc 1 -1 1 -1 1

X2 AC BC ABC

i 1 1 -1

b 1 -1 1ab -1 -1 -1

ac 1 -1 -1

bc -1 1 -1

la matrice degli alias è la seguente:

AC BC ABC

I -0 0 -1A 0 -1 0

B -1 0 -0

AB -1 1 -1

C -1 1 -1

I-ABC

A-BC

B-ACAB - AC + BC - ABC

C-AC+BC-ABC

e conferma la struttura degli alias già trovata nel par.5.5.2; la matrice (X1T*X1)

-1*X1T

confermerebbe la tabella 21 del paragrafo citato, dove si indicavano i coefficienti dei

contrast per trovare i 5 alias sopra. Il lettore avrà ormai capito che quella ottenuta sopra è

una delle tante strutture degli alias che si possono avere per questo piano, a seconda del

modello ridotto che uso, che, a sua volta, dipende dalle esigenze dello sperimentatore.




208

Fornasieri (1995) non si rende conto di questo fatto, credendo che debba esistere

un’unica struttura degli alias per un piano sperimentale. Questa errata convinzione la porta

ad usare un modello con solo 4 parametri (non saturated ): Y = I+A+B+AB, che fornisce la

seguente struttura degli alias:

I - (1/4)C + (1/4)AC - (1/4)BC - (3/4)ABC

A + (1/4)C - (1/4)AC - (3/4)BC - (1/4)ABC

B - (1/4)C - (3/4)AC - (1/4)BC + (1/4)ABC

AB - (3/4)C - (1/4)AC + (1/4)BC - (1/4)ABC

La struttura degli alias per quel modello ridotto è calcolata correttamente (solo se la

numerosità delle celle è costante) però prima di usare l’approccio di Fornasieri, conviene

meditare sui seguenti problemi:

• con 5 stati di prova mi accontento di stimare 4 alias .... allora tanto vale fare solo 4 stati

di prova in cui almeno la struttura degli alias è semplice

• usando solo 4 parametri non si ottengono comunque 4 alias ortogonali; basta guardare

la matrice delle covarianze (X1T*X1)

-1:

I A B AB

I 7/32 1/32 - 1/32 1/32

A 1/32 7/32 1/32 - 1/32

B - 1/32 1/32 7/32 1/32

AB 1/32 - 1/32 1/32 7/32

• gli alias contengono effetti con coefficienti frazionari: questo complica l’analisi,

soprattutto se un effetto escluso dal modello ridotto in realtà è significativo

• se le numerosità degli stati fossero diverse non si otterrebbero più i 4 alias sopra ma

altri 4 mentre se si usa un numero di parametri pari a quelli degli stati di prova, la

struttura degli alias fornita dal modello non cambia; purtroppo Fornasieri non si

preoccupa mai delle numerosità degli stati; io ho provato a replicare una volta lo stato i e 2 volte lo stato bc; ho ottenuto la seguente struttura degli alias, diversa dalla

precedente:

C AC BC ABC

I - 1/8 1/8 - 1/8 - 7/8

A 1/8 - 1/8 - 7/8 - 1/8

B - 1/8 - 7/8 - 1/8 1/8

AB - 7/8 - 1/8 1/8 - 1/8Tabella 93: matrice degli alias per frazione 5/8 non saturated , con numerosità diverse




209

in ogni caso resta il problema che, per avere i 4 alias della tabella 26, tanto vale

sperimentare solo i 4 stati di prova (i, ab, ac, bc) e avere i 4 alias senza coefficienti

frazionari:

I-ABC

A-BC

B-AC

C-AB

Se invece si usa un numero dei parametri pari a quello degli stati di prova, come ho fatto

io, si vede che la situazione migliora perché riesco a non confondere 5 elementi di

interesse per lo sperimentatore.

8.5.4 FRAZIONI IRREGOLARI: 3/4 (JOHN)

Riprendiamo il piano sperimentale del par. 5.4, quello usati nel caso Iveco (cap.10):

Figura 25: 3/4 di John

Come negli altri casi, prima di applicare il metodo BW, bisogna far capire allo

sperimentatore che, avendo 6 stati di prova, può stimare 6 quantità che non rappresentano

più 6 degli 8 effetti puri che si avrebbero avuti con il piano completo ma sono distorte

dagli effetti che lui deciderà essere trascurabili. Ad esempio, se lo sperimentatore decide

che le interazioni AC e ABC sono trascurabili, usiamo il modello Y = I+A+B+C+AB+BC,che ha le seguenti matrici X1 e X2 (se la numerosità è costante):

X1 I A B C AB BC

1 -1 -1 -1 1 1b 1 -1 1 -1 -1 -1c 1 -1 -1 1 1 -1

1 1 -1 1 -1 -1bc 1 -1 1 1 -1 1abc 1 1 1 1 1 1

X2 AC ABC

i a

ab b

c

bc abc

ac




210

i 1 -1b 1 1

-ac 1 -1

-1 -1

abc 1 1

La matrice degli alias è la seguente:

AC ABC1 0

B 0 1C -1 0

0 1BC 0 -1

Conferma quella trovata nel par. 5.4 e anche la matrice (X1T*X1)

-1*X1T conferma i

contrast della tab.19; come detto, la struttura degli alias è indipendente dalla numerosità

degli stati di prova. Se ci interessano 5 effetti diversi da quelli sopra, otteniamo altri alias,

sempre fra i 12 elencati nel par. 5.4; alcuni set di effetti restano inseparabili ad esempio I,

A, B, C, AB, AC. Il modello ridotto Y = I+A+B+C+AB+AC dà luogo a una matrice

(X1

T

*X1) non invertibile: provare per credere.In particolare si trova che, se vogliamo mantenere la risoluzione IV (fattori e interazioni

del primo ordine non confusi fra di loro) l’unico modello possibile è quello che abbiamo

usato per la struttura degli alias di tab.29, ovvero quello che esclude AC e ABC.

Il fatto che il metodo di Box-Wilson, che deriva dalle equazioni normali, confermi i 3/4 di

John, legittima l’idea di considerare le frazioni irregolari come intersezione di frazioni

regolari.

Fornasieri (1995) esamina i piani a 6 stati ma di nuovo mette solo 4 parametri nel

modello (non saturated ), ottenendo quindi solo 4 alias con coefficienti frazionari: per un

tale approccio valgono tutte le critiche fatte nel paragrafo precedente più un’altra, visto che

l’autrice citata usa 2 modelli diversi ottenendo quindi 2 set diversi (anche se di struttura

simile) di 4 alias ciascuno; da questo avrebbe dovuto capire che la struttura degli alias

varia con il modello usato per elaborare i dati.




211


Riprendiamo il piano sperimentale del par. 5.5.3, studiato anche da Fornasieri

(1995):


Si possono stimare 7 alias e l’elemento naturale da trascurare è ABC104 per cui il modello

ridotto è Y=I+A+B+C+AB+BC+AC

Il lettore ha ormai capito come si scrivono le matrici X1 e X2 dunque scrivo direttamente la

matrice degli alias (X1T*X1)

-1*X1T*X2:

ABCI -1

B 1C -1

-1AC 1BC 1

non può che confermare la struttura degli alias (risoluzione IV) vista già nel par. 5.5.3;

notiamo che Daniel (1976) a pag.65, pur non formalizzando il problema della frazione 7/8

come ho fatto io, giunge in maniera implicita alla stessa struttura degli alias. I 7 alias

utilizzano solo 4 dei 7 stati di prova come si vede dalla matrice (X1T*X1)

-1* X1T:

i a b ab ac bc abcI’ 1/4 0 0 1/4 1/4 1/4 0A’ - 1/4 1/4 0 0 0 - 1/4 1/4

’ - 1/4 0 1/4 0 - 1/4 0 1/4C’ 0 - 1/4 - 1/4 0 1/4 1/4 0

AB’1/4 - 1/4 - 1/4 1/4 0 0 0

’ 0 0 1/4 - 1/4 0 - 1/4 1/4

104 Nulla vieta di trascurarne un altro.

i a

ab b

c

bc abc

ac




212

BC’ 0 1/4 0 - 1/4 - 1/4 0 1/4Tabella 94: matrice dei contrast per la frazione 7/8

La tabella 27 è l’equivalente della tab.22 del par. 5.5.3; nessun alias utilizza gli

stessi stati di prova di un altro e gli stimatori degli alias sono tutti correlati, come si puòvedere dalla matrice (X1

T*X1)-1:

’ ’ ’ ’ ’ ’ ’I’ 1/4 - 1/8 - 1/8 1/8 1/8 - 1/8 - 1/8A’ - 1/8 1/4 1/8 - 1/8 - 1/8 1/8 1/8

’ - - -C’ 1/8 - 1/8 - 1/8 1/4 1/8 - 1/8 - 1/8AB’ 1/8 - 1/8 - 1/8 1/8 1/4 - 1/8 - 1/8

’ - 1/8 1/8 1/8 - 1/8 - 1/8 1/4 1/8’ - - -

Fornasieri (1995) continua a usare solo 4 parametri anche per questo piano; ottiene

4 alias con coefficienti frazionari: come al solito sono calcolati correttamente ma servono a

poco come detto nei paragrafi precedenti e soprattutto non fanno capire il miglioramento

che si è avuto nel passare da 4 stati di prova a 7, ma 7 stati di prova sono indubbiamente

meglio di 4 dunque il miglioramento deve esserci (principio F1).

Finora abbiamo sempre accettato la non ortogonalità ovvero la correlazione fra glistimatori degli effetti (puri nei piani completi e aliased in quelli ridotti) che ci interessano;

a volte ciò può essere fatto e a volte no: bisogna in qualche modo misurare la non

ortogonalità del piano sperimentale.

8.6 MISURA DELLA NON ORTOGONALITÁ

Come ho già avuto modo di dire, non ortogonalità vuol dire correlazione fra glistimatori ovvero variabili collineari; la varianza di uno stimatore X non riflette più solo la

variabilità di X ma anche degli stimatori X’ degli altri parametri del modello. Dunque

l’intervallo di fiducia dello stimatore è più grande in un piano non ortogonale che in un

piano ortogonale, a parità di stati di prova e di dati totali.

In un piano ortogonale a r stati di prova, la matrice delle covarianze, (XT*X)-1 è

diagonale dunque le covarianze fra gli stimatori sono tutte nulle. Dalla matrice delle

covarianze è immediato passare a quella dei coefficienti di correlazione, dividendo la

covarianza fra 2 stimatori per i rispettivi s.q.m.. In Snee (1973) è riportata la seguenteformula, valida per un modello full-regression




213

E(Y) = β0 + β1*x1 + β2*x2 +.......+βr *xr

VAR(bi) =( ) ( ) ( )

σ σ 2 1

2

2

2 21

*

*

R

x x R x x

ii

ij i

j

i ij i

j

−

−=

− −∑ ∑

dove la sommatoria è estesa a tutti i valori di xi presenti nella matrice X; R ii-1 è l’i-mo

elemento diagonale dell’inversa della matrice di correlazione mentre R i è il coefficiente di

correlazione multipla dello stimatore bi con gli altri stimatori.

Se il piano è ortogonale la matrice di correlazione è ortogonale e dunque R i = 0 e

R ii-1 = 1 ∀i. Man mano che cresce la correlazione di bi con gli altri stimatori, la varianza di

bi aumenta, come abbiamo già detto altre volte: ora siamo in grado di quantificare questo

aumento della varianza dello stimatore, è dato da R ii-1 che Marquardt (1970) chiama

Variance Inflation Factor (VIFi) dello stimatore bi e che è dunque l’i-mo elementodiagonale dell’inversa della matrice di correlazione.

VIFi = R ii-1 = 1 / (1-R i

2)

Il VIF misura direttamente l’aumento della varianza degli stimatori, causato dalla

non ortogonalità. Da ciò che abbiamo detto, quando il piano è ortogonale VIF i = 1 ∀i,

dunque 1 è il limite inferiore per il VIF. Marquardt (1970) afferma che, quando il VIF

supera il valore 10, è meglio cancellare dei parametri dal modello (accettando ladistorsione) o non usare più i minimi quadrati, ma altri metodi. Snee (1973) dice di poter

accettare la non ortogonalità quando il VIF si mantiene al di sotto di 4. In ogni caso

bisogna considerare anche il residuo σ2: se è molto piccolo, si possono accettare anche dei

grandi VIF (fino a 100, Snee 1973); bisogna dunque sempre considerare tutti gli elementi

che determinano l’ampiezza dell’intervallo di fiducia dello stimatore bi. Notiamo che il

VIF, derivando dalla matrice di correlazione, non dipende dalla numerosità dei dati ma

solo dalla struttura del piano sperimentale.

Dalla matrice di correlazione R si possono estrarre altre informazioni

Se il piano è ortogonale,

• det(R) = 1

• tr (R -1) = p

• gli autovalori λi di R sono tutti uguali a 1 e dunque λmin/λmax = 1

dove p è il numero dei parametri del modello.

Con un piano non ortogonale

• det(R)<1

• tr (R -1) > p • gli autovalori di R possono essere molto grandi quindi λmin/λmax < 1; se λmin/λmax << 1

allora la matrice R (e di riflesso anche XT*X) è mal condizionata: possono esserci dei




214

problemi di calcolo numerico delle stime dei parametri che in effetti ho riscontrato

personalmente anche con Excel che lavora con 15 cifre decimali (può capitare che

inverta una matrice non invertibile).

A parte un fattore di scala, gli autovalori di R sono collegati a quelli di (X T*X)-1 e Hoerl e

Kennard (1970) riportano una proprietà che collega il mean squared error degli stimatori

b delle equazioni normali e tali autovalori:

MSE(b) = E[(b-β)T*(b-β)] = tr[(XT*X)-1]σ2 + (b-E(b))T*(b-E(b))

essendo gli stimatori delle equazioni normali BLUE il secondo termine dell’espressione è

nullo.

MSE(b) = tr[(XT*X)-1]σ2

Detti λi gli autovalori della matrice (XT*X)-1, abbiamo che:

MSE(b) = σ2 * λ ii

p

=∑

1

Inoltre si trova che:

VAR[(b-β)T*(b-β)] = 2*σ4* λ ii

p

2

1=

∑

Se il piano è molto non ortogonale λmax >>1 e dunque MSE(b)>>0; ecco perché le stime

ottenute possono esse molto lontane dai parametri reali; la non ortogonalità aumenta media

e varianza della distanza [(b-β)T*(b-β)] fra gli stimatori e i parametri veri.

Cosa si può fare quando la non ortogonalità rende prive di senso le stime ottenute con i

minimi quadrati? Si possono eliminare dei termini dal modello oppure si può usare la ridge

regression. Questo metodo è discusso in gran dettaglio da Hoerl e Kennard (1970) e

Marquardt (1970) e consiste nell’aggiungere una piccola quantità k agli elementi diagonalidella matrice XT*X così che gli stimatori non sono più:

b = (XT*X)-1*XT*Y

ma:

b = ( XT*X + k *I )-1 * XT * Y

essi sono distorti ma k è scelto in modo da rendere la matrice (XT*X + k *I) ben

condizionata, e quindi da stabilizzare la grandezza degli autovalori per ridurre MSE(b). In




215

Marquardt (1970) è spiegato un altro metodo, “Generalized Inverse” , che porta sempre a

degli stimatori distorti ma che diminuiscono MSE(b). Un altro metodo alternativo ai

minimi quadrati è spiegato in Gunst et al. (1976) e si chiama “Latent root regression” e

l’obiettivo è sempre lo stesso: ridurre MSE(b) a spese della non distorsione.

Io non mi occupo di questi metodi alternativi ai minimi quadrati ma penso che

varrebbe la pena studiarli visto che gli studiosi citati (Marquardt, Gunst, Hoerl e Kennard)

li hanno applicati a problemi reali mal condizionati (alta non ortogonalità, misurata ad

esempio col VIF) e hanno verificato e dimostrato teoricamente la superiorità dell’uso di

stimatori leggermente distorti ma che riducono molto l’errore quadratico medio MSE(b).

8.6.1 MISURIAMO LA NON ORTOGONALITÁ DEGLI ESEMPI FATTI

È già capitato negli esempi fatti che gli stimatori che raccomandavo di usare erano

correlati; ora siamo in grado di vedere se potevamo effettivamente trascurare la

correlazione oppure no; in questa analisi userò solo il VIF ma come abbiamo visto sarebbe

opportuno studiare anche i determinanti, le tracce, gli autovalori (e anche gli autovettori,

vedi Gunst et al. 1976, Hahn et al. 1976) della matrice di correlazione. Nell’esempio

macchina-operatore, la matrice delle covarianze è quella di tabella 8:

I M O MO

I 5/32 1/32 1/32 1/32

M 1/32 5/32 1/32 1/32

O 1/32 1/32 5/32 1/32

MO 1/32 1/32 1/32 5/32

Per passare alla matrice di correlazione, basta dividere le covarianze per gli s.q.m degli

stimatori; si ottiene R:

I M O MO

1 1/5 1/5 1/5

O 1/5 1/5 1 1/5MO 1/5 1/5 1/5 1

la cui inversa è:

I M O MO

I 1,09375 -0,15625 -0,15625 -0,15625

M -0,15625 1,09375 -0,15625 -0,15625

O -0,15625 -0,15625 1,09375 -0,15625MO -0,15625 -0,15625 -0,15625 1,09375




216

si vede che il VIF dei 3 stimatori M, O, MO è vicinissimo a 1 dunque possiamo

tranquillamente trascurare la non ortogonalità del piano macchina - operatore; la

tabella 5 del par.5.2.1 che faceva l’ANOVA sui contrast corrispondenti agli stimatori M,

O, MO può quindi considerarsi corretta in quanto le somme dei quadrati rispecchiano quasi

del tutto l’effettiva variabilità dei 3 stimatori usati.

Per quanto riguarda l’esempio con 3 fattori, la matrice delle covarianze è quella

della tab.21.del cap.8


I 0 046094 -0 00339 -0 00339 -0 00599 0 003385 0 00599 0 00599 -0 00703-0 00339 0 046094 -0 00599 -0 00339 0 00599 0 003385 -0 00703 0 00599

B -0 00339 -0 00599 0 046094 -0 00339 0 00599 -0 00703 0 003385 0 00599

AB -0 00599 -0 00339 -0 00339 0 046094 -0 00703 0 00599 0 00599 0 0033850 003385 0 00599 0 00599 -0 00703 0 046094 -0 00339 -0 00339 -0 00599

AC 0 00599 0 003385 -0 00703 0 00599 -0 00339 0 046094 -0 00599 -0 00339BC 0 00599 -0 00703 0 003385 0 00599 -0 00339 -0 00599 0 046094 -0 00339

- - - -

da cui si ricava la matrice di correlazione R:


1 -0 07345 -0 07345 -0 12994 0 073446 0 129944 0 129944 -0 15254A -0 07345 1 -0 12994 -0 07345 0 129944 0 073446 -0 15254 0 129944B -0 07345 -0 12994 1 -0 07345 0 129944 -0 15254 0 073446 0 129944AB -0 12994 -0 07345 -0 07345 1 -0 15254 0 129944 0 129944 0 073446

- - - -AC 0 129944 0 073446 -0 15254 0 129944 -0 07345 1 -0 12994 -0 07345BC 0 129944 -0 15254 0 073446 0 129944 -0 07345 -0 12994 1 -0 07345

-0 15254 0 129944 0 129944 0 073446 -0 12994 -0 07345 -0 07345 1

la cui inversa R -1 è:


I 1 10625 0 092188 0 092188 0 184375 -0 09219 -0 18438 -0 18438 0 092188- - -

B 0 092188 0 184375 1 10625 0 092188 -0 18438 0 092188 -0 09219 -0 18438AB 0 184375 0 092188 0 092187 1 10625 0 092188 -0 18438 -0 18438 -0 09219

-0 09219 -0 18438 -0 18438 0 092188 1 10625 0 092188 0 092188 0 184375- - -

BC -0 18438 0 092188 -0 09219 -0 18438 0 092188 0 184375 1 10625 0 092188ABC 0 092188 -0 18438 -0 18438 -0 09219 0 184375 0 092188 0 092188 1 10625




217

Il VIF è di nuovo piccolissimo per tutti gli stimatori, dunque è legittimata l’ANOVA fatta

nella tab.12 del par. 5.2.3.

Esaminiamo infine qualcuna delle frazioni irregolari del par.8.5: in quella sede

abbiamo sempre scritto le matrici come se ci fosse un solo dato negli stati di prova; questo

non è un problema perché la matrice di correlazione R (e dunque il VIF) è indipendente

dalla numerosità degli stati di prova, purchè questa sia costante: se varia, cambia la

struttura del piano e quindi R. Prendiamo ad esempio il piano a 5 stati del par. 8.5.3:

Scrivo direttamente la matrice di correlazione R, quando la numerosità dei 5 stati è

costante.

I A B AB C1 0 0 0 35355339 0 35355339

A 0 1 0 -0 35355339 -0 35355339B 0 0 1 0 35355339 0 35355339AB 0 35355339 -0 35355339 0 35355339 1 0 75

-

dove sappiamo che, i 5 stimatori sopra non stimano gli effetti puri ma gli alias indicati nel

par. 8.5.3. Il coefficiente di correlazione fra lo stimatore dell’alias di AB e quello di C èabbastanza elevato (3/4) quindi bisogna stare attenti nell’uso di un simile piano, anche se i

VIF dei 2 stimatori non sono particolarmente elevati (5/2), come si vede da R -1:

I A B AB CI 1 25 -0 25 0 25 -0 353553 -0 354

-0 25 1 25 -0 25 0 353553 0 3536- - -

AB -0 35355 0 35355 -0 35355 2 5 -1 5C -0 35355 0 35355 -0 35355 -1 5 2 5

ab

abc

a

b

c

bc

ac




218

Per quanto riguarda il piano a 7 stati del par. 8.5.5, si vede che i coefficienti ci correlazione

fra gli stimatori dei 7 alias sono tutti uguali a ±0,5 e i VIF tutti uguali a 1,75 dunque,

seguendo i valori limite indicati da Marquardt (1970) e Snee (1973), anche in questo caso

possiamo trascurare la non ortogonalità. Non scrivo più le matrici di correlazione e

l’inversa: il lettore ha ormai capito come si ricavano, dunque può verificare i valori che ho

dato sopra; può altresì verificare che per il piano a 3 stati (par. 8.5.2), a 6 stati (par.8.5.4), e

il piano di Webb a 6 stati (par. 5.4.1), quando la numerosità è costante, i VIF degli

stimatori degli alias (sono tutti piani ridotti) sono sempre uguali a 1,5 quindi si può

trascurare la non ortogonalità specie se riusciamo a ottenere un residuo molto basso così

da restringere l’intervallo di fiducia per gli stimatori degli alias

8.7 ALTRI METODI DI STIMA

In tutta la tesi, per trovare gli stimatori b di β, ho sempre usato (e userò) il metodo

dei minimi quadrati ovvero la minimizzazione di [(Y-X*b)T*(Y-X*b)], che Searle (1987)

chiama ordinary least squares, OLSE:

OLSE(b) = (XT*X)-1*XT*Y

In Searle (1987) sono riportati altri 3 metodi che elenco; weighted least squares (WLSE) o

generalized least squares, che introduce una matrice W con cui pesare i parametri: siminimizza allora [(Y-X*b)T*W*(Y-X*b)] ottenendo:

WLSE(b) = (XT*W*X)-1*XT*W*Y

Se si abbandona l’ipotesi di varianza costante per tutti gli stati di prova, dobbiamo

introdurre la matrice delle varianze e covarianze delle Y negli stati di prova, VAR(Y) = V;

in questo caso gli stimatori best linear unbiased (BLUE) sono:

BLUE(b) = (XT*V-1*X)-1*XT*V-1*Y

Se inoltre si conosce la distribuzione delle Y, si può usare il metodo maximum likelihood

(MLE); se il vettore stocastico Y segue una normale con media X*β e varianza V:

MLE(b) = (XT*V-1*X)-1*XT*V-1*Y

come si vede è uguale a BLUE(b). È evidente che se in WLSE(b) si pone W=V

-1

,WLSE(b)=BLUE(b). Se si assume la varianza delle Y costante, V=I*σ2, OLSE, MLSE,

BLUE e MLE (con l’ipotesi di normalità) sono uguali. Infine Searle (1987) riporta che il




219

metodo dei minimi quadrati classico (OLSE) e quello BLUE portano agli stessi risultati

quando esiste una matrice Q tale che:

V*X = X*Q (anche se V è singolare)

Quando si usa un modello non full-rank, nelle formule di questo paragrafo, al posto delle

inverse si usano le inverse generalizzate.

8.8 CONCLUSIONI

Il vasto contenuto del capitolo dovrebbe orami aver convinto il lettore della grande

potenze del metodo full-regression in confronto a quello sovraparametrizzato. Il fatto che

la matrice (XT*X) è invertibile è solo uno dei tanti vantaggi; il vettore degli stimatori b

contiene direttamente le stime degli effetti (o degli alias se il modello è ridotto) che ci

interessano; con il metodo di Box-Wilson stabiliamo la distorsione degli stimatori che

abbiamo usato per gli effetti aliased ; dalla matrice (XT*X)-1 indaghiamo la correlazione fra

gli stimatori e misuriamo la non ortogonalità del piano con il VIF: se è troppo elevata

eliminiamo alcuni termini dal modello; dalla matrice (XT*X)-1*XT vediamo qual è il

contrast che stiamo testando, anche quando si usano dei modelli ridotti per diminuire la

non ortogonalità. Il modello full-regression fornisce gli stessi risultati dell’analisi dei

contrast però come detto aggiunge molte più informazioni.

Quali sono le possibili limitazioni di un tale modello?

• presuppone le mie definizioni di effetto e di alias (par.4.8) che ribadisco, in generale

sono le più logiche perché tengono conto di tutta la stratificazione fatta, pesando

ugualmente le medie degli stati di prova. Comunque chi volesse usare altre definizioni

può usare il modello cell-means (equivalente all’analisi dei contrast) e costruirsi dei

contrast che ritiene più idonei a rappresentare effetti e interazioni dei fattori: non può

ovviamente sfruttare i vantaggi computazionali e di informazione del modello FR esposti sopra

• le matrici in gioco aumentano molto di dimensione, all’aumentare del numero dei dati;

se le numerosità sono uguali, si possono usare delle matrici semplificate, altrimenti no;

questa è una caratteristica in comune a tutti tipi di modello; con N fattori a K livelli si

hanno K N parametri e un numero di alias stimabili pari al numero di stati di prova.

• se ci sono più di 2 livelli, entra in gioco il problema della codifica: si possono usare i

coefficienti dei polinomi ortogonali oppure coefficienti che rispecchiamo dei confronti

fra gli stati di prova che ci interessano; nel cap.10, esaminando 2 casi presentati inGaletto (1995 e 1996) e un caso “taguchiano” presentato (più volte) da Byrne e Taguchi




220

(1987) ed esaminato in modo errato da Galetto (1989), vedremo come si può applicare il

modello full-regression e il metodo di Box-Wilson a fattori con più di 2 livelli.

Uno dei vantaggi più grossi è la possibilità di sfruttare il metodo di Box-Wilson per

esaminare la struttura degli alias di qualsiasi piano fattoriale, con qualunque numerosità

degli stati. Nel prossimo capitolo vediamo come questo metodo ci consente di ottenere una

teoria generale per gli alias.




221

CAPITOLO 9

UNA NUOVA TEORIASULLA STRUTTURA DEGLI ALIAS

9.1 PERCHÉ UNA NUOVA TEORIA ?

Per 3 motivi principali:

• Perché nei libri che ho consultato io per la tesi, si considera solo la struttura degli aliasdei piani regolari, ortogonali, bilanciati... Pochi libri parlano di piani irregolari: Daniel

(1976) è una delle rare eccezioni: egli applica il metodo di Box-Wilson a piani ridotti

asimmetrici (fattori con diverso numero di livelli), ma non alle frazioni (3/8, 5/8, 7/8) a

2 livelli che ho considerato io nel cap.8; quando parla di queste frazioni fa spesso

l’ipotesi che qualche interazione sia trascurabile e ciò va contro il concetto di struttura

degli alias che deve invece indicare gli elementi confusi senza trascurare nessun effetto.

Per quel che ho letto Daniel non dice mai esplicitamente “La struttura degli alias, per

ogni tipo di piano, è....”. Altri autori, Wheeler (1988) e Diamond (1981), parlano di piani irregolari come quelli non geometrici di Plackett-Burmann o i 3/4 di John, ma

riguardo la struttura degli alias dicono solo che è complicata, senza averne prima dato

una definizione generale....

Finchè ci si limita ai piani regolari, questa mancanza di chiarezza può anche essere

accettata; è lo stesso problema della definizione degli effetti dei fattori e interazioni:

quando il piano è completo e le numerosità degli stati di prova sono costanti, non si

pone il problema di definire l’effetto perché tutte le possibili definizioni portano allo

stesso contrast, ma quando le numerosità sono diverse, bisogna decidere qual è ladefinizione più idonea.




222

• La tesi di Fornasieri (1995) è uno dei pochi riferimenti (per quanto ne so io) per le

frazioni irregolari; il lettore ricorderà che nei capitoli precedenti ho spesso criticato

l’approccio di Fornasieri al problema della non ortogonalità; però almeno ha provato a

studiare il problema quindi il suo lavoro deve comunque essere tenuto in

considerazione. E la tesi di Fornasieri pone un problema, già accennato nel cap.8, a cui

bisogna dare risposta:

Partendo dal piano ridotto regolare (I-ABC) e dal conseguente modello:

(1) Y=I+A+B+AB

aggiunge degli stati di prova, arrivando alle frazioni irregolari 5/8, 6/8, 7/8. Il problema

di Fornasieri è che, all’aggiunta di uno stato, non sa quale parametro aggiungere nel

modello (1), perché l’aggiunta di un parametro modifica gli alias ottenuti applicando il

metodo BW al modello (1). Invece è logico che si modifichi perché gli stimatori dei 4

alias sono correlati, basta guardare la matrice (XT*X)-1. Il problema di Fornasieri nasce

principalmente dal fatto di non aver definito chiaramente i concetti base con cui ella

opera: effetto, alias, struttura degli alias.

• Nel capitolo 8 il lettore abituato a ragionare sui piani regolari, può essere rimasto

stupito dal fatto che per uno stesso piano si ottenevano diverse strutture degli alias a

seconda del modello che si usava: questo fatto deve essere giustificato e soprattutto

bisogna capire il rapporto fra le varie strutture degli alias.

I 3 problemi sono correlati fra di loro e vanno comunque risolti. La prima cosa da fare è

definire gli oggetti matematici principali.

9.2 CONTRAST, EFFETTO, ALIAS, STRUTTURA DEGLI ALIAS

I contrast, gli effetti e gli alias sono stati già definiti nel cap.4; non penso che sia

dannoso un richiamo, per puntualizzare alcuni concetti importanti. Per ora mi limito a

piani a 2 livelli (qualitativi o quantitativi) perché per essi ho definito chiaramente cosa

intendo per effetto di un fattore e interazione.

CONTRAST

Un contrast C* è una combinazione lineare delle medie µi nei vari stati di prova,

tale che la somma di tali coefficienti è uguale a zero.

C* = cii

i

n

=∑

1

2

* µ

cii

n

=∑ =

1

2

0

Il contrast, essendo una combinazione lineare di parametri, è egli stesso unparametro caratteristico del fenomeno sotto indagine: a noi interessa scoprire se è

significativamente diverso da zero. La definizione di contrast di Galetto (1995 e 1996) è




223

sbagliata, e così la condizione di ortogonalità e dei contrast e la loro somma dei quadrati,

come spiegato nel par. 4.2. Notiamo che i contrast sono definiti indipendentemente dalle

equazioni normali (metodo G); il teorema di Gauss-Markov introduce le funzioni stimabili

ovvero qualsiasi combinazione lineare delle medie: allora per definizione si ha che ogni

contrast è una funzione stimabile ma non tutte le funzioni stimabili sono contrast. Gli

stimatori C dei contrast C* possono essere espressi in forma di totali e medie degli stati di

prova, o dei singoli dati; usiamo la forma che preferiamo purché stiamo attenti ad avere

uno stimatore corretto.

• Dalla non correlazione fra gli stimatori C deriva la condizione di ortogonalità dei

contrast

• Dall’ipotesi nulla che E(C)=0, deriva la somma dei quadrati associata al contrast

EFFETTO

Il termine effetto può essere riferito alla media I, a un fattore o interazione. L’effetto della

media è, per n fattori a 2 livelli:

I* = k* j j

n

µ =

∑1

2

è evidente che è una funzione stimabile, ma non un contrast.

L’effetto di un fattore è la sommatoria delle medie degli stati in cui il fattore è al livelloalto meno quella delle medie degli stati in cui il fattore è al livello basso.

Ei* = k* b *ij j

j

n

µ =

∑1

2

L’effetto di un interazione fra i fattori 1,2....t rappresentati dagli effetti E1, E2...Et, è:

E k* b *t iji

t

j j

n

*...12

11

2= ⎛

⎝ ⎜ ⎞

⎠⎟

==∏∑ µ

Gli effetti di fattori e interazioni sono dei contrast.

Avrò ripetuto almeno una decina di volte che la costante k, se influenza il valore assoluto

del contrast (della sua stima e della varianza dello stimatore), non modifica la sua somma

dei quadrati e quindi l’analisi di significatività del contrast non cambia.

Nel capitolo precedente abbiamo visto che i parametri β del modello full-regression

sono gli effetti, definiti come sopra, ponendo k=(1/2n

) quindi visto che:• si può usare un k qualsiasi

• la mia teoria sugli alias si basa sull’uso del modello full-regression




224

nel capitolo adotterò sempre k=(1/2n).

Se manca anche solo un stato di prova, gli effetti dei fattori e interazioni non sono più

stimabili. Ciò è assolutamente evidente dalla definizione di effetto.

ALIAS

L’alias è una combinazione lineare degli effetti:

A E i ij j

j

n

* **==

∑α 1

2

All’alias può essere associato un vettore

(αi1, αi2, .... αin)

le cui componenti sono gli αij. Un effetto puro è un alias particolare in cui αij relativo

all’effetto è uguale a 1 e tutti gli altri αij sono nulli: agli effetti sono dunque associati dei

vettori unitari.

Notiamo che per definizione gli alias sono una trasformazione lineare delle

funzioni stimabili.

Nei piani frazionati gli effetti “puri” non sono più stimabili ma lo sono alcune loro

combinazioni lineari, gli alias, come è stato chiarito nel cap.4. Il problema degli alias è

quindi un problema di distorsione, non di correlazione, degli stimatori del modello

full-regression105.

Il concetto di alias come combinazione lineare degli effetti. non è in contrasto conla classe di equivalenza di Galetto (1995 e 1996): semplicemente ne rappresenta

un’evoluzione perché la classe di equivalenza dice che gli effetti sono confusi ma non dice

in che modo ovvero quale funzione lega gli effetti nella classe di equivalenza. Il mio

concetto di alias dice che la funzione che lega gli effetti è lineare e questa affermazione è

stata verificata anche numericamente nel cap.4.

Gli alias sono dei contrast a meno che il coefficiente αij relativo alla media, non sia

diverso da zero; ad esempio l’alias I*+ABC* non è un contrast perché compare la media I*

mentre l’alias A*

+BC*

è un contrast. E’ importante notare che, dato un Alias, trovoimmediatamente il contrast corrispondente, mentre non è vero il contrario: nel solito

esempio a 3 fattori, dato A*-BC*, so che corrisponde al contrast

(1/23) * (µ110 + µ101 +µ011 +µ000) * 2

basta sviluppare gli effetti A* e BC* in contrast; mentre non so a quale alias possa

corrispondere, ad esempio, il contrast:

4µ110 + 5µ100 - 9µ111 + 4µ010 - 6µ000 + 2µ011

105 Questa affermazione è subordinata alle definizioni che ho dato. Nel par. 9.7 spiegherò che gli alias possono anche essere considerati un problema di correlazione, se si cambia la definizione di effetto.




225

Dato un piano sperimentale, alcuni alias sono stimabili, altri no; questo ci porta alla

prossima, importantissima, definizione.

STRUTTURA DEGLI ALIAS

La struttura degli alias di un dato piano sperimentale è l’insieme di tutti gli alias

stimabili per quel piano.

Dunque abbandono la definizione classica di struttura degli alias che la vuole composta da

un numero finito di termini; peraltro il concetto classico di struttura degli alias si rivela

inadeguato nello studio di piani irregolari (Plackett-Burman, 3/4 di John, 3/8...), come

abbiamo ampiamente visto nei cap.5 e 8.

La struttura degli alias non è quindi un insieme finito ma infinito. Di che genere?

Lo vediamo nel prossimo paragrafo in cui abbandono la restrizione dei 2 livelli, per fare

una trattazione generale; bisogna però stare attenti alle definizioni di effetto per più livelli:

• se la variabile è quantitativa, uso i coefficienti dei polinomi ortogonali che hanno

l’importante proprietà di rendere le componenti degli effetti algebricamente

ortogonali nello spazio dei contrast106.

• se è qualitativa i coefficienti dei polinomi ortogonali potrebbero non testare dei contrast

interessanti quindi bisogna costruirsi dei contrast appositi; l’uso del modello full-

regresson è in questo caso da verificare.

9.3 TEOREMA FONDAMENTALE DELLA STRUTTURA DEGLIALIAS

Si vogliono studiare n fattori con a1, a2, ...an livelli; si ha quindi un piano di

riferimento completo in cui si vi sono tutti gli stati di prova, il cui numero è k effetti dove

k = a j j

n

=∏

1

Si stimano dunque k effetti.

Gli alias stimabili coincidono con i k effetti. Gli alias sono identificati univocamente dagliαij che formano un vettore di dimensione k; considerando gli alias come vettori abbiamo

che:

i vettori associati alla struttura degli alias del piano di riferimento

formano uno spazio vettoriale dotato di prodotto scalare

di dimensione pari a k.

La base canonica di tale spazio vettoriale è l’insieme dei vettori associati agli effetti,

ordinati secondo l’ordine canonico o di Yates ed è quindi la base canonica diℜk

.

106 Riprenderò questa considerazione nel cap.10.




226

Consideriamo ora il piano sperimentale effettivo in cui non è detto che si

sperimentino tutti i k stati di prova: nel piano effettivo si hanno p (≤ k) stati di prova. Se

p=k, il piano effettivo e quello di riferimento coincidono dunque il piano effettivo è

completo. Se p<k abbiamo un piano ridotto e

i vettori associati alla struttura degli alias del piano ridotto

formano un sottospazio vettoriale della struttura degli alias del piano di riferimento

sull’insieme dei numeri reali

di dimensione pari a p

Una base di tale sottospazio si trova con il metodo di Box-Wilson applicato a un modello

con un numero di parametri pari a p.

Modelli diversi danno basi differenti. Nei piani regolari la scelta della base più idonea

(interessante per lo sperimentatore) è evidente; nei piani irregolari dipende dalle esigenze

dello sperimentatore.

La base trovata in questo modo è indipendente dalla numerosità degli stati di prova.

Se i parametri del modello (in numero pari a p) sono reali e non fittizi, come accadeva nei

piani non geometrici di Plackett-Burman (dove, per mantenere l’ortogonalità dei contrast,

ho messo nel modello dei parametri che non rappresentavano nessun fattore o interazione

noti, par. 8.5.1), con 3 fattori ho visto che i coefficienti (ovvero gli elementi dei vettori

base) degli alias ottenuti col metodo BW sono in modulo uguali a 1; ma questa non è

una situazione generale, nemmeno per i piani a 2 livelli, infatti nella frazione nongeometrica 12/32 di Plackett-Burman (par. 9.5) la base presenta dei coefficienti frazionari,

anche maggiori di 1.

9.3.1 DIMOSTRAZIONE

Il teorema 2 del cap.7 dice che esistono tante funzioni stimabili linearmente

indipendenti quanti sono gli stati di prova dunque i vettori associati alle funzioni stimabili

generano uno spazio vettoriale di dimensione pari a p. In generale si dimostra facilmente

che l’insieme degli alias non è nient’altro che un isomorfismo dell’insieme delle funzionistimabili dunque in un piano con p stati di prova, esistono p alias indipendenti e i vettori

associati a quegli alias (struttura degli alias) generano uno spazio vettoriale, ovviamente di

dimensione p.

Dimostriamo l’isomorfismo107 fra funzioni stimabili e alias ovvero che a una

funzione stimabile corrisponde uno e un solo alias.

107 Ricordo che l’isomorfismo indica la corrispondenza biunivoca fra 2 insiemi (in questo caso lo spazio dellefunzioni stimabili e quello degli alias) sui quali è definita un’applicazione lineare (in questo caso abbiamodetto che gli alias, per costruzione, rappresentano una trasformazione lineare delle funzioni stimabili). Per dimostrare l’isomorfismo è quindi sufficiente dimostrare la corrispondenza biunivoca.




227

F h hi ii

k * *=

=∑λ µ

1

funzione stimabile

A E i ij j

j

k * **=

=∑α

1

alias

E b j jt t t

k *

*= =∑ µ 1 effetto

dove ho inglobato in b jt la costante moltiplicativa e la produttoria dei coefficienti nel caso

di effetti delle interazioni. Le sommatorie si estendono alla produttoria k del numero dei

livelli dei fattori:

k = a j j

n

=∏

1

Dato un alias, esso corrisponde a una sola funzione stimabile; infatti dato:

A E b b j j

j

k

j jt t t

k

j

k

j jt j

k

t

k

t

* ** * * * *1 11

111

111

= =⎛ ⎝ ⎜

⎞ ⎠⎟ =

⎛

⎝ ⎜

⎞

⎠⎟

= == ==∑ ∑∑ ∑∑α α µ α µ

corrisponde a quell’unica funzione stimabile

F t t t

k * *1 1

1

==∑λ µ

che ha:

λ α 1 11

t j jt j

k

b=⎛

⎝

⎜ ⎞

⎠

⎟=∑

*

Data una funzione stimabile

F t t t

k * *1 1

1

==∑λ µ

essa corrisponde a un solo alias:

A E j j

j

k * **1 1

1

==

∑α

infatti se corrispondesse anche a un altro alias: A E j j

j

k * **2 2

1

==

∑α

avremmo che :

A E b b j j

j

k

j jt t t

k

j

k

j jt j

k

t

k

t

* ** * * * *1 11

111

111

= =⎛ ⎝ ⎜

⎞ ⎠⎟ =

⎛

⎝ ⎜

⎞

⎠⎟

= == ==∑ ∑∑ ∑∑α α µ α µ

A E b b j j

j

k

j jt t t

k

j

k

j jt j

k

t

k

t

* ** * * * *2 21

211

211

= =⎛ ⎝ ⎜

⎞ ⎠⎟ =

⎛

⎝ ⎜

⎞

⎠⎟

= == ==∑ ∑∑ ∑∑α α µ α µ

e poiché devono corrispondere alla stessa funzione stimabile, si ha che:




228

λ α α 1 11

21

t j jt j

k

j jt j

k

b b=⎛

⎝ ⎜

⎞

⎠⎟ =

⎛

⎝ ⎜

⎞

⎠⎟

= =∑ ∑* * per t=1,2,...k

Quello sopra rappresenta un sistema di k equazioni indipendenti nelle k incognite

(α1j - α2j), con termine noto il vettore nullo, la cui soluzione è:(α1j - α2j) = 0 α1j = α2j per j=1,2...k

dunque:

A*1 = A*

2

quindi a una funzione stimabile corrisponde uno e un solo alias C.V.D. Dal teorema 2 del

cap.7 segue che in un piano con p stati di prova, vi sono dunque p alias indipendenti.

9.3.2 OSSERVAZIONI

Notiamo che in questo capitolo parliamo di indipendenza vettoriale in senso

algebrico; l’indipendenza (ortogonalità) statistica è invece legata alla correlazione fra gli

stimatori dei contrast, ovvero all’ortogonalità dei contrast; per verificare l’ortogonalità

statistica bisogna per forza ragionare sui contrast: questo non è un problema perché,

applicando il metodo BW, la correlazione fra gli stimatori si vede subito dalla matrice

(X1T*X1)

-1.

Lo spazio vettoriale che ho introdotto è dotato di prodotto scalare, dunque si può

parlare anche di ortogonalità, in senso algebrico, nuovamente da non confondere con

l’ortogonalità statistica; se l’alias A1 è calcolato usando un insieme U degli stati, e l’alias

A2 usa un insieme V, due condizioni sufficienti a rendere A1 e A2 ortogonali

algebricamente, sono:

• U ∩ V ≡ U ≡ V

• U ∩ V ≡ φ

Un esempio del primo caso può essere costituito dai 2 alias A-BC e B-AC; un esempio del

secondo caso sono i 2 alias A+BC e A-BC. Questa proprietà si mantiene ovviamente sui

contrast (particolari funzioni stimabili) dato l’isomorfismo fra alias e funzioni stimabili.

Spero che sia chiaro che l’ortogonalità algebrica degli alias implica quella statistica

(e viceversa) solo se la numerosità degli stati di prova è costante. Se le numerosità sonodiverse, i 2 tipi di ortogonalità non hanno alcun legame di implicazione causale comunque

l’ortogonalità algebrica resta una proprietà importante (par. 10.2).

Lo spazio degli alias che ho introdotto si può considerare una novità (per quel che

ho letto io) anche se non rappresenta altro che una trasformazione del ben noto spazio

vettoriale dei contrast (Fontana 1995); in Fontana (1995) però lo studio si limita ai piani

ortogonali mentre la mia teoria sugli alias serve apposta a spiegare le situazioni non

ortogonali, con l’ausilio del metodo BW, che Fontana non usa. Secondo me, la

trasformazione contrast-alias che ho fatto è utile perché penso che per lo sperimentatore sia più facile ragionare sugli alias che sui contrast.




229

In ogni caso penso che il lettore non abbia problemi a passare dal mio spazio degli

alias a quello dei contrast per il quale valgono le stesse nozioni di indipendenza e

ortogonalità algebrica contrapposta all’ortogonalità statistica108.

Il concetto di dimensione dello spazio pari al numero degli stati di prova non

costituisce una novità visto che questo concetto deriva direttamente dal teorema 2 del cap.7

che ho preso da Mood e Graybill (1963) e che rientra comunque nell’ambito del teorema di

Gauss-Markov, noto da anni e anni. Però è un fatto che non viene puntualizzato nella

letteratura DOE, come notano anche Pistone e Wynn (1996), “The dimension of the vector

space....is exactly equal to the number n of distinct points in our case the experimental

design points....This important point does not seem to be stated explicitly in the statistical

literature: in any particular problem we expect to find a maximal of n basis functions...”.

Utilizzando altri concetti, molto più avanzati dei miei dal punto di vista algebrico, Pistone

e Wynn sottolineano il fatto che con p stati di prova si stimano p quantità indipendenti.

Il lavoro dei 2 studiosi citati utilizza dei concetti a me sconosciuti per ho capito

poco del contenuto dell’articolo; da quel che dicono anche loro vogliono studiare piani

irregolari “...algebraic geometry is the right framework for answering questions about

confounding in general or certainly for problems which do not fall into a classical

framework such as he theory of orthogonal fractions.” Dunque sembrerebbe che Pistone e

Wynn abbiano trovato una teoria per studiare i piani non ortogonali in modo

indubbiamente più elegante e formalizzato (anche se molto più complicato) del mio; però

mi sembra che negli esempi che i 2 studiosi fanno, siano trattati solo casi regolari, classici;

inoltre, proprio in un esempio di questi, un piano 26-3 si dice:

“Only one interaction is estimable together with all main effects” . (!!!!!!)

Io invece ho detto e ripetuto che nei piani ridotti, anche se manca solo uno stato di prova,

non si stimano più gli effetti di fattori e interazioni ma solo delle loro combinazioni

lineari, gli alias o le classi di equivalenza (come direbbe Galetto); è evidente che Pistone e

Wynn sono partiti da definizioni di effetto diverse dalle mie.

108 Approfondirò questo discorso nel par. 10.2 in un esempio di ANOVA one-way a 5 livelli.




230

9.4 APPLICAZIONI DELLA TEORIA

In un piano completo come quello macchina-operatore, il piano effettivo coincide

con quello di riferimento quindi i 4 effetti puri sono tutti stimabili. Ordinando gli effetti

secondo Yates:

I, M, O, MO

La base associata alla struttura degli alias è:

(1,0,0,0)

(0,1,0,0)

(0,0,1,0)

(0,0,0,1)

Il sottospazio generato da questi 4 vettori associati agli effetti genera l’intero spazio

vettoriale del piano di riferimento. I 4 vettori sono ortogonali algebricamente, ma gli alias

(in questo caso effetti) associati non sono dei contrast ortogonali perché la numerosità

degli stati è diversa: l’ortogonalità algebrica in generale non implica quella statistica; e

quella statistica non implica quella algebrica infatti la base:

(1,-1/7,-1/7,-1/7)

(0,1,-1/6,-1/6)

(0,0,1,-1/5)

(0,0,0,1)

dà luogo ad alias ortogonali statisticamente ma è evidente che i 4 vettori sopra non sono

algebricamente ortogonali. Come ho trovato la base sopra? Con la tecnica di analisiortogonale descritta nel par. 8.2.3, trovando gli alias associati ai vari modelli col metodo

BW: lo lascio come utile esercizio al lettore interessato.

Nel piano ridotto I-ABC, gli effetti del piano di riferimento completo sono:

I, A, B, AB, C, AC, BC, ABC

e una base del piano ridotto è costituita dai vettori:

(1,0,0,0,0,0,0,-1) corrispondente all’alias I-ABC

(0,1,0,0,0,0,-1,0) corrispondente all’alias A-BC(0,0,1,0,0,-1,0,0) corrispondente all’alias B-AC

(0,0,0,1,-1,0,0,0) corrispondente all’alias AB-C

le cui componenti sono scritte riferite alla base dello spazio vettoriale del piano di

riferimento completo 23. Tale base si trova se si applica il metodo BW al modello

Y=I+A+B+AB.

Per questo piano sono dunque stimabili ortogonalmente (in senso algebrico, lo

ripeto) i 4 alias sopra: ogni combinazione lineare dei 4 alias è stimabile; ad esempio è

stimabile l’alias A-BC+(1/4)B-(1/4)AC perché è associato al vettore(0,1,1/4,0,0,-1/4,-1,0)




231

che è generato dalla somma del secondo e dal terzo elemento della base con coefficienti 1

e 1/4. Dunque in questo piano la base potrebbe benissimo essere costituita dai vettori

associati ai 4 alias:

I-ABC

A-BC

A-BC+(1/4)B-(1/4)AC

AB-C

Perché ciò non è fatto nella pratica?

1. Perché lo sperimentatore è sempre più interessato alla prima base perché separa 3

effetti mentre la seconda no.

2. Perché i 4 alias della prima base sono ortogonali algebricamente e statisticamente se le

numerosità degli stati sono uguali mentre ciò non è vero per i 4 alias della seconda

base.

Ecco perché nelle frazioni regolari è immediata la scelta della base; se ci limitiamo alle

frazioni regolari ammetto che serve a poco considerare la struttura degli alias associata a

un sottospazio vettoriale.

9.4.1 FRAZIONE 3/8

Nel piano a 3 stati:


Nel par. 8.5.2 abbiamo studiato il piano, applicando il metodo BW ai 2 modelli

Y=I+A+B

Y=I+B+Ctrovando 2 strutture degli alias.

La prima:

i a

ab b

c

bc abc

ac




232

I-AC+AB-ABC

A+AB-C-BC

B-AB+C-AC

e la seconda:

I-A+BC-ABC

B+A-AC-BC

C-A-AB+BC

Qualcuno può essere stupito che ci siano 2 strutture degli alias; in realtà se si pensa

alla struttura degli alias come un insieme finito, la struttura degli alias dipende dal modello

dunque ci sono tante strutture quanti i modelli che si possono costruire; ma se si accetta la

mia definizione di sottospazio vettoriale non c’è nessun problema perché le “strutture degli

alias” derivanti dal metodo di BW applicato a modelli diversi, costituiscono solo una base

del sottospazio vettoriale degli alias stimabili. Prendiamo come base la prima:

I-AC+AB-ABC

A+AB-C-BC

B-AB+C-AC

in forma vettoriale, rispetto alla base del piano di riferimento completo 23:

e1 = (1,0,0,1,0,-1,0,-1)e2 = (0,1,0,1,-1,0,-1,0)

e3 = (0,0,1,-1,1,-1,0,0)

La seconda struttura degli alias:

I-A+BC-ABC

B+A-AC-BC

C-A-AB+BC

rappresenta semplicemente un cambio della base:e1’ = e1 - e2

e2’ = e2 + e3

e3’ = - e2

Chi vuole può inventarsi dei dati per i 3 stati di prova e verificare, anche numericamente

col modello full-regression, la dipendenza (esplicitata dal cambio di base sopra) delle

stime dei 2 set di alias.

Allora quale base conviene adottare (e conseguentemente quale set di alias

indipendenti conviene stimare)? Come si era già capito nei cap.5 e 8, dipende dalleesigenze dello sperimentatore e da quali elementi egli non vuole confondere fra di loro (in

questo caso può sceglierne solo 2): “planned confounding...in which important effects




233

either are uncounfounded or are only confounded with effects that are believed to be

negligible , is the basis for the statistical constructions of fractional factorial experiments”

(Mason et a1. 1989).

Dunque in questo caso, come già detto nel cap.8, se ci interessano A e B scegliamo la

prima base, se ci interessano B e C scegliamo la seconda.

9.4.2 METÁ IRREGOLARE

Quando si fraziona a metà un piano, si possono prendere solo alcune metà se si

vuole avere un piano regolare con una certa defining relation; esistono però delle metà

irregolari che non derivano da un’unica defining relation e che nessuno prende in

considerazione, ad esempio:

Figura 28: 4/8 irregolare

L’analista può scegliere 4 effetti che non vuole confusi fra di loro, ad esempio I, A,

B, AB109; di conseguenza usiamo il modello Y=I+A+B+AB, la cui matrice X1, se la

numerosità degli stati è costante, è:

I A B AB

i 1 -1 -1 1

a 1 1 -1 -1

b 1 -1 1 -1

abc 1 1 1 1

Applicando il metodo BW, si ha che la matrice di correlazione fra i 4 alias è diagonale

dunque il piano della figura 2 è ortogonale.

109 Il lettore potrebbe obbiettare che questa è una situazione irrealistica in quanto se interessano A,B,AB si potrebbe fare il piano regolare (i,a,b,ab) ma se per vincoli fisici lo stato ab non è sperimentabile e lo è invecelo stato abc, il piano diventa interessante.

i a

ab b

c

bc abc

ac




234

I A B AB

I 0,25 0 0 0

A 0 0,25 0 0

B 0 0 0,25 0

AB 0 0 0 0,25

La base del sottospazio struttura degli alias si capisce dalla matrice degli alias:

C AC BC ABC

I -0,5 0,5 0,5 0,5

A 0,5 -0,5 0,5 0,5

B 0,5 0,5 -0,5 0,5

AB 0,5 0,5 0,5 -0,5

Una base, sempre riferita alle componenti del piano di riferimento, è costituita dai vettori

associati agli alias:

I-1/2C+1/2AC+1/2BC+1/2ABC

A+1/2C-1/2AC+1/2BC+1/2ABC

B+1/2C+1/2AC-1/2BC+1/2ABC

AB+1/2C+1/2AC+1/2BC-1/2ABC

Verifichiamo ad esempio che l’ultimo alias richiede solo i 4 stati di questo piano irregolare

(i,a,b,abc).

AB =(1/8)*(µ111+µ001+µ000+µ110-µ010-µ011-µ100-µ101)

C = (1/8)*(µ111+µ001+µ011+µ101-µ010-µ000-µ100-µ110)

AC = (1/8)*(µ111+µ010+µ000+µ101-µ110-µ011-µ100-µ001)

BC = (1/8)*(µ100+µ000+µ111+µ011-µ010-µ001-µ101-µ110)

ABC = (1/8)*(µ111+µ001+µ010+µ100-µ110-µ000-µ101-µ011)

AB+1/2C+1/2AC+1/2BC-1/2ABC = (1/4)*( µ111+µ000-µ010-µ100)

Il piano è ortogonale (se le numerosità delle celle è costante) ma il confounding è

estremamente pesante; in effetti questo piano non è considerato da nessun autore anche se,

come ho spiegato nella nota potrebbe avere la sua utilità nella pratica.




235

9.4.3 FRAZIONE 5/8

Alla metà regolare I-ABC, si aggiunge lo stato di prova b.


Come già detto la base più interessante del piano I-ABC è:

(1,0,0,0,0,0,0,-1) corrispondente all’alias I-ABC

(0,1,0,0,0,0,-1,0) corrispondente all’alias A-BC

(0,0,1,0,0,-1,0,0) corrispondente all’alias B-AC

(0,0,0,1,-1,0,0,0) corrispondente all’alias AB-C

l’aggiunta dello stato b rende stimabile in più l’alias I-C-A+AC che corrisponde al vettore

(1,-1,0,0,-1,1,0,0)

esso è linearmente indipendente dai 4 vettori sopra dunque una base del nuovo piano a 5

stati può essere:

e1 = (1,0,0,0,0,0,0,-1) corrispondente all’alias I-ABC

e2 =(0,1,0,0,0,0,-1,0) corrispondente all’alias A-BC

e3 =(0,0,1,0,0,-1,0,0) corrispondente all’alias B-ACe4 =(0,0,0,1,-1,0,0,0) corrispondente all’alias AB-C

e5 =(1,-1,0,0,-1,1,0,0) corrispondente all’alias I-C-A+AC

La base sopra non è molto intelligente perché ha 2 alias che coinvolgono la media; il

nostro scopo è invece quello di confondere la media con gli effetti ritenuti non interessanti

e non confondere fra loro gli effetti che interessano.

Nel par. 8.5.3 avevamo ricavato una base110 più sensata col metodo di Box-Wilson,

corrispondente ai 5 alias:

110 Senza peraltro avere introdotto il concetto di base.

i a

ab b

c

bc abc

ac




236

I-ABC

A-BC

B-AC

AB-AC+ BC-ABC

C-AC+BC-ABC

essa non rappresenta altro che un cambio di base di (e1, e2, e3, e4, e5) e precisamente:

e1’ = e1

e2’ = e2

e3’ = e3

e4’ = e1 + e4 - e2 - e5

e5’ = e1 - e2 - e5

Questa base va bene se, lo ripeto, ci interessano gli elementi A,B,C,AB perché con tale

base questi elementi non sono confusi fra di loro ma solo con gli altri ovvero AC,BC,ABC.

Fornasieri (1995), applicando il metodo BW a un modello con soli 4 parametri, trova

solamente 4 elementi di una base:

(1,0,0,0,-1/4,1/4,-1/4,-3/4)

(0,1,0,0,1/4,-1/4,-3/4,-1/4)

(0,0,1,0,-1/4,-3/4,-1/4,1/4)(0,0,0,1,-3/4,-1/4,1/4,-1/4)

essi rappresentano 4 elementi di una base che ne deve contenere 5 e per di più sono 4

elementi abbastanza complicati. Fornasieri dichiara di non sapere quale parametro

aggiungere al modello:

(1) Y=I+A+B+AB

perché l’aggiunta di un parametro modifica i 4 alias trovati col modello (1); ma chi ha

detto che gli alias non possono cambiare? Il fatto che gli alias cambino è dovuto alla non

ortogonalità dei contrast; basta guardare la matrice (X1T*X1)

-1 del modello ridotto (1):

I A B AB

I 7/32 1/32 - 1/32 1/32

A 1/32 7/32 1/32 - 1/32

B - 1/32 1/32 7/32 1/32AB 1/32 - 1/32 1/32 7/32

La risposta alla domanda di Fornasieri circa quale parametro aggiungere è:




237

“Aggiungi quello che ritieni più importante per motivi fisici e tecnici, tanto qualunque

parametro si aggiunge, si ottengono risultati congruenti che portano alle stesse decisioni,

compatibilmente con la struttura degli alias”

Nel nostro esempio abbiamo aggiunto un solo stato arrivando a 5, ma la risposta sopra è di

carattere generale; tanti stati di prova si aggiungono al piano, tanti parametri bisogna

aggiungere al modello, secondo le esigenze che si hanno.

9.4.4 FRAZIONE 6/8 (3/4 DI JOHN)

Al piano di prima si aggiunge, come fa Fornasieri (1995), lo stato di prova abc.

Figura30: 3/4 di John

Il lettore attento riconosce che il piano è un 3/4 di John derivante dall’intersezione dei 3

piani:

I+AC

I+B

I-ABC

che portano a 12 alias stimabili (ma solo 6 indipendenti). Alla base che avevamo prima:

e1 = (1,0,0,0,0,0,0,-1) corrispondente all’alias I-ABCe2 =(0,1,0,0,0,0,-1,0) corrispondente all’alias A-BC

e3 =(0,0,1,0,0,-1,0,0) corrispondente all’alias B-AC

e4 =(0,0,0,1,-1,0,0,0) corrispondente all’alias AB-C

e5 =(1,-1,0,0,-1,1,0,0) corrispondente all’alias I-A-C+AC

quale elemento possiamo aggiungere, ora che si è aggiunto lo stato abc, per trovare una

base del piano? Ad esempio il vettore corrispondente all’alias I+B:

e6 = (1,0,1,0,0,0,0,0)

Come succedeva prima tale base non è intelligente perché 3 alias contengono la media I.Per ottenere una base interessante bisogna applicare il metodo BW a un modello che abbia

i a

ab b

c

bc abc

ac




238

i parametri richiesti dallo sperimentatore. Se ad esempio richiede gli effetti A,B,C,AB e

AC, usiamo il modello Y=I+A+B+C+AB+AC, la matrice degli alias è:

BC ABCI 0 -1A -1 0

C 1 0AB 1 0

0 1Tabella 95: matrice degli alias

Gli alias di tabella 1 corrispondono al cambio di base:

e’1 = e1

e’2 = e2 e’3 = e6 - e1

e’4 = e6 - e2 - e3 - e5

e’5 = e6 + e4 - e2 - e3 - e5

e’6 = e6 - e1 - e3

Come ormai è chiaro, se si applicasse il metodo BW su un altro modello, corrispondente ad

altre esigenze, si otterrebbe un’altra base della struttura degli alias; può anche capitare che

non esista una base che soddisfi le esigenze dello sperimentatore, in tal caso la matrice

(X1

T

*X1) risulta non invertibile come detto nel par. 8.5.2.

9.4.5 FRAZIONE 7/8

Aggiungiamo lo stato a al piano del paragrafo precedente e ritorniamo al piano già

esaminato nel par. 8.5.5:

Figura31: frazione 7/8

Rispetto al sottospazio vettoriale del piano a 6 stati abbiamo un elemento indipendente in

più, che ad esempio può essere il vettore:

i

ab b

c

bc abc

ac




239

e7 = (1,0,0,0,-1,0,0,0) corrispondente all’alias I-C

Il lettore può verificare, come ho fatto io nei paragrafi precedenti, che la base associata ai

seguenti alias trovati nel par. 8.5.5, applicando il metodo BW al modello

Y=I+A+B+C+AB+AC+BC:

ABC

I -1

A 1

B 1

C -1

AB -1

AC1

BC 1

corrisponde a un cambio di base111 di:

e1 = (1,0,0,0,0,0,0,-1) corrispondente all’alias I-ABC

e2 =(0,1,0,0,0,0,-1,0) corrispondente all’alias A-BC

e3 =(0,0,1,0,0,-1,0,0) corrispondente all’alias B-AC

e4 =(0,0,0,1,-1,0,0,0) corrispondente all’alias AB-C

e5 =(1,-1,0,0,-1,1,0,0) corrispondente all’alias I-A-C+AC

e6 = (1,0,1,0,0,0,0,0) corrispondente all’alias I+B

e7 = (1,0,0,0,-1,0,0,0) corrispondente all’alias I-C

Se aggiungessimo anche lo stato c, arriveremo al piano completo e conosceremmo tutti gli

effetti e la base sarebbe quella canonica di ℜ8.

9.4.6 E SE ABBIAMO DIMENTICATO UN FATTORE?

Ora che siamo al piano completo 8/8, immaginiamo di avere trascurato un quartofattore D e che gli stati che abbiamo sperimentato siano tutti al livello basso di D. Il piano

di riferimento, ora che abbiamo 4 fattori, è dunque composto dal cubo precedente con D al

livello basso, più un nuovo cubo con D al livello alto, come è illustrato in figura 6.

L’effetto di D si ottiene confrontando le medie dei 2 cubi fra di loro.

In questa situazione tutti gli effetti che credevamo di stimare prima sono in realtà

confusi con delle interazioni riguardanti il fattore D e in particolare la media I è confusa

con il fattore D.

111 È il cambio di base più conveniente perché è quello che porta a una risoluzione maggiore.




240

Figura 32: ipercubo nello spazio quadridimensionale

La frazione sopra è assolutamente regolare, corrispondente alla defining relation I-D che

porta alla base (non la scrivo più in forma vettoriale perché comincia ad essere lunga):

e1 ⇒ I-De2 ⇒ A-AD

e3 ⇒ B-BD

e4 ⇒ C-CD

e5 ⇒ AB-ABD

e6 ⇒ AC-ACD

e7 ⇒ BC-BCD

e8 ⇒ ABC-ABCD

Se aggiungiamo lo stato di prova d, otteniamo una frazione irregolare 9/16; siamo in grado

di aggiungere un elemento alla base: quale? Ad esempio con la coppia (i,d) derivante dalla

defining relation I-A-B-C+AB+AC+BC-ABC possiamo stimare, in più rispetto a prima

(8/16), l’alias

e9 ⇒ D-AD-BD-CD+ABD+ACD+BCD-ABCD

Se applico il metodo BW al modello con 9 parametri (perché ci sono 9 stati di prova):

Y=I+A+B+C+AB+BC+AC+ABC+D

ab

abc

i a

b

c

bc

acabd

abcd

dad

bd

cd

bcd

acd




241

La matrice degli alias è:

AD BD CD ABD ACD BCD ABCD

I -1 -1 -1 1 1 1 -1

A -1 0 0 0 0 0 0B 0 -1 0 0 0 0 0

C 0 0 -1 0 0 0 0

AB 0 0 0 -1 0 0 0

AC 0 0 0 0 -1 0 0

BC 0 0 0 0 0 -1 0

ABC 0 0 0 0 0 0 -1

D -1 -1 -1 1 1 1 -1

Tabella 96 I primi 8 alias sono ortogonali (algebricamente) fra loro, l’ultimo no: la non ortogonalità è

un problema comune alle frazioni irregolari. Come si vede, gli alias di tabella 2

rappresentano gli elementi della base che abbiamo indicato sopra a parte l’alias della

media che è cambiato

e’1 = e1 + e9

ciò è ovvio visto che in e1 la media I è confusa con D, ma noi abbiamo applicato il metodo

BW apposta per separare D, e infatti I e D vengono fuori in 2 alias separati come si vede

dalla tabella 2.

9.5 SCELTA DELLA BASE

Se aggiungessimo un altro stato, si arriverebbe alla frazione 10/16 ovvero 5/8 che

abbiamo già esaminato e poi si arriverebbe alle nuove frazioni 11/16, 13/16, 15/16 (in

quest’ultimo tutti gli effetti sarebbero confondibili con ±ABCD): non studio queste

frazioni tanto il lettore ha ormai acquisito gli strumenti concettuali e operativi per studiarleda solo:

• struttura degli alias associata a un sottospazio vettoriale

• metodo di Box-Wilson

La cosa importante da ricordare è che, quando sono in un piano P, con p stati di

prova e voglio passare a un piano P+1, con p+1 stati di prova, a seconda di quale effetto

si vuole separare, bisogna aggiungere un particolare stato di prova (può anche

essercene più di uno); nel piano ridotto di figura 6 è ovvio 112 aggiungere lo stato d per

separare il fattore D dagli altri ma in generale la scelta non è così semplice; per sapere

quale stato conviene aggiungere, bisogna indagare, con il metodo BW, la struttura degli

112 È ovvio perché in genere prima si stimano i fattori e poi, se possibile, le interazioni.




242

alias dei possibili piani alternativi P+1 (se si vuole separare un effetto), P+2 (se si vogliono

separare 2 effetti).....e scegliere la base che più si adatta alle esigenze dello sperimentatore,

tenendo anche conto della correlazione fra gli stimatori degli alias e del fatto che certe basi

non ammissibili (matrice X1T*X1 non invertibile).

Dunque nella scelta della base bisogna tenere conto di 2 esigenze contrapposte:

• una base interessante per lo sperimentatore

• una base ortogonale

Ricordo che l’ortogonalità della base implica la non correlazione fra gli stimatori degli

alias se la numerosità degli stati è costante. Quale delle 2 esigenze è primaria? Secondo

me la prima. Ecco perché dico che nei piani non geometrici non saturated di Plackett-

Burman, come quello del par. 8.5.1, ha poco senso la base ortogonale:







(1/3) * (-AB+AC-AD+AE+BC-BD-BE+CD-CE-DE) + interazioni di ordine superiore

(1/3) * (-AB-AC-AD+AE-BC+BD-BE+CD-CE-DE) + interazioni di ordine superiore(1/3) * (AB+AC-AD-AE-BC-BD-BE-CD+CE+DE) + interazioni di ordine superiore




perché gli ultimi 6 alias sono sprecati visto che non rappresentano niente di interessante;

inoltre tolgono 6 gradi di libertà che potrebbero essere attribuiti più utilmente a 6

interazioni che i tecnici ritengono di interesse.Ad esempio se si applica il metodo BW al modello:

Y=I+A+B+C+D+E+AB+AC+AD+BD+DE




243

si ottiene la seguente base non ortogonale:BC

BE

CD

CE

ABC

ABD

ABE

ACD

ACE

ADE

BCD

BCE

BDE

CDE

ABC

D

ABC

E

ABD

E

ACD

E

BCD

E

ABC

DEI 0,00 0,00 0,00 0,00 -0,33 0,33 0,33 -0,33 -0,33 -0,33 -0,33 0,33 -0,33 -0,33 -0,33 0,33 0,33 0,33 -0,33 0,00

A -1,00 0,00 0,00 0,00 0,67 0,33 0,33 -0,33 -0,33 -0,33 -0,33 0,33 0,67 0,67 -0,33 0,33 -0,67 -0,67 -0,33 0,00

B 0,00 0,00 -1,00 0,00 -0,33 0,33 0,33 -0,33 0,67 0,67 0,67 0,33 -0,33 -0,33 -0,33 -0,67 -0,67 0,33 -0,33 0,00

C 0,00 1,00 0,00 0,00 -0,33 -0,67 0,33 -0,33 -0,33 0,67 -0,33 -0,67 -0,33 -0,33 0,67 0,33 0,33 -0,67 -0,33 0,00

D 0,00 0,00 0,00 -1,00 -0,67 -0,33 0,67 0,33 0,33 0,33 0,33 -0,33 0,33 -0,67 -0,67 -0,33 0,67 -0,33 0,33 0,00

E 1,00 1,00 -1,00 -1,00 -1,00 0 ,00 0 ,00 1,00 0,00 1,00 0,00 0,00 0,00 -1,00 0,00 -1,00 1,00 0,00 0,00 -1,00

AB 0,00 0,00 0,00 1,00 0,33 -0,33 -0,33 -0,67 0,33 -0,67 -0,67 -0,33 -0,67 0,33 0,33 0,67 -0,33 -0,33 0,33 0,00

AC 1,00 1,00 -1,00 -1,00 -1,33 -0,67 0,33 0,67 0,67 0,67 0,67 0,33 -0,33 -1,33 -0,33 -0,67 0,33 0,33 0,67 -1,00

AD0,00 1,00 0,00 0,00 -0,67 -0,33 -0,33 0,33 -0,67 0,33 -0,67 -0,33 0,33 -0,67 0,33 -0,33 0,67 -0,33 0,33 0,00

AE 0,00 0,00 1,00 0,00 0,67 -0,67 0,33 -0,33 -0,33 -0,33 -0,33 -0,67 0,67 -0,33 -0,33 0,33 0,33 -0,67 -0,33 0,00

BD 1,00 1,00 -1,00 -1,00 -1,67 -0,33 -0,33 0,33 0,33 1,33 0,33 -0,33 -0,67 -0,67 0,33 -0,33 0,67 0,67 0,33 -1,00

DE -1,00 0,00 0,00 0,00 0,33 0,67 0,67 -0,67 -0,67 0,33 0,33 -0,33 0,33 0,33 0,33 -0,33 -0,33 -0,33 -0,67 0,00

Tabella 97: matrice degli alias

Trascurando i termini di ordine superiore al primo, la base diventa molto più semplice ed

interpretabile di prima:

I+ interazioni di ordine superioreA-BC+ interazioni di ordine superiore

B-CD+ interazioni di ordine superiore

C+BE+ interazioni di ordine superiore

D-CE+ interazioni di ordine superiore

E+BC+BE-CD-CE+ interazioni di ordine superiore

AB+CE+ interazioni di ordine superiore

AC+BC+BE-CD-CE+ interazioni di ordine superiore

AD+BE+ interazioni di ordine superioreAE+CD+ interazioni di ordine superiore

BD+BC+BE-CD-CE+ interazioni di ordine superiore

DE-BC+ interazioni di ordine superiore

anche se non sono ortogonali, si separano 6 interazioni in più di quando avevo una base

ortogonale; nel capitolo 10 vedremo un esempio numerico per far vedere che il mio

approccio (maggior risoluzione a scapito dell’ortogonalità) è decisamente superiore

nell’individuazione degli effetti (aliased) significativi, anche se i VIF degli stimatori deglialias di E, AC e BD, sono attorno al valore non piccolo di 5.




244

Maggior risoluzione a scapito dell’ortogonalità (precisione delle stime): ecco uno

dei messaggi che ritengo più importante lanciare. Nei libri e articoli che ho letto, solo in un

articolo di Steinberg e Hunter (1984) ho ritrovato questo concetto:

“Another direction worthy of consideration, suggested by Tukey , is the use of

designs that are not orthogonal , but in which the correlations of the parameter estimates

are quite small. The idea here is that by sacrificing some orthogonality , it may be possible

to gain much in terms of the number of factors that can be studied .”

9.6 AGGIUNTA DI UN FATTORE PER DIMINUIRE IL RESIDUO

Trattiamo quest’ultimo caso perché ci sarà d’aiuto nel cap.10 per meglio

comprendere gli errori di Galetto (1989a) nell’analisi si un caso “taguchiano”.

Consideriamo un piano ridotto regolare con 4 fattori, A, B, C e D in cui inizialmente

nell’analisi trascuriamo il fattore D: la defining relation del piano è I+ABC:

Figura 33: proiezione di una frazione 8/16 sul cubo in cui D è al livello basso

Supponiamo che in ogni stato di prova vi siano 4 dati (di cui 2 presi al livello alto di D e 2

al livello basso). I 4 alias stimati, dalla defining relation I+ABC, sono:

I+ABC

A+BC

B+AC

C+AB

La tabella ANOVA sarebbe:

i a

ab b

c

bc abc

ac




245

d.f.

Totale 16

I+ABC 1

A+BC 1B+AC 1

C+AB 1

Residuo 12

Tabella 98

In questo modo il residuo comprende anche gli effetti (aliased) del fattore D e delle sue

interazioni; se vogliamo ripulire il residuo da questi effetti, dobbiamo considerare anche il

fattore D; la defining relation non cambia come si può vedere dall’ipercubo: rimaneI+ABC

Figura 34: piano ridotto I-ABC a 4 fattori

Aggiungendo il fattore D all’analisi, i 4 alias di prima non cambiano, se ne aggiungono

altri 4 riguardanti il fattore D e le sue interazioni; infatti la struttura degli alias (o meglio

una la base più interessante che esiste) ora è:

I+ABC

A+BC

ab

abc

i a

b

c

bc

acabd

abcd

dad

bd

cd

bcd

acd




246

B+AC

C+AB

D+ABCD

AD+BCD

BD+ACD

CD+ABD

Il residuo diminuisce ora di 4 gradi di libertà, quelli relativi ai nuovi 4 alias che riguardano

tutti il fattore aggiunto e alle sue interazioni. La nuova tabella ANOVA, indubbiamente più

corretta perché tiene conto di tutta la stratificazione, è la seguente:

d.f.

Totale 16I+ABC 1A+BC 1

+C+AB 1D+ABCD 1

+BD+ACD 1CD+ABD 1Residuo 8Tabella 99: ANOVA incompleta

Il residuo SSe è calcolabile per differenza solo perché il piano è bilanciato; in generale con

8 stati sarebbe la varianza pooled delle varianze degli 8 stati di prova, moltiplicata per 8.

Aggiungendo un fattore all’analisi abbiamo quindi guadagnato dei gradi di libertà da

attribuire agli elementi con cui abbiamo stratificato i dati (ovvero i trattamenti); chi non li

attribuisse a D e alle sue interazioni (aliased), ma ad esempio a AB,BC,AC,ABC,

scrivendo dunque la tabella ANOVA:

d.f.

Totale 16I 1

B 1C 1AB 1

AC 1ABC 1

Tabella 100: ANOVA completa

farebbe un grosso errore, e un errore ancora più grave farebbe nel calcolare il residuo per

differenza di componenti non indipendenti. Quando nella tabella ANOVA si ripartiscono i




247

gradi di libertà, bisogna attribuirli a delle componenti indipendenti, altrimenti l’ANOVA

stessa perde significato; questa affermazione vale sempre (vedere par. 3.7), anche con un

numero di livelli di fattori superiore a 2, nel qual caso la struttura degli alias è

notevolmente più complicata rispetto ai piani 2n-p. In una tabella ANOVA i gradi di libertà

devono essere attribuiti a componenti (alias) indipendenti e vi sono tanti alias

indipendenti quanti sono gli stati di prova del piano, come predice la mia teoria sugli

alias (che deriva dal teorema di Gauss-Markov).

9.7 UNA SPIEGAZIONE ALTERNATIVA AGLI ALIAS

Io ho definito gli effetti in modo che per stimarli, ho bisogno di tutti gli stati di

prova; nei piani ridotti ho quindi necessariamente una distorsione degli stimatori: è questo

per me il problema del confounding o degli alias; il fatto che gli stimatori siano correlati

fra loro, per me significa solamente un aumento della loro varianza e quindi una perdita di

precisione della stima numerica, misurabile col VIF; se alcuni VIF sono troppo alti, uso

altri stimatori corrispondenti ai modelli ridotti senza i parametri corrispondenti agli

stimatori hanno i VIF alti, accettando quindi maggior distorsione (da parte dei parametri

cancellati) degli stimatori; questi concetti sono espressi anche in Hahn et al. (1976).

Tutto ciò segue appunto dalle definizioni che ho dato. Io non ho mai detto però che

le mie definizioni sono assolute; in letteratura purtroppo non ho riscontrato una grande

chiarezza riguardo i concetti di effetto e di alias quindi ho ritenuto di poter assumere ledefinizioni che ritenevo più logiche e che mi permettessero di sfruttare metodi potenti

come la regressione “full-regression” e il metodo di Box-Wilson.

Per quanto io sia decisamene contro, si potrebbe pensare a delle definizioni

alternative tali che un effetto è sempre stimabile correttamente anche in un piano ridotto, e

interpretare il confounding come un problema di correlazione fra gli stimatori dei vari

effetti. Ad esempio nel piano I-ABC potremmo definire:

A*

= µ111+µ100-µ010-µ001 BC* = µ111+µ100-µ010-µ001

e i conseguenti stimatori corretti:

A = abc+a-b-c

BC = abc+a-b-c

avere coefficiente di correlazione uguale a 1 e quindi essere completamente confusi edire quindi che A è alias di BC. Il concetto di classe di equivalenza di Galetto (1995 e

1996) è perfettamente compatibile anche con questo tipo di approccio in cui il problema




248

degli alias viene ricondotto alla correlazione: in questo caso la notazione A@BC

significherebbe che A è totalmente correlato con BC.

In situazioni irregolari come nella frazione 5/8


la definizione degli effetti potrebbe essere la seguente (in forma tabellare):

I A B AB C AC BC ABCµ000 1 -2 -3 3 -2 2 3 -1

µ010 1 -2 2 -2 -2 2 -2 4

µ110 1 3 2 3 -2 -3 -2 -1

µ101 1 3 -3 -2 3 2 -2 -1

µ011 1 -2 2 -2 3 -3 3 -1

Tabella 101: definizioni alternative di effetto

e i conseguenti coefficienti di correlazione fra gli stimatori sarebbero (se la numerosità è

costante):

I A B AB C AC BC ABCI 1 0 0 0 0 0 0 0

0 1 - 1/6 1/6 1/6 - 1/6 - 2/3 - 198/485B 0 - 1/6 1 - 1/6 - 1/6 - 2/3 - 1/6 198/485AB 0 1/6 - 1/6 1 - 2/3 - 1/6 1/6 - 198/485C 0 1/6 - 1/6 - 2/3 1 - 1/6 1/6 - 198/485

- - - - -BC 0 - 2/3 - 1/6 1/6 1/6 - 1/6 1 - 198/485ABC 0 - 198/485 198/485 - 198/485 - 198/485 - 198/485 1Tabella 102: correlazione fra gli stimatori (BLUE) degli effetti proposti

Visto che abbiamo 5 stati solamente 5 effetti sono indipendenti. Se scegliamo ad esempio i

primi 5, avremmo le seguenti “classi di equivalenza”:

i a

ab b

c

bc abc

ac




249

I

A-1/6B+1/6AB+1/6C-1/6AC-2/3BC-198/485ABC

B-1/6A-1/6AB-1/6C-2/3AC-1/6BC+198/485ABC

AB+1/6A-1/6B-2/3C-1/6AC+1/6BC-198/485ABC

C+1/6A-16B-2/3AB-1/6AC+1/6BC+198/485ABC

dove i + e - non rappresentano più segni algebrici ma dei simboli. Se per un piano

scegliamo una base i cui alias sono ortogonali algebricamente e statisticamente, la struttura

degli alias, individuata dai 2 approcci è “uguale” simbolicamente: ricordiamo però che

dietro i simboli vi sono significati differenti.

Io sono molto critico verso l’approccio illustrato in questo paragrafo perché

secondo me non ha senso adattare la definizione di effetto a seconda del piano che si fa,

tuttavia l’ho illustrato per completezza di trattazione; per me gli effetti si stimano solo con

il piano completo e il confounding resta un problema di distorsione e così è anche trattato

il letteratura (Box e Meyer 1993, Barrantine 1996, Bisgaard 1993, Daniel 1976,

Montgomery 1991,.....); in letteratura (quella che ho esaminato) l’idea di vedere gli alias

come fenomeno di correlazione non è presente esplicitamente ma forse implicitamente sì:

infatti quando Pistone e Wynn (1996) dichiarano che in un piano 26-3

“Only one interaction is estimable together with all main effects” .

stanno assumendo delle definizioni di effetto del tipo riportate in questo paragrafo, ovvero

che si adattano a seconda del tipo di frazionamento che si fa.




250

CAPITOLO 10

APPLICAZIONI SU DATI REALI

10.1 QUALI METODI USIAMO?

Ricapitoliamo i metodi di analisi che abbiamo visto finora:

• analisi dei contrast (ANCON)

• analisi della covarianza (ANCOV)• regressione

modello sovraparametrizzato con le funzioni stimabili

modello sovraparametrizzato riparametrizzato

modello “cell-means”

modello “full-regression”

Con questi metodi abbiamo visto che è possibile scomporre la SStr 113 in tante componenti

indipendenti quanti sono gli stati di prova (meno 1 che riguarda la media), ciascuna con 1

grado di libertà. I metodi sono tutti corretti e come visto, per una certa ipotesi nulla portanoalla stessa decisione di rifiuto o accettazione. Però esistono dei metodi più efficienti di

altri, in termini computazionali e di informazione.

L’analisi dei contrast, legittimata dal teorema di Gauss-Markov, si può fare

velocemente, con fattori a 2 livelli, col metodo di Yates (se si accettano le mie definizioni

di effetto) ma a questo metodo è senz’altro superiore la regressione “full-regression” che

dà informazioni anche sulla correlazione degli stimatori usati, offrendo la possibilità di

studiare velocemente la non ortogonalità attraverso la matrice di correlazione.

L’analisi della covarianza offre l’utile possibilità di interpretare graficamente i

piani fattoriali quando i livelli dei fattori sono pochi, ma con tanti fattori e livelli diventa

113 Ricordo che essa rappresenta la somma dei quadrati dovuta alla stratificazione dei dati.




251

piuttosto onerosa. Il modello sovraparametrizzato è chiaramente meno efficiente di quello

full-regression: inoltre quest’ultimo offre la possibilità di esplicitare agevolmente la

struttura degli alias in ogni situazione. Il modello cell-means è utile quando non si

condividono le mie definizioni di effetto e alias, perché consente di testare le combinazioni

lineari delle medie degli stati di prova, che più si ritengono utili: è equivalente all’analisi

dei contrast.

Nei casi presentati in seguito io applicherò il modello full-regression, e la teoria

sugli alias, per far vedere la grande potenza di questi 2 strumenti nell’interpretazione di

qualunque tipo di piano fattoriale con fattori fissi114. Il capitolo non è solo applicativo ma

contiene anche dei contenuti teorici molto importanti che ho ritenuto di proporre solo

adesso perché si capiscono meglio con dei dati già analizzati da altri.

10.2 ANOVA ONE-WAY FULL-REGRESSION

Per trattare questo argomento ci basiamo su un esempio presentato in Galetto (1995

e 1996) in cui la risposta è lo spazio di frenata sul bagnato di 5 tipi di pneumatici, i primi 2

non radiali e gli altri 3 radiali.

1 2 3 4 5

143 158 146 174 171159 150 142 179 167152 140 129 163 145156 142 139 148 147

165 166Tabella 103

La tabella ANOVA, riportata in Galetto (1995 e 1996) è la seguente:


Totale 631775 27

Media 627766,2593 1

Totale corretto 4008,740741 26 154,1823

Trattamenti 1812,607407 4 453,1519 4,53949703 2,81670509

Residuo 2196,133333 22 99,82424

Tabella 104: ANOVA

Vediamo che il tipo di pneumatico influenza significativamente con un CL=0,95, la

risposta, nel senso che la variabilità della risposta per i 5 tipi di pneumatico non può essere

114 Ripeto ciò che avevo già detto nel cap.3; la tesi si limita allo studio di fattori fissi.




252

attribuita al caso. Sappiamo che almeno un pneumatico si comporta in modo

significativamente diverso dagli altri e a noi interessa capire quali sono le effettive sorgenti

di variabilità messe in luce solo in modo aggregato dalla SStr. Ecco perché dico che, anche

quando si hanno tanti livelli, conviene sempre dividere la somma dei quadrati del fattore in

tante componenti ciascuna con un grado di libertà. Anche Galetto mette in evidenza questo

importante punto e infatti scompone la SStr in 4 componenti riguardanti 4 contrast

ortogonali e precisamente:

C1* = µ1 - µ2

C2* = µ1 + µ2 -2µ3

C3* = µ4 - µ5

C4* = 2µ1 + 2µ2 + 2µ3 - 3µ4 - 3µ5

I risultati ottenuti applicando la formula:

SS C C

c

n

i

ii

( ) =

=∑

2

1

5

portano alla seguente tabella:

SS df MS F calcolata F0,95(1,22)Trattamenti 1812,607407 4 453,1519

C1 19,6 1 19,6 0,196345091 4,300944

C2 529,2 1 529,2 5,301317467 4,300944

C3 96,33333333 1 96,33333 0,965029446 4,300944

C4 1167,474074 1 1167,474 11,69529611 4,300944

Residuo 2196,133333 22 99,82424

Tabella 105: decomposizione ortogonale di SStr

Vediamo come possiamo riottenere gli stessi risultati col modello full-regression,

per la prima volta applicato ad un fattore con più di 2 livelli:

Y = I + C1*x1 + C2*x2 + C3*x3 + C4*x4

le variabili sono codificate in modo da rappresentare i confronti che ci interessano fra i vari

livelli: essendo la variabile qualitativa, ha poco senso la codifica dei polinomi ortogonali.

Mettiamo invece gli stessi coefficienti dei contrast proposti da Galetto: ad esempio la

variabile x1 assumerà i valori (1,-1,0,0,0), x2 sarà (1,1,-2,0,0)....In forma vettoriale abbiamo la matrice X:




253

I A1 A2 A3 A4

1 1 1 1 0 2

1 1 1 1 0 2

1 1 1 1 0 2

1 1 1 1 0 2

1 1 1 1 0 22 1 -1 1 0 2

2 1 -1 1 0 2

2 1 -1 1 0 2

2 1 -1 1 0 2

2 1 -1 1 0 2

3 1 0 -2 0 2

3 1 0 -2 0 2

3 1 0 -2 0 2

3 1 0 -2 0 2

3 1 0 -2 0 2

4 1 0 0 1 -34 1 0 0 1 -3

4 1 0 0 1 -3

4 1 0 0 1 -3

4 1 0 0 1 -3

4 1 0 0 1 -3

5 1 0 0 -1 -3

5 1 0 0 -1 -3

5 1 0 0 -1 -3

5 1 0 0 -1 -3

5 1 0 0 -1 -3

5 1 0 0 -1 -3

Tabella 106: matrice X del modello FR con i contrast di Galetto

Essa porta alla soluzione β contenente C1, C2, C3, C4:

β = (XT*X)-1*XT*Y

Le stime sono le seguenti;

C SS(C)

C1 1,4 19,6

C2 4,2 529,2C3 2,833333 96,33333

C4 -2,646667 1167,474

la SS è calcolata con la solita formula di SS(C) prendendo i coefficienti della matrice

(XT*X)-1*XT; si trova che i coefficienti dei contrast sono uguali a quelli che ho usato

per codificare le variabili. Per avere questa importantissima proprietà non è condizione

necessaria l’ortogonalità statistica, è sufficiente quella algebrica115 (par. 9.3.2); in

115 Questa è una congettura che faccio io, derivante dalle molte elaborazioni fatte col modello full-regressione sempre confermata anche in tutti gli esempi illustrati nella tesi.




254

particolare i coefficienti dei polinomi ortogonali forniscono sempre contrast ortogonali

algebricamente, ecco perché sono così importanti.

L’ortogonalità algebrica implica quella statistica (e viceversa) solo se la numerosità

degli stati è costante, altrimenti non c’è nessun legame causale come accadeva per gli alias

(par. 9.3.2). Per far vedere questo facciamo un esempio con 3 livelli di numerosità 1,4,4; i

contrast:

µ1 + µ2 -2µ3

µ1 -2µ2 +µ3

non sono ortogonali algebricamente perché il prodotto scalare dei vettori associati è:

1-2-2 = -3 ≠ 0

tuttavia sono ortogonali statisticamente perché:

1-2/4-2/4 = 0

Se vogliamo continuare a usare il modello full-regression con fattori a più livelli,

dobbiamo usare delle codifiche associate a dei contrast algebricamente ortogonali. Ci sono

tante codifiche “ortogonali”: scegliamo quella che rispecchia i confronti che ci interessano

maggiormente.

In questo esempio dei pneumatici, essendo i primi 2 non radiali e gli altri radiali,

riterrei utile un confronto fra questi 2 gruppi; non ritengo quindi tanto utile il quarto

contrast usato da Galetto:

C4* = 2µ1 + 2µ2 + 2µ3 - 3µ4 - 3µ5

Peraltro l’autore citato lo usa solo per l’esigenza didattica di spiegare la decomposizione

ortogonale della devianza dei trattamenti. Ma nella realtà penso che il contrast:

C4’* = 3µ1 + 3µ2 - 2µ3 - 2µ4 - 2µ5

sarebbe più utile; esso è algebricamente ortogonale a:

C1*

= µ1 - µ2 C3* = µ4 - µ5

ma non a:

C2* = µ1 + µ2 -2µ3

che dunque va sostituito, per mantenere l’ortogonalità algebrica (che fa sì, lo ripeto, che la

soluzione delle equazioni normali FR stimi correttamente questi contrast) da:

C2’* = 2µ3 - µ4 -µ5

Cambia dunque la codifica di x2 (oltre che di x4), prima era (1,1,-2,0,0) ora è (0,0,2,-1,-1);

la matrice X diventa:

I A1 A2 A3 A4




255

1 1 1 0 0 3

1 1 1 0 0 3

1 1 1 0 0 3

1 1 1 0 0 3

1 1 1 0 0 3

2 1 -1 0 0 3

2 1 -1 0 0 32 1 -1 0 0 3

2 1 -1 0 0 3

2 1 -1 0 0 3

3 1 0 2 0 -2

3 1 0 2 0 -2

3 1 0 2 0 -2

3 1 0 2 0 -2

3 1 0 2 0 -2

4 1 0 -1 1 -2

4 1 0 -1 1 -2

4 1 0 -1 1 -2

4 1 0 -1 1 -2

4 1 0 -1 1 -2

4 1 0 -1 1 -2

5 1 0 -1 -1 -2

5 1 0 -1 -1 -2

5 1 0 -1 -1 -2

5 1 0 -1 -1 -2

5 1 0 -1 -1 -2

5 1 0 -1 -1 -2

Tabella 107: matrice X del modello FR con i miei contrast

In questo caso gli stimatori dei 4 contrast non sono completamente scorrelati fra di loro

come si vede dalla matrice (XT*X)-1:

I C1 C2 C3 C4

I 0,037333 0 0,002222222 0 0,000889

C1 0 0,1 0 0 0

C2 0,002222 0 0,031481481 0 -0,000741

C3 0 0 0 0,083333 0C4 0,000889 0 -0,00074074 0 0,00637





256

ma questo non è assolutamente un problema visto che i VIF sono praticamente uguali a 1

(chi vuole verificarlo può scrivere la matrice di correlazione e invertirla). I risultati sono:

C SS(C)

C1 1,4 19,6

C2 -7,211111 1651,768627C3 2,833333 96,33333333

C4 -0,364444 20,8496124

SOMMA 1788,551573

La differenza fra pneumatici radiali e non (C4) è dunque non significativa116 in

media, ma la differenza fra il tipo 3 e 4 e 5 è molto significativo: il tipo 3 è decisamente

migliore, dunque possiamo supporre che i pneumatici 1 e 2 siano migliori del 4 e 5. Queste

considerazioni si potrebbero capire anche tracciando un diagramma delle medie, con i

rispettivi intervalli di fiducia, come viene fatto in Galetto (1995 e 1996).

Si vede che la somma delle SS(C) dei 4 contrast è diversa da SStr = 1812,607407 e

ciò è dovuto al fatto che i 4 contrast non sono più ortogonali statisticamente ma, come il

lettore ha ormai capito, io preferisco sacrificare l’ortogonalità (in questo esempio poi il

sacrificio è quasi nullo visto che i VIF≈1) per fare dei test più interessanti.

10.3 ANOVA TWO-WAY FULL-REGRESSION

Esaminiamo un altro caso presentato in Galetto (1995 e 1996): l’esperimento

consiste in una prova di trazione su un certo prodotto: sono sperimentati 2 lotti di questo

prodotto, da entrambi si prendono 3 bobine e da queste delle spire che vengono sottoposta

a prova di trazione.

LOTTO 1 LOTTO 2 media totale media * totale

BOBINA 1 1890,9 1881,3 1889,4 1920,3 1945,4 1905,46 9527,3 18153889,06

BOBINA 2 1948,6 1936,9 1903,2 1911,6 1894,7 1919 7700,3 14776875,7

BOBINA 3 1902,1 1900,5 1927,4 1953,9 1890,4 1877,6 1908,65 9574,3 18273987,7

media 1909,638 1912,1375

totale 15277,1 15297,1

media*totale 29173723 29250158,55

Tabella 109: caso lotto-bobina

116 Si vede a occhio anche senza dividere per il residuo e confrontare con la F (tali dati sono nella tab.3).




257

La tabella ANOVA è la seguente:

df SS MS F calcolata F0,95(5,10)

Totale 16 58433129,12

Media 1 58423856,6

Totale corretto 15 9272,5175 618,1678333 1,4131887Trattamenti 5 4898,240833 979,6481667 2,2395661 3,325837

Residuo 10 4374,276667 437,4276667

Tabella 110: ANOVA

Guardando la tabella sembrerebbe che la stratificazione fatta non è significativa e la

variabilità della risposta nei 6 stati di prova è da attribuirsi al caso; infatti il test F sopra sta

testando l’ipotesi nulla:

µ11 = µ12 = µ21 = µ22 = µ31 = µ32

dove il primo indice è relativo alla bobina e il secondo al lotto.

Ciò significa che le 6 medie, quando vengono considerate insieme, non sono

significativamente diverse; quindi già sappiamo che ogni contrast che abbia tutti

coefficienti diversi da zero, sarà non significativo. Ciò non toglie che potrebbero esserci

dei contrast che non coinvolgono tutte le 6 medie, che potrebbero risultare significativi:

conviene comunque sempre scomporre la SStr in tante componenti indipendenti quanti

sono i suoi gradi di libertà: in questo caso avremo 1 componente per il lotto, 2 per la bobina e altre 2 per l’interazione fra lotto e bobina.

Si pone di nuovo il problema della codifica dei livelli per la bobina; in questo caso

in cui abbiamo un fattore a 3 livelli, la codifica più ragionevole per le 2 componenti della

bobina che dà luogo a dei contrast algebricamente ortogonali è quella dei polinomi

ortogonali: (-1,0,1) e (1,-2,1)117; ciò non è assolutamente restrittivo perché se ci fosse un

confronto privilegiato, ad esempio fra le bobina 2 e 3, la codifica sarebbe nell’ordine (0,-

1,1) e (-2,1,1). In questo caso non c’è niente che ci indichi quali bobine confrontare quindi

possiamo assegnare la codifica dei polinomi ortogonali a piacimento; a seconda della

codifica testiamo contrast diversi che forniranno diverse somme dei quadrati: l’importante,

come sempre è essere consapevoli di ciò che testiamo.

Il modello FR è:

Y = I + L*x1 + B1*y1 + B2*y2 + LB1*x1*y1 + LB2*x1*y2

La codifica dell’interazione è sempre il prodotto delle codifiche delle variabili coinvolte

nell’interazione. Per le 2 variabili della bobina uso la codifica (-1,1,0) e (1,1,-2) per

117 Il lettore che abbia capito il ragionamento fatto al capoverso precedente (e il concetto di ortogonalitàalgebrica) sa in partenza che la componente codificata (1,-2,1) risulterà non significativa.




258

ritrovare alcuni risultati riportati in Galetto (1995 e 1996). Le soluzioni alle equazioni

normali testeranno dunque i seguenti contrast:

L ⇒ µ12 + µ22 + µ32 - µ11 - µ21 - µ31 = 0 (non significativo a priori)

B1 ⇒ µ31 + µ32 - µ21 - µ22 = 0

B2 ⇒ -2µ11 - 2µ12 + µ21 + µ22 + µ31 + µ32 = 0 (non significativo a priori)

LB1 ⇒ µ11 + µ22 - µ12 - µ21 = 0

LB2 ⇒ µ12 + µ22 + µ31 - µ11 - µ21 - µ32 = 0 (non significativo a priori)

La matrice X è la seguente:

I B1 B2 L LB1 LB2

b1l1 1 -1 1 -1 1 -1

b1l1 1 -1 1 -1 1 -1

b1l1 1 -1 1 -1 1 -1

b1l2 1 -1 1 1 -1 1

b1l2 1 -1 1 1 -1 1

b2l1 1 1 1 -1 -1 -1

b2l1 1 1 1 -1 -1 -1

b2l2 1 1 1 1 1 1

b2l2 1 1 1 1 1 1

b2l2 1 1 1 1 1 1

b3l1 1 0 -2 -1 0 2

b3l1 1 0 -2 -1 0 2

b3l1 1 0 -2 -1 0 2

b3l2 1 0 -2 1 0 -2

b3l2 1 0 -2 1 0 -2

b3l2 1 0 -2 1 0 -2

Tabella 111: matrice X del modello FR

La matrice delle covarianze fra gli stimatori delle 5 componenti (più la media che non ci

interessa perché viene sempre isolata prima nell’ANOVA):

I B1 B2 L LB1 LB2I 0,064814 0 0,004629 0 -0,01388 0

B1 0 0,104166 0 -0,01388 0 -0,00694

B2 0,004629 0 0,030092 0 -0,00694 0

L 0 -0,01388 0 0,064814 0 0,004629

LB1 -0,01388 0 -0,00694 0 0,104166 0

LB2 0 -0,00694 0 0,004629 0 0,030092


Notiamo che gli stimatori delle 2 componenti della bobina sono scorrelate e così

quelle dell’interazione; questo è un caso puramente fortuito dovuto alla particolare codifica




259

che ho scelto; chi vuole può verificare che i VIF sono piccolissimi e quasi uguali a 1

dunque la non ortogonalità (ovvero la diminuzione di precisione delle stime) di questo

modello è trascurabile. La soluzione delle equazioni normali contenente, a meno di una

costante moltiplicativa, gli stimatori dei 5 contrast:

L ⇒ µ12 + µ22 + µ32 - µ11 - µ21 - µ31 = 0 (non significativo a priori)

B1 ⇒ µ31 + µ32 - µ21 - µ22 = 0

B2 ⇒ -2µ11 - 2µ12 + µ21 + µ22 + µ31 + µ32 = 0 (non significativo a priori)

LB1 ⇒ µ11 + µ22 - µ12 - µ21 = 0

LB2 ⇒ µ12 + µ22 + µ31 - µ11 - µ21 - µ32 = 0 (non significativo a priori)

è la seguente:

C SS(C)

L 0,561111111 4,857619048

B1 6,466666667 401,4506667 B=B1+B2

B2 2,613888889 227,0464103 628,4970769

LB1 -21,30833333 4358,832667 LB=LB1+LB2

LB2 0,955555556 30,3425641 4389,175231

SOMMA 5022,529927 ≠SStr

Le 2 componenti della bobina e dell’interazione si possono sommare solo perché irispettivi contrast sono ortogonali.

L’analisi di significatività dei contrast è fatta nella tabella:

Trattamenti 4898,2408 5

L 4,857619 1 4,857619 0,011105 4,96459

B1 401,45067 1 401,4507 0,9177533 4,96459

B2 227,04641 1 227,0464 0,519049 4,96459

B 628,49708 2 314,2485 0,7184011 4,10282

LB1 4358,8327 1 4358,833 9,9646936 4,96459

LB2 30,342564 1 30,34256 0,0693659 4,96459

LB 4389,1752 2 2194,588 5,0170297 4,10282

Residuo 4374,2767 10 437,4277

Tabella 113: decomposizione di SStr

Come sapevamo già, il primo, il terzo e il quinto effetto non sono significativi; l’unico

significativo è quello relativo all’interazione LB1 fra lotto e primo confronto della bobina:µ11 + µ22 - µ12 - µ21 = 0




260

e se si osservano le stime delle medie contrapposte dal contrast si capisce subito perché è

significativo; se si fosse fatta l’ANOVA solo sugli stati 11,12,21,22 i trattamenti sarebbero

risultati significativi: provare per credere. Parlare genericamente di interazione fra lotto e

bobina serve a poco secondo me; mettiamo invece in luce qual è la componente

dell’interazione che genera variabilità come è fatto in tab.11; il modello full-regression

permette tutto ciò in pochissimo tempo.

L’unico risultato uguale a quelli (presentati come risultati corretti) in Galetto (1995

e 1996) è quello dell’interazione; come spiegato nel cap.7, il metodo di Galetto ha il difetto

di non partire da delle ipotesi nulle formalizzate; in questo caso l’ipotesi nulla implicita

nella scrittura del modello additivo di Galetto è:

αβ11 = k

αβ12 = k

αβ21 = k

αβ22 = k

αβ31 = k

αβ33 = k

dove α è la bobina e β è il lotto; l’ipotesi sopra è equivalente a:

αβ11 + αβ22 -αβ12 - αβ21 = 0

αβ12 + αβ22 + αβ31 - αβ11 - αβ21 - αβ32 = 0αβ11 -αβ12 = 0

αβ31 - αβ11 = 0

che è solo parzialmente testabile perché solo le prime 2 sono funzioni stimabili e sono

proprio quelle che ho testato io, ecco perché il risultato dell’interazione è numericamente

uguale.

I risultati dei fattori in Galetto, si possono ritrovare usando un modello full-

regression ridotto in cui non ci sono le componenti dell’interazione:

Y = I + L*x1 + B1*y1 + B2*y2

in forma matriciale Y = X1*β; non riscrivo la matrice Z di questo modello perché è

assolutamente identica a quella di tab.9 senza le ultime 2 colonne LB1 e LB2; queste 2

colonne formano la matrice X2 nella terminologia che ho introdotto circa il metodo di Box-

Wilson; infatti con l’uso di questo modello si creano degli alias perché gli effetti del lotto e

della bobina saranno distorti dall’interazione cancellata dal modello. La matrice (X1

T

*X1)

-1

è la seguente:




261

I B1 B2 LI 0,062963 0 0,003704 0

B1 0 0,102564 0 -0,012820

B2 0,003704 0 0,02963 0

L 0 -0,01282 0 0,0641026

Tabella 114: matrice delle covarianze del modello FR ridotto

Come si vede le varianze degli stimatori sono diminuite rispetto a quelle del modello

completo (tab.10): è ovvio visto che non sono più gli stessi stimatori (anche se li indico

con la stessa lettera, confidando nell’intelligenza del lettore).

Si riottengono i risultati “corretti” presentati in Galetto (1995 e 1996), infatti la

soluzione delle equazioni normali è la seguente:

C SS(C)B1 6,6871795 436,0041 B=B1+B2

B2 1,1933333 48,0615 484,0656

L 0,4141026 2,6751026

ma cosa stanno testando quelle somme di quadrati? Col modello full-regression è facile

scoprirlo; basta guardare la matrice (X1T*X1)

-1*X1T; si capisce che i contrast testati, in

forma tabellare, sono:

µ11 µ12 µ21 µ22 µ31 µ32

B1 -7 -6 6 7 1 -1

B2 3 2 2 3 -5 -5

L -4 4 -4 4 -5 5

Tabella 115: contrast testati col metodo di Galetto

Coinvolgendo tutti gli stati di prova, sappiamo già che i 3 contrast non sono

significativi. Come avevamo già visto nell’esempio macchina-operatore, il metodo diGaletto introduce dei pesi delle medie veramente strani, che non hanno alcuna apparente

giustificazione; in più se si osserva il primo contrast che dovrebbe fornirci un confronto fra

le bobine, si vede che le 2 medie della bobina 3 sono pesate una volta positivamente e

una volta negativamente118 (!!!!): penso che questo sia più che sufficiente a metterci in

guardia contro i metodi che nascondono le ipotesi nulle testate; non per niente Searle et al.

118In realtà si potrebbe obbiettare che i 2 contrast di Galetto rappresentanti la bobina (trovati col modello FR ridotto) generano un sottospazio di contrast di dimensione 2 quindi SS(B)=484,056 sta testando nonnecessariamente i contrast B1 e B2 della tab.13 ma qualunque coppia di contrast da essi generata.




262

(1981) affermano “For models with interaction with all cells filled, R( α / µ , β )119

tests

nothing of use or interest .”

Questo succede perché gli effetti calcolati a partire dal modello additivo, sono

distorti dall’interazione che è trascurata in tale modello. E infatti se applichiamo il metodo

BW a questo modello ridotto, troviamo la matrice degli alias (X1T*X1)

-1*X1T*X2:

LB1 LB2

B1 0 3/13

B2 1/15 -0

L 0 - 2/13

Col metodo di Galetto si testano dunque inconsapevolmente non gli effetti dei fattori ma i

seguenti alias:

B1+3/13LB2

B2+1/15

L-2/13LB2

Questo confounding implicito nel metodo di Galetto è riferito ovviamente alle mie

definizioni di effetto per questo piano:

L = µ12 + µ22 + µ32 - µ11 - µ21 - µ31

B1 = µ31 + µ32 - µ21 - µ22

B2 = -2µ11 - 2µ12 + µ21 + µ22 + µ31 + µ32

LB1 = µ11 + µ22 - µ12 - µ21

LB2 = µ12 + µ22 + µ31 - µ11 - µ21 - µ32

Come ho detto, gli effetti si potevano definire diversamente (purché in modo

sensato120) e avrebbero portato a risultati diversi ma congruenti con quelli ottenuti da me,

perché ovviamente si sarebbero testate diverse ipotesi nulle.Cambiando definizioni, cambierebbero i numeri nella matrice degli alias ma il

concetto che il metodo di Galetto conduce a una distorsione degli stimatori dei fattori resta

sempre valido. Gli effetti si devono definire prima dell’analisi e poi si costruisce il modello

conseguente.

119 È il modo con cui Galetto calcola gli effetti dei fattori, nella notazione di Searle.

120 Cosa vuol dire sensato? Ad esempio l’effetto del lotto deve sempre e comunque contrapporre le medie del primo lotto con quelle del secondo. Un altro esempio si può vedere nella tab.13: il primo contrast non hanessun senso per testare una componente della bobina perché la terza bobina è pesata una volta positivamente e una volta negativamente (!!!).




263

Se il lettore prova a scrivere i contrast della tab.13 in termini dei parametri del

modello sovraparametrizzato, otterrebbe delle espressioni lunghe e apparentemente121

prive di senso: chi pensava che


SS(B) = SS(I+A+B) - SS(I+A)

testassero le ipotesi (in realtà non testabili come è stato chiarito nel cap.7):

α1 = α2

α2 = α3

β1 = β2

rimarrebbe molto deluso.

Galetto (11995 e 1996) presenta anche i risultati “sbagliati” ottenuti con il “Questo per

questo”; essi si potrebbero riottenere con i 2 modelli full-regression ridotti:

Y = I + L*x1

Y = I + B1*y1 + B2*y2

Lo lascio come utile esercizio al lettore che scoprirà che i risultati “sbagliati”:

SS(B) = 505,39

SS(L) = 25

testano delle cose più interessanti (secondo me) dei risultati “corretti”:

SS(B) = 484,07

SS(L) = 2,67

In particolare il lettore troverà che:

SS(B) = 505,39testa le 2 ipotesi nulle:

µ2. - µ1.

2µ3.- µ2.-µ1.

Le ipotesi sono, a mio parere, più interessanti di quelle di tab.13, presentando però il solito

inconveniente del “Questo per questo” ovvero di ignorare la presenza degli altri fattori. La

somma dei quadrati dovuta al lotto:SS(L) = 24

testa invece:

µ.2 - µ.1

Questo esempio ha messo in luce la grande potenza del modello full-regression, anche con

fattori a più livelli; nel prossimo esempio introduciamo gli alias.

121 Il primo contrast della tab.15 è assolutamente inadeguato a rappresentare una componente della bobina;gli altri devono giustificare i differenti pesi per le medie.




264

10.4 CASO IVECO

L’esperimento è stato realizzato nel 1988 in Iveco e prevedeva 1 fattore a 4 livelli e

2 fattori a 2 livelli; per ricondurlo a un piano a 2 livelli è stato semplificato da Fornasieri

(1995) Actis (1995) aggregando in 2 macrolivelli i 4 livelli del fattore A; per ora anch’io

mi limito a tale forma per commentare alcuni risultati di Fornasieri e Actis.

La risposta sperimentale è rappresentata dal consumo di automezzi pesanti,

misurato in litri/100km. I 3 fattori controllati più importanti da valutare sono:

• tipo di veicolo

• percorso

• portata

Ciascuno di essi può assumere solo 2 livelli; i livelli del veicolo sono rappresentati da 2

livelli di potenza del motore (macrolivello 0: P=330-360 CV; macrolivello 1: P=380-420

CV); i livelli del percorso sono 2 tratti stradali, il primo in autostrada (livello 0) e il

secondo in autostrada e in montagna (livello 1); la portata assume i 2 valori di 40

tonnellate (livello 0) e 44 tonnellate (livello 1).

Il problema è che i 2 stati di prova in cui il veicolo ha potenza maggiore e la portata

è minore non possono essere sperimentate, quindi si ha un frazionamento forzato 6/8: il

piano diventa quindi un “3/4 di John”. Indicando con A il veicolo, B il percorso e C la

portata, abbiamo i seguenti dati della risposta Y:

Veicolo Percorso Portata ConsumoA B C Y

35,9 36,6 36,7 36,737,2 36,5 35,6 36,6

38,3 38,5 38,8 40,739,7 38,4 37,5 40

40 40,3 39,4 41,5

39,2 39,6 40,4 40,740 42,2 41,5 41,6

43,4 42,6 42,5 43,9

41,9 42,5 44,5 44,841,3 44,5 45,5 45

Tabella 116

Calcoliamo per ogni cella, media, totale, e media per totale:




265

Numerosità Media Totale Media*totale

i 8 36,475 291,8 10643,405

a

b 8 38,9875 311,9 12160,20125

ab

c 4 40,3 161,2 6496,36

ac 8 40,65 325,2 13219,38

bc 4 43,1 172,4 7430,44

abc 8 43,75 350 15312,5

Totale 40 M= 40,3125 T= 1612,5 S= 65262,28625

M*T= 65003,90625

SStr= S-M*T= 258,38

Tabella 117

Otteniamo la seguente tabella ANOVA one-way:

df SS MS F calcolata F0,05(5,34)

Totale 40 65301,05

Media 1 65003,90625

Totale corretto 39 297,14375 7,619070513 6,6827486

Trattamenti 5 258,38 51,676 45,325439 2,4936142

Residuo 34 38,76375 1,140110294

Tabella 118: ANOVA one-way del caso Iveco

Vediamo che la stratificazione fatta è molto significativa, anche perché con 40

prove si è riuscito a tenere il residuo molto basso. Come sempre dobbiamo scomporre la

SStr in 5 componenti che mettano in luce le effettive sorgenti di variabilità; queste 5

componenti non saranno 5 effetti puri ma necessariamente aliased secondo i concetti

esposti nel cap.9.

Prima di affrontare l’analisi in modo corretto, col modello full-regression e la teoriadegli alias, usiamo la procedura di Galetto usata (non correttamente) da Fornasieri (1995),

per spiegare alcuni errori contenuti nella sua elaborazione del caso Iveco.

10.4.1 ERRORI NELL’ANALISI DI FORNASIERI (1995)

Il lettore avrà notato che in precedenza ho spesso criticato Fornasieri per i seguenti

motivi:

• non ha capito la differenza fra il modello full-regression e quello sovraparametrizzato

• non ha capito che il metodo di Box-Wilson si basa sull’uso del modello full-regression

(e su delle particolari definizioni di effetto e alias: quelle che ho dato io)

• non considera la numerosità degli stati di prova




266

Inoltre anche con 6 stati di prova, usa dei modelli ridotti con soli 4 parametri ma questo

fatto è meno grave degli altri, perché per metterne 6 avrebbe dovuto intuire la natura di

spazio vettoriale della struttura degli alias. Comunque questi difetti nell’approccio di

Fornasieri, non possono ovviamente condurla a dei risultati corretti anche perché in più:

• commette degli errori di calcolo non trascurabili

• dimostra di non aver capito del tutto le equazioni normali

Giustifichiamo queste affermazioni; intanto calcolo la SSreg di tutti modelli (gerarchici

visto che per ora uso il metodo di Galetto) possibili; in generale ho usato il metodo delle

soluzioni basiche (cap.7): per alcuni modelli (quelli segnati in neretto) la matrice del

sistema ridotto a cui porta tale metodo è diagonale per cui si può usare il “Questo per

questo”.

1 SS (I) 65003,90625

2 SS (I+A) 65098,91042

3 SS (I+B) 65082,5865

4 SS (I+C) 65181,58229

5 SS (I+A+B) 65177,59067

6 SS (I +A+C) 65182,91563

7 SS (I+B+C) 65260,26254

8 SS (I+A+B+AB) 65178,17083

9 SS (I+ A+C+AC) 65182,91563

10 SS (I+B+C+BC) 65260,83292

11 SS (I+A+B+C) 65261,59588

12 SS (I+A+B+C+AB) 65262,17604

13 SS (I+A+B+C+AC) 65261,59588

14 SS (I+A+B+C+BC) 65262,16625

15 SS (I+A+B+C+AB+AC) 65262,17604

16 SS (I +A+B+C+AB+BC) 65262,28625

17 SS (I+A+B+C+AC+BC) 65262,16625

18 SS (I+A+B+C+AB+AC+BC) 65262,28625

19 SS( I+A+B+C+AB+AC+BC+ABC) 65262,28625

Tabella 119: SSreg di tutti possibili modelli gerarchici

Solitamente non si sarebbe potuta applicare la regola del “Questo per questo” ai modelli:

SS (I +A+C)

SS (I +A+B+C+AB+BC)

SS (I+A+B+C+AB+AC+BC)

In questo caso si può perché i modelli sopra sono indistinguibili (in termini di SSreg)rispettivamente da:

SS (I +A+C+AC)




267

SS (I +A+B+C+AB+BC+AC)

SS (I+A+B+C+AB+AC+BC+AC)

per i quali si può applicare sempre la regola del “Questo per questo”; come mai c’è questa

indistinguibilità? Semplice: mancano i 2 stati di prova a e ab dunque già nel modello

ridotto 9:

Y=I+A+C+AC

nascono degli alias; infatti il modello 9 ignora il fattore B e corrisponde alla proiezione

degli stati in cui B è al livello alto sugli stati in cui B è al livello basso (o viceversa).

Proiettando, si ottiene un piano irregolare (3/4 di John) ridotto con 3 stati di prova dunque

nel modello solo 3 parametri potranno essere indipendenti. Presentiamo il piano

sperimentale, avvalendoci del solito cubo:

Figura 36: proiezione del piano originario sugli stati (i,c,ac) che ignora il fattore B

È evidente che il piano proiettato è ridotto perché manca lo stato di prova a dunque

è assolutamente ovvio che in questo caso:SS(I+A+C+AC) ≡ SS(I+A+C)

perché il primo modello non aggiunge delle equazioni normali linearmente indipendenti al

secondo; Fornasieri non si rende conto di questo fatto e pag.136 scrive:

SS(AC) = SS(I+A+C+AC) - SS(I+A+C) = 0,025

visto che fa degli errori di calcolo nel risolvere le equazioni normali, non trova un risultato

nullo, ma avrebbe dovuto capire a priori che i 2 modelli avevano la stessa SSreg.

i a

ab b

c

bc abc

ac




268

Per lo stesso motivo sono indistinguibili anche altre coppie di modelli: riferendomi

ai numeri di tab.19, si vede che sono indistinguibili le coppie di modelli (6,9), (11,13),

(12,15), (14,17) e (16,18) indicati sopra.

In più la coppia (16,18) è indistinguibile dal modello completo 19 ovvero:

SS(I+A+B+C+AB+BC+AC+ABC)=SS(I+A+B+C+AB+BC+AC)=SS(I+A+B+C+AB+BC)

questo è dovuto al fatto che abbiamo 6 stati di prova dunque nei modelli possiamo mettere

anche 10000 parametri ma le equazioni normali indipendenti restano al massimo 6,

dunque i modelli con 6 parametri (stimabili indipendentemente) hanno tutti la stessa

SSreg. Fornasieri di nuovo non si rende conto di ciò e scrive a pag.139:

SS(ABC)=SS(I+A+B+C+AB+BC+AC+ABC)-SS(I+A+B+C+AB+BC+AC)=0,26626

(!!!)

c’è di nuovo un errore di calcolo ma chi ha capito la teoria delle equazioni normali

dovrebbe sapere a priori che in questo piano quella differenza è identicamente nulla quindi

se trova un risultato diverso dovrebbe capire di aver fatto un errore di calcolo e rimediare.

Actis (1995) è invece consapevole di questo problema e a pag.310 della sua tesi spiega ciò

che ho esposto io qua.

Una volta che abbiamo le SSreg dei modelli possiamo calcolare l’ “effetto”

(aliased) dei fattori e interazioni in vari modi, senza peraltro sapere cosa stiano testando le

varie differenze di somme di quadrati (per saperlo dobbiamo applicare FR).

2-1 5-3 6-4 11-7 14-10

SS (A) 95,00416667 95,00416667 1,333333333 1,333333333 1,333333333

3-1 7-4 5-2 11-6 13-9

SS (B) 78,68025 78,68025 78,68025 78,68025 78,68025

4-1 6-2 7-3 11-5 12-8

SS (C) 177,6760417 84,00520833 177,6760417 84,00520833 84,00520833

8-5 12-11 16-14 15-13 18-17

SS (AB) 0,580166667 0,580166667 0,12 0,580166667 0,12

9-6 13-11 15-12 17-14 18-16

SS (AC) 0 0 0 0 0

10-7 14-11 17-13 16-12 18-15

SS (BC) 0,570375 0,570375 0,570375 0,110208333 0,110208333

19-18

SS (ABC) 0

Tabella 120: modi per calcolare gli effetti aliased di fattori e interazioni usando modelli gerarchici




269

La tab.21 è molto interessante perché vediamo che molti risultati degli

“effetti”(aliased) sono uguali: in generale, questo non capita con differenti ripetizioni,

(ricordiamoci della tab. 24 del cap.7 dove tutti i risultati venivano diversi); ciò è dovuto a 2

motivi:

• mancano degli stati di prova, dunque, come già detto, alcuni modelli sono

indistinguibili da altri e dunque sono ridondanti

• alcune proiezioni del piano sperimentale risultano bilanciate o particolari (numerosità

proporzionali): ad esempio se consideriamo i 2 macrostati di B al livello alto e basso,

abbiamo che entrambi i macrostati hanno 20 dati; oppure se consideriamo la proiezione

sui 2 fattori A e B

n i = 12

n a =8

n b =12

n ab =8

vediamo che le numerosità sono proporzionali e lo stesso vale per la proiezione sui

fattori B e C

n i = 8

n b =8

n c =12

n bc =12

non è quindi un caso che l’ “effetto” (aliased) del fattore B sia uguale in qualunque modovenga calcolato (in ogni modo ricordiamoci che non sappiamo cosa stiamo

testando)...Invece l’effetto (aliased) di A passa da 95 a 1,3333 e col modello FR e il

metodo BW vedremo perché. Per ora proseguiamo ad illustrare gli errori di Fornasieri:

l’autrice citata usa il modello:

Y=I+A+B+AB

e vi applica il metodo BW, non replicando le righe delle matrici X1 e X2 : ciò va bene solo

se la numerosità delle celle è costante e in questo esempio non lo è; le “classi di

equivalenza” che Fornasieri calcola:

I+1/2C+1/2BC

A+1/2C+1/2BC

B+1/2AC+1/2ABC

AB+1/2AC+1/2ABC

sono dunque errate122.

122 Gli alias che calcola sono stimabili, nel senso che appartengono al sottospazio vettoriale degli alias diquesto piano, ma non sono associati a quel modello (in questo senso sono errate).




270

Col modello FR si vede che gli alias associati a quel modello in realtà sono:

I+1/3C+2/3AC,

A+2/3C+1/3AC

B+1/3BC+2/3ABC

AB+2/3BC+1/3ABC

Ma anche se li avesse calcolate correttamente, avrebbe sbagliato dopo (pag.122)

quando associa gli alias calcolati col metodo BW (full-regression) a delle differenze fra

delle somme di quadrati123 (modello sovraparametrizzato) della tabella 19: come se non

bastasse, Fornasieri fa degli errori di calcolo nel risolvere le equazioni normali

sovraparametrizzate. In realtà i 4 alias sopra vanno associati alle somme di quadrati dei

contrast contenuti nel vettore soluzione delle equazioni normali full-regression sul modello

Y=I+A+B+AB, il che è equivalente a fare:

SS(A) = SS(I+A+B+AB)-SS(I+B+AB)

SS(B) = SS(I+A+B+AB)-SS(I+A+AB)

SS(AB) = SS(I+A+B+AB)-SS(I +A+B)

coi modelli scritti in forma FR.

Un altro errore è che considerando un modello ridotto con 4 parametri, il residuo viene ad

avere 36 gradi di libertà al posto di 34 e quindi in esso vi è una parte dei parametritrascurati nel modello ridotto.

Fornasieri usa poi un altro modello, Y=I+B+C e ripete tutti gli errori illustrati al

capoverso precedente. L’errore più grosso però lo fa quando usa l’ultimo modello a

pag.132:

(1) Y=I+A+B+C+AB+AC+BC+ABC

All’inizio dice “..con 6 stati di prova potremmo stimare la significatività di 6 classi diequivalenza”. Poi però afferma che col modello (1) “possiamo stimare le 8 quantità

presenti nel modello completo”(!!!!!!); invece nel modello (1) solo 6 parametri sono

indipendenti quindi 2 devono essere per forza nulli e gli altri non rappresentano gli effetti

puri ma aliased. Non avendo capito questo, Fornasieri fa gli errori già citati:

SS(AC) = SS(I+A+C+AC) - SS(I+A+C) = 0,025

SS(ABC)=SS(I+A+B+C+AB+BC+AC+ABC)-SS(I+A+B+C+AB+BC+AC)=0,26626

123 L’alias dell’interazione AB+2/3BC+1/3ABC è l’unico che può essere associato alla somma di quadraticalcolata col metodo di Galetto, perché con questo metodo è l’unico effetto calcolato a partire dal modelloY=I+A+B+AB




271

e nella tabella ANOVA assegna 8 gradi di libertà (con 6 stati di prova!!!!!) ai parametri del

modello (1) e solo 32 al residuo: il lettore che conosce l’analisi della varianza si rende

conto che ciò è completamente sbagliato.

Il caso Iveco è stato esaminato invece con molta lucidità da Actis (1995) che

giustamente assegna 6 gradi di libertà ai parametri del modello e 34 al residuo. Actis

dichiara che i 6 parametri del modello sono aliased ammettendo di non sapere trovare il

confounding di un piano così irregolare.

10.4.2 FULL-REGRESSION

In una situazione del genere:

Figura 37: caso Iveco (3/4 di John)

la prima cosa che l’analista dovrebbe fare è rivolgersi allo sperimentatore con onestà

intellettuale, facendogli capire che con 6 stati di prova può stimare solo 5 parametri (più la

media) aliased con i parametri non considerati. Quindi lo sperimentatore deve indicare 5

effetti che non vuole confusi fra di loro (come in tutti piani ridotti, anche quelli regolari);

i 2 effetti trascurati andranno necessariamente a distorcere le stime dei 5 effetti principali.Uno degli svantaggi nell’uso (in questo caso forzato) di una frazione irregolare

come questa, è che i parametri cancellati dal modello distorcono le stime di tanti parametri

mentre nelle frazioni regolari un parametro cancellato dal modello distorce solo una stima;

per poter affrontare adeguatamente lo studio delle frazioni irregolari è dunque

assolutamente necessario conoscere la struttura degli alias.

Supponiamo che lo sperimentatore ci abbia detto che non vuole confondere A, B,

C, AB e BC. In questo caso usiamo il modello Y=I+A+B+C+AB+BC, le cui matrici X1 e

X2 sono:

i a

ab b

c

bc abc

ac




272

I A B C AB BC AC ABC

i 1 -1 -1 -1 1 1 1 -1

i 1 -1 -1 -1 1 1 1 -1

i 1 -1 -1 -1 1 1 1 -1

i 1 -1 -1 -1 1 1 1 -1

i 1 -1 -1 -1 1 1 1 -1i 1 -1 -1 -1 1 1 1 -1

i 1 -1 -1 -1 1 1 1 -1

i 1 -1 -1 -1 1 1 1 -1

b 1 -1 1 -1 -1 -1 1 1

b 1 -1 1 -1 -1 -1 1 1

b 1 -1 1 -1 -1 -1 1 1

b 1 -1 1 -1 -1 -1 1 1

b 1 -1 1 -1 -1 -1 1 1

b 1 -1 1 -1 -1 -1 1 1

b 1 -1 1 -1 -1 -1 1 1

b 1 -1 1 -1 -1 -1 1 1

c 1 -1 -1 1 1 -1 -1 1c 1 -1 -1 1 1 -1 -1 1

c 1 -1 -1 1 1 -1 -1 1

c 1 -1 -1 1 1 -1 -1 1

ac 1 1 -1 1 -1 -1 1 -1

ac 1 1 -1 1 -1 -1 1 -1

ac 1 1 -1 1 -1 -1 1 -1

ac 1 1 -1 1 -1 -1 1 -1

ac 1 1 -1 1 -1 -1 1 -1

ac 1 1 -1 1 -1 -1 1 -1

ac 1 1 -1 1 -1 -1 1 -1

ac 1 1 -1 1 -1 -1 1 -1

bc 1 -1 1 1 -1 1 -1 -1bc 1 -1 1 1 -1 1 -1 -1

bc 1 -1 1 1 -1 1 -1 -1

bc 1 -1 1 1 -1 1 -1 -1

abc 1 1 1 1 1 1 1 1

abc 1 1 1 1 1 1 1 1

abc 1 1 1 1 1 1 1 1

abc 1 1 1 1 1 1 1 1

abc 1 1 1 1 1 1 1 1

abc 1 1 1 1 1 1 1 1

abc 1 1 1 1 1 1 1 1

abc 1 1 1 1 1 1 1 1

Tabella 121: matrici X1 e X2

La matrice delle covarianze fra gli stimatori degli effetti aliased è:

I A B C AB BC0 03125 0 01562 0 -0 01563 0 0

A 0 01562 0 04687 0 -0 03125 0 0B 0 0 0 03125 0 0 01562 -0 01562

- -

AB 0 0 0 01562 0 0 04687 -0 0312BC 0 0 -0 01563 0 -0 03125 0 04687Tabella 122: matrice delle covarianze




273

Da essa ricaviamo l’inversa della matrice di correlazione e dunque i VIF, che vediamo

essere tutti compresi fra 1 e 2 dunque la non ortogonalità124 del piano non è preoccupante.

1 25 -0 3062 0 0 30619 0 0-0 3062 1 875 0 1 125 0 0

0 0 1 25 0 -0 3062 0 30619

0 0 -0 3062 0 1 875 1 1250 0 0 30619 0 1 125 1 875

Tabella 123: inversa della matrice di correlazione

La matrice degli alias è la seguente:

AC ABC

A 1 0B 0 1C -1 0AB 0 1

0 -1

La base che abbiamo scelto è corrispondente ai seguenti alias:

I+AC

A+ACB+ABC

C-AC

AB+ABC

BC-ABC

le cui somme di quadrati si calcolano con la solita formula SS(C): per sapere i coefficienti

del contrast, si guarda come sempre la matrice (X1T*X1)

-1*X1. Si ottiene:

C SS(C)I+AC 39,965625 51112,0378

A+AC 0,25 1,33333333

B+ABC 1,403125 63,0003125

C-AC 1,984375 84,0052083

AB+ABC 0,075 0,12

BC-ABC 0,071875 0,11020833

124 Spero che a questo punto il lettore abbia capito che la non ortogonalità statistica si riflette in unadiminuzione di precisione della stima puntuale (perché aumenta la varianza del relativo stimatore...)




274

Abbiamo così ritrovato alcuni dei risultati della tab.21 e gli altri si potrebbero

ritrovare tutti scrivendo opportuni modelli ridotti, come ho mostrato nel par. 8.4.1.

Vediamo quale alias è significativo:

SS(C) df MS F calcolata F0,95

(1,34)

Trattamenti 258,38 5

A+AC 1,33333333 1 1,33333333 1,1694775 4,130015441

B+ABC 63,0003125 1 63,0003125 55,258086 4,130015441

C-AC 84,0052083 1 84,0052083 73,681651 4,130015441

AB+ABC 0,12 1 0,12 0,105253 4,130015441

BC-ABC 0,11020833 1 0,11020833 0,0966646 4,130015441

Residuo 38,76375 34 1,1401103

Tabella 124: decomposizione non ortogonale di SStr

Possiamo avere 2 possibili interpretazioni:

• Se A ha un effetto significativo positivo, anche AC ha un’interazione significativa

negativa (visto che è importante considerare il segno?) e il loro alias è non significativo;

in questo caso AC aumenta di molto il valore di C e infatti l’alias C-AC è molto

significativo

• Se A non è significativo, nemmeno AC lo è e gli unici effetti significativi

sembrerebbero B e CPer confermare l’analisi, soprattutto il poter trascurare AB, BC e ABC, si possono

usare modelli ridotti che testano altri alias, sempre generati comunque da quelli di tab.25; a

questo riguarda bisogna stare molto attenti perché le congetture che si fanno devono

utilizzare sempre degli alias indipendenti.

Coi modelli ridotti si ritrovano tutti risultati (quando ciò avviene, li segno in neretto) della

tab.19.

Dal modello Y =I+A+B+AB si trovano gli alias:

A+2/3C+1/3AC SS= 95,00416

B+1/3BC+2/3ABC SS=78,20416

AB+2/3BC+1/3ABC SS=0,58016

Dal modello Y=I+B+C+BC si trovano gli alias:

B-1/3AB+2/3ABC SS=72,93037

C+2/3A-1/3AC SS=177,67604

BC+2/3AB-1/3ABC SS=0,57037

Dal modello Y=I+A

A+2/3C+1/3AC SS=95,00416




275

Dal modello Y=I+B:

B+1/5BC-1/5AB+3/5ABC SS=78,68025

Dal modello Y=I+C:

C+2/3A-1/3AC SS=177,667604

In particolare questo ultimo risultato conferma la prima ipotesi ovvero che sia A che AC

siano significativi e infatti con l’aggiunta di A (per 2/3) si passa da

SS(C-AC) = 84,00521 a

SS(C+2/3A-1/3AC)= 177,667604

Questo è confermato anche da:

SS(A+2/3C+1/3AC) = 95,00416

perché sappiamo che A+AC è non significativo, A+1/3AC è già più significativo125 e con

l’aggiunta di 2/3C diventa molto significativo. La mia analisi su tutti gli effetti

(forzatamente qualitativa visto che il piano è ridotto) è dunque la seguente:

La potenza del motore (A), e la portata (C) aumentano significativamente con

CL≈95% il consumo di carburante e così pure il tratto in montagna (B) rispetto alla sola

autostrada; l’interazione fra potenza del motore e portata (AC) lo riduce in modo

significativo: ciò cosa vuol dire? Pensiamo al significato dell’interazione (uso il simbolo

<< per dire significativamente negativo):

AC = µ101 + µ000 +µ111 + µ010 - µ100 - µ001 - µ110 - µ011 << 0

Quindi, visto che si vuole ridurre il consumo, conviene usare un veicolo con

potenza minore quando la portata è minore e potenza maggiore con portata maggiore: è

questa una scoperta che può portare dei notevoli vantaggi economici; le altre interazioni

sembrano esercitare un’azione quasi irrilevante sul consumo.

Visto che l’interazione AC sembra significativa qualcuno potrebbe essere tentato di

applicare il metodo BW su un modello contenente AC: rimarrebbe deluso perchétroverebbe la matrice (X1

T*X1) non invertibile perché, per questo piano, non esiste un

modello che ponga in alias separati i 4 parametri che ritengo essere significativi

(A,B,C,AC); dobbiamo quindi accontentarci dell’analisi fatta con gli altri modelli.

Questo è un caso fortunato in cui con 5 gradi di libertà si riesce a fare un’inferenza

abbastanza convincente (e comunque non rigorosa, perché ci vorrebbero 8 stati di prova)

su 7 effetti; ciò è dovuto anche al fatto che l’analisi dei VIF ci dice di poter trascurare la

non ortogonalità del piano.

125 Nel senso che ha un P-value maggiore.




276

10.4.3 ESPERIMENTO COMPLETO

Abbiamo detto che in realtà non vi erano solo 2 livelli della potenza ma 4

(P=330CV, P=360CV, P=380CV, P=420CV) per cui la stratificazione completa del piano

era:

Potenza (A) 1 1 2 2 3 3 4 4

Percorso (B) 1 2 1 2 1 2 1 2

1 35,9 38,3 37,2 39,7

1 36,6 38,5 36,5 38,4

1 36,7 38,8 35,6 37,5

Portata (C) 1 36,7 40,7 36,6 40

2 40 43,4 39,2 41,9 40 41,3

2 40,3 42,6 39,6 42,5 42,2 44,5

2 39,4 42,5 40,4 44,5 41,5 45,5

2 41,5 43,9 40,7 44,8 41,6 45

Tabella 125: esperimento completo

In realtà le 4 replicazioni nei 10 stati di prova sono sempre state fatte nell’ordine da

4 autisti diversi, per cui, volendo tenere conto anche di questo fattore, non si avrebbero più

gradi di libertà per il residuo; bisogna dunque forzatamente trascurare il fattore autista

anche se ciò potrebbe essere non appropriato.

Le medie per ogni stato di prova sono riportate nella tabella sotto:

Potenza (A) 1 1 2 2 3 3 4 4

Percorso (B) 1 2 1 2 1 2 1 2

Portata (C) 1 36,475 39,075 36,475 38,9

2 40,3 43,1 39,975 43,425 41,325 44,075

Tabella 126: medie negli stati di prova

Inizialmente non c’era il veicolo a potenza 2 (360CV) e si vede dunque che nonerano sperimentati gli stati di prova con:

• alta potenza (380 e 420) e bassa portata

• bassa potenza (330) e alta portata

perché non esistevano fisicamente i veicoli per sperimentarli. Come mai ciò? Può darsi che

da prove precedenti fosse risultato che simili veicoli consumassero troppo: se così fosse,

sarebbe confermata l’interazione significativamente negativa fra potenza e portata che

ho trovato nel paragrafo precedente (considerando però anche il veicolo 2).

Si era aggiunto il veicolo a potenza 2 proprio per valutare l’introduzione di unveicolo a potenza bassa (360) ma, se è giusta l’analisi semplificata del paragrafo




277

precedente, l’interazione AC resta significativa, dunque per portate maggiori una potenza

minore non ridurrà significativamente il consumo.

Ora che abbiamo a disposizione la stratificazione completa (10 stati), possiamo

vedere se la stratificazione semplificata (5 macrostati) del paragrafo precedente

rappresentava adeguatamente la realtà. Rifacciamo la tabella ANOVA con 10 trattamenti:


Totale 65301,05 40

Media 65003,90625 1

Totale

corretto

297,14375 39 7,619071

Trattamenti 262,93125 9 29,21458 25,617464 2,210697

Residuo 34,2125 30 1,140417

Tabella 127: ANOVA one-way dell’esperimento completo

La differenza fra SStr_c (completo) e SStr_s (semplificato), ha 4 gradi di libertà e

va confrontata col nuovo residuo per vedere se la semplificazione fatta prima era

ammissibile:

SStr_c - SStr_s = 262,93125 - 258,38 = 4,55125

F calc. = (4,55125/4) / 1,140417 = 0,997716 < F0,95 (4,30) = 2,689632

dunque la conglobazione dei 4 livelli di potenza in 2 livelli era ammissibile; spero che il

lettore si renda conto che l’ipotesi nulla testa sopra, posta nei parametri del modello, è così

formalizzata:

µ111 = µ211

µ121 = µ221

µ312 = µ412

µ322 = µ422

È inutile, quindi a questo punto costruire un modello FR con 10 parametri e ricavare la

struttura degli alias col metodo BW perché sarebbe di difficile interpretazione, visto che:

• il piano è irregolare

• ci sono 3 componenti per il fattore potenza

Si possono però fare altre considerazioni interessanti; ad esempio sul nuovo veicolo 2

(P=360CV), si può verificare il fatto che non vi sia interazione significativa fra percorso e portata, visto che è l’unico veicolo provato sia con 40t che 44t.




278

La tabella ANOVA, limitatamente al veicolo 2, è la seguente:

SS df MS F calcolata F0,95 (.,12)

Totale 25310,39 16

Media 25209,50063 1Totale corretto 100,889375 15 6,725958

Trattamenti 91,841875 3 30,61396

B 64,400625 1 64,40063 85,41669 4,7472212

C 27,300625 1 27,30062 36,20973 4,7472212

BC 0,140625 1 0,140625 0,186516 4,7472212

Residuo 9,0475 12 0,753958

Tabella 128: ANOVA per il veicolo 2 (P=360CV)

Come si vede l’interazione BC è irrilevante per il veicolo 2: questo conferma ciò

che ho trovato nel paragrafo precedente con un’analisi approssimata (perché ci sono solo 6

stati su 8). Possiamo ancora fare qualche verifica: ad esempio nel caso dei 4 stati a 40t di

portata, possiamo verificare che l’interazione AB non è significativa

SS df MS F calcolata F0,95 (.,12)

Totale 22813,13 16

Media 22778,356 1Totale corretto 34,774375 15 2,318292

Trattamenti 25,311875 3 8,437292 10,69987

B 25,250625 1 25,25063 32,02193 4,747221

A 0,030625 1 0,030625 0,038838 4,747221

AB 0,030625 1 0,030625 0,038838 4,747221

Residuo 9,4625 12 0,788542

Tabella 129: ANOVA per le portate basse

In questo caso, oltre a confermare il fatto che AB non è significativo (limitatamente

a basse portate) scopriamo una cosa molto interessante: che per le basse potenze,

l’aumento di potenza non comporta un aumento significativamente maggiore di consumo.

Una tabella simile a quella sopra si ha se confrontiamo i veicoli 2 e 3 con 44t di portata: la

potenza A e l’interazione AB fra potenza e percorso restano non significative; se si

confrontano invece i veicoli 3 e 4 si trova che la potenza A aumenta il consumo in modo

significativo. Non presento i risultati di questi ultimi 2 confronti, ottenibili, come quelli di

tab. 26 e 27, con il metodo di Yates.




279

Alla fine possiamo dire che:

• il tratto in montagna aumenta regolarmente il consumo

• la portata aumenta regolarmente il consumo

• l’interazione fra portata e potenza aumenterebbe ulteriormente il consumo e infatti io

penso che per questo motivo non fossero stati realizzati veicoli a bassa potenza per

portate alte e ad alta potenza per portate basse; infatti il nuovo veicolo (P=360CV) non

diminuisce il consumo in modo significativo da quello con P=380CV proprio per

l’interazione fra portata e potenza

• la potenza aumenta significativamente il consumo solo per potenze alte, dunque il

nuovo veicolo (P=360CV) può essere utilmente utilizzato per portate basse in

alternativa al veicolo con P=330CV; se si preferisce usare veicoli a potenza minore, si

può usare il veicolo 2 anche per portate a 44t al posto di quello a P=380CV: il consumo

non è significativamente diverso

• le altre interazioni non sembrano significative

Questo caso, più vicino alla realtà, ci fa capire che per casi complessi è meglio

condurre delle analisi semplificate e parziali, piuttosto che scrivere dei modelli lunghi che

danno luogo a delle matrici enormi e che forniscono risultati difficilmente interpretabili. In

questo caso poi l’obiettivo primario dell’esperimento reale non era tanto scoprire la

significatività dei fattori quanto vedere se il nuovo veicolo con P=360CV poteva essere più

efficiente degli altri.

10.5 PIANO NON GEOMERICO DI PLACKETTT-BURMAN A 12STATI PER 5 FATTORI

In realtà il piano in questione è solo simulato perché su Box et al. (1978) sono

riportati i dati del piano completo 25 non replicati in cui si stimano gli effetti di tutti fattori

e delle loro interazioni. Erano risultati significativi i fattori B, D e E e le interazioni BD e

DE: Box e Meyer (1993) simulano su quei dati un piano PB a 12 stati, per mettere inrisalto il fatto che la complessa struttura degli alias di quel piano (che abbiamo già trattato

nel par. 8.5.1 e par. 9.5) impedisce di scoprire fattori e interazioni importanti e infatti Box

e Meyer propongono un approccio bayesiano all’analisi dei piani fattoriali.

Io invece mostrerò che è sufficiente abbandonare la base ortogonale che di solito

viene considerata; come detto nel par. 9.5, se si prende una base non ortogonale, si

migliora di molto la potenza del piano PB, nel senso che si riesce a separare molti elementi

in più rispetto a quanto viene fatto con l’analisi classica (ortogonale). Il piano simulato,

con la matrice di Hadamard e i valori delle osservazioni, è il seguente:




280

I A B C D E ? ? ? ? ? ? Y

ac 1 1 -1 1 -1 -1 -1 1 1 1 -1 1 56abd 1 1 1 -1 1 -1 -1 -1 1 1 1 -1 93bce 1 -1 1 1 -1 1 -1 -1 -1 1 1 1 67acd 1 1 -1 1 1 -1 1 -1 -1 -1 1 1 60

abde 1 1 1 -1 1 1 -1 1 -1 -1 -1 1 77abce 1 1 1 1 -1 1 1 -1 1 -1 -1 -1 65bcd 1 -1 1 1 1 -1 1 1 -1 1 -1 -1 95cde 1 -1 -1 1 1 1 -1 1 1 -1 1 -1 49de 1 -1 -1 -1 1 1 1 -1 1 1 -1 1 44ae 1 1 -1 -1 -1 1 1 1 -1 1 1 -1 63b 1 -1 1 -1 -1 -1 1 1 1 -1 1 1 63i 1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 -1 61

Tabella 130: matrice di Hadamard

Già sappiamo che, usando il metodo BW sul modello corrispondente alla matrice sopra,otteniamo la base ortogonale:







(1/3) * (-AB+AC-AD+AE+BC-BD-BE+CD-CE-DE) + interazioni di ordine superiore(1/3) * (-AB-AC-AD+AE-BC+BD-BE+CD-CE-DE) + interazioni di ordine superiore

(1/3) * (AB+AC-AD-AE-BC-BD-BE-CD+CE+DE) + interazioni di ordine superiore




Se trascuriamo i termini di ordine superiore al primo (come viene fatto anche in Box e

Meyer 1993), possiamo stimare i seguenti alias:

A + (1/3)*(-BC+BD+BE-CD-CE-DE) = 2,916667

B + (1/3)*(-AC+AD+AE-CD+CE-DE) = 10,58333

C + (1/3)*(-AB+AD+AE-CD+CE-DE) = -0,75

D + (1/3)*(AB-AC-AE-BC-BE-CE) = 3,583333

E + (1/3)*(AB-AC-AD+BC-BD-CD) = -5,25

(1/3) * (-AB+AC-AD+AE+BC-BD-BE+CD-CE-DE) = -1,083333

(1/3) * (-AB-AC-AD+AE-BC+BD-BE+CD-CE-DE) = 1,083333

(1/3) * (AB+AC-AD-AE-BC-BD-BE-CD+CE+DE) = -4,416667

(1/3) * (-AB-AC-AD-AE+BC+BD-BE-CD-CE-DE) = 3,583333(1/3) * (-AB-AC+AD-AE-BC-BD-BE+CD+CE-DE) = -0,25

(1/3) * (-AB+AC+AD-AE-BC-BD+BE-CD-CE+DE) = -4,916667




281

I numeri sopra sono delle stime dei contrast; da essi posso passare alle somme dei

quadrati elevando al quadrato e moltiplicando per 12 e poi dovrei confrontare con il

residuo col test F. C’è però un problema: l’esperimento reale non è replicato nei 32 stati

dunque non si ha una stima del residuo infatti Box et al. (1978) lo analizzano ricorrendo

alle carte di probabilità seminormali, senza fare l’ANOVA.

Io però ho bisogno di una stima del residuo per confrontare i 2 approcci alla

struttura degli alias, quello tradizionale con la base ortogonale e quello mio con la base non

ortogonale trovata nel par. 9.6. Come stimo allora il residuo? Guardo tutto il piano

completo con i 32 stati di cui fornisco i dati nella tab. 27

i 61 d 69 e 56 de 44a 53 ad 61 ae 63 ade 45b 63 bd 94 be 70 bde 78

c 53 cd 66 ce 59 cde 49ac 56 acd 60 ace 55 acde 42

54 95 67 81abc 61 abcd 98 abce 65 abcde 82Tabella 131: esperimento completo

Da questa si calcolano facilmente tutti gli effetti; nella tab. 28 riporto le 32 somme dei

quadrati:

I 137288 AD 6,125 ABC 18 BDE 0,5

A 15,125 BC 6,125 ABD 15,125 CDE 0,125

B 3042 BD 1404,5 ACD 4,5 ABCD 0

C 3,125 CD 36,125 BCD 10,125 ABCE 18

D 924,5 AE 0,125 ABE 28,125 ABDE 3,125

E 312,5 BE 32 ACE 50 ACDE 8

AB 15,125 CE 6,125 ADE 3,125 BCDE 3,125AC 4,5 DE 968 BCE 0,125 ABCDE 2

Tabella 132

Visto che le 16 interazioni di ordine superiore al primo sono trascurabili (secondo

l’analisi di Box et al. 1978), posso conglobare nel residuo le loro 16 somme dei quadrati

(la somma è 164); il residuo così costruito avrà quindi 16 gradi di libertà: la stima

numerica della varianza della popolazione vale 10,25.

Vediamo i risultati che otteniamo con la base ortogonale:

ALIAS SS=MS df F calcolata F0,95 (1,16)




282

I 52404,0833 1

A + (1/3)*(-BC+BD+BE-CD-CE-DE) 102,083333 1 9,95934959 4,4939981

B + (1/3)*(-AC+AD+AE-CD+CE-DE) 1344,08333 1 131,130081 4,4939981

C + (1/3)*(-AB+AD+AE-CD+CE-DE) 6,75 1 0,65853659 4,4939981

D + (1/3)*(AB-AC-AE-BC-BE-CE) 154,083333 1 15,0325203 4,4939981E + (1/3)*(AB-AC-AD+BC-BD-CD) 330,75 1 32,2682927 4,4939981

(1/3) * (-AB+AC-AD+AE+BC-BD-BE+CD-CE-DE) 14,0833333 1 1,37398374 4,4939981

(1/3) * (-AB-AC-AD+AE-BC+BD-BE+CD-CE-DE) 14,0833333 1 1,37398374 4,4939981

(1/3) * (AB+AC-AD-AE-BC-BD-BE-CD+CE+DE) 234,083333 1 22,8373984 4,4939981

(1/3) * (-AB-AC-AD-AE+BC+BD-BE-CD-CE-DE) 154,083333 1 15,0325203 4,4939981

(1/3) * (-AB-AC+AD-AE-BC-BD-BE+CD+CE-DE) 0,75 1 0,07317073 4,4939981

(1/3) * (-AB+AC+AD-AE-BC-BD+BE-CD-CE+DE) 290,083333 1 28,300813 4,4939981

Tabella 133: decomposizione ortogonale di SStr

Dalla tabella si vede che qualche interazione è significativa perché 3 degli alias che

contengono la somma delle interazioni sono significativi, ma non siamo in grado di

individuare quali e non sappiamo se qualche interazione è responsabile delle SS degli alias

di A,B,D,E. Un risultato del genere lascia molto a desiderare; ciò è dovuto al fatto che, per

mantenere l’ortogonalità e la semplicità di calcolo, abbiamo messo nel modello 6 parametri

fittizi per cui sprechiamo 6 g.l. per avere quelle somme di interazioni (pesate per ±1/3)

molto difficili da interpretare.Se però abbandoniamo la base ortogonale e la matrice di Hadamard per analizzare i

dati e passiamo a un modello che contenga 12 parametri reali possiamo aggiungere 6

interazioni che i tecnici ritengono interessanti; supponiamo che vogliano valutare le

interazioni AB, AC,AD,AE,AE,BD,BE; il modello diventa

Y = I+A+B+C+D+E+AB+AC+AD+AE+BD+DE

la base completa per questo modello è già stata trovata nella tab.3 del par. 9.5; essa èmolto più semplice rispetto a prima e per di più offre la possibilità di studiare 6 interazioni

in più. Fra le 6 interazioni ho messo nel modello le due (BD, DE) che sapevo significative

già in partenza dal piano completo: ciò non è, a mio parere, restrittivo perché nella realtà

penso che i tecnici abbiano delle conoscenze sul fenomeno che gli permettano di scegliere,

su 10 interazioni, 6 di esse fra le quali vi sono quelle importanti; anche se ciò non fosse

vero, il confounding fra gli effetti è comunque più semplice rispetto a quello generato

dall’analisi classica con la matrice di Hadamard.

La base, tralasciando le interazioni di ordine più elevato, è:




283

I

A-BC

B-CD

C+BE

D-CE

E+BC+BE-CD-CE

AB+CE

AC+BC+BE-CD-CE

AD+BE

AE+CD

BD+BC+BE-CD-CE

DE-BC

Scrivendo le equazioni normali full-regression si trovano le stime numeriche dei 12 alias

sopra,

β = (X1T*X1)

-1*X1T*Y

da cui si passa alle somme dei quadrati (con la solita formula guardando i coefficienti nella

matrice (X1T*X1)

-1*X1T); dalla matrice delle covarianze si ricava la matrice di correlazione

e la sua inversa:

I A B C D E AB AC AD AE BD DE

I 1,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000A 0,000 2,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,000 1,054 -0,667

B 0,000 0,000 2,000 0,000 0,000 0,000 0,000 -1,054 0,667 0,667 0,000 -0,667

C 0,000 0,000 0,000 2,000 0,000 0,000 -0,667 0,000 -0,667 -0,667 -1,054 -0,667

D 0,000 0,000 0,000 0,000 2,000 0,000 0,667 -1,054 0,000 -0,667 0,000 0,000

E 0,000 0,000 0,000 0,000 0,000 4,500 1,000 -1,581 -1,000 0,000 -1,581 0,000

AB 0,000 0,000 0,000 -0,667 0,667 1,000 2,000 0,000 0,000 0,000 0,000 0,667

AC 0,000 0,000 -1,054 0,000 -1,054 -1,581 0,000 5,000 0,000 0,000 -1,667 1,054

AD 0,000 0,000 0,667 -0,667 0,000 -1,000 0,000 0,000 2,000 0,000 0,000 0,000

AE 0,000 0,000 0,667 -0,667 -0,667 0,000 0,000 0,000 0,000 2,000 1,054 0,000

BD 0,000 1,054 0,000 -1,054 0,000 -1,581 0,000 -1,667 0,000 1,054 5,000 0,000

DE 0,000 -0,667 -0,667 -0,667 0,000 0,000 0,667 1,054 0,000 0,000 0,000 2,000

Tabella 134: inversa della matrice di correlazione

Notiamo che i VIF degli stimatori non sono molto piccoli, comunque restano al di

sotto del valore limite (10) consigliato da Marquardt (1970) quindi possiamo fare l’analisi

di significatività classica. Ricordiamo che il VIF misura l’incremento della varianza

dovuto alla non ortogonalità: in un piano ortogonale a 12 stati non replicati la varianza

degli stimatori del modello FR dovrebbe essere 1/12σ2, il fatto che il VIF dello stimatore




284

dell’alias di AC sia 5 vuol dire che la varianza di tale stimatore è 5/12σ2: il lettore può

verificare questo risultato, così come quelli degli altri stimatori, scrivendo la matrice

(X1T*X1)

-1.

Per l’ANOVA, come prima, usiamo il residuo pooled di 10,25 con 16 gradi di

libertà. La tabella è la seguente:

SS=MS df F calcolata F0,95 (1,16)

I 52404,08 1

A-BC 2,666667 1 0,260163 4,493998

B-CD 368,1667 1 35,9187 4,493998

C+BE 0,666667 1 0,065041 4,493998

D-CE 51,04167 1 4,979675 4,493998

E+BC+BE-CD-CE 48,16667 1 4,699187 4,493998

AB+CE 5,041667 1 0,49187 4,493998

AC+BC+BE-CD-CE 11,26667 1 1,099187 4,493998

AD+BE 0,166667 1 0,01626 4,493998

AE+CD 7,041667 1 0,686992 4,493998

BD+BC+BE-CD-CE 84,01667 1 8,196748 4,493998

DE-BC 140,1667 1 13,6748 4,493998

Tabella 135

Come si vede, si individuano tutti gli alias contenenti gli effetti che a priorisapevamo essere significativi ovvero B,D,E,BD e DE. Pur nella limitatezza di questo

esempio che è simulato a partire dal piano completo e non è replicato, mi sembra evidente

la superiorità di questo approccio; abbiamo sacrificato un po’ di ortogonalità (precisione)

ma abbiamo potuto studiare 6 elementi in più rispetto a prima. Questo è un caso in cui un

piano sperimentale, tradizionalmente ritenuto ortogonale (solo perché si elaborava con la

matrice di Hadamard che è ortogonale), beneficia parecchio di un’analisi non ortogonale,

che permette di testare delle quantità molto più interessanti. Questo ci fa capire che in

generale l’ortogonalità è una proprietà che non riguarda il piano ma il tipo di modello cheviene adottato nell’analisi, ecco perché sarebbe meglio parlare di “analisi ortogonale” che

di “piano ortogonale” (sebbene nel resto della tesi io stesso abbia usato spesso questa

locuzione); è ovvio che quando la struttura del piano è regolare l’analisi ortogonale è

quella da preferirsi.




285

10.6 PIANO SPERIMENTALE CON 4 FATTORI DI CONTROLLO A 3LIVELLI E 3 FATTORI DI RUMORE A 2 LIVELLI

Questo caso, analizzato da Byrne e S.Taguchi, è stato pubblicato su Quality

Progress nel 1987 ma a quanto riferisce Galetto (1989a) era già stato presentato nel 1984 a

un convegno sui metodi Taguchi e nel 1986 alla conferenza ASQC; questo è un segnomolto chiaro della martellante pubblicità riguardo i metodi Taguchi: la stessa relazione è

stat ripubblicata 3 volte in 4 anni.

Lasciamo da parte per ora l’analisi secondo le “tecniche taguchiane”; lo scopo di

questo paragrafo è usare i concetti del cap.8 e 9 per evidenziare alcuni errori condotti da

Galetto (1989a) nell’analisi del caso di Byrne e Taguchi. Vi sono 4 fattori di controllo a 3

livelli e 3 fattori di rumore a 2 livelli; Taguchi introduce i fattori di rumore non perché gli

interessi valutarne l’effetto sulla risposta ma per vedere la variabilità che essi inducono

nelle varie combinazioni dei fattori di controllo per scegliere la combinazione chemassimizza la risposta e, nel contempo, minimizza la variabilità. Per ogni combinazione

dei fattori di controllo viene quindi sperimentata una combinazione dei fattori di rumore; si

hanno quindi 2 matrici dell’esperimento: l’inner array che contiene le combinazioni dei

fattori di controllo e l’outer array che contiene quelle dei fattori di rumore: le 2 matrici

sono frazionate indipendentemente. In questo caso l’inner array ha dimensione 3*3 (2

tagli), e l’outer array ha dimensione 2*2*2 (nessun taglio): il piano sperimentale risultante

è quello della cosiddetta product array con 72 stati di prova, contrapposta alla combined

array che non distingue fra fattori di controllo e di rumore. Si ottiene una tabella comequella sotto in cui sulle righe vengono poste le combinazioni dei fattori di controllo (CF) e

sulle colonne quelle dei fattori di rumore (NF):

1 2 3 4 5 6 7 8123456789

Tabella 136: product array, combinazioni dei CF sulle righe e quelle dei NF sulle colonne

Per analizzare il piano abbiamo 2 strade davanti a noi:

• trascurare i fattori di rumore: avremmo quindi un piano ridotto 34-2 in cui i 9 stati

sperimentali vengono replicati 8 volte; in questo caso il residuo avrebbe 63 gradi di

libertà

• non trascurare i fattori di rumore: si ha un piano ridotto 23*34-2 con 72 stati

sperimentali senza replicazioni per cui il residuo avrebbe 0 gradi di libertà; in questocaso però si possono trascurare le interazioni di ordine più elevato ed attribuirne i gradi

di libertà al residuo.




286

La cosa da capire subito è che in ogni caso siamo davanti a un piano ridotto quindi gli

effetti che stimiamo sono forzatamente aliased . I dati sulla risposta Y sono indicati nella

tabella sotto:

E 2 2 2 2 1 1 1 1

F 2 2 1 1 2 2 1 1

G 2 1 2 1 2 1 2 1

A B C D

1 1 1 1 19,1 20 19,6 19,6 19,9 16,9 9,5 15,6

1 2 2 2 21,9 24,2 19,8 19,7 19,6 19,4 16,2 15

1 3 3 3 20,4 23,3 18,2 22,6 15,6 19,1 16,7 16,3

2 1 2 3 24,7 23,2 18,9 21 18,6 18,9 17,4 18,3

2 2 3 1 25,3 27,5 21,4 25,6 25,1 19,4 18,6 19,72 3 1 2 24,7 22,5 19,6 14,7 19,8 20 16,3 16,2

3 1 3 2 21,6 24,3 18,6 16,8 23,6 18,4 19,1 16,4

3 2 1 3 24,4 23,2 19,6 17,8 16,8 15,1 15,6 14,2

3 3 2 1 28,6 22,6 22,7 23,1 17,3 19,3 19,9 16,1

Tabella 137

Analizziamo i dati trascurando i fattori di rumore, trattiamo dunque le 8

osservazioni per le diverse combinazioni dei fattori di rumore, come replicazioni nello

stesso stato sperimentale dei fattori di controllo. Si ha la tabella ANOVA:


Totale 28878,71 72

Media 28033,17347 1

Totale corretto 845,5365278 71 11,90897

Trattamenti 156,2277778 8 19,52847 1,784822 1,769745

Residuo 689,30875 63 10,94141

Tabella 138: ANOVA one-way

La SSreg dovuta ai fattori di controllo (aliased) sono al limite della significatività

ma ciò è dovuto al fatto che nel residuo vi sono gli effetti dei fattori di rumore dunque in

realtà MSe è più basso. Per ora occupiamoci di scomporre i trattamenti in 8 componenti: è

logico assegnare gli 8 gradi di libertà ai 4 fattori (aliased), ciascuno dei quali ha 2 gradi di

libertà, uno per la componente lineare (Al, Bl,...) e uno per quella quadratica (Aq, Bq,...).

Le componenti dell’interazione sono confuse con quelle dei fattori, quindi non possono

essere studiate con questo piano; non per niente questo piano è progettato secondo letecniche preconfezionate di Taguchi che ignorano le interazioni.

Fattori di

rumoreFattori dicontrollo




287

Per trovare il confounding presente in tale piano sperimentale, applichiamo il

metodo di Box-Wilson al modello:

Y = I+Al+Aq+Bl+Bq+Cl+Cq+Dl+Dq

Y = X1*β

Per le componenti lineari e quadratiche uso la codifica dei polinomi ortogonali. La matrice

X1 è la seguente:

I Al Aq Bl Bq Cl Cq Dl Dq

1 1 1 1 1 -1 1 -1 1 -1 1 -1 1

1 2 2 2 1 -1 1 0 -2 0 -2 0 -2

1 3 3 3 1 -1 1 1 1 1 1 1 1

2 1 2 3 1 0 -2 -1 1 0 -2 1 1

2 2 3 1 1 0 -2 0 -2 1 1 -1 1

2 3 1 2 1 0 -2 1 1 -1 1 0 -2

3 1 3 2 1 1 1 -1 1 1 1 0 -2

3 2 1 3 1 1 1 0 -2 -1 1 1 1

3 3 2 1 1 1 1 1 1 0 -2 -1 1

Tabella 139: matrice X1

Nella matrice X2 non metto tutte le possibili interazioni (in tutto sarebbero 72componenti) ma solo le 16 componenti delle interazioni del primo ordine :

Al

*

Bl

Al

*

Bq

Aq

*

Bl

Aq

*

Bq

Al

*

Cl

Al

*

Cq

Aq

*

Cl

Aq

*

Cq

Al

*

Dl

Al

*

Dq

Aq

*

Dl

Aq

*

Dq

Bl

*

Cl

Bl

*

Cq

Bq

*

Cl

Bq

*

Cq

Bl

*

Dl

Bl

*

Dq

Bq

*

Dl

Bq

*

Dq

Cl

*

Dl

Cl

*

Dq

Cq

*

Dl

Cq

*

Dq

1 -1 -1 1 1 -1 -1 1 1 -1 -1 1 1 -1 -1 1 1 -1 -1 1 1 -1 -1 1

0 2 0 -2 0 2 0 -2 0 2 0 -2 0 0 0 4 0 0 0 4 0 0 0 4

-1 -1 1 1 -1 -1 1 1 -1 -1 1 1 1 1 1 1 1 1 1 1 1 1 1 10 0 2 -2 0 0 0 4 0 0 -2 -2 0 2 0 -2 -1 -1 1 1 0 0 -2 -2

0 0 0 4 0 0 -2 -2 0 0 2 -2 0 0 -2 -2 0 0 2 -2 -1 1 -1 1

0 0 -2 -2 0 0 2 -2 0 0 0 4 -1 1 -1 1 0 -2 0 -2 0 2 0 -2

-1 1 -1 1 1 1 1 1 0 -2 0 -2 -1 -1 1 1 0 2 0 -2 0 -2 0 -2

0 -2 0 -2 -1 1 -1 1 1 1 1 1 0 0 2 -2 0 0 -2 -2 -1 -1 1 1

1 1 1 1 0 -2 0 -2 -1 1 -1 1 0 -2 0 -2 -1 1 -1 1 0 0 2 -2

Tabella 140: matrice X2 ridotta alle sole interazioni del primo ordine

Il confounding trovato col metodo BW sarà ovviamente limitato a questa 16componenti. La matrice delle covarianze (X1

T*X1)-1 è diagonale quindi il piano è




288

ortogonale (in realtà è l’analisi che facciamo che è ortogonale) e ciò lo sapevo già in

partenza visto che Taguchi usa sempre piani per cui è comoda un’analisi ortogonale:

I Al Aq Bl Bq Cl Cq Dl Dq

I 0,11111 0 0 0 0 0 0 0 0

Al 0 0,16667 0 0 0 0 0 0 0

Aq 0 0 0,05556 0 0 0 0 0 0

Bl 0 0 0 0,16666 0 0 0 0 0

Bq 0 0 0 0 0,05556 0 0 0 0

Cl 0 0 0 0 0 0,16667 0 0 0

Cq 0 0 0 0 0 0 0,05556 0 0

Dl 0 0 0 0 0 0 0 0,16667 0

Dq 0 0 0 0 0 0 0 0 0,05556

La soluzione delle equazioni normali è:

I 157,85556

Al 4,4833333

Aq -3,9722222

Bl 2,6

Bq -1,9222222Cl 8,8166667

Cq -2,1388889

Dl -5,4166667

Dq 0,8611111

sono ovviamente le stime dei contrast coi coefficienti dei polinomi ortogonali (a parte il

solito fattore moltiplicativo che non influenza l’analisi); dai contrast passiamo alla somma

dei quadrati per fare il test di significatività, che non è un test del tutto corretto perché per ora stiamo trascurando i fattori di rumore e quindi il residuo (denominatore del test F)

contiene l’effetto dei attori di rumore.

Essendo ortogonali, le 2 componenti dei fattori, si possono sommare le rispettive

somme dei quadrati, ottenendo una somma dei quadrati associata al fattore con 2 gradi di

libertà. La decomposizione (ortogonale) di SStr è quindi:




289

SS df MS F calcolata F0,95

Trattamenti 156,2277 8 19,52847Al 15,07521 1 15,07521 1,377812 3,993364Aq 35,50174 1 35,50174 3,244713 3,993364

A 50,57694 2 25,28847 2,311263 3,142809Bl 5,07 1 5,07 0,463377 3,993364Bq 8,313611 1 8,313611 0,75983 3,993364B 13,38361 2 6,691806 0,611604 3,142809Cl 58,30021 1 58,30021 5,328401 3,993364Cq 10,2934 1 10,2934 0,940775 3,993364C 68,59361 2 34,29681 3,134588 3,142809Dl 22,00521 1 22,00521 2,011186 3,993364Dq 1,668403 1 1,668403 0,152485 3,993364D 23,67361 2 11,83681 1,081836 3,142809

Residuo 689,3088 63 10,94141

Tabella 141: decomposizione di SStr

Per i fattori di controllo si ritrovano le stesse SS calcolate in Galetto (1989a); solo che

bisogna rendersi conto che gli effetti dei fattori sono aliased con quelli delle interazioni:

infatti se scriviamo la matrice degli alias (trasposta per comodità di impaginazione):

I Al Aq Bl Bq Cl Cq Dl DqAl*Bl 0,000 0,000 0,000 0,000 0,000 -0,500 -0,167 -0,500 0,167Al*Bq 0,000 0,000 0,000 0,000 0,000 0,500 -0,500 -0,500 -0,500

Aq*Bl 0,000 0,000 0,000 0,000 0,000 0,500 -0,500 0,500 0,500Aq*Bq 0,000 0,000 0,000 0,000 0,000 1,500 0,500 -1,500 0,500Al*Cl 0,000 0,000 0,000 -0,500 0,167 0,000 0,000 -0,500 -0,167Al*Cq 0,000 0,000 0,000 -0,500 -0,500 0,000 0,000 0,500 -0,500Aq*Cl 0,000 0,000 0,000 0,500 0,500 0,000 0,000 0,500 -0,500Aq*Cq 0,000 0,000 0,000 -1,500 0,500 0,000 0,000 1,500 0,500Al*Dl 0,000 0,000 0,000 -0,500 -0,167 -0,500 0,167 0,000 0,000Al*Dq 0,000 0,000 0,000 0,500 -0,500 -0,500 -0,500 0,000 0,000Aq*Dl 0,000 0,000 0,000 0,500 -0,500 0,500 0,500 0,000 0,000Aq*Dq 0,000 0,000 0,000 1,500 0,500 -1,500 0,500 0,000 0,000

Bl*Cl 0,000 -0,500 0,167 0,000 0,000 0,000 0,000 0,000 0,333Bl*Cq 0,000 -0,500 -0,500 0,000 0,000 0,000 0,000 1,000 0,000Bq*Cl 0,000 0,500 0,500 0,000 0,000 0,000 0,000 1,000 0,000Bq*Cq 0,000 -1,500 0,500 0,000 0,000 0,000 0,000 0,000 -1,000Bl*Dl 0,000 -0,500 0,167 0,000 0,000 0,000 0,333 0,000 0,000Bl*Dq 0,000 0,500 0,500 0,000 0,000 1,000 0,000 0,000 0,000Bq*Dl 0,000 -0,500 -0,500 0,000 0,000 1,000 0,000 0,000 0,000Bq*Dq 0,000 -1,500 0,500 0,000 0,000 0,000 -1,000 0,000 0,000Cl*Dl 0,000 -0,500 0,167 0,000 0,333 0,000 0,000 0,000 0,000Cl*Dq 0,000 -0,500 -0,500 1,000 0,000 0,000 0,000 0,000 0,000Cq*Dl 0,000 0,500 0,500 1,000 0,000 0,000 0,000 0,000 0,000Cq*Dq 0,000 -1,500 0,500 0,000 -1,000 0,000 0,000 0,000 0,000




290

Tabella 142: matrice degli alias del piano “taguchiano”

Vediamo che tutte le interazioni sono confuse con i fattori non coinvolti

nell’interazione: ad esempio le 4 componenti dell’interazione AB sono confuse nelle

componenti di C e D, le 4 di AC sono confuse con B e D, AD con B e C....

E infatti se sommiamo la somma dei quadrati di C e D, otteniamo la SS che Galetto

(1989a) attribuisce all’interazione AB e così per tutte le altre interazioni si ritrovano i

risultati presentati da Galetto:

AB = C+D 92,2672

AC = B+D 37,0572

AD = B+C 81,9772

BC = A+D 74,2506

BD = A+C 119,171

CD = A+B 63,9606

Tabella 143: dipendenza delle interazioni dai fattori generata dal confounding

ma quelle di tab.41 non sono le somme dei quadrati delle interazioni; come abbiamo già

chiarito in questo piano le interazioni non possono essere testate perché Taguchi costruisce

dei piani che testano solo i fattori. Le SS di tab.41 sono le interazioni aliased con i fattori

quindi servono a ben poco e infatti si vede chiaramente che sono dipendenti dalle somme

dei quadrati dei fattori (aliased con le interazioni): è assolutamente sbagliato (come detto

nel par. 7.6) porre in una tabella ANOVA i fattori con 2 gradi di libertà e le interazioni con4 gradi di libertà e calcolare il residuo per differenza di questa componenti non

indipendenti (!!!), ovvero scrivere la seguente tabella:

SS df

Totale corretto 845,5365 71

A 50,57694 2

B 13,38361 2

C 68,59361 2D 23,67361 2

AB 92,26722 4

AC 37,05722 4

AD 81,97722 4

BC 74,25056 4

BD 119,1706 4

CD 63,96056 4

Residuo 220,6254 39Tabella 144: ANOVA di Galetto




291

È invece possibile diminuire i gradi libertà del residuo introducendo i fattori di

rumore; se introduciamo il fattore E, ciò equivale a sdoppiare (par.9.6) i 9 stati

sperimentali, arrivando quindi a 18 e diminuendo contemporaneamente i gradi di libertà

del residuo da 63 a 54. Si aggiungono 9 gradi di libertà ma questi non possono essere

attribuiti alle interazioni AB,AC,AD,BC,BD,CD perché queste restano confuse con i

fattori A,B,C,D; come chiarito nel par. 9.6, aggiungendo un fattore all’analisi, gli alias non

cambiano; i nuovi 9 gradi di libertà vanno dunque attribuiti a E e alle sue interazioni con i

fattori di controllo per un totale di 9 componenti (aliased con quelle trascurate).

Se si aggiungesse un altro fattore di rumore (F), si passerebbe da 18 a 36 stati di

prova e i 18 gradi di libertà in più riguarderebbero le componenti di F e le sue interazioni;

il residuo passerebbe a 36 gradi di libertà e dovrebbe tenere conto della variabilità (2

“replicazioni”) all’interno dei nuovi 36 stati di prova.

Se infatti aggiungiamo anche l’ultimo fattore di rumore (G) abbiamo 72 stati di

prova distinti non replicati e il residuo ha zero gradi di libertà per cui bisogna attribuire ad

esso le interazioni di ordine elevato che coinvolgono i 3 fattori di rumore.

È evidente che questa è una situazione molto insoddisfacente per gli obbiettivi della

sperimentazione classica perché il piano non permette di testare le interazioni fra i fattori

più importanti (quelli di controllo) e si sprecano tantissimi gradi di libertà per analizzare

delle interazioni poco interessanti; ma Taguchi, come detto nel cap.3, si propone degli

obiettivi diversi (senza peraltro raggiungerli, cap.11): trovare la combinazione dei fattori di

controllo che massimizza la risposta e nel contempo minimizzi la variabilità all’internodegli stati, dovuta ai fattori di rumore, che non possono essere controllati nelle normali

condizioni di uso e di esercizio. Per raggiungere un obiettivo del genere bisognerebbe fare

molte prova in più ecco perché Taguchi è costretto a trascurare le interazioni fra i fattori di

controllo.

Ecco perché sono abbastanza critico, in generale, verso un’analisi classica ex-post

dei risultati di un piano progettato secondo criteri “taguchiani” in cui è impossibile rilevare

l’effetto delle interazioni. Il confronto fra metodologia classica e quella di Taguchi va

fatto già dalla costruzione del piano sperimentale, a parità di stati sperimentali126

; in questocaso con la metodologia classica sarebbe convenuto considerare tutti 7 fattori allo stesso

modo (non distinguendo fra controllo e rumore) e progettare le prove in modo che fossero

testabili le 6 interazioni AB,AC,AD,BC,CD.

126 In realtà, più che sul numero delle prove, bisognerebbe ragionare sul costo di esse perché alcuni fattori possono essere variati più facilmente (economicamente) di altri: questo però dipende da problema a problema.




292

CAPITOLO 11

TAGUCHI: NOVITÁ O BLUFF?

11.1 POPOLARITÁ DI TAGUCHI“..it worries me when I hear of hundreds of engineers being taught

what I believe are sometimes inappropriate , unnecessarily complicated ,

and inefficient statistical methods”

(Box 1988)

Nel cap.3 abbiamo visto che la Statistica applicata alla sperimentazione aveva fatto

passi da gigante già agli inizi del secolo e ben prima degli anni ’50 in Occidente si erano

sviluppati i concetti fondamentali dell’experimental design; però il suo uso è rimasto

confinato a pochi grandi centri di ricerca e ha sempre stentato ad imporsi come pratica

corrente nell’industria occidentale. Non è un caso che Deming, grande sostenitore della

Statistica nell’industria e nei servizi, sia dovuto andare in Giappone a propagandare le sue

idee perché in Occidente non era ascoltato; dagli anni ’50 i giapponesi capiscono (grazie a

Deming) l’importanza della Statistica e l’ingegnere giapponese Genichi Taguchi inizia aelaborare i suoi metodi di pianificazione degli esperimenti; nell’anno 1953 Taguchi

compie il “tile experiment”, citato da tutte le pubblicazioni “taguchiane” come il

momento in cui si capisce che è più economico rendere il processo insensibile alle

variazioni ambientali che controllare queste sorgenti di variabilità: è questa l’idea alla base

del robust design.

Incredibilmente Taguchi sviluppa i suoi lavori sul DOE, trascurando quasi del tutto

la ricerca statistica fatta in Occidente, infatti nel suo libro System of Experimental Design

(1987), su una quarantina di riferimenti bibliografici, solo una dozzina riguarda autorioccidentali e tutti nell’arco temporale 1944-1957). Taguchi, ingegnere elettronico, ritiene

di poter estendere i concetti propri delle telecomunicazioni alla pianificazione e analisi




293

degli esperimenti e così nasce il famigerato signal-to-noise ratio per l’analisi dei risultati

dell’esperimento.

In Occidente, fra gli anni ’70 e ’80 si diffonde il mito della Qualità giapponese e,

come riportato in Steinberg e Hunter (1984), nascono delle leggende come quella che i

giapponesi, grazie a Taguchi, riescono ad eseguire esperimenti con 100 fattori (!!!).

Taguchi viene quindi invitato da grosse aziende americane negli Stati Uniti a tenere delle

conferenze sui suoi metodi; all’inizio le sue idee suscitano molto scetticismo proprio

perché ignorano ciò che è la base della sperimentazione scientifica occidentale ma Taguchi

riesce a catturare l’interesse delle persone che contano nelle grosse aziende come la

AT&T, la Ford, la ITT e la Xerox; in aggiunta a questo, potenti organizzazioni come l’

American Supplier Institute (ASI) danno una grande promozione all’applicazione delle sue

idee nell’industria. Galetto (1995) riferisce che i metodi Taguchi sono stati presentati127 in

Europa nel 1986 a Stoccolma durante il congresso EOQC.

La pubblicità data a questi metodi è stata quindi martellante (il caso del par. 10.6,

fatto pubblicare dall’ASI 3 volte in 4 anni è un esempio lampante): è seguita un’incredibile

diffusione dei metodi Taguchi, anche a causa del rinnovato interesse per la Qualità come

mezzo strategico di competizione per le aziende. La diffusione dei metodi Taguchi ha

sortito 2 effetti, il primo positivo e il secondo negativo:

• molti ingegneri che prima sapevano poco o niente di DOE hanno iniziato a conoscere

l’importanza della pianificazione e analisi degli esperimenti, in particolar modo nei

problemi della Qualità

• proprio perché hanno sentito parlare del DOE per la prima volta nell’ambito dellametodologia di Taguchi, essi credono che Taguchi abbia inventato l’experimental

design; la maggior parte degli ingegneri rimane quindi ignorante128 circa la Statistica

sperimentale sviluppata in Occidente: la teoria dei piani fattoriali, il planned

confounding, i 3 principi di Fisher, le equazioni normali, il concetto di significatività di

un fattore, l’importanza delle interazioni....

“American engineers are learning about designed experiments...many of them are hearing

about these things for the first time in the framework of the Taguchi methodology.Unfortunately, some of the more zealous disciples of Taguchi get overhead and proclaim

that all the ideas of multifactor experimentation are Japanese, and were invented by

Taguchi himself...”(John 1990).

Come mai allora la Statistica classica ha stentato ad imporsi nell’industria, mentre i metodi

Taguchi in pochi anni hanno conquistato il mercato? Dai documenti che ho letto, credo di

poter individuare 3 motivi fondamentali:

127 L’autore citato peraltro non afferma che è stata la prima volta che i metodi Taguchi sono ‘sbarcati’ inEuropa quindi non escludo che si siano diffusi prima del 1986.

128 La maggior parte degli utilizzatori dei metodi Taguchi rimangono ignoranti della Statistica classica, nonTaguchi che, credo, abbia una certa competenza statistica.




294

1. Il preconcetto che le “cose giapponesi” siano migliori delle “cose occidentali”

2. La travolgente pubblicità di cui hanno goduto i metodi Taguchi

3. La metodologia di Taguchi non richiede allo sperimentatore di pensare all’esperimento

e di conoscere la Statistica

Infatti per la pianificazione, Taguchi mette a disposizione un catalogo con le “sue”

orthogonal array o lattices, per vari numeri di fattori e livelli; per l’analisi, ha inventato un

SN ratio con cui elaborare (???) i dati per diversi tipi di problemi (esistono più di 80 SN).

Il tutto senza spiegare perché: le formula proposte spesso non hanno giustificazione

statistica; non a caso Senturia (1989), uno dei reviewer della rivista Technometrics,

suggerisce “check your mathematical rigor at the door” , prima di leggere i libri di

Taguchi.

Scopo dichiarato delle metodologie di Taguchi è trovare la combinazione dei livelli

dei fattori che ottimizza la loss function (che combina media e varianza della risposta), non

avanzare nella conoscenza del fenomeno secondo l’approccio scientifico di Box di cui ho

parlato nel cap.3. In Nair (1992), Shin Taguchi afferma che il ruolo dell’ingegnere non è

“discover the causal relationships and to understand the mechanics of how things

happen”; lo scopo dell’ingegnere deve essere quello di “achieve robust function ... to

satisfy the consumer”: tale filosofia è in chiaro contrasto con l’approccio scientifico

occidentale della sperimentazione.

11.2 QUALITY ENGINEERING: SYSTEM, PARAMETER,TOLERANCE DESIGN

“...everyone can judge...whether

the recent fascination with Taguchi methods

is a panicked reaction by people looking for a miracle cure”

(Bisgaard 1989)

L’insieme delle tecniche statistiche per raggiungere la Qualità è chiamato da

Taguchi, Quality Engineering; esso si compone di 3 fasi da applicare sia al progetto del

prodotto che a quello del processo di produzione.

SD: System design. È la fase di sviluppo del prodotto e processo in cui è

fondamentale la capacità tecnologica e di innovazione degli ingegneri: bisogna scegliere

materiali, parti e componenti; il prodotto deve avere le caratteristiche richieste dal mercato

con la minima variabilità verso un certo target.

PD: Parameter design. Si identificano i parametri più importanti e bisogna trovarela loro combinazione ottimale, che consente di raggiungere il target specificato nella prima




295

fase con la minima variabilità verso fattori di “rumore”, che si incontrano nelle condizioni

di produzione (PD di processo) e di uso del prodotto (PD di prodotto).

TD: Tolerance design. Se la riduzione della variabilità attuata col PD non è ancora

sufficiente per raggiungere il target di mercato, allora bisogna usare dei componenti e

macchinari di Qualità migliore; come dicono Byrne e Shin Taguchi (1987), “Tolerance

design typically means spending money”.

Queste 3 fasi rappresentano l’ “off-line quality control” (cap.3), ovvero il momento

in cui si dovrebbe “costruire” la Qualità nel prodotto e nel processo produttivo; una volta

che la produzione entra a regime, ci sono le tecniche “on-line quality control”, ovvero le

carte di controllo, i diagrammi di causa-effetto, i diagrammi di Pareto...

Come si vede non c’è nulla di fondamentalmente nuovo nella filosofia di Taguchi;

egli ripropone i concetti di riduzione della variabilità introdotti da Shewart negli anni ’20.

La “novità” più grossa è costituita dal parameter design, che è quello che io ho chiamato

robust design nel cap.3: si vuole cercare la miglior combinazione dei livelli per cui la

risposta operi su un certo valore (target) con una dispersione minima.

È però assurdo credere che Taguchi abbia inventato il robust design; come dice

Box (in Nair 1992) “ Like most good ideas, designing for robustness has a considerable

history”: già Gosset e Fisher avevano studiato all’inizio del secolo il problema della

“robustezza”; l’industria dolciaria ha sempre usato il robust design per rendere le ricette

delle torte in scatola insensibili a variazioni dovute alla persona che legge le istruzioni.

Lorenzen sostiene (in Nair 1992) che negli anni ’40 si cercava di rendere i prodotti agricoli

insensibili alle variazioni del tempo e alle condizioni del suolo (fattori di rumore) in modoche assicurassero il massimo raccolto (target) sfruttando l’interazione fra questi 2 fattori di

rumore e i prodotti agricoli (fattore di controllo).

È dunque evidente che Taguchi non ha inventato il robust design, tuttavia ha

l’innegabile merito di avere applicato questi principi alla sperimentazione industriale e di

averli propagandati in tutto il mondo. I punti più importanti evidenziati da Taguchi sono i

seguenti:

• analizzare la varianza oltre che la media della risposta per ogni combinazione dei fattori

di controllo,• minimizzare la variabilità rispetto ai fattori di rumore,

• minimizzare la sensibilità del prodotto alle variazioni trasmesse dai suoi componenti

Purtroppo “these very important engineering ideas are however accompanied by proposed

statistical procedures that are often unnecessarily complicated and inefficient , and

sometimes naive” (Box, in Kacker 1985)




296

11.3 LOSS FUNCTION

Spesso si sente dire che Taguchi ha inventato la loss-function e che questa

costituisce la base matematica per le formule di Taguchi. In realtà le cose non stanno

proprio così.

La loss-function è un concetto per niente nuovo, visto che costituisce la base della

teoria delle equazioni normali, fondata da Gauss nel 1796; la loss-function è inoltre

correntemente impiegata nella teoria statistica delle decisioni, come testimonia un testo

classico di Statistica, il Mood-Graybill (1963). Taguchi ha iniziato a usare la loss-function

per esprimere i costi dovuti alla variabilità di una caratteristica Y (v.c.), il cui target è T; la

loss-function è L(Y) e le assunzioni fatte su di essa sono:

• positiva per tutte le determinazioni y di Y

• uguale a zero per y=T; L(T) = 0

• ha un minimo per y=T; L’(T) = 0

Se sviluppiamo L(y) in serie di Taylor nell’intorno di y=T, abbiamo che:

( ) ( ) L y L T L T y T L T

y T ( ) ( ) ' ( ) *' ' ( )

*≈ + − + −2

2

con le assunzioni fatte diventa:

( ) ( ) L y L T

y T k y T ( )' ' ( )

* *≈ − = −22 2

Ecco perché, anche se L(y) può essere più complessa, viene di solito usata una loss-

function quadratica: essa fornisce sempre una buona approssimazione se si opera vicino al

target.

L(y) = K*(y-T)2

K è la costante che lega i costi alla variabilità rispetto al target. L(Y) è una funzione

stocastica quindi a noi interessa il suo valore atteso, in funzione del valore atteso E(Y) =

µ e della sua varianza VAR (Y) = σY2.

R = E(L(Y)) = K * (Y - T)2 = k*[E(Y) - 2* E(Y) * T + E(T2)]

R = K*[E(Y2) - 2 * µ * T + T2] = K* [VAR(Y) + ( µ − T)2] = K* [ σY2 + ( µ − T)2]

La sperimentazione classica è un caso particolare di minimizzazione del valore atteso della

loss-function in cui si fa l’ipotesi di omoschedasticità ovvero σY2 = cost, e si considerasolo la media delle risposte. La minimizzazione della loss-function, tenendo conto della

media e della dispersione, è quindi un obiettivo più ambizioso e quindi, per il principio F1,




297

si capisce che richiederà un numero più elevato di prove, rispetto al DOE classico che

considera solo la media: invece i “taguchiani” dicono che minimizzano la loss-function e

risparmiano molte prove: la contraddizione è evidente.

Sia µ che σ2 dipendono dai fattori di controllo ovvero i parametri di cui si vuole

trovare la combinazione ottimale per minimizzare R. Se si vuole minimizzare R,

innanzitutto bisogna trovarne uno stimatore corretto: Wheeler (1988), col metodo dei

momenti ha trovato lo stimatore:

MSD = s2 + (y. - T)2

dove s è lo scarto quadratico medio campionario di Y e y. è la media campionaria di Y, per

una particolare combinazione dei fattori di controllo (trattamento). Per ogni trattamento

possiamo dunque stimare il valore della loss-function.

A qualcuno potrebbe venire in mente di fare l’ANOVA, considerano come

funziona di risposta la loss-function. Sarebbe una buona idea? Io sono d’accordo con

Wheeler (1988) che dice di no, perché i fattori che influenzano significativamente la media

potrebbero avere un effetto contrario a quelli che influenzano la varianza, e così non si

capirebbe quali sono i fattori importanti. “..it is rarely a good idea to use composite

response variables..” (Wheeler 1988); è molto meglio analizzare separatamente media e

varianza dei trattamenti con 2 ANOVA:

• la prima su y. come risposta

• la seconda su s2 o meglio129 su log (s2), come risposta; il lettore si rende conto che inquesto caso non si ha nessuna replicazione, dunque per capire i fattori che influenzano

log (s2) bisogna o decidere a priori su quali effetti fare il “pooling” per stimare il

residuo di log (s2) oppure usare tecniche grafiche come le carte di probabilità

seminormali di Daniel (1976) o usare la distribuzione maxF, presentata in Wheeler

(1988): sono tutte tecniche che io non conosco a fondo quindi non le esporrò.

C’è ancora un altro problema da considerare di cui parla Levi (1991), ovvero la

scarsa precisione in generale delle stime di dispersione; Levi (1991) afferma che per stimare la dispersione con CL=90% in modo che l’intervallo di fiducia abbia ampiezza pari

allo scarto quadratico medio, ci vogliono 12 replicazioni130. Dunque la stima congiunta

della media e di una misura di dispersione risulta estremamente costosa in termini di prove

da effettuare, anche accontentandosi di precisioni molto modeste. E' per questo motivo che

i fondatori della statistica sperimentale hanno sempre propugnato con molta cautela l'uso di

129Wheeler sostiene che usare il logaritmo si s2 è una procedura efficiente nota dal 1937 (Bartlett).Consideriamo però che se Y segue una normale, s2 non è più normale quindi non so se abbia senso fareun’ANOVA standard su s2.

130 Purtroppo non sono riuscito a capire come Levi abbia trovato questo numero; io ho trovato 9 al posto di12, usando la distribuzione χ2: rimane comunque un numero elevato.




298

stime di dispersione: tali stime costano moltissimo in termini di prove se si vuole seguire

un approccio scientifico131; inoltre consideriamo che per la grande maggioranza delle

applicazioni è sufficiente valutare l’effetto dei fattori e interazioni sulla media e non sulla

dispersione della risposta (Levi 1991).

Finora abbiamo visto come andrebbe condotto scientificamente il ragionamento

sulla loss-function. Ora vediamo come invece ragiona Taguchi.

11.4 OUTER E INNER ARRAY“The cross of inner and outer arrays often leads

to a prohibitive number of observations”

(Sacks e Welch, in Nair 1992)

Taguchi divide i fattori in 2 categorie principali: fattori di controllo (CF) e fattori di

rumore (NF); i primi rappresentano i parametri del sistema per i quali bisogna scegliere il

livello ottimale; i secondi sono quei fattori non controllabili nelle normali condizioni

operative (di uso o di produzione) ma che possono essere controllati nell’esperimento: essi

rappresentano delle sorgenti di variabilità rispetto alle quali si vuole raggiungere una certa

robustness selezionando opportunamente i livelli dei CF: è lo scopo del robust design che,

come visto è lo scopo della fase di parameter design nel Quality Engineering di Taguchi. Nel par. 10.6 abbiamo visto che un tipico piano di Taguchi è dato dal prodotto delle

combinazioni sperimentali dell’inner array (in cui vengono variati i fattori di controllo) edell’outer array (in cui vengono variati i fattori di rumore). Si hanno dunque 2 piani, uno

per i CF, l’altro per i NF e vengono frazionati indipendentemente; la matrice del piano

risultante è detta product o crossed array, di dimensione pari al numero di combinazioni

dei CF e quello di combinazioni CF. In questo tipo di approccio “taguchiano” vi sono 3

difetti:

• non viene studiato l’effetto dei fattori di rumore sulla risposta Y ma solo l’effetto dei

fattori di controllo

• il numero di prove è sempre decisamente alto quindi per cercare di contenerlo si ècostretti a fare l’ipotesi che non ci siano interazioni fra i fattori di controllo

• non si può stimare l’errore sperimentale perché il residuo non ha nessun grado di

libertà, a meno che non si replichino le singole combinazioni di CF e NF; Taguchi

propone quindi di fare il pooling di alcuni effetti con MS più basso, una procedura che

può portare a forti distorsioni nella stima del residuo

Per rimediare ad essi, sarebbe meglio considerare tutti fattori alla stessa stregua in

un unica matrice (combined array); in questo modo si valuta l’effetto dei fattori di rumore

sulla risposta Y e, chiedendo ai tecnici quali sono le interazioni che essi ritengono piùinteressanti, si riesce a mantenere il numero delle prove entro limiti accettabili.

131Ovvero se non si vogliono fare assunzioni assolutamente arbitrarie come quelle di Taguchi.




299

In questo modo si può anche replicare le osservazioni nei vari stati sperimentali,

ottenendo quindi una stima del residuo; con la product array di Taguchi non si ha nessuna

replicazione perché le ‘ripetizioni’ nei vari trattamenti sono fatte secondo condizioni

prestabilite dei fattori di rumore, sono ben lungi dall’essere indipendenti: non c’è mai

nessun grado di libertà per il residuo e dunque bisogna sempre fare il “pooling” di qualche

effetto. L’errore sperimentale non è l’effetto dei fattori di rumore: forse i “taguchiani”

non se ne rendono conto.

Nel prossimo paragrafo vediamo come Taguchi analizza i risultati che vengono

fuori dalle inner e outer array.

11.5 SIGNAL TO NOISE“Although it is attractive to some that the use of a standard

SN ratio avoids the necessity of thinking about their experiment,

avoidance of thought , as usual, does not pay in the long run

(Nelder, in Nair 1992)

Rifacendosi alla terminologia delle comunicazioni, Taguchi ha proposto il signal to

noise come una misura di dispersione delle osservazioni per una data combinazione dei

livelli dei CF. Taguchi ha inventato più di 80 SN, a seconda dei vari problemi che si

possono incontrare. Le 3 formule più usate sono comunque:

• the larger the better

SN y

n L

ii

n

= −

⎛

⎝ ⎜

⎞

⎠⎟

⎛

⎝

⎜⎜⎜⎜⎜

⎞

⎠

⎟⎟⎟⎟⎟

=∑

10

1

10

1

2

*log

• the smaller the better

SN

y

nS

ii

n

= −

⎛

⎝

⎜⎜⎜⎜

⎞

⎠

⎟⎟⎟⎟

=∑

10 10

2

1*log

• on target

SN y

sT

Y

=⎛

⎝

⎜ ⎞

⎠

⎟10 10

2

2*log




300

dove n è il numero dei trattamenti, y e s2Y sono la media e la varianza campionaria dei

trattamenti. Le 3 formule sopra sono quelle degli stimatori delle corrispondenti funzioni

dei parametri SN*.

Dunque Taguchi esegue l’ANOVA132 sui signal to noise per vedere quali sono i

fattori di controllo che influenzano significativamente SN: visto che fa il test F, fa

l’assunzione implicita che le sue statistiche SN seguano la distribuzione normale; i fattori

di controllo che non influenzano significativamente SN ma influiscono sulla media

vengono denominati fattori di aggiustamento; in letteratura i fattori di aggiustamento

sono a volte confusi con i fattori di segnale ( signal factors): questi sono invece dei fattori

che regolano il target nei più difficili problemi di parameter design dinamico; in questo

capitolo (e nella maggior parte della letteratura) è trattato solo il parameter design statico

in cui il target T è fisso e non vi sono dunque fattori di segnale.

La procedura “taguchiana” di ottimizzazione avviene in 2 passi:

1. Scegliere la combinazione dei livelli dei fattori di controllo che influiscono su SN in

modo da massimizzare SN

2. Scegliere i livelli dei fattori di aggiustamento che portano la media della risposta più

vicina al target

Come riferito in Leon et al. (1987), Taguchi non esplicita il collegamento fra questa

procedura di ottimizzazione in 2 stati e la minimizzazione della loss-function: nel

paragrafo successivo vedremo che, solo sotto delle assunzioni abbastanza restrittive la

procedura di Taguchi conduce alla minimizzazione della loss-function. Per ora

concentriamoci sui signal to noise.

11.5.1 ON TARGET

Questo SN si trova in letteratura in 2 diverse forme del tutto equivalenti:

SN y

sT

Y

=⎛

⎝ ⎜

⎞

⎠⎟10 10

2

2*log

SN y

s nT

Y

= −⎛

⎝

⎜ ⎞

⎠

⎟101

10

2

2*log

Visto che sono equivalenti per quanto riguarda la minimizzazione della loss-function,

consideriamo il primo, che è più semplice; vediamo che l’argomento del logaritmo è lo

stimatore del reciproco del coefficiente di variazione al quadrato

γ σ

µ =

stimato da:

132 A volte (Byrne e S.Taguchi 1986) si cerca di capire la significatività semplicemente dai grafici marginalidelle medie del tipo che io ho usato nel cap.6; Taguchi li chiama marginal means, e usa la regola pick the

winner ovvero scegli il livello che dà SN più alto: inutile dire che tale regola trascura le interazioni comeevidenziato in Montgomery (1991).




301

$γ = s

y

che è usato quando si vuole definire la dispersione in modo adimensionato. γ gode di una

proprietà notevole, quando si opera la trasformazione Z=ln Y:

γ

σ

µ

σ 22

2

2

1= = −e Z

la relazione sopra è riportata in Box (1988) che dice che è esatta quando Z è normale e

approssimata in altri casi. Abbiamo dunque:

ln (1+γ2) = σ2lnY

che, approssimata in serie di Taylor, diventa la ben nota relazione:

γ = σY / µ = σ lnY

dunque, analizzare il signal to noise on target di Taguchi equivale ad analizzare il

logaritmo della varianza della variabile trasformata Z=lnY;

SNT* = -20 * log(σY /µ) = -k * ln (σlnY /µ)

ciò può essere utile se la trasformazione logaritmica serve a stabilizzare la varianza o a

verificare l’ipotesi di normalità.

Box (1988) afferma che un conto è trovare delle relazioni matematiche sui

parametri della popolazione, un conto è stimare tali parametri; nel caso di sopra, s2

lnY è unastatistica sufficiente per σ2

lnY ma qualunque funzione di $γ = s

y(come SNT di Taguchi) è

necessariamente meno efficiente133.

11.5.2 THE LARGER THE BETTER

Nei casi in cui si vuole massimizzare la risposta Y, Taguchi propone la statistica:

SN y

n L

ii

n

= −

⎛

⎝ ⎜

⎞

⎠⎟

⎛

⎝

⎜⎜⎜⎜⎜

⎞

⎠

⎟⎟⎟⎟⎟

=

∑10

1

10 1

2

*log

come tutti i signal to noise, è una misura che confonde la posizione e la dispersione dei

dati. Box (1988) ha fatto delle simulazioni misurando l’efficienza di SNL con la numerosità

campionaria che garantirebbe lo stessa potenza (complementare a 1 dell’errore di seconda

specie) della media campionaria, diviso la numerosità effettiva dei dati. Box ha trovato per

2 valori di σ l’efficienza di SNL come misura di posizione è 58% e 70%: in altre parole,

usare SNL al posto della media campionaria come misura di posizione, equivale a buttare

133Purtroppo non sono in grado di giustificare l’affermazione di Box..




302

via dal 30% al 42% dei dati: ricordiamo che i dati costano parecchi soldi alle aziende e non

usarli al meglio provoca i costi della disqualità.

Tutto questo vale quando sono verificate le ipotesi classiche dell’ANOVA senza

trasformare la Y; se fosse necessaria la trasformazione Z=1/Y, SNL potrebbe essere più

efficiente della media campionaria ma Taguchi non giustifica l’uso di SNL con la necessità

di trasformare i dati. Montgomery riporta che i risultati di altre simulazioni (Schnidt e

Boudot) hanno mostrato che SNL è completamente inefficiente nell’identificare la

dispersione.

11.5.3 THE SMALLER THE BETTER

Quando si vuole minimizzare la risposta, Taguchi usa la statistica:

SN

y

nS

ii

n

= −

⎛

⎝

⎜⎜

⎜⎜

⎞

⎠

⎟⎟

⎟⎟

=∑

10 10

2

1

*log

anch’essa confonde posizione e dispersione, infatti può essere scritta in funzione della

media e varianza campionaria.

SN yn

n sS = − +

−⎛ ⎝ ⎜

⎞ ⎠⎟10

110

2 2* log *

L’uso di SNS al posto della media campionaria come misura di posizione, corrisponde a

sprecare il 30% dei dati, secondo la simulazione di Box (1988). Montgomery (1991)

riporta che delle simulazioni hanno mostrato la completa inefficienza di SNS nel misurarela dispersione.

Anche le simulazioni numeriche di Galetto (1995) Actis (1995) e Stephens (1994 e

1996), svolte sia in condizioni di omogeneità della varianza che di non omogeneità,

confermano la perdita di potenza dei 3 signal to noise nell’individuazione della posizione

delle caratteristiche studiate: non può essere altrimenti visto che i signal to noise

confondono posizione e dispersione dei dati. È il problema che abbiamo già accennato

nella stima della loss-function per i vari trattamenti: visto che ci interessa sia la posizioneche la dispersione dei dati, qualsiasi funzione che combina le 2 caratteristiche è inefficiente

perché in essa possono elidersi gli effetti dei fattori significativi.

Se proprio si vuole esaminare anche la dispersione (ricordiamo che la sua stima è

molto più imprecisa della media), conviene farlo separatamente dalla media.“I agree ... that the variance s2 as well as y is important. So let’s look at s

2... and not

just at some hard-to-understand mixture of s2

e y2” (Box 1988).




303

11.6 MIN LOSS FUNCTION = MAX SIGNAL TO NOISE?

Abbiamo visto che Taguchi dice di voler minimizzare una loss-function, poi però

nelle applicazioni che ho letto io si massimizza sempre il signal to noise. In Wheeler è

elencata una serie di esempi in cui la massimizzazione del SN non coincide affatto con la

minimizzazione della loss-function. Leon et al. (1987) hanno dimostrato che solo in un

caso molto particolare le 2 cose coincidono.

Dividiamo l’insieme dei fattori in 3 insiemi:

d: fattori di controllo che influenzano la dispersione e la media

a: fattori di aggiustamento, non influenzano la dispersione ma la media

N: fattori di rumore, non influenzano la media

Assumiamo un modello moltiplicativo per la funzione di risposta che collega la media al

disturbo casuale, abbiamo che:

Y = µ (d, a) * ε (N, d)

E(Y) = µ(d, a)

E(ε (N, d)) = 1

VAR(ε) = σ2(d)

Notiamo che il modello rispecchia le assunzioni “taguchiane” che i fattori di

rumore non abbiano influenza sulla media e l’esistenza dei fattori di aggiustamento.

Assumiamo la loss function quadratica in cui per semplicità supponiamo K = 1:L = K * (Y - T)2 = (Y - T)2

Vogliamo trovare la combinazione (d, a) che minimizza il valore atteso della loss-function

R = σ2Y(d) + (µ(a,d) − T)2 = R (a,d)

Possiamo seguire una procedura di ottimizzazione a 2 stadi:

1. Trovare d* che minimizza P(d) = mina R(d, a) ovvero il luogo dei punti di minimo su a per ogni d, ammesso che esista.

2. Trovare a* che minimizza R(d*, a).

P(d) è quella che in Leon et al.(1987) viene definita come PERformance Meassure

Indipendent of Adjustment (PERMIA) in quanto è un indicatore, legato alla dispersione di

Y, indipendente dai fattori di aggiustamento a, che rappresenta il luogo dei punti di R (in

cui R è minimo rispetto ai fattori a) in funzione di d.

Possiamo trovare P(d) una volta che conosciamo R, dunque dobbiamo anche

conoscere il modello che lega la risposta Y alla media e al disturbo casuale; noi abbiamosupposto che tale modello sia moltiplicativo dunque possiamo trovare VAR (Y):




304

( ) ( )( )VAR Y f Y Y E Y dY ( ) *= −−∞

+∞

∫ 2

ma poichè sappiamo che:

E(Y) = µ(d, a)E(ε (N, d)) = 1

VAR(ε) = σ2 (d)

e sappiamo che la parte aleatoria di Y sta solo in ε (N, d) possiamo considerare la densità

di ε e non quella di Y; dunque:

( ) ( )VAR Y f d ( ) * * *= − =−∞

+∞

∫ ε µ ε µ ε µ σ 2 2 2

Allora il valore atteso della funzione di perdita, per le ipoteesi che abbiamo fatto, è:

R(d,a) = µ2(d, a) * σ2(d) + (µ(d, a) - T)2

Troviamo il luogo dei punti di minimo su a di R(d, a):

( )( ) ( )[ ]{ }

∂

∂

∂µ

∂ µ σ

R d a

a

d a

ad a d T

( , )*

,* , *= + −2 1 2

Ponendo uguale a zero tale derivata abbiamo che:

( )( )( )

µ σ

d a d T d

, ( )* =+1 2

Sostituendo in R troviamo la nostra P(d) ovvero, ripeto, il luogo dei punti di minimo

(rispetto ad a) di R in funzione di d.

( ) ( )( )

( )( ) P d R d a

T d

d a

= =+

min ,*2 2

21

σ

σ

Quindi qualunque trasformazione monotona di P(d) può essere usata per la procedura di

ottimizzazione a 2 stadi. E il rapporto signal-to-noise on target SNT di Taguchi, per le

ipotesi fatte, rappresenta proprio una trasformazione monotona decrescente della P(d)

trovata:

SN = 10 * log10 ( E2(Y) / VAR(Y) )

Ricordando che:

E(Y) =µ

VAR(Y) = (µ ∗ σ)2




305

SN = - 10 * log10

σ2

è decrescente con P(d) dunque assumendo:

1. una loss function quadratica

2. un modello moltiplicativo

3. l'esistenza di fattori di aggiustamento

4. i fattori di rumore non influenzano la media della risposta

il signal-to-noise di Taguchi rappresenta una PERMIA e può dunque essere usato nella

procedura di ottimizzazione in 2 passi:

1. Trovare la combinazione di fattori d* che massimizza il rapporto SN,

2. Trovare la combinazione dei fattori di aggiustamento a* tale che

( )( )( )

µ σ

d a d T

d

* *

*, ( ) =

+1 2

In realtà Taguchi al secondo passo vuole la combinazione di a tale che µ(d, a) = T;

ciò può essere giustificato se poniamo il vincolo µ(d, a) = T nel problema di

ottimizzazione.

Leon, Shoemaker e Kacker (1987) hanno quindi fornito una base teorica alle

procedure sperimentali di Taguchi, ma sotto assunzioni abbastanza restrittive, come

ricordano gli stessi autori che sottolineano il fatto che, se il modello non è moltiplicativo ilSN può condurre molto lontani dall'ottimo: “...blanket use of the SN ratio in static

problems, as Taguchi and Phadke seem to have advocated, could lead to far from optimal

design-parameter settings”.

In particolare se il modello è additivo (che probabilmente è più comune di quello

moltiplicativo) è facile vedere, ripercorrendo il ragionamento di prima, che:

P(d) = σ2(d)

e che il rapporto SNT:

SNT = 10 * log10 ( µ2(d, a) / σ2(d))

non è più indipendente dai fattori di aggiustamento a. I 3 autori si mostrano molto critici

verso le procedure preconfezionate di Taguchi, sostenendo la superiorità dell'approccio dei

λ -plots di Box per i problemi di parameter design.




306

11.7 TAGUCHI E LE INTERAZIONI“Taguchi’s main motivation for ignoring interactions between control factors

appears to be economy of experimental effort

rather than any assurance that it is safe to do so.

Economy measures are forced by the inefficiency of his

crossed array experimental design”.

(Sacks e Welch, in Nair 1992)

Nel par. 11.4 ho spiegato come costruisce i suoi piani sperimentali, con le outer e

inner array; pensiamo a una situazione comune che potremmo incontrare: 4 fattori di

controllo a 2 livelli e 3 fattori di rumore a 2 livelli. Se si volesse fare il piano completo ci

vorrebbero 24*23 = 128 diverse combinazioni sperimentali; visto che egli deve frazionare

indipendentemente l’outer e la inner array, non può applicare le tecniche di planned

confounding in cui si riesce a non confondere gli effetti che sono ritenuti importanti.

Dato che l’outer array non può essere frazionata più di tanto (al massimo un taglio

se no non si può studiare la variabilità indotta dal “rumore”) bisogna frazionare

drasticamente l’outer array: alla fine si possono stimare solo i fattori (aliased, ma Taguchi,

pur sapendolo, non lo mette in evidenza) se non si vuole avere un numero proibitivo di

condizioni sperimentali. In questa situazione bisogna per forza inventarsi qualche motivo

per togliere di mezzo le interazioni.

Quindi Taguchi non è un incompetente che crede che le interazioni e gli alias non

esistano, come viene a volte dipinto; è semplicemente costretto a trascurarle per il modocon cui pianifica gli esperimenti di robust design. Chi dice che Taguchi nega l’esistenza

delle interazioni può leggere il suo libro (1987) a pag.171 dove dice: “...for various

reasons additivity fails; that is, interaction exist ”. Taguchi è altresì perfettamente

consapevole dei problemi legati al confounding “When only the main effects are estimated

using orthogonal arrays, these effects may be confounded by many interactions” . Però

evita di parlare troppo di alias perché altrimenti i suoi fans entusiasti inizierebbero a

preoccuparsi e a capire che è un po’ difficile conoscere tanto facendo poche prove.

Taguchi alla fine dei sui esperimenti propone il confirmation experiment per verificare se i risultati previsti con la combinazione ottima trovata trascurando le

interazioni sono confermati da una (!!!) prova134. Se le previsioni non sono confermate

allora vuol dire che c’era qualche interazione forte ma non avendo esplicitato la struttura

degli alias, non si può assolutamente sapere qual è; ecco perché Taguchi è costretto a dire

“when there is interaction, it is because insufficient research has been done on the

characteristic values”. Taguchi pensa infatti che esista sempre una variabile legata alla

caratteristica della Qualità che possiede la proprietà di monotonicità (additività ovvero

134 E se la conferma avviene per caso? Il confirmation experiment è molto criticato in letteratura (ad esempioWheeler 1988).




307

assenza di interazioni). Questo può essere vero o falso: ammettiamo che sia vero. Mi

vengono in mente due domande:

• Bisogna rifare l’esperimento e sostenere i relativi costi (della disqualità) fino a che non

si trova la variabile che presenta assenza di interazioni?

• Se uno è interessato in una certa caratteristica Y della Qualità e deve usare un’altra

variabile Y’, come fa a sapere se le conclusioni fatte su Y’ rimangono valide per Y?

Tutte queste complicazioni solo perché a priori non si vogliono studiare le interazioni.

Forse è meglio pensarci 2 volte prima di abbandonare le solide tecniche statistiche

occidentali...

Taguchi vuole dunque minimizzare le interazioni e per far questo suggerisce di:

1. Scegliere variabili di risposta monotoniche e continue: per individuarle bisogna pensare

a qual è il meccanismo attraverso il quale avviene un trasferimento di energia (Phadke e

S.Taguchi in Nair 1992)

2. Scegliere i livelli dei fattori in modo da attenuare le interazioni

Il motivo principale che Taguchi adduce nel voler minimizzare le interazioni è il seguente

(Taguchi 1987, pag.149): se in laboratorio si trovano forti interazioni vuol dire che la

variabile di risposta Y tende ad essere influenzata dalle interazioni e quindi se si trovasse

l’ottimo tenendo conto delle interazioni, questo ottimo non sarebbe più tale nelle

condizioni di produzione e di utilizzo (downstream conditions) perché i fattori controllati

in la laboratorio interagirebbero con i fattori “ambientali” modificando così la condizione

ottimale.Questo motivo non mi sembra del tutto irragionevole se l’obiettivo

dell’esperimento è estendere i risultati trovati in laboratorio su larga scala. Però resta il

problema che se a me interessa una certa caratteristica Y, se la devo sostituire con Y’

dovrei conoscere la relazione matematica fra Y e Y’. Inoltre anche se in laboratorio

analizzo una caratteristica monotonica, chi mi dice che nelle condizioni di utilizzo tale

caratteristica resta monotonica? Purtroppo negli articoli non ho mai visto delle discussioni

su questo punto fondamentale che Taguchi richiama sempre, ovvero la “reproducibility of

design optimization ... from laboratory to manufacturing and eventually to the field”(Taguchi 1996).

Taguchi che è una persona competente, può avere i suoi motivi, giusti, sbagliati o

di comodo, per minimizzare le interazioni negli esperimenti, ma almeno sa che esistono; il

problema è che, trascurandole, induce i suoi seguaci a credere che le interazioni non

esistano. “Some rabid disciples also go so far to deny the existence of interactions,

arguing that they do not exist in the real world. Such blind partisanship by zealots is

regrettable.”(John 1990).




308

11.7.1 3 TIPI DI INTERAZIONE

Consideriamo che ci sono 3 tipi di interazione:

1. fra fattori di controllo (C*C),

2. fra fattori di rumore (N*N),

3. fra fattori di controllo e rumore (C*N),

Le ultime (C*N) sono assolutamente necessarie nel parameter design affinchè

esistano dei livelli dei fattori di controllo per cui la risposta è meno sensibile ai fattori di

rumore: anche Phadke e S.Taguchi lo dicono chiaramente (“interactions C*N are used to

reduce variability”) nella panel discussion sul parameter design organizzata da Nair su

Technometrics nel 1992. Le interazioni N*N non servono per la “robustezza” e quindi

possono essere considerate nell’errore sperimentale; e le interazioni C*C ? Il commento di

Phadke in Nair (1992), a mio parere, sfiora il ridicolo; all’inizio Phadke la mette sul

filosofico:

“Taguchi’s robust design method addresses the problem of interaction among control

factors in a way that is philosophically different from the classical approach to

experimental design. Presence of large C*C interactions is considered highly undesirable

for several reasons”.

Poi si mette a spiegare perché vuole minimizzare le interazioni C*C ma le ragioni che

adduce hanno ben poco di filosofico essendo invece dettate dal tentativo di ridurre i costi

dell’esperimento. Ecco cosa dice:

“... presence of interactions implies that a much large number of experiments would be

needed to study the same number of control factors”. Come a dire: non studiamo leinterazioni se no dovremmo fare molte prove in più.

“...the presence of of large C*C interaction makes it difficult to divide the task of

designing a complex product ... This is highly undesirable for shortening the development

interval and for improving R&D productivity”. Ovvero: non studiamo le interazioni se no

è molto più difficile progettare un prodotto complesso e si allungano i tempi di sviluppo.

I motivi per tralasciare le interazioni addotti da Phadke sono quindi essenzialmente

di carattere economico e commerciale: esse non hanno niente a che vedere con la filosofia

o col pensiero scientifico. Questa è anche la ragione per cui molti manager della Qualitàsono entusiasti dei metodi Taguchi: fanno crede di risparmiare prove, accorciare i tempi di

sviluppo del prodotto, inoltre forniscono piani e metodi di analisi preconfezionati ‘buoni’

per ogni situazione: essi soddisfano molto il cliente (azienda che li usa) che crede di

risparmiare soldi e l’utente (manager della Qualità) che non deve pensare troppo ma

soddisfano le loro esigenze ? No perché l’azienda e la sua funzione Qualità hanno

bisogno di metodi scientifici che riescano a stimare adeguatamente la realtà: un qualsiasi

metodo che trascura le interazioni solo per ragioni di comodo non è tale.

La cosa più ridicola è che quando la risposta è effettivamente monotonica, ad

esempio con 2 fattori di controllo X1 e X2 e un fattore di rumore Z:




309

Y = X1 + X2 + Z

sono proprio i signal to noise ad introdurre le interazioni fra X1 e X2.

Lorenzen in Nair (1992) fa notare che i “taguchiani” stessi affermano l’importanza

delle interazioni fra i fattori di controllo CF e quelli di rumore NF mentre trascurano quelle

fra fattori di controllo; ma la differenza fra i CF e NF non ha alcun significato fisico,

dipende solo dal fatto che un fattore possa essere controllato facilmente o no: allora sarà

‘avvertire’ i fattori di non interagire fra di loro quando in un esperimento taguchiano siano

stati definiti control factors, mentre essi potranno interagire quando uno sia stato definito

control factor e l’altro noise factor.....non è assurdo tutto ciò?.....

“Do C*C interaction exist?” (Phadke in Nair 1992) : alla sconcertante domanda di

Phadke si può rispondere esaurientemente con un racconto di Lorenzen (in Nair 1992):

“...an engineer modeled expensive computer runs following a course offered by ASI ....I

heard this presentation and talked him into running a higher resolution design requiring

the same number of runs. The best point from this model also confirmed, with a 30%

improvement !

End of claim and an engineer who now believes in interactions”

11.8 CONCLUSIONI

“I believe that Taguchi’s engineering ideas are important...

but it would be foolish to learn the details of

many of the statistical methods that he has proposed”

(Box in Kacker 1985)

Taguchi propone altri metodi che ha inventato come l’accumulation analyisis o la

minute l’accumulation analyisis che Wu, in Nair (1992), giudica “unnecessarily

complicated and often invalid”. I linear graphs per costruire le matrici ortogonali, ma

come dice Box (in Nair 1992), già per 16 combinazioni sperimentali, “the graphs arecomplicated and even in their author’s hands can produce designs that are demonstrably

inferior”

I “beta coefficients” rappresentano un altra invenzione “taguchiana”, destinata

secondo l’ingegnere giapponese (1987, pag.560) a sostituire la teoria dei test d’ipotesi di

Neymann-Pearson: “Whether Taguchi’s prophesy will be fulfilled, we will have to wait

and see”(Bisgaard 1989).

Dagli articoli che ho letto mi pare che la comunità statistica mondiale (Box,

Bisgaard, Nelder, Lucas, Hunter J.S., John P.W.M., Lorenzen, Myers, Montogomery,Wheeler, Nair, Miller, Shoemaker, Stephens, Wu C.F.......), pur riconoscendo i contributi

di Taguchi:




310

• propaganda dell’importanza della sperimentazione

• uso del DOE per rendere prodotti e processi “robusti” alle condizioni ambientali

critica decisamente i metodi statistici con cui Taguchi supporta le sue idee: gli statistici

hanno dimostrato l’inefficienza e gli errori concettuali dei metodi Taguchi e una parte di

questi errori è stata presentata in questo capitolo.

D’altronde lo stesso Taguchi (1987, pag120) dichiara che per promuovere

l’efficienza nell’attività di ricerca, bisogna valutare i metodi con cui si intende raggiungere

gli obiettivi: ebbene i suoi metodi sono stati valutati...

Eppure molti utilizzatori (che probabilmente si sono avvicinati solo recentemente al

DOE) dei metodi Taguchi continuano a dire “they work” e pubblicano dei casi in cui il

parameter design ha fatto risparmiare un sacco di soldi; ammettiamo che essi siano in

buona fede: il merito non è dei metodi Taguchi ma è “merito proprio dell’attività

sperimentale, che è quello di evidenziare comunque determinati meccanismi di causalità

e/o di associazione di effetti”(Levi 1991). Non dimentichiamo infatti che nell’industria si

sono sempre usati gli inefficienti piani OFAT (un fattore alla volta): solo il fatto di usare i

piani fattoriali, anche se nel modo “taguchiano” inefficiente, produce risultati migliori dei

piani OFAT. “...the factorial design is so powerful that even when it is used inefficiently, it

will work better than almost anything else.”(Montogmery 1991).

Chiudo il capitolo con i commenti molto significativi di 2 studiosi italiani di DOE,

che hanno studiato i metodi Taguchi da quando sono apparsi sulla scena, rendendosi subito

conto degli enormi rischi connessi a un loro cieco utilizzo:

“Non può che rammaricare il fatto che l’autore abbia scelto di ignorare, o di

utilizzare malamente, quanto noto grazie ad un’intensa e fruttuosa attività di ricerca

svolta in Occidente”( Levi 1991).

“...la critica più pesante va rivolta senz’altro all’approccio metodologico: i metodi

Taguchi non si fondano su alcuna base scientifica; sovente, infatti, nei libri non viene

fornita alcuna giustificazione di quello che viene detto o fatto...” ( Galetto 1995).




311

BIBLIOGRAFIA

ACTIS E. (1995), DOE: Analisi comparativa di piani frazionati, Tesi di laurea,

Politecnico di Torino.

ADDELMAN S. (1972), “Recent Developments in the Design of Factorial Experiments”,

Journal of the American Statistical Association, 67, 103-111.

ALLEN L.E. (1985), Multiple regression and the analysis of covariance, Freeman & Co.,

New York.

BARRANTINE L.B. (1996), “Illustration of confounding in Plackett-Burman Designs”,

Quality Engineering , 9, 11-20.

BISGAARD S. (1989), “Review of Taguchi”, Technometrics, 31, 257-260.

BISGAARD S. (1993), “A Method for Identifying Defining Contrasts for 2k-p

Experiments”, Journal of Quality Technology, 25, 28-35.

BOX G.E.P. (1966), “Use and Abuse of Regression”, Technometrics, 10.

BOX G.E.P. (1976), “Science and Statistics”, Journal of the American Statistical

Association, 71, 791-799.

BOX G.E.P. (1984), “The importance of Practice in the Development of Statistics”,

Technometrics, 26, 1-8.

BOX G.E.P. (1988), “Signal to Noise Ratios, Performance Criteria, and Transformations”,


BOX G.E.P., HUNTER W.G, HUNTER J.S. (1978), Statistics for experimenters, J. Wiley,

New York. BOX G.E.P., MEYER R.D. (1993), “Finding the Active Factors in Fractional Screening

Experiments”, Journal of Quality Technology, 25, 94-105.

BYRNE D.M., TAGUCHI S. (1987), “The Taguchi approach to Parameter Design”,

Quality Progress, 20, 19-26.

CROSBY P.B. (1986), La Qualità è facile, Mc Graw-Hill, New York.

DANIEL C. (1976), Applications of Statistics to Industrial Experimentation, J. Wiley,

New York

DE RISI P. (1996), Progettare in Qualità, Il Sole 24 Ore, Milano. DEMING W.E. (1986), Out of the crisis, MIT CAES, Cambridge.

DIAMOND W.J. (1981), Practical Experimental Designs, Wadsworth, Belmont.




312

DRAPER N.R., SMITH H. (1966), Applied Regression Analysis, J. Wiley, New York.

ERTO P. (1995), La Qualità Totale in cui credo, Tessere, Napoli.

FEIGENBAUM A.V. (1991), Total Quality Control , III edizione revisionata, Mc Graw-

Hill, New York.

FONTANA R. (1995), Teoria e algoritmi per la generazione di piani fattoriali frazionari,

Tesi di dottorato, Politecnico di Torino.

FORNASIERI S. (1995), DOE: Piani di prova frazionati non ortogonali. Considerazioni

teoriche e pratiche, Tesi di laurea, Politecnico di Torino.

FREUND R.A. (1974), “Contrast Analysis of Experiments”, Journal of Quality

Technology, 6, 2-21.

FREUND R.J. (1980), “The Case of Missing Cell”, The American Statistician, 34, 94-98.

GALETTO F. (1981), Affidabilità, vol.1, CLEUP, Padova.

GALETTO F. (1982), Affidabilità, vol.2, CLEUP, Padova.

GALETTO F. (1987), “Quality and Reliability: the Iveco way”, The International

Management Development Review.

GALETTO F. (1988), “Quality and Reliability, a must for the industry. Basic ideas for the

development cycle”, ISATA, Monte Carlo.

GALETTO F. (1989a), “Qualità dei metodi: il metodo G è meglio dei metodi Taguchi”,

ATA, 42, 202-209.

GALETTO F. (1989b), “Elementi strategici per la qualità”, ATA, 42, 415-425.

GALETTO F. (1989c), “Quality of Methods for Quality is Important”, EOQC Conference,

Vienna.GALETTO F. (1995), Qualità: alcuni Metodi Statistici da Manager , I edizione CUSL,

Torino.

GALETTO F. (1996), Qualità: alcuni Metodi Statistici da Manager , II edizione, CUSL,

Torino.

GALGANO A. (1990), La Qualità Totale, Il Sole 24 Ore, Milano.

GUNST R.F., MASON R.L., WEBSTER J.T. (1976), “A Comparison of Least Squares

and Latent Root Regression Estimators”, Technometrics, 18, 75-83.

HAHN G.J. (1977), “Some Things Engineers Should Know About Experimental Design”, Journal of Quality Technology, 9, 13-20.

HAHN G.J. (1984), “Experimental design in the complex World”, Technometrics, 26, 19-

31.

HAHN G.J., MEEKER W.Q., FEDER P.I. (1976), “The Evaluation and Comparison of

Experimental Designs for Fitting Regression Relationships” , Journal of Quality


HAHN G.J., MEEKER W.Q., FEDER P.I. (1978a), “Evaluating the Effect of Incorrect

Specification of a Regression Model, part 1”, Journal of Quality Technology, 10, 61-72.




313

HAHN G.J., MEEKER W.Q., FEDER P.I. (1978b), “Evaluating the Effect of Incorrect

Specification of a Regression Model, part 2”, Journal of Quality Technology, 10, 93-

98.

HAMADA M., WU C.F.J. (1992), “Analysis of Designed Experiments with Complex

Aliasing”, Journal of Quality Technology, 24, 130-137.

HOCKING R.R., SPEED F.M. (1975), “A Full Rank Analysis of Some Linear Model

Problems”, Journal of the American Statistical Association, 70, 706-712.

HOERL A.E., KENNARD R.W. (1970), “Ridge Regression: Biased Estimation for

Nonortogonal Problems”, Technometrics, 12, 55-67.

HUNTER J.S. (1985), “Statistical Design Applied to Product Design” , Journal of Quality


HUNTER J.S. (1988), “Design and Analysis of experiments”, Section 26 del Juran’s

Quality Control Handbook , Mc Graw-Hill, New York.

JENNINGS E., WARD J.H. (1982), “Hypothesis Identification in the case of the Missing

Cell”, The American Statistician, 36, 25-27.

JOHN P.W.M. (1966), “Augmenting 2n-1 designs”, Technometrics, 10, 291-300.

JOHN P.W.M. (1969), “Some non-orthogonal fractions of 2n designs”, Journal of the

Royal Statistical Society, B, 31, 270-275.

JOHN P.W.M. (1979), “Missing points in 2n and 2n-k Factorial Designs”, Technometrics,

21, 225-228.

JOHN P.W.M. (1990), Statistical methods in Engineering and Quality Assurance, J.

Wiley, New York JURAN J.M. (1988), Juran’s Quality Control Handbook , Mc Graw-Hill, New York.

JURAN J.M. (1995), “A History of Managing for Quality”, Quality progress, 28, 125-129.

KACKER R.N. (1985), “Off-line Quality Control, Parameter Design, and the Taguchi

Method” , Journal of Quality Technology, 17, 176-190 (con commento di BOX

G.E.P.).

KHURI A.I., CORNELL J.A. (1987), Response Surface Methodology, M. Dekker, New

York.

KRISHNAIAH P.R. (1980), Analysis of Variance, North Holland Publishing Company,Amsterdam.

LEON R.V., SHOEMAKER A.C., KACKER R.N. (1987), “Performance Measures

Indipendent of Adjustment”, Technometrics, 29, 253-265.

LEVI R. (1991), “Piani sperimentali e metodi Taguchi: luci e ombre”, ATA, 44, 777-781.

LIN D.K.J., DRAPER N.R. (1992), “Projection Properties of Plackett and Burman

Designs”, Technometrics, 34, 423-428.

LITTLE R.J.A. (1982), “Direct Standardization: A Tool for Teaching Linear Models for

Unbalanced Data”, The American Statistician, 36, 38-43.LORENZEN T.J., ANDERSON V.L. (1993), Design of experiments: a no-name approach,

M. Dekker, New York.




314

MARGOLIN B.H. (1969), “Resolution IV Fractional Factorial Designs”, Journal of the

Royal Statistical Society, B, 31, 514-523.

MARGOLIN B.H. (1972), “Non orthogonal Main-effect Designs for Asymmetrical

Factorial Experiments”, Journal of the Royal Statistical Society, B, 34, 431-440.

MARQUARDT D.W. (1970), “Generalized Inverses, Ridge Regression, Biased Linear

Estimation and nonlinear Estimation”, Technometrics, 12, 591-612.

MASON R.L, GUNST R.F., HESS J.L. (1989), Statistical Design & Analysis of

experiments, J. Wiley, New York.

MATTANA G.U. (1994), Qualità, Affidabilità, Certificazione, F. Angeli, Milano.

MILLER I., FREUND J.E., JOHNSON R.A. (1990), Probability and Statistics for

Engineers, Prentice Hall, Englewood Cliffs.

MILLER A., WU C.F.J. (1996), “Commentary on Taguchi Parameter Design with

Dynamic Characteristics”, Quality and Reliability Engineering International , 12, 74-

77.

MONTGOMERY D.C. (1991), Design and Analysis of Experiments, Wiley, New York.

MOOD A.M., GRAYBILL F.A. (1963), Introduction to the Theory of Statistics, Mc Graw-

Hill, New York.

NAIR V.N. (1992), “Taguchi Parameter Design: A Panel Discussion”, Technometrics, 34,

127-161.

NELDER J.A. (1974), Letter to editor, Journal of the Royal Statistical Society, C, 23, 232.

NGUYEN N.K. (1996), “A Note on the Construction of Near-Orthogonal Arrays With

Mixed Levels and Economic Run Size”, Technometrics, 38, 279-283. NOGUCHI J. (1995), “The legacy of W. Edwards Deming”, Quality Progress, 28, 35-37.

PISTONE G., WYNN H.P. (1995), “Generalized confounding with Grobner bases”,

Biometrika, 73.

PLACKETT R.L., BURMAN J.P. (1946), “The Design of Optimum Multifactorial

Experiments”, Biometrika, 33, 305-325.

RASMUSEN E. (1993), Teoria dei giochi e informazione, Hoepli, Milano.

RUELLE D. (1992), Caso e caos, Bollati Borlinghieri, Torino.

SCHEFFE H. (1959), The Analysis of Variance, Wiley, New York.SCHILLING E.G. (1974), “The Relationship of Analysis of Variance to Regression. Part

II: Unbalanced Designs”, Journal of Quality Technology, 6, 146-153.

SEARLE S.R. (1971), Linear models, Wiley, New York.

SEARLE S.R. (1987), Linear models for unbalanced data, Wiley, New York.

SEARLE S.R., SPEED F.M., HENDERSON H.V. (1981), “Some Computational and

Model Equivalencies in Analyses of Variance of Unequal-Subclass-Number Data”,

The American Statistician, 35, 16-33.

SENTURIA J. (1989), “Review of Taguchi”, Technometrics, 31, 256-257.SHEWART W.A. (1931), Economic Control of Quality of Manufactured Products, D. Van

Nostrand Company, New York.




SNEE R.D. (1973), “Some Aspects of Nonorthogonal Datya Analysis. Part I: Developing

Prediction Equations”, Journal of Quality Technology, 5, 67-79.

SNEE R.D. (1973), “Some Aspects of Nonorthogonal Datya Analysis. Part II: Comparison

of Means”, Journal of Quality Technology, 5, 109-122.

SPEED F.M., HOCKING R.R., HACNEY O.P. (1978), “Methods of Analysis of Linear

Models with Unbalanced Data”, Journal of the American Statistical Association, 73,

105-112.

STEINBERG D.M., HUNTER W.G. (1984), “Experimental Design: Review and

Comment”, Technometrics, 26, 71-97.

STEPHENS M.P. (1994), “A Comparison of Robustness of Taguchi’s Methods with

Classical ANOVA Under Conditions of Homogeneous Variances”, Quality

Engineering , 7, 147-167.

STEPHENS M.P. (1996), “Effects of Heterogeneity of Variance on the Analysis of

Designed Experiments: A Comparison of Robustness of Classical ANOVA with the

use of S/N Ratios”, Quality Engineering , 8, 411-417.

TAGUCHI G. (1987), System of Experimental Design, Unipub Kraus, White Plains.

TAGUCHI G. (1996), “The role of DOE for Robust Engineering: a commentary”, Quality

and Reliability Engineering International , 12, 73-74.

URQUHART N.S., WEEKS D.L. (1978), “Linear Models in Messy Data: Some Problems

and Alternatives”, Biometrics, 34, 696-705.

VICARIO G. (1993), “Fondamenti teorici del DOE”, Tutorial DEINDE, Torino.

WANG J.C. (1993), Sense and nonsense in statistical inference, M. Dekker, New York.WEBB S.R. (1971), “Small incomplete factorial designs for two and three level factors”,


WHEELER D.J. (1988), Understanding Industrial Experimentation, Statistical Process

Control Inc., Knoxville.

WHEELER D.J., CHAMBERS D.S. (1990), Understanding Statistical Process Control ,

Addison-Wesley, Workingham.

ZYSKIND G., MARTIN F.B. (1969), “On best linear estimation and a general Gauss-

Markov theorem in linear models with arbitrary nonnegative covariance structure”,SIAM Journal of Applied Mathematics, 17, 1190-1202.

i metodi per la qualitÁ il d.o.e

Documents