introduzione ai minimi quadrati - laboratorio di...
TRANSCRIPT
Introduzione ai Minimi Quadrati
Misure ripetute della medesima grandezza, eseguite al limite della precisione possibile con il metodo e gli
strumenti utilizzati, forniscono sempre risultati diversi per la presenza degli errori casuali; tali errori, non noti, non
possono essere eliminati.
Come si può stimare il valore “vero” di una grandezza se non si conoscono gli errori in ciascuna osservazione? Si associa alle misure una modellizzazione statistica e
matematica: l’osservazione (misura) yO è la somma di due componenti: il valore vero della grandezza y (osservabile)
e l’errore di misura incognito ν.
ν+= yyO
Rapidi cenni ai differenti tipi di errori
Errori casuali, a media nulla e di entità dipendente dalle precisioni strumentale e di lettura: ineliminabili ma facilmente
modellizzabili statisticamente (vedi subito sotto).
Errori sistematici o di modello, dovuti a sistematismi strumentali e/o errata modellizzazione delle osservazioni o delle relazioni fra osservazioni e incognite; in alcuni casi identificabili e eliminabili ma non modellizzabili in senso
generale vanno trattati caso per caso (vedi la verifica di ipotesi).
Modellizzazione dei puri errori casuali
Un buon modello formale per descrivere
le osservazioni di precisione è quello di considerarle come estrazioni di variabili casuali gaussiane o normali,
definite da media y e varianza σ2;
2)(22
1
2/12 )2(1)(
yOy
O eyf−
σ−
πσ=
ove
f(yO): distribuzione di densità di probabilità
y: valore vero, incognito, dell’osservazione (osservabile) σ2: parametro di dispersione o varianza.
Nota
Indichiamo con )( MOm yyyP ≤≤ la probabilità di ottenere una misura che cada nell’intervallo di valori
compresi tra ym e yM; tale probabilità è data da
∫=≤≤My
myOOMOm dyyfyyyP )()(
Indicativamente il risultato di una misura cade con il
99.9% di probabilità nell’intervallo y-3σ e y+3σ; inoltre, formalmente si ha probabilità nulla di ottenere da un’osservazione il valore dell’osservabile: infatti
∫ =y
yOO dyyf 0)(
Caso Rm
Se supponiamo di avere m osservabili, cioè di
osservare m grandezze diverse, possiamo utilizzare lo stesso modello visto precedentemente e scrivere in modo compatto, utilizzando la notazione vettoriale:
νyy +=O
con
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
=
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
=
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
=
mmOm
O
O
O
y
yy
y
yy
ν
νν
νyy...
;...
;...2
1
2
1
2
1
)(1)(
21
2/2/ )(det)2(1)(
yyCyy
Cy
−−−−
π=
OyyT
Om
yymO ef
ove m è la dimensione di y.
Cyy è la matrice di covarianza delle osservazioni.
⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢
⎣
⎡
σσσ
σσσ
σσσ
=
221
22221
11221
...............
...
...
mmm
m
m
yyC
contiene:
in diagonale le varianze delle singole osservazioni, fuori diagonale le covarianze fra coppie di osservazioni; la
matrice è simmetrica e definita positiva, quindi invertibile.
Nota
Se yO segue una distribuzione normale con media y e covarianza Cyy si indica
[ ]yyO N Cyy ,~
Terminologia
Campione bernoulliano Un campione bernoulliano è un insieme di elementi
estratti indipendentemente da una Variabile Casuale (VC). Esempio:
più ripetizioni indipendenti della stessa osservazione
Statistiche campionarie Variabili casuali funzioni della VC
dalla quale il campione è stato estratto:
media campionaria: ∑ == Ni OiyN
y ,...,11ˆ ;
varianza campionaria corretta: 2
,...,12 )ˆ(
11ˆ ∑ = −−
=σ Ni Oi yyN
Stima dei parametri statistici di una VC
Calcolo dei valori dei parametri caratteristici di una VC (ad esempio media e varianza,…) a partire da
un campione bernoulliano per mezzo di opportuni stimatori, definiti in base a determinati
criteri statistici.
Correttezza Uno stimatore è corretto se la sua media
coincide con la media della VC.
Consistenza Uno stimatore è consistente se,
al tendere a infinito della numerosità del campione, la sua media tende alla media della VC in probabilità
e la sua varianza tende a 0 in probabilità.
Minima varianza Uno stimatore è di minima varianza se
la sua varianza è la minore tra quelle degli stimatori dello stesso parametro statistico della VC.
Robustezza
Uno stimatore è robusto se non viene significativamente influenzato da
pochi elementi del campione non appartenenti alla VC considerata.
Accuratezza
Definisce la dispersione dei valori campionari intorno alla media campionaria;
la varianza campionaria è un indice di accuratezza.
Precisione Definisce la dispersione dei valori campionari
intorno alla media teorica della VC dalla quale si ritiene estratto il campione;
Misure molto accurate (σ2 piccolo) risultano poco precise se si hanno errori di modello.
I Minimi Quadrati Formalizzazione del problema e degli obiettivi
Non è sempre possibile osservare direttamente grandezze
alle quali siamo interessati. Se ad esempio vogliamo determinare coordinate di punti sulla superficie terrestre, non è possibile eseguire la loro misura diretta; possiamo però fare misure di angoli e distanze o di basi, e costruire un modello fisico e geometrico che leghi tali osservabili
alle coordinate dei punti. In questo caso quindi le osservabili y (angoli, distanze e
basi) possono essere descritte funzionalmente a partire da parametri incogniti x (le coordinate dei punti).
Ovvero
Siano date m osservazioni
⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢
⎣
⎡
=
om
o
o
o
y
yy
...2
1
y
per ogni osservazione i-esima valga
iioi yy ν+=
[ ] 0;0 =ν≠ν ii E
ovvero
νyy +=o [ ] yy =oE
y: vettore delle osservabili, incognite;
oy : vettore delle osservazioni, note; ν: vettore degli errori di osservazione, incogniti.
Sia noto il modello stocastico delle osservazioni,
ovvero la loro matrice di covarianza:
QCC 20σ== ννyy
ove rappresenta un fattore di precisione “comune”; 2
0σQ è detta matrice dei cofattori ed esprime in diagonale le
precisioni relative delle diverse osservazioni, fuori diagonale le correlazioni fra le diverse osservazioni.
Sia x un vettore contenente n parametri incogniti:
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
=
nx
xx
...2
1
x
con mn ≤
Sia noto il modello deterministico del problema,
ovvero la relazione funzionale fra x e y
)(xfy =
con f funzione nota.
Il sistema in x sarebbe risolvibile supponendo di conoscere le osservabili y;
in tal caso infatti si avrebbe
)(1 yfx −=
Però il sistema non è risolvibile utilizzando direttamente le osservazioni,
perché queste sono affette da errori incogniti; non è cioè possibile in alcun modo risolvere la
)(1
oyfx −=
poiché, a causa degli errori, si ha
)()( xfνxfνyy ≠+=+=o
Si pone il problema di trovare un metodo che, sfruttando le informazioni disponibili, permetta la miglior stima possibile (in senso statistico) dei parametri incogniti
x ( ) e delle osservabili y (y ); x ˆ
si cerca inoltre un metodo che permetta di stimare la precisione di stima delle incognite;
infine sono necessari strumenti per valutare la presenza di errori nel modello adottato.
Il metodo adottato
nell’elaborazione delle osservazioni GPS e nella compensazione delle reti è quello dei Minimi Quadrati.
Il metodo si presta a problemi lineari, ovvero nella forma
νyy +=o bAxy += ,
[ ] 0,0 =≠ νν E , QCC 20σ==νν yy
ove y0, ν, x e Cyy hanno il significato già visto;
A è detta matrice disegno (nota), dim[A]= m × n, b è il termine noto, dim[b]= m × 1.
Minimi quadrati, principio e stimatori
Dato il problema precedentemente introdotto, in forma lineare, si cercano e consistenti, con a minima
distanza da ; ovvero x e y tali che x y y
oy ˆ ˆ
bxAy += ˆˆ min)()( 1 =−− − yyQyy o
To
Nel seguito vengono riportate senza dimostrazione le stime fornite dai MQ.
Dalle equazioni di condizione precedentemente postulate
si ricava il cosiddetto sistema normale
)(ˆ 1 byQAxN −= −o
T ,
ove N è definita matrice normale, AQAN 1−= T
Si hanno due casi:
A è di rango pieno, ovvero le sue colonne sono
linearmente indipendenti:
0x0Ax =⇒=
in questo caso il problema non presenta deficienza di rango;
A non è di rango pieno, ovvero alcune sue colonne sono
linearmente dipendenti dalle altre:
0x0Ax ≠= qualcheper
in questo caso il problema presenta deficienza di rango.
Soluzione del problema senza deficienza di rango
Se A è di rango pieno lo è anche N, che è dunque invertibile. Si hanno dunque le seguenti stime.
Stima dei parametri incogniti:
)(ˆ 11 byQANx −= −−
oT ;
stima delle osservabili e degli scarti:
bxAy += ˆˆ yyν ˆˆˆ −= o ;
La ridondanza e le stime di covarianza
Ridondanza: differenza fra numero di osservazioni
e numero di parametri incogniti, detta anche numero di gradi di libertà:
nmR −=
Si può dimostrare che 0ˆ yy =⇒= nm ,
ovvero quando la ridondanza è nulla non è possibile ristimare le osservazioni e quindi gli scarti di osservazione
Si può inoltre dimostrare che yx yx ==
∞→∞→ˆlimˆlim ;
RR
ovvero: al tendere all’infinito del numero di osservazioni, gli errori di osservazione si scaricano solo sulle stime degli
errori e non sulle stime dei parametri incogniti e delle osservabili.
Quindi una ridondanza elevata consente:
la validazione reciproca delle osservazioni; una stima più precisa dei parametri incogniti;
una stima delle loro precisioni di stima.
stima del : 20σ
nm
T
−=σ
− νQν ˆˆˆ1
20 ;
stima della matrice di covarianza dei parametri:
12
0ˆˆ ˆ −σ= NC xx ;
stima della matrice di covarianza delle osservabili:
Tyy AANC 12
0ˆˆ ˆ −σ= ;
stima della matrice di covarianza degli scarti
)(ˆ 120ˆˆ
TAANQC νν−−σ=
Note
Il metodo dei minimi quadrati fornisce stime corrette e di
minima varianza per i parametri incogniti.
Le stime sono indipendenti dal valore di : 20σ
quindi non è necessario conoscere tale valore a priori; dipendono però da Q, A e b
(modelli stocastico e deterministico).
Esempio di applicazione dei MQ
Siano A, B e C tre punti; sia HA la quota nota di A;
Siano stati misurati i dislivelli da A a B ( oABDH ), da B a C ( oBCDH ) e da C a A ( oCADH ).
Evidentemente vale la
ABAB DHHH =− CACA DHHH =− BCBC DHHH =−
Soluzione mediante MQ
Si scrive il modello deterministico del problema:
ABABOAB HHDH ν+−= CACAOCA HHDH ν+−=
BCBCOBC HHDH ν+−=
ovvero
νyy +=O bAxy +=
ove
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡−=⎥
⎦
⎤⎢⎣
⎡=
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
−−=
0,,
110110
A
A
B
C HH
HH
x bA
Modello stocastico
Nel presente esempio si considerano le misure di uguale precisione (che indichiamo con σ2)
e scorrelate:
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
σσ
σ=
2
2
2
000000
yyC
ovvero
IC 2σ=yy
Una volta calcolate la matrice normale e la sua inversa,
⎥⎦
⎤⎢⎣
⎡−
−==== −−
211211 AAAIAAQAN TTT
⎥⎦
⎤⎢⎣
⎡=−
2112
311N
le soluzioni fornite dai MQ sono le seguenti.
Parametri incogniti
⎥⎦
⎤⎢⎣
⎡−−
−++⎥
⎦
⎤⎢⎣
⎡=
=⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
−+
⎥⎦
⎤⎢⎣
⎡−
−⎥⎦
⎤⎢⎣
⎡=
=−=⎥⎦
⎤⎢⎣
⎡= −−
OBCOCAOABOCAOBCOAB
A
A
OBC
AOCA
AOAB
T
B
C
DHDHDHDHDHDH
HH
DHHDHHDH
HH
22
31
101110
2112
31
)(ˆˆ
ˆ 011 byQANx
Osservabili
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
ννν
−⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
=⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡−+⎥
⎦
⎤⎢⎣
⎡
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
−−=
=+=⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
=
ˆˆˆ
31
0ˆˆ
110110
ˆˆˆˆ
ˆ
OBCOCAOAB
A
A
B
C
BC
CA
AB
DHDHDH
HH
HH
HDHDHD
bxAy
Scarti
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡=−=
ννν
ˆˆˆ
31ˆˆ yyν O
ove si è posto
OCAOBCOAB DHDHDH ++=ν
Precisione delle stime
221
20 ˆ
31
23
ˆ391
ˆˆˆ ν=−
ν=
−=σ
−
nm
T νQν
⎥⎦
⎤⎢⎣
⎡ν=σ= −
2112
ˆ91ˆ 212
0ˆˆ NC xx
BHxxxxCH ˆˆ )2,2(ˆ32)1,1( σ==ν==σ CC
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
−−−−−−
ν=σ= −
211121112
ˆ91ˆ 212
0ˆˆT
yy AANC
BCHDCAHDyyABHD ˆˆˆˆˆ ˆ32)1,1( σ=σ=ν==σ C
Il problema della deficienza di rango
Nel caso A non sia di rango pieno non lo è neppure N;
risulta perciò impossibile invertire il sistema normale per la stima di x . Geometricamente si ha la seguente
situazione: ad una stima “ottimale” delle osservabili y (ovvero a minima distanza dalle osservazioni y
ˆ
O) corrispondono infinite soluzioni per i parametri incogniti
Definiamo il nucleo N di A come: { }0AxxA == 00 |)(N ; supponiamo di conoscere il valore vero delle osservabili, y; evidentemente se è soluzione di x ybxA =+ˆ , anche
0ˆ xx + lo è; infatti
y0yAxbxAbxxA ˆˆˆ)ˆ( 00 =+=++=++
in sostanza le osservazioni non contengono abbastanza informazione per stimare tutti i parametri desiderati; tale
caratteristica non dipende dalla ridondanza ma dal disegno del problema.
Ad esempio si consideri l’anello di livellazione iniziale e si supponga di voler stimare tutte le quote dalle misure di
dislivello:
νyy +=O bAxy +=
v+⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
−−
−=
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
C
B
A
OCAOBCOAB
HHH
DHDHDH
101110011
è facile verificare che A non è di rango pieno e che, in
particolare,
⎪⎭
⎪⎬
⎫
⎪⎩
⎪⎨
⎧∈∀
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡= RttN ,
111
)(A
in effetti, pensando al problema dal punto di vista fisico, è evidente che i valori delle osservabili di dislivello del
triangolo non vengono modificati aggiungendo un valore H comune alle 3 quote supposte incognite:
)()()()()()(
HHHHHHDHHHHHHHDHHHHHHHDH
CACACA
BCBCBC
ABABAB
+−+=−=+−+=−=+−+=−=
ovvero le quote dei punti (parametri incogniti), presentano
1 grado di libertà, rispetto ai dislivelli (osservabili); la situazione non cambia aggiungendo una o più
osservazioni di dislivello (a titolo di esercizio lo si verifichi aggiungendo ad esempio ACDH ).
La rimozione della deficienza di rango
Per rimuovere la deficienza di rango in un problema ai MQ si deve innanzitutto identificare preventivamente quali siano i parametri non stimabili del problema: ad
esempio in una rete di livellazione, con sole osservazioni
di dislivelli, sono stimabili le quote di tutti i punti della rete meno uno.
A tale punto sono possibili (e necessari) due approcci alternativi.
1. Si vincolano i parametri non stimabili del problema: ciò
equivale a fissare un Sistema di Riferimento in cui verranno fornite le soluzioni per i restanti parametri
realmente stimabili. Nel problema della rete di livellazione questo equivale ad attribuire la quota “zero” ad uno dei
punti della rete stessa. Tale approccio è quello seguito, appunto, nella definizione
dei Sistemi di Riferimento, globali o nazionali.
2. Si riformula il problema aggiungendo nuove osservazioni sui parametri non stimabili; ad esempio, nella rete di livellazione, misurando direttamente la quota di uno
o più punti ed inserendo le relative equazioni di osservazione nel sistema. Tipicamente, nell’ambito delle reti geodetiche, tali osservazioni aggiuntive, dette anche
pseudoosservazioni, non sono (non possono essere) ottenute direttamente, ma derivano da fonti esterne, che
abbiano risolto a monte il problema di definire un Sistema di Riferimento. Ad esempio, in Italia, è prassi inquadrare
le reti locali di livellazione ai caposaldi IGMI (Istituto Geografico Militare Italiano), utilizzando per questi le
quote trascritte nelle monografie dei punti.
La linearizzazione di un problema non lineare
Non esiste una formulazione dei MQ analoga a quella già vista nel caso lineare bAxy += e
applicabile al problema generale in forma non lineare
)(xfy =
ove
⎪⎪⎩
⎪⎪⎨
⎧
=
),...,,(...
),...,,(),...,,(
)(
21
212
211
nm
n
n
xxxf
xxxfxxxf
xf
Per risolvere il problema generale è prima
necessario linearizzarlo
Si suppone di conoscere valori approssimati per i parametri incogniti:
[ ] nn
Tn
T xxxxxx ≅≅≅= ~,...,~:~,...,~~111 xx ;
è allora possibile linearizzare la relazione )(xfy =
mediante uno sviluppo di Taylor arrestato al primo ordine nell’intorno di x~ :
)~()~(...)~()~()~( 111
1
111 nn
nxx
xfxx
xffy −⋅
∂∂
++−⋅∂∂
+≅ xxx
)~()~(...)~()~()~( 211
1
222 nn
nxx
xfxx
xffy −⋅
∂∂
++−⋅∂∂
+≅ xxx
…
)~()~(...)~()~()~( 111
nnn
mmmm xx
xfxx
xffy −⋅
∂∂
++−⋅∂∂
+≅ xxx
ovvero
)~)(~()~( xxxJxfy −+=
o anche
Aξη =
ove
)~(),...,~(:)~( 111 xxxfyη mmm fyfy −=−=−= ηη nnn xxxx ~,...,~:~
111 −=−=−= ξξxxξ
[ ] )~(;dim xAj
iij x
fAnm∂∂
=×=
Nella prassi operativa si svolgono dunque le seguenti operazioni:
si forniscono i valori approssimati x~ ;
si calcolano i corrispondenti y~ ; si calcolano le derivate e quindi gli elementi Aij ;
si calcola il vettore yyη ~−= OO .
Si ottiene dunque il problema lineare
νηη +=O [ ] ξηη AE O ==
con dim[ηΟ, η , ν]=m; dim[ξ]=n; dim[A]= m × n.
Mediante MQ si risolve il problema lineare rispetto
al vettore dei parametri incogniti ξ;
si calcolano i parametri finali mediante la
ξxx ˆ~ˆ += ηyy ˆ~ˆ +=
Nota
il metodo da adottarsi per ricavare i valori approssimati dipende da caso a caso e non viene
considerato in questa esposizione generale.
Gli effetti della linearizzazione
A causa delle approssimazioni introdotte dalla linearizzazione y=Ax+b per il problema y=f(x)
le prime stime fornite dai MQ non possono essere considerate definitive.
11 ˆ,ˆ yx
In particolare gli divengono nuovi valori approssimati 1x
1~x a partire dai quali si effettua una nuova stima.
Il processo iterativo termina quando due stime successive differiscono in modo non significativo, ovvero quando
ε<− nn xx ~ˆ
con ε assegnato.
Un esempio di linearizzazione per un problema non lineare
Sia P un punto di posizione incognita in R3:
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡=
P
P
P
ZYX
P
siano invece P1, P2, P3 e P4 quattro punti di posizione nota:
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
=1
1
1
1
ZYX
P ⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
=2
2
2
2
ZYX
P … ⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
=4
4
4
4
ZYX
P
Da P sono state misurate le distanze ai quattro punti,
ottenendo i valori ; si indichi con il vettore delle osservazioni di distanza.
OPOPOPOP4321 ;;; ρρρρ Oρ
E’ noto un valore approssimato della posizione di P
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡=
P
P
P
ZYX
P~~~
~
si vuole stimare la posizione di P.
Procedimento
La generica equazione di osservazione da P a Pi è
222 )()()( i
Pi
Pi
PiP ZZYYXX −+−+−=ρ
iiPO
iP νρρ +=
la relazione che lega le distanze (osservate a meno degli errori) alle incognite (la posizione di P) è non lineare;
il sistema è ridondante: 4 osservazioni per 3 incognite;
è possibile risolverlo mediante MQ ma deve
prima essere linearizzato.
Linearizzazione della generica distanza da P a Pi:
)~()~()~()~(
)~(
)~()~()~()~(
)~(
)~()~()~()~(
)~(
)~()~()~(
)()()(
222
222
222
222
222
PPiP
iP
iP
iP
PPiP
iP
iP
iP
PPiP
iP
iP
iP
iP
iP
iP
iP
iP
iP
iP
ZZZZYYXX
ZZ
YYZZYYXX
YY
XXZZYYXX
XX
ZZYYXX
ZZYYXX
−−+−+−
−+
+−−+−+−
−+
+−−+−+−
−+
+−+−+−≅
−+−+−=ρ
ovvero
ξe ⋅+≅ i
PiP
iP
~~ρρ
ove
222 )~()~()~(~ iP
iP
iP
iP ZZYYXX −+−+−=ρ
(distanza calcolata nei valori approssimati)
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
−−−
=i
P
iP
iP
iP
iP
ZZYYXX
~~~
~1~
ρe
(versore approssimato da Pi a P)
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
−−−
=
PP
PP
PP
ZZYYXX
~~~
ξ
(correzioni da apportare alle coordinate approssimate)
Il problema assume dunque la forma
⎥⎥⎥
⎦
⎤
⎢⎢⎢
⎣
⎡
ξξξ
⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢
⎣
⎡
+
⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢
⎣
⎡
ρρρρ
=
⎥⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢⎢
⎣
⎡
ρ
ρ
ρ
ρ
Z
Y
X
ZYX
ZYX
ZYX
ZYX
P
P
P
P
OP
OP
OP
OP
eeeeeeeeeeee
444
333
222
111
4
3
2
1
4
3
2
1
~~~~~~~~~~~~
~~~~
ovvero
Aξηνη
νρρρρη
=+=
+−=−= ~~OO
ora risolvibile mediante MQ.
Errori di modello: introduzione alla verifica statistica di ipotesi
Errori di modello deterministico:
errata costruzione delle e.o. fra osservazioni e incognite, ovvero di A e b. In generale si ha
modello deterministico adottato
νbAxy ++=O
modello deterministico corretto
νbbxAAy +δ++δ+= )(O
Ad esempio,
misuro (yO) una lunghezza in pollici e stimo il risultato (x) in centimetri, senza convertire:
relazione adottata 1, =ν+= aaxyO
relazione corretta inccmaaxyO /54.2, =ν+=
Possono essere su tutto il modello
ma tipicamente su singole osservazioni, ovvero: iiiiOi bby δδ +++= xaa )(
solo per l’osservazione i-esima. Sono eliminabili a priori mediante
corretta costruzione delle e.o. (non sempre possibile);
identificabili a posteriori solo (ma non sempre) se non compaiono sistematicamente in tutte le osservazioni.
Comportano stime errate principalmente dei parametri incogniti.
Errori di modello stocastico:
errata ipotesi sulla struttura della matrice Cyy di covarianza delle osservazioni; tipicamente
sovrastima della precisione di alcune osservazioni: relativi sottostimati ("piccoli");
iiyyC=σ2
sottostima delle correlazioni fra coppie di osservazioni: relativi sottostimati (o posti a zero).
ijyyC
Ovvero: modello stocastico adottato per l’osservazione i-esima
mjijijii ,...,1; 0
20
2 =∀== σσσσ
modello stocastico corretto
mjijijijiii ,...,1; 022
02 =∀δσ+σ=σδσ+σ=σ
Eliminabili a priori mediante
corretta costruzione di Cyy (non sempre possibile); identificabili a posteriori solo (ma non sempre) se
si dispone di osservazioni ridondanti. Comportano stime errate
principalmente della matrice di covarianza dei parametri incogniti.
Il metodo dei MQ non è uno stimatore robusto: errori di modello deterministico o stocastico,
globali o su osservazioni isolate (outlier), possono distorcere le stime.
Esistono algoritmi per:
verificare a posteriori la correttezza globale dei modelli adottati (test del χ2);
identificare eventuali errori di modello
su singole osservazioni (identificazione degli outlier e data snooping).
La verifica statistica di ipotesi
E' un’operazione che consente di stabilire se,
statisticamente, ovvero con una certa probabilità di errore, due valori sono uguali o diversi.
Tipicamente: si pone l’ipotesi H0 che le grandezze oggetto di verifica siano uguali; si costruisce una statistica
campionaria che, sotto l’ipotesi H0, debba seguire una distribuzione nota;
che viceversa, qualora H0 sia sbagliata, vada ad assumere valori “grandi”,
ovvero non accettabili statisticamente; si confronta quindi la statistica campionaria con
i valori limite ammessi dalla sua distribuzione teorica. Nelle nostre applicazioni la verifica viene finalizzata
al controllo di presenza di errori di modello.
Livello di significatività α del test: probabilità di errore che si accetta nell’eseguire il test,
tipicamente 0.01, 0.05, 0.10.
Esempio: test del χ2 per il controllo di accuratezza.
Uno strumento di misura deve essere caratterizzato da accuratezza σ.
Viene effettuata una serie di osservazioni e Oiy
viene calcolata la varianza campionaria ; 2σsi vuole verificare se 2σ sia statisticamente uguale a 2σ
a un certo livello di significatività α:
220 ˆ: σ=σH
Teoria (non dimostrata):
se fosse vera l’ipotesi H0 dovrebbe valere la
2)1(
222
1~)ˆ(
11ˆ −χ
−σ
−−
=σ ∑ Ni
Oi Nyy
N
ove
2nχ è la V.C. chiquadro a n gradi di libertà,
],[~1ˆ2
NyNy
Ny
iOi
σ= ∑
la relazione comporta
2
)1(2
2
2~ˆ)1( −χχ=
σ
σ− NspN
si definisce )(21 αχ −N il valore limite tale che
α−=αχ≤χ≤ −− 1))(0( 2
12
1 NNP
α=αχ>χ −− ))(( 21
21 NNP
perché l'ipotesi 22ˆ σ=σ sia soddisfatta si deve avere
)(2
12 αχ≤χ −Nsp
ovvero se è vera 22
02
)1(2 :)( σ=αχ≤χ − sHNsp
se è falsa 220
2)1(
2 :)( σ=αχ>χ − sHNsp
La verifica di ipotesi per i dati e le reti GPS
Nell’elaborazione dei dati GPS e
nella compensazione di reti rilevate mediante GPS tipicamente vi sono outlier dovuti
sia all’approssimata conoscenza del modello stocastico (le osservazioni vengono ipotizzate più accurate e meno
correlate di quanto non siano in realtà); sia alla presenza di isolati errori di modello deterministico (alcune osservazioni possono contenere termini di disturbo
di entità significativa e non modellizzabili: ad es. il multipath o uno stazionamento fuori centro).
Pertanto, in genere,
prima si verifica la correttezza del modello globale, poi si individuano eventuali outlier,
infine si corregge il modello stocastico.
Il test del χ2 o test globale sul modello
(funzionale e stocastico)
Ipotesi fondamentale . 20
200 ˆ: σσ =H
Statistica di test: 220
20 )(ˆ
spnm χσσ
=− ;
se H0 è vera: 2)(
2 ~ nmsp −χχ
sia α il livello di significatività del test; sia il valore teorico tale che )(2 αχ −nm
α−=αχ≤χ≤ −− 1))(0( 22
nmnmP
se H)(2)(
2 αχ≤χ −nmsp 0 viene accettata;
se H)(2)(
2 αχ>χ −nmsp 0 viene rigettata:
sono presenti errori di modello.
Esecuzione del test sul modello globale
Si effettua la stima ai MQ dei parametri incogniti e delle osservabili;
si stimano gli scarti di osservazione e quindi il ; ν 20σ
si fissa il livello di significatività α per il test; si ricava il valore di da apposite tabelle; )(2
)( αχ −nm
si calcola il e lo si confronta con il valore teorico. 2spχ
Nota: il valore )(2 αχ −nm viene riportato in tabella
come a ν gradi di libertà, 2)1( α−χ nm −=ν
ad esempio:
sia stata effettuata una compensazione di 10 osservazioni in 2 incognite;
a fronte di un dichiarato a priori 220 1cm=σ
si sia ottenuto un . 220 375.2ˆ cm=σ
Sia fissato %5=α : 95.0%951 ==−α ; dai dati precedenti si ricava 8)( =− nm ;
dalla tabella si estrae il valore corrispondente alla colonna e alla riga 2
95.0χ 8=v , ovvero
5.15)05.0(28 =χ
5.15191375.28
ˆ)(
20
202 >==−=
σ
σχ nmsp
Il test non è superato: quindi vi è, a un livello di probabilità del 95%, un errore di modello.
Se si fosse fissato %1=α , si sarebbe ottenuto
(colonna della tabella ) 299.0χ
22
8 1.20)01.0( spχ>=χ
ovvero vi sono errori di modello a livello di significatività 5%,
ma non a livello di significatività 1%.
Il test locale sulla singola osservazione (ipotesi di osservazioni indipendenti)
Serve per identificare errori di modello deterministico o
stocastico su una singola osservazione : Oiy
Ipotesi fondamentale di assenza di errori di modello: ovvero 0ˆ:0 =iH ν
Statistica di test: spi
i τ=σν
νˆˆ
;
se H0 è vera: )(~ nmsp −ττ
ove )( nm−τ è la distribuzione di Thomson a ( m – n ) gradi di libertà;
α livello di significatività del test.
Nota Il test è a due code, ovvero: si devono valutare sia
scarti negativi sia scarti positivi, in modulo “troppo grandi”
Quindi, definito )2/(ατ nm− il valore teorico tale che
ααττ −=≤≤ −− 1))2/(0( nmnmP
α=ατ>τ≤ −− ))2/(0( nmnmP
se )2/()( αττ nmsp −≤ H0 viene accettata;
se )2/()( αττ nmsp −> H0 viene rigettata: l’osservazione i-esima è un sospetto outlier.
Esecuzione del test locale
La non robustezza dei MQ rende complicata
l’identificazione degli outlier poiché un outlier modifica anche
gli scarti delle altre osservazioni; quindi è necessario un procedimento iterativo per
identificare gli outlier (Data snooping).
A ogni iterazione si individua l’osservazione k per la quale:
⎪⎩
⎪⎨⎧
=
> −
spksp
nmksp
ττ
αττ
max
)2/()(
per gestire il sospetto outlier vi sono due approcci:
1) il sospetto outlier viene eliminato dall’insieme delle
osservazioni (tipicamente quando la spτ è significativamente superiore al valore limite);
2) il sospetto outlier viene conservato nell’insieme di osservazioni, diminuendone però il peso di
compensazione (ovvero aumentandone la varianza): empiricamente si può adottare
[ ] 22 ),( iNewyyNewi iiC νσ == (approccio adottabile solo se l’osservazione è indipendente
dalle altre e la spτ è superiore ma confrontabile con il valore limite);
quindi viene ripetuta la stima ai MQ e il test globale;
ci si arresta quando non vi sono più osservazioni sospette.
Si devono poi controllare le osservazioni eliminate (calcolando i loro scarti)
per eliminarle definitivamente o reintrodurle.
Qualora il test sul modello globale non venga superato ma non vi siano sospetti outlier (scarti normalizzati
omogenei) vi è tipicamente un problema di sottostima generale degli elementi della matrice di covarianza delle
osservazioni (sovrastima delle precisioni).
Accuratezza dei parametri stimati
Sono stati eseguiti il test globale sul modello e il data snooping con esiti positivi. Si considera dunque riuscita la
stima dei parametri, ; la loro accuratezza è data dalla relativa matrice di covarianza (nel caso senza deficienza di
rango
x
120ˆˆ ˆ −σ= NC xx ).
Ci si chiede quale sia la regione di confidenza per il valore
vero dei parametri incogniti, ovvero la regione dello spazio n-dimensionale alla quale il vettore x appartiene
con livello di probabilità assegnata.
La regione di confidenza per il vettore dei parametri incogniti ad un certo livello di probabilità 1-α è data dalla
)()ˆ()ˆ( )(,
1ˆˆ α≤−− −
−nmnxx
T FC xxxx
ove Fn, (m - n)(α) è il valore della funzione F di Fisher a (n, (m - n)) gradi di libertà, corrispondente alla probabilità
(1 - α); α: in genere si scelgono i valori 0.01, 0.05, 0.10,
ovvero (1-α)=99%, 95%, 90%.
Nota
Tipicamente si è interessati alla regione di confidenza per un sottoinsieme di parametri incogniti, ξ, dim[ξ]=r × 1.
Per analizzare la regione di confidenza di ξ:
si estrae dal vettore il sottovettore corrispondente ai parametri ξ di interesse; quindi si estrae dalla matrice di covarianza totale
x ξ
xxˆˆC la matrice di covarianza del vettore , ; ξ ξξˆˆC
sia
⎥⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢⎢
⎣
⎡
σσσ
σσσ
σσσ
=
⎥⎥⎥⎥
⎦
⎤
⎢⎢⎢⎢
⎣
⎡
=
221
22221
11221
ˆˆ2
1
...............
...
...
,...
nnn
n
n
xx
nx
xx
Cx
se ad esempio ⎥⎦
⎤⎢⎣
⎡=
j
ixx
ξ si ha ⎥⎥⎦
⎤
⎢⎢⎣
⎡
σσ
σσ=ξξ 2
2
ˆˆjji
ijiC
la regione di confidenza con probabilità 1-α per il vettore
è data dalla ξ
)()ˆ()()ˆ( )(,1
ˆˆ α≤−− −−
nmrT FC ξξξξ
ξξ
Ad esempio, nel caso di una compensazione di rete
geodetica, tipicamente si vuole conoscere per ogni punto la regione tridimensionale di confidenza delle coordinate [XP, YP, ZP] del punto stesso. La regione di confidenza in
questo caso è data da un ellissoide centrato in ]ˆ,ˆ,ˆ[ PPP ZYX , i cui parametri (semiassi e relative
direzioni) dipendono dalla matrice di covarianza delle stime delle coordinate del punto.
Applicazioni dei MQ rilevanti al corso
Elaborazione delle osservazioni GPS
Le relazioni che legano le osservazioni GPS (fasi e codici) alle incognite (posizione del ricevitore o componenti della base) sono simili alle equazioni di distanza; in generale le
osservazioni sono ridondanti, anzi, tipicamente m>>n. Nella maggior parte dei programmi per l’elaborazione dei dati GPS il problema di stima viene linearizzato e quindi
risolto mediante MQ.
I programmi in genere applicano ai dati il test del χ2 per fornire a posteriori un indicatore di qualità dei risultati; viene inoltre effettuato un data snooping delle singole
osservazioni, per la rimozione di eventuali outlier.
Compensazione di reti geodetiche
Sia stato adottato uno schema di rilievo ridondante su una rete geodetica.
E’ possibile effettuare una compensazione ai MQ sulla rete, concettualmente simile al caso della livellazione:
le osservazioni in ingresso sono le stime delle basi fornite dall’elaborazione dei dati GPS e le relative matrici di covarianza; i parametri incogniti sono le coordinate
relative dei punti della rete.
La compensazione di rete permette:
una valutazione più realistica sulla precisione delle stime delle posizioni rispetto a quella fornita dall’elaborazione
dei dati;
l’identificazione di eventuali anomalie su singole sessioni (errori nelle efemeridi, atmosfera,...) o su singoli punti (errore nell’altezza d’antenna,...).
Autovalutazione sui Minimi Quadrati: argomenti e quesiti di importanza fondamentale
Fornisci una definizione per errori casuali,
di modello deterministico e di modello stocastico.
Descrivi il principio di stima dei MQ e scrivi gli stimatori per x, y, ν, , C2
0σ xx e Cyy forniti dal metodo in assenza di deficienza di rango.
Descrivi il problema della deficienza di rango e di come possa operativamente essere risolto nella compensazione
di reti geodetiche.
Spiega il metodo di linearizzazione per un problema non lineare e applicalo all’esempio delle osservazioni di
distanza.
Descrivi il test del χ2: le finalità, la statistica di test e la sua esecuzione.
Descrivi il test sulla singola osservazione:
le finalità, la statistica di test e la sua esecuzione.
La definizione di regione di confidenza per i parametri stimati e per un loro sottoinsieme.