stima dei parametri

Stima dei Parametri

Corso di Apprendimento AutomaticoLaurea Magistrale in Informatica

Nicola Fanizzi

Dipartimento di InformaticaUniversità degli Studi di Bari

14 gennaio 2009

Corso di Apprendimento Automatico Stima dei Parametri

Sommario

IntroduzioneStima dei parametri di massima verosimiglianzaStima dei parametri bayesiana


Introduzione I

In un contesto Bayesiano, si potrebbe progettare unclassificatore ottimo conoscendo:

p(ωi) (prob. a priori)

p(x |ωi) (densità condizionate)

Sfortunatamente, raramente si ha una informazione completa.

Progettare un classificatore a partire da un campione diesempi:

Nessun problema con la stima della prob. a priori

I campioni sono spesso troppo piccoli per la stima delledensità condizionate (grandi dimensioni dello spazio dellefeature)


Introduzione II

L’informazione a priori sul problema

Es. Una densità p(x |ωi)p(x |ωi) ∼ N(µi ,Σi) è caratterizzata da 2 parametri

Tecniche di stima:Massima verosimiglianza (Maximum-likelihood, ML) eBayesiana

Risultati pressochè identici, ma gli approcci sono diversi


Introduzione III

Nella stima ML, i parametri sono considerati fissati masconosciuti

Parametri migliori ottenuti massimizzando la probabilità diottenere i campioni osservati

Nella stima bayesiana, i parametri sono visti come variabilialeatorie dalla distribuzione sconosciuta

L’osservazione di esempi cambia la distribuzione aposteriori, con la stima dei valori dei parametriEffetto: assottigliamento della densità sui veri valori deiparametri

In entrambi gli approcci,si usa p(ωi |x) come regola di classificazione


Stima di massima verosimiglianza I

Buona proprietà di convergenza al crescere del campionedi esempiTecnica più semplice d’ogni altra alternativa

Principio generaleSi assuma di avere c classi e un dataset D = D1 ∪D2 ∪ · · · ∪Dcdi esempi indipendenti e identicamente distribuiti(i.i.d. se riguardati come var. aleatorie)

per denotare la dipendenza dal parametro, si scrive

p(x |ωj) ≡ p(x |ωj , θj)

es. p(x |ωj , θj) ∼ N(µj ,Σj) con:θ = (µj ,Σj) = (µ1

j , µ2j , . . . , σ

11j , σ22

j , cov(xnj , x

mj ), . . .)


Stima di massima verosimiglianza II

Usare l’informazione degli esempi di training per stimareθ = (θ1, θ2, . . . , θc), dove ogni θi è associato con unacategoria (i = 1,2, . . . , c)

Supponendo che D = {x1, x2, . . . , xn}, per l’indipendenzadegli esempi

p(D|θ) =n∏

k=1

p(xk |θ) = F (θ)

verosimiglianza di θ rispetto all’insieme di esempi

La stima ML di θ è, per definizione, il valore θ̂ chemassimizza p(D|θ)

”Valore di θ che meglio si accordacon il campione di training realmente osservato”


Stima di massima verosimiglianza III

Distribuzioni candidate (linee tratteggiate)relative a punti tratti da una Gaussiana di media sconosciuta:

p(Dj |µ) in funzione della media e log-likelihood

con tanti esempi, la funzione di likelihood tende restringersi


Stima ottimale I

Sia θ = (θ1, . . . , θp)t e sia ∇θ l’operatore di gradiente

∇θ =

[∂

∂θ1, . . . ,

∂

∂θp

]

Si definisce l(θ) come funzione di log-verosimiglianza(log-likelihood)

l(θ) = ln p(D|θ)

Nuova formulazione del problema:determinare θ che massimizza la log-likelihood

θ̂ = arg minθ

l(θ)


Stima ottimale II

Condizioni necessarie per l’ottimizzazione:

∇θ l = 0

con ∇θ l =∑n

i=1∇θ ln p(xk |θ)

Una soluzione θ̂ potrebbe essere

un vero massimo globale,

un minimo/massimo locale o

un flesso (raramente)

Bisogna anche controllare gli estremi dell’insieme di definizionedella funzione


Stima MAP (maximum a posteriori)

Gli stimatori maximum a posteriori (MAP) cercano il valore di θche massimizzi p(D|θ)p(θ) o anche l(θ) + ln p(θ)

Si può vedere uno stimatore ML come uno stimatore MAPper una densità a priori uniformeUno stimatore MAP cerca il picco (moda) di una densità aposterioriSvantaggio:con trasformazioni non lineari arbitrarie dello spazio delparametro la densità cambia così come la soluzione


Stima Bayesiana I

Apprendimento Bayesiano per problemi di classificazione

Nella stima ML θ è supposto prefissatonella stima Bayesiana θ è una variabile casuale

Nella classificazione Bayesiana il calcolo delle probabilità aposteriori P(ωi |x) è fondamentale

Scopo: calcolare P(ωi |x ,D)dato il campione D, la formula di Bayes permette discrivere:

P(ωi |x ,D) =p(x , ωi |D)

p(x |D)=

p(x |ωi ,D)P(ωi |D)∑cj=1 p(x |ωj ,D)P(ωj |D)


Stima della densità a posteriori I

Il calcolo di p(x |D) è applicabile ad ogni situazione nella qualeuna densità sconosciuta sia parametrizzabile

Assunzioni di base

Si assume nota la forma di p(x |θ), ma non il parametro

La conoscenza su θ si assume contenuta in una densità apriori p(θ)

Il resto della conoscenza è contenuto in un insieme D di nvariabili casuali x1, x2, . . . , xn che segue p(x)


Caso generale II

Osservazioni

Se p(θ|D) ha un picco per il valore θ̂ con p(θ̂) 6= 0 enon cambia molto in un suo intorno,allora p(D|θ) ha anche essa un picco nello stesso punto

Quindi sarà approssimativamente p(x |D) ' p(x |θ̂),risultato che si otterrebbe usando la stima ML come sefosse il valore reale:

Se il picco di p(D|θ) è rilevante,allora l’influenza della densità a priori si può ignorare


Approccio ricorsivo-incrementale I

Separiamo i campioni per classi,indicando esplicitamente la cardinalità: Dn = {x1, . . . , xn}

Per n > 1 tramite l’eq. p(D|θ) =∏n

k=1 p(xk |θ):

p(Dn|θ) = p(xn|θ)p(Dn−1|θ)

Sostituendo nelle relazioni precedenti:

p(θ|Dn) =p(xn|θ)p(θ|Dn−1)∫p(xn|θ)p(θ|Dn−1)dθ

Notare che si può partire da p(θ|D0) = p(θ) e continuarecalcolando p(θ|x1),p(θ|x1, x2), . . .


Approccio ricorsivo-incrementale II

Parametri / statistiche sufficienti

Per calcolare p(θ|Dn) si preservano tutti gli esempi in Dn−1

Per alcune distribuzioni pochi parametri associati conp(θ|Dn−1) contengono tutta l’informazione necessaria

La sequenza di densità converge ad una funzione delta diDirac centrata sul valore vero del parametro: si dice in talcaso che p(x |D) è identificabile


Differenze

I metodi visti finora convergono solo asintoticamente dati moltiesempi

La stima ML e ’ preferibile in termini di complessità (ricercadi minimo contro integrazione multi-dimensionale) e diinterpretabilità (singolo modello contro media pesata dimodelli)L’info a priori è da assumere parametrica p(x |θ̂) per lastima ML, quella bayesiana p(x |D) sfrutta invece tuttal’informazione disponibilePer questo, se p(θ|D) è irregolare o asimmetrica, p(x |D)sarà molto variabile a seconda dei metodi (problemi di biase varianza)


Errori

Il classificatore determina in base alla densità a posteriori laclasse che massimizza la probabilità d’appartenenza

Possibili errori:errore di indistinguibilità densità p(x |ωi) che sisovrappongono per alcuni valori di i .Ineliminabile: dipende dal problemaerrore di modello occorre informazione sul dominio per lascelta del modello correttoerrore di stima dovuto alla limitatezza del campione;si attenua aumentando gli esempi


Problematiche I

Dimensionalità

Problemi che coinvolgono 50 o 100 caratteristiche (binarie)

L’accuratezza predittiva dipende dalla dimensione e delnumero dei dati di training

Le feature più utili sono quelle la cui differenza tra le medieè grande relativamente alla deviazione stdandard

In pratica oltre un certo punto, l’aggiunta di altre featureporta a peggiorare la performance: modello sbagliato


Problematiche II

Evitare il fenomeno dell’overfitting

riduzione della dimensionalità conservando solo le featurerilevanti o combinando più feature

condivisione della matrice di covarianza tra le varie classi

la matrice può essere sottoposta ad un meccanismo disoglia in modo da eliminare correlazioni accidentali


Problematiche III

Esempio

parabola con l’aggiunta di errore gaussiano


Problematiche IV

Si parte con un modello polynomiale (10 deg grado),per poi livellare (smoothing) o semplificare il modello,eliminando i termini di grado maggiore

NB: a volte anche una retta potrebbe avere prestazionisuperiori!

Questo in genere aumenta l’errore di training ma abbassaquello sugli esempi di test


Credits

R. Duda, P. Hart, D. Stork: Pattern Classification, Wiley


http://rii.ricoh.com/%7Estork/DHS.html

stima dei parametri

Documents