teoria delle decisioni bayesiana

Download Teoria delle Decisioni Bayesiana

Post on 18-Feb-2016

212 views

Category:

Documents

0 download

Embed Size (px)

DESCRIPTION

La regola precedente equivale alla seguente: Se P(x| 1 ) P(x| 2 ) > ( 12 22 )P( 2 ) ( 21 11 )P( 1 ) Il rischio corrispondente a questa loss function la probabilit derrore media Lo spazio delle feature viene diviso in c regioni di decisione Se g i (x) > g j (x) j = i allora x in R i (R i signica assignare x a i ) Caso binario

TRANSCRIPT

  • Teoria delle Decisioni Bayesiana

    Corso di Apprendimento AutomaticoLaurea Magistrale in Informatica

    Nicola Fanizzi

    Dipartimento di InformaticaUniversit degli Studi di Bari

    14 gennaio 2009

    Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

  • Sommario

    IntroduzioneTeoria delle decisioni Bayesiana - nel continuoClassificazione a Minimo Tasso dErrore(Minimum-Error-Rate)Classificatori, funzioni discriminanti e superfici di decisioneTeoria delle decisioni Bayesiana - nel discreto

    Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

  • Introduzione I

    Esempio branzino/salmoneStato di natura, probabilit a priori

    Lo stato di natura una variabile aleatoriaLa pesca di salmone o branzino equiprobabile:

    P(1) = P(2) probabilit a priori uniforme

    P(1) + P(2) = 1 esclusivit ed esaustivit

    Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

  • Introduzione II

    Regola di decisione con la sola informazione delleprobabilit a priori:Se P(1) > P(2) allora decidi per 1altrimenti decidi per 2Usare linformazione condizionale sulle classe

    Sia X una variabile aleatoria che misura il pesoP(x |1) e P(x |2) descrivono la differente leggerezza tra ledue popolazioni di pesci

    Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

  • Introduzione III

    Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

  • Probabilit a posteriori, verosimilianza, evidenza I

    P(j |x) p. a posteriori

    =

    verosimilianza P(x |j)

    p. a priori P(j)

    P(x) evidenza

    P(x) meno importante di P(j |x) e P(j)In caso di c categorie

    P(x) =c

    j=1

    P(x |j)P(j)

    Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

  • Probabilit a posteriori, verosimilianza, evidenza II

    Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

  • Errore I

    La decisione conseguenza dalle probabilit a posterioriX unosservazione per la quale:se P(1|x) > P(2|x) stato di natura reale = 1se P(1|x) < P(2|x) stato di natura reale = 2

    Pertanto:quando si osserva una particolare x ,la probabilit derrore :

    P(error |x) = P(1|x) decidendo per 2P(error |x) = P(2|x) decidendo per 1

    Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

  • Errore II

    Minimizzare la probabilit derrore

    Se P(1|x) > P(2|x) allora decidi per 1 altrimenti per 2Vale anche in media:

    P(errore) =

    P(errore, x)dx =

    P(errore|x)P(x)dx

    Pertanto:

    P(errore|x) = min{P(1|x),P(2|x)}

    (regola di decisione Bayesiana)

    Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

  • Nel caso del continuo I

    Generalizzazione delle idee precedenti:

    Usare pi duna feature

    Usare pi di due stati di naturaPermettere azioni non decidere solo per lo stato di natura

    Permettere altre azioni oltre alla classificazione permetteanche la possibilit di rigettoRifiutare di prendere una decisione in casi difficili o cattivi!

    Introdurre una loss function pi generale della probabilitderrore

    La loss function stabilisce il costo di ogni azione intrapresa

    Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

  • Nel caso del continuo II

    Sia {1, 2, . . . , c} linsieme di c stati di natura(categorie)

    Sia {1, 2, . . . , a} linsieme delle azioni possibiliSia (i |j) il costo dellazione i quando lo stato di natura j

    Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

  • Nel caso del continuo III

    Rischio globaleR si ottiene sommando R(i |x)

    rischio condizionato

    per i = 1, . . . ,a

    R =

    R((x)|x)p(x)dx

    Minimizzare R Minimizzare R(i |x) per i = 1, . . . ,a

    R(i |x) =c

    j=1

    (i |j)P(j |x) i = 1, . . . ,a

    Selezionare lazione i per la quale R(i |x) sia minima R minimale (rischio di Bayes, miglior performance ottenibile)

    Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

  • Classificazione binaria I

    1: decidere per 12: decidere per 2

    ij = (i |j)costo della decisione per i quando il vero stato di natura j

    Rischio condizionato:

    R(1|x) = 11P(1|x) + 12P(2|x)R(2|x) = 21P(1|x) + 22P(2|x)

    Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

  • Classificazione binaria II

    La nostra regola la seguente:Se R(1|x) < R(2|x) allorasi compie lazione 1 ossia decidi per 1

    Questo porta alla regola equivalente:decidi per 1 se

    (21 11)P(x |1)P(1) > (12 22)P(x |2)P(2)

    altrimenti decidi per 2

    Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

  • Tasso di verosimiglianza

    La regola precedente equivale alla seguente:Se

    P(x |1)P(x |2) >

    (12 22)P(2)(21 11)P(1)

    allora compi lazione 1 (decidere per 1)altrimenti compi lazione 2 (decidere per 2)

    P(x |1)P(x |2) likelihood ratio

    Propriet della decisione ottimaleSe il grado di verosimiglianza eccede una soglia indipendentedallesempio di input x , si possono intraprendere azioni ottimali

    Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

  • Classificazione per minimo tasso derrore I

    Le azioni sono decisioni sulle classiSe i viene intrapresa ed il vero stato di natura j allora:la decisione corretta se i = j ed erronea se i 6= jSi cerca una regola di decisione cheminimizza la probabilit derrore che il tasso derrore

    Introduzione della loss function zero-uno:

    (i , j) =

    {0 i = j1 i 6= j

    Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

  • Classificazione per minimo tasso derrore II

    Perci, il rischio condizionato :

    R(i |x) =c

    j=1

    (i , j)P(j |x)

    =j 6=i

    P(j |x) = 1 P(i |x)

    Il rischio corrispondente a questa loss function la probabilitderrore media

    Minimizzare il rischio richiede di massimizzare P(i |x)(dato che R(i |x) = 1 P(i |x))Per il minimo tasso derrore:Decidere i if P(i |x) > P(j |x) j 6= i

    Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

  • Classificazione per minimo tasso derrore III

    Regioni di decisione e loss function zero-uno

    Pertanto si ha la regola:Sia (1222)P(2)(2111)P(1) = allora decidere per 1 se

    P(x |1)P(x |2) >

    Se la loss function zero-uno che significa:

    Se =(

    0 11 0

    )allora =

    P(2)P(1)

    = a

    Se =(

    0 21 0

    )allora =

    2P(2)P(1)

    = b

    Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

  • Classificazione per minimo tasso derrore IV

    Con una loss function 0/1 o basata sulla classificazione, i limiti di decisionesono determinati da a. Se la loss function penalizza la miscategorizzazionedi 2, si passa a soglie pi ampie b, e R1 diventa pi piccola

    Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

  • Il caso multi-categorico

    Insieme di funzioni discriminanti gi(x), i = 1, . . . , cIl classificatore assegna un vettore x alla classe i se:

    gi(x) > gj(x) j 6= i

    Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

  • Struttura funzionale di un classificatore

    Un passo successivo determina quale dei valori discriminanti sia il massimo,e assegna la classe di conseguenza

    Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

  • Minimizzazione del rischio

    Sia gi(x) = R(i |x)La discriminazione massima corrisponde al minimo rischio!Per il minimum error rate, considerare

    gi(x) = P(i |x)

    La discriminazione massima corrisponde alla massimaprob. a posteriori!

    gi(x) P(x |i)P(i)

    ossiagi(x) = ln P(x |i) + ln P(i)

    Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

  • Regioni di decisione I

    Lo spazio delle feature viene diviso in c regioni di decisioneSe gi(x) > gj(x) j 6= i allora x in Ri(Ri significa assignare x a i )Caso binario

    Un classificatore detto dicotomizzatore con due funzionidiscriminanti g1 e g2Sia g(x) = g1(x) g2(x)

    Decidere per 1 se g(x) > 0; altrimenti decidere per 2Calcolo di g(x)

    g(x) = P(1|x) P(2|x) = ln P(x |1)P(x |2) + lnP(1)P(2)

    Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

  • Regioni di decisione II

    Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

  • Caso discreto I

    Le componenti di x sono a valori binari o interi, x prendesolo uno degli m valori discreti

    v1, v2, . . . , vm

    Caso di features binarie indipendenti nel problema binarioSia x = [x1, x2, . . . , xd ]t dove ogni xi 0 o 1, con leprobabilit:

    pi = P(xi = 1|1) e qi = P(xi = 1|2)

    Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

  • Caso discreto II

    La funzione discriminante in tal caso sar:

    g(x) =d

    i=1

    wixi + w0

    dove

    wi = lnpi(1 qi)qi(1 pi) i = 1, . . . ,d

    e

    w0 =d

    i=1

    ln1 pi1 qi + ln

    P(1)P(2)

    Decidere 1 se g(x) > 0 e 2 se g(x) 0

    Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

  • Credits

    R. Duda, P. Hart, D. Stork: Pattern Classification, Wiley

    Corso di Apprendimento Automatico Teoria delle Decisioni Bayesiana

Recommended

View more >