aprendizagem bayesiana francisco carvalho di-ufpe

Download Aprendizagem Bayesiana Francisco Carvalho DI-UFPE

Post on 22-Apr-2015

106 views

Category:

Documents

5 download

Embed Size (px)

TRANSCRIPT

  • Slide 1
  • Aprendizagem Bayesiana Francisco Carvalho DI-UFPE
  • Slide 2
  • Mtodos Bayesianos Fornece algoritmos prticos de aprendizagem * Aprendizagem Bayesiana ingenua * Aprendizagem de Redes Bayesianas * Combina conhecimento a priori (probabilidade a priori ou incondicional) com dados de observao * Requer probabilidades priori
  • Slide 3
  • Teorema de Bayes * P(h): probabilidade a priori da hiptese h * P(D): probabilidade a priori dos dados de treinamento D * P(h/D): probabilidade de h dado D * P(D/h): probabilidade de D dado h
  • Slide 4
  • Escolha de hipteses * Geralmente deseja-se a hiptese mais provvel observados os dados de treinamento * Hiptese de maior probabilidade a posteriori h MAP * Hiptese de mxima verossimilhana h ML
  • Slide 5
  • Aplicao do Teorema de Bayes: Diagnstico Mdico Seja M=doena meningite S= dor de cabea Um Doutor sabe: P(S/M)=0.5 P(M)=1/50000 P(S)=1/20 P(M/S)=P(S/M)P(M) P(S) =0,5*(1/50000)=0,002 1/20 A probabilidade de uma pessoa ter meningite dado que ela est com dor de cabea 0,02% ou ainda 1 em 5000.
  • Slide 6
  • Frmulas Bsicas de Probabilidade * Regra do Produto: Probabilidade de uma conjuno de dois eventos A e B * Regra da Soma: Probabilidade de uma disjuno de dois eventos A e B * Teorema da Probabilidade Total: Se os eventos A 1, ,A n so mutuamente exclusivos e formam uma partio do evento certo
  • Slide 7
  • Teorema da Probabilidade Total A
  • Slide 8
  • Teorema da Multiplicao de Probabilidades Esse resultado permite calcular a probabilidade de ocorrncia simultnea de vrios eventos a partir das probabilidades condicionais.
  • Slide 9
  • Algoritmo de aprendizagem da Probabilidade Mxima Posteriori - MAP 1. Para cada hiptese h H, calcule a probabilidade a posteriori 2. Escolha a hiptese h MAP de maior probabilidade posteriori
  • Slide 10
  • Classificao mais provvel de uma nova instncia * Dada uma nova instncia x, qual a sua classificao mais provvel? * h MAP (x) no a classificao mais provvel Considere, * Trs hipteses: * P(h 1 /D) = 0.4, P(h 2 /D) = 0.3 e P(h 3 /D) = 0.3 * Dada uma nova instncia x, * Suponha: h 1 (x) = +, h 2 (x) = - e h 3 (x) = - * A classificao mais provvel de x: -
  • Slide 11
  • Classificador Bayesiano timo * Um novo exemplo pode ser classificado como v j V, a probabilidade de que a classificao correta seja v j Classificao Bayesiana tima
  • Slide 12
  • Classificador Bayesiano timo * Exemplo. * P(h 1 /D) = 0.4, P(-/h 1 ) = 0, P(+/h 1 ) = 1 * P(h 2 /D) = 0.3, P(-/h 1 ) = 1, P(+/h 1 ) = 0 * P(h 3 /D) = 0.3, P(-/h 3 ) = 1, P(+/h 1 ) = 0 * Portanto * e
  • Slide 13
  • Classificador Bayesiano Ingnuo * Junto com as rvores de deciso, redes neurais, vizinhos mtuos, um dos mtodos de aprendizagem mais prticos * Quando usa-lo * Quando disponvel um conjunto de treinamento mdio ou grande * Os atributos que descrevem as instncias forem condicionalmente independentes dada uma classificao Aplicaes de Sucesso * Diagnstico * Classificao de documentos textuais
  • Slide 14
  • Classificador Bayesiano Ingnuo * Suponha uma funo de classificao f: X V, onde cada instncia x descrita pelos atributos {a 1, , a n } * O valor mais provvel de f(x) * Suposio Bayesiana Ingnua * Classificador Bayesiano Ingnuo
  • Slide 15
  • Algoritmo Bayesiano Ingnuo * Aprendizagem_Bayesiana_Ingnua(exemplos) * Para cada v j * P(v j ) estimativa de P(v j ) * Para cada valor a i de cada atributo a * P(a i /v j ) estimativa de P(a i /v j ) * Classificador_Novas_Instancias(x)
  • Slide 16
  • * Dia Tempo Temp. Humid. Vento Jogar * D1 Sol Quente Alta Fraco No * D2 So Quente Alta Forte No * D3 Coberto Quente Alta Fraco Sim * D4 Chuva Normal Alta Fraco Sim * D5 Chuva Frio Normal Fraco No * D6 Chuva Frio Normal Forte No * D7 Coberto Frio Normal Forte Sim * D8 Sol Normal Alta Fraco No * D9 Sol Frio Normal Fraco Sim * D10 Chuva Normal Normal Fraco Sim * D11 Sol Frio Alta Forte ? Classificador bayesiano ingnuo: exemplo * P(Sim) = 5/10 = 0.5 * P(No) = 5/10 = 0.5 * P(Sol/Sim) = 1/5 = 0.2 * P(Sol/No) = 3/5 = 0.6 * P(Frio/Sim) = 2/5 = 0.4 * P(Frio/No) = 2/5 = 0.4 * P(Alta/Sim) = 2/5 = 0.4 * P(Alta/No) = 3/5 = 0.6 * P(Forte/Sim) = 1/5 = 0.2 * P(Forte/No) = 2/5 = 0.4 * P(Sim)P(Sol/Sim) P(Frio/Sim) * P(Alta/Sim) P(Forte/Sim) = 0.0032 * P(No)P(Sol/No)P(Frio/No) * P(Alta/No) P(Forte/No) = 0.0288 * Jogar_Tenis(D11) = No
  • Slide 17
  • Algoritmo Bayesiano Ingnuo : Dificuldades * Suposio de independncia condicional quase sempre violada * Mas funciona surpreendentemente bem * O que acontece se nenhuma das instancias classificadas como v j tiver o valor a i ?
  • Slide 18
  • Algoritmo Bayesiano Ingnuo : Dificuldades * Soluo tpica * Nmero de exemplos para os quais v = v j * N c nmero de exemplos para os quais v = v j e a = a i * P a estimativa priori para P(a i /v j ) * M o peso dado priori (nmero de exemplos virtuais)
  • Slide 19
  • Redes Bayesianas * Interesse * Suposio de independncia condicional muito restritiva * Mas sem esse tipo de suposio em algum nvel o problema se torna intratvel * Redes Bayesianas descrevem independncia condicional entre subconjuntos de variveis * Permite a combinao do conhecimento a priori sobre a independncia entre variveis com os dados observados
  • Slide 20
  • Independncia Condicional * X condicionalmente independente de Y dado Z se a distribuio de probabilidade de X independente do valor de Y dado o valor de Z * Exemplo: Trovo condicionalmente independente de Chuva, dado Relmpago * P(Trovo/ Chuva, Relmpago) = P(Trovo/ Relmpago) * Regra do Produto:
  • Slide 21
  • Redes Bayesianas Tempestade nibus de Turismo Fogo no Acampamento Trovo Fogo na floresta Raio
  • Slide 22
  • Redes Bayesianas T,O T, O T, O T, O FC 0.4 0.1 0.8 0.2 FC 0.6 0.9 0.2 0.8 Fogo no Acampamento * A rede representa um conjunto de asseres de independncia condicional * Cada n condicionalmente independente dos seus no descendentes, dados os seus predecessores imediatos * Grafo acclico direto
  • Slide 23
  • Redes Bayesianas * Representa a distribuio de probabilidade conjunta entre todas as variveis * Exemplo, P(Tempestade, , Fogo na Floresta) * Em geral Onde Predecessores(Y i ) significa predecessores imediatos de Y i no grafo * A distribuio conjunta definida pelo gafo mais os P(y i / Predecessores(Y i ))
  • Slide 24
  • Redes Bayesianas: representao do conhecimento para raciocnio com incerteza * Representa 3 tipos de conhecimento do domnio: relaes de independncia entre variveis aleatrias (graficamente); probabilidades a priori de algumas variveis; probabilidades condicionais entre variveis dependentes. * Conhecimento representado: pode ser aprendido a partir de exemplos reutilizando parte dos mecanismos de raciocnio * Permite calcular eficientemente: probabilidades a posteriori de qualquer varivel aleatria(inferncia); usando para isso uma definio recursiva do teorema de Bayes.
  • Slide 25
  • Estrutura de uma rede bayesiana * Cada varivel aleatria (VA) representada por um n da rede * Cada n (VA) recebe conexes dos ns que tm influncia direta (seus pais) sobre ele. (Tarefa fcil para o especialista) * Cada n possui uma tabela de Probabilidades Condicionais que quantifica a influncia dos seus pais sobre ele. (Difcil para o especialista) * O grafo acclico
  • Slide 26
  • Construo (manual) de uma rede bayesiana * Escolher variveis relevantes que descrevam o domnio; * Escolher uma ordem para as variveis; * Enquanto tiver variveis sobrando: pegar uma varivel e adicionar um n na rede para ela; criar links dos ns anteriormente inseridos que satisfaam a independncia condicional; definir a tabela de probabilidade condicional para a varivel.
  • Slide 27
  • Exemplo simples de rede bayesiana (cont.) RouboTerremoto Alarme JohnCalls MaryCalls
  • Slide 28
  • Decomposio da Probabilidade Conjunta X1X1 X2X2 X3X3 XnXn * Essa decomposio deixa clara a necessidade de a rede bayesiana ser um grafo acclico
  • Slide 29
  • Tipos de conhecimento * Causal Refletem a direo conhecida de causalidade no mundo: para algumas propriedades do mundo percepes so geradas. ex, P(DorDeDente|Crie), P(MaryCalls|Alarme) * Diagnstico Infere a presena de propriedades escondidas diretamente da percepo. Produzem concluses fracas. ex, P(Carie|DorDeDente), P(Alarme|MaryCalls)
  • Slide 30
  • Ordenar ns de uma rede bayesiana * Algoritmo de construo apresentado especifica a ordem * Razes sempre causais, folhas sem influncia causal sobre nenhuma outra varivel * Se no perde: conciso da rede eficincia computacional (pior caso volta a distribuio de probabilidade conjunta)
  • Slide 31
  • Exemplo de rede bayesiana no puramente causal * Vamos usar o exemplo do alarme com a seguinte ordem de insero dos ns: MaryCalls, JohnCalls, Alarme, Roubo e Terremoto. RouboTerremoto Alarme JohnCalls MaryCalls
  • Slide 32
  • Exemplo de rede bayesiana no puramente causal (cont.) * Problemas: A figura possui duas conexes a mais; julgamento no natural e difcil das probabilidades; * Tendo uma rede puramente causal, teramos um nmero menor de conexes * Podemos piorar ainda mais a nossa configurao da rede, seguindo a seguinte ordem de criao: MaryCalls, JohnCalls, Terremoto, Roubo e Alarme.