ces -161 - modelos probabilísticos em grafos markov ...pauloac/ces161/ces161_cap5.pdf · processo...
TRANSCRIPT
![Page 1: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/1.jpg)
Markov Decision Process
Prof. Paulo André Castro [email protected] www.comp.ita.br/~pauloac Sala 110, IEC-ITA
CES -161 - Modelos Probabilísticos em Grafos
![Page 2: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/2.jpg)
2/54
Aprendizado - paradigmas• Aprendizado supervisionado
• O crítico comunica a EA o erro relativo entre a ação que deve ser tomada idealmente pelo EE e a ação efetivamente escolhida pelo agente. Pares (corretos) de entrada/saída podem ser observados (ou demonstrados por um supervisor).
• Aprendizado por reforço• O crítico comunica apenas uma indicação de desempenho (indicação
de quão bom ou ruim é o estado resultante), por vezes de modo intermitente e apenas quando situações dramáticas são atingidas (feedback indireto, com retardo).
• Aprendizado não-supervisionado• O crítico não envia nenhum tipo de informação ao EA, não há
“pistas” sobre as saídas corretas (geralmente utiliza-se regularidades, propriedades estatísticas dos dados sensoriais)• Busca-se encontrar padrões ou estruturas / agrupamentos nos dados. Inclui
por exemplo técnicas de clusterização
![Page 3: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/3.jpg)
3/54
Decisões Sequenciais em Ambientes Estocásticos• O resultado imediato (próximo estado) não depende apenas do estado atual e da ação do agente, outros fatores influenciam de modo não plenamente conhecido (estocástico)
• O estado atual e a ação tomada definem um conjunto de possíveis estados sucessores com as respectivas probabilidades
• O agente tem como objetivo maximizar seu retorno acumulado a longo prazo
• Decidir por um caminho ruim agora é plenamente aceitável se no futuro houver recompensa significativa…
![Page 4: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/4.jpg)
4/54
Sequential Decisions• The sequential decision problem can be seen as:
1. Observe system's state
2. Pick and execute an Actioin
(Systems evolves to a new state)
3. Observe an immediate reinforcement
4. Repeat steps 1 – 3
• (We implicitly assumed discrete time!)
![Page 5: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/5.jpg)
5/54
Example
![Page 6: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/6.jpg)
6/54
Example - 2
![Page 7: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/7.jpg)
7/54
Processo Decisório de Markov(Markov Decision Process)• Método de decisão para problema de decisão sequencial pode ser modelado como um modelo de transição Markoviano e reforços aditivos
• O qualificador Markov significa que as transições dependem de um subconjunto dos últimos estados e da ação selecionada.
![Page 8: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/8.jpg)
8/54
Formal Definition of a MDP
![Page 9: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/9.jpg)
9/54
Formal definition of a MDP - 2
![Page 10: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/10.jpg)
10/54
Formal definition of a MDP - 3
![Page 11: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/11.jpg)
11/54
Exemplo 1: Controle de Inventário• Problema: comprar uma quantidade de um certo produto a intervalos regulares (em um total de N intervalos) de modo a satisfazer uma certa demanda
• Estado: sk = estoque no começo do período k
• Ação: ak = compra feita no começo do período k
• Uma perturbação aleatória wk = demanda no período k, respeitando uma certa distribuição de probabilidade
• Reforço rk = r(sk) + cak, onde r(sk) é o custo de estocar sk unidades do produto no período k e c é o custo unitário do produto comprado.
11
![Page 12: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/12.jpg)
12/54
Exemplo 1: Controle de Inventário• Evolução do estado: sk+1 = sk + ak - wk• Função de custo a ser minimizada:
1N
0kkkNo casrsrEsV
![Page 13: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/13.jpg)
13/54
Exemplo 2: Pêndulo Invertido• Problema: controlar um pêndulo invertido exercendo forças +F ou -F sobre a base do carrinho (controle bang-bang). “Controlar” significa não permitir que a barra caia
+F -F
![Page 14: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/14.jpg)
14/54
Exemplo 2: Pêndulo Invertido• Estado: quádrupla
• Ação ak : +F ou -F
• Reforço: -1 em caso de falha, senão 0.
• Evolução do estado: sk+1 = f(sk , ak) (?)
• Possível função recompensa a ser maximizada:
desconto temporal < 1: POR QUÊ?
tttt xx ,,,
0E
tt
ko rsV
![Page 15: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/15.jpg)
15/54
O que é uma solução para um Problema de Markov?
• Uma sequencia de ações (plano) pode resolver um ambiente Estocástico?
• Políticas (ou Estratégia) versus Planos…Formalização
![Page 16: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/16.jpg)
16/54
O que é uma solução para um Problema de Markov?• Exemplo: Controle de Movimentação de robô modelado como um PDM
• No início, robô está em l1 (estado s1 )
• Objetivo é levar o robô até l4 (estado s4 )
• Robô pode “deslizar” ao tentar se mover de uma posição para outra
![Page 17: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/17.jpg)
17/54
MDP Example - Mobile Robot
![Page 18: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/18.jpg)
18/54
MDP Robot - 2
![Page 19: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/19.jpg)
19/54
MDP Robot - 3
![Page 20: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/20.jpg)
20/54
MDP Robot - 4
![Page 21: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/21.jpg)
21/54
Seqüencia não funciona…
• É necessário uma função que mapeie estados a ações. Esta função é chamada de estratégia ou politica(policy)
![Page 22: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/22.jpg)
22/54
Policies for the Grid World
![Page 23: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/23.jpg)
23/54
Exemplos de Políticas – Problema 2
![Page 24: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/24.jpg)
24/54
• It is possible to define a probability distribution over states for the first, but for simplicity. Let’s define s0
Initial state
![Page 25: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/25.jpg)
25/54
History: sequence of states
![Page 26: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/26.jpg)
26/54
History: sequence of states - 2
![Page 27: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/27.jpg)
27/54
History: sequence of states - 3
![Page 28: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/28.jpg)
28/54
History: sequence of states -4
![Page 29: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/29.jpg)
29/54
Qualidade de Políticas• Em um PDM com transicões não deterministicas, Uma política pode garantir alcançar sempre o estado objetivo em um determinado número de passos ou custo ?
• Como definir quando uma política é melhor que outra? Chegar ao estado objetivo é o bastante?
• É necessário uma forma de medir a qualidade de uma dada política. Como ?
![Page 30: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/30.jpg)
30/54
Qualidade de Políticas - 2• Qual o valor de uma política? Valores são na verdade associados a históricos…
• Mas como vimos, políticas induzem uma distribuição de probabilidades sobre históricos. Assim…
• Essa qualidade (ou utilidade) pode ser medida através do valor esperado da adoção de uma política.
![Page 31: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/31.jpg)
31/54
Política Ótima• Pode-se definir política ótima (π*) como a política com o maior valor esperado.
• Pergunta: Pode-se afirmar que ao adotar um política ótima um agente A sempre obterá maior valor que outro agente B com uma política não ótima em um dado período de tempo?
![Page 32: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/32.jpg)
32/54
Reinforcements can be negative (cost) or positive (reward)
![Page 33: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/33.jpg)
33/54
• Algum problema com recompensa infinita?
![Page 34: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/34.jpg)
34/54
Discounted Reinforcements• Time should influence the value of a reinforcement?.
• A 100 dollars reward now or 100 dollars reward six months from now are the same?
• Problems with infinitive time require discounted reinforcements! Why?
![Page 35: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/35.jpg)
35/54
Value with discounted reinforcement
![Page 36: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/36.jpg)
36/54
Otimalidade de Políticas e Horizonte• A maximização do valor esperado é o critério mais utilizado para determinar otimização de políticas.
• Entretanto, isso é dependente do número de passos (decisões) que o agente dispõe para agir. Isto é comumente chamado de horizonte de tomada de decisão.
• O horizonte pode ser finito ou infinito
![Page 37: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/37.jpg)
37/54
MDP de Horizonte Finito e Políticas Estacionárias
![Page 38: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/38.jpg)
38/54
Stationary policies and Infinite Horizons
![Page 39: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/39.jpg)
39/54
Policy Value with Infinite Horizon
![Page 40: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/40.jpg)
40/54
Política Ótima• Já vimos que uma política ótima (π*) é aquele com maior valor esperado, então podemos definir:
• Como encontrar uma politica ótima dado um MDP ?
![Page 41: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/41.jpg)
41/54
An algorithm to calculate the optimal policy
![Page 42: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/42.jpg)
42/54
Value Iteration Algorithm
![Page 43: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/43.jpg)
43/54
Value Iteration Algorithm - 2
or
![Page 44: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/44.jpg)
44/54
Exemplo Deterministico – Função de Valor
![Page 45: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/45.jpg)
45/54
Exemplo - 2
![Page 46: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/46.jpg)
46/54
• Considerando r(s,a) e fator de desconto igual a 1
Calculando V(s)
![Page 47: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/47.jpg)
47/54
Outro Exemplo Gridworld
![Page 48: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/48.jpg)
48/54
Discussão da Iteração de Valor• Algoritmo de Iteração de valor computa um novo valor a
cada iteração e escolhe a política baseado nesses valores
• Este algoritmo converge em número de iterações em tempo polinomial do número de estados
• O número de estados pode ser muito grande em problemas reais e É necessário examinar o espaço inteiro em cada iteração. Por tal razão, o algoritmo demanda significativa quantidade de tempo e espaço para problemas com grande número de de estados
• Há algoritmos alternativos como iteração de política
• Além disso, a função de transição propabilística p e os retornos devem ser conhecidos, mas muitas vezes não é este o caso!
![Page 49: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/49.jpg)
49/54
A equação de Bellman e o algoritmo de Iteração de Valor• Vimos que uma política ótima é aquela que maximiza o valor
esperado de seguir de tal política a partir de um estado inicial. Formalmente:
• Vimos também que
![Page 50: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/50.jpg)
50/54
Programação Dinâmica e Equações de Otimalidade de Bellman
• Considere os seguintes operadores de Programação Dinâmica
![Page 51: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/51.jpg)
51/54
Teoremas de Programação Dinâmica
• É possível demonstrar que a função V* é o ponto fixo do operador T (Equação de otimalidade de Bellman), ou
• Também é possível demonstrar que para uma dada política µ, a função Vµ é a única função limitada que satisfaz
![Page 52: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/52.jpg)
52/54
Algoritmos para MDP• O algoritmo de Iteração de valor, nada mais é do que a aplicação recursiva do operador T, a uma aproximação inicial arbitrária V0
![Page 53: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/53.jpg)
53/54
Outro algoritmo para MDP: Iteração de Política
![Page 54: CES -161 - Modelos Probabilísticos em Grafos Markov ...pauloac/ces161/ces161_cap5.pdf · Processo Decisório de Markov (Markov Decision Process) • Método de decisão para problema](https://reader036.vdocuments.net/reader036/viewer/2022081612/5f1d10a3861ce67ec547853d/html5/thumbnails/54.jpg)
54/54
Outro Exemplo Gridworld
• Mais informações Cap. 21 (Russel e Norvig, 2013)