t e s i s maestro matem aticas lizbeth yolanda garrido ram rez

56
Universidad Veracruzana Facultad de Matem´ aticas Aproximaciones a procesos de decisi´ on de Markov, bajo el criterio costo descontado TESIS que para obtener el grado de Maestro en Matem´ aticas P R E S E N T A: Lizbeth Yolanda Garrido Ram´ ırez DIRECTOR DE TESIS: Dr. Jorge ´ Alvarez Mena CODIRECTOR DE TESIS: Dr. Oscar Vega Amaya Diciembre del a˜ no 2016 Xalapa, Ver. M´ exico

Upload: others

Post on 01-Oct-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

Universidad Veracruzana

Facultad de Matematicas

Aproximaciones a procesos

de decision de Markov, bajo

el criterio costo descontado

T E S I S

que para obtener el grado de

Maestroen

Matematicas

P R E S E N T A:

Lizbeth Yolanda Garrido Ramırez

DIRECTOR DE TESIS:

Dr. Jorge Alvarez Mena

CODIRECTOR DE TESIS:

Dr. Oscar Vega Amaya

Diciembre del ano 2016 Xalapa, Ver. Mexico

Page 2: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez
Page 3: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

Indice general

Introduccion IV

1. Algoritmo de iteracion de valores 11.1. Problema de control con costo descontado a horizonte infinito . . . . 11.2. Existencia y calculo de polıticas optimas . . . . . . . . . . . . . . . . 8

2. Operadores de aproximacion y modelos perturbados 152.1. Operador promediador . . . . . . . . . . . . . . . . . . . . . . . . . . 152.2. Modelo perturbado M . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.2.1. Existencia y aproximacion de polıticas optimas . . . . . . . . 202.3. Cotas de aproximacion . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3. Un sistema de inventario 313.1. Aproximaciones al modelo de inventario . . . . . . . . . . . . . . . . 313.2. Cotas para el modelo perturbado M . . . . . . . . . . . . . . . . . . 343.3. Implementacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

Conclusiones 39

Apendices 40

43

Bibliografıa 47

iii

Page 4: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez
Page 5: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

Introduccion

Uno de los principales enfoques para abordar el problema del calculo y aproxima-cion de polıticas optimas y de la funcion valor, como se muestra en [3], [6] y [8], esel metodo de iteracion de valores el cual resalta por la sencillez de su planteamien-to. El metodo se reduce a calcular aproximaciones al punto fijo de un operador decontraccion, denominado operador de programacion dinamica, mediante iteracioneso composiciones sucesivas de este. Cada iteracion del operador requiere de encontrarel mınimo (o maximo) y el argmin (o argmax) de una funcion, para cada estado delsistema. Hallar el mınimo y el argmin puede ser un problema complejo, y definitiva-mente el metodo es inviable de implementarse computacionalmente en sistemas conuna cantidad infinita de estados.

Una manera de hacer frente al problema planteado es el siguiente: para un modelode control M con operador de programacion dinamica T proponer un “operadoraproximador” T de manera que cumpla las siguientes condiciones:

a) T sea el operador de programacion dinamica para algun modelo de control de

Markov M , con el claro proposito de aprovechar los resultados clasicos sobreiteracion de valores en modelos de control de Markov.

b) Sea viable implementar el algoritmo de iteracion de valores con T .

Bajo las condiciones mencionadas arriba, se propone aproximar a la funcion valory a la polıtica optima del modelo original M mediante el algoritmo de iteracion devalores aplicado al modelo aproximado M . Este proceso es conocido como metodo deiteracion de valores aproximado. El metodo que se ha descrito abr cuestionamientossobre el error de aproximacion. Claramente se involucran dos errores, el error en quese incurre al aproximar a T mediante T , y el error inherente al metodo de iteracionde valores usado en M . Sin embargo no se debe perder de vista que el error deinteres es el que resulta al usar la polıtica π obtenida con el metodo de iteracion depolıticas para M en el modelo original M , es decir, es de interes la diferencia entreel desempeno de π con respecto al modelo M y la funcion valor de M .

v

Page 6: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

El enfoque anterior, pero sin la propiedad a), es abordado en los artıculos [1] y

[12]. Ambos proponen al aproximador T como la composicion del operador de pro-gramacion dinamica T con un operador L, llamado promediador o de aproximacion,–el cual tiene la propiedad de no expansividad, lo que garantiza que el aproximadorLT , al igual que T , sea un operador de contraccion– y determinan una cota de errordebido al uso del algoritmo de iteracion de valores en M , para aproximar la soluciondel modelo original M .

En el artıculo [13] se usa el metodo de [1] y [12], pero introducen condicionesadicionales sobre los operadores promediadores de tal manera que el aproximador LTsea un operador de programacion dinamica para un modelo de control de Markov, esdecir, su enfoque satisface las propiedades a) y b).

El objetivo de este trabajo es desarrollar de forma detallada y autocontenida losprincipales resultados de [13]; A Perturbation Approach for a Class of DiscountedApproximate Value Iteration Algorithms de Oscar Vega Amaya y Joaquın LopezBorbon; sobre la aproximacion de valores y polıticas optimas mediante metodo deiteracion de valores aproximado, satisfaciendo las condiciones a) y b).

Los procesos de control tienen importante reconocimiento por sus aplicacionesen diversas areas como economıa, ecologıa e ingenierıa en comunicaciones. En [8] sepresentan ejemplos de aplicaciones de los procesos de decision de Markov como sonen el control de inventarios y problemas de paro optimo.

La teorıa de los Procesos de Decision de Markov tiene sus orıgenes en los problemasdel Calculo de Variaciones del siglo XVII. Cayley en su artıculo [5] de 1875 propusoun interesante problema que contiene muchos de los ingredientes clave de los Procesosde Decision. El enfoque matematico moderno para Procesos de Decision inicio conel trabajo de Abraham Wald (1902 - 1950) sobre problemas estadısticos durante laSegunda Guerra Mundial y publicado en 1947. Sin embargo la teorıa cobro vidahasta la publicacion del libro de Bellman, Dynamic Programming [2], y el libro deHoward, Dynamic Programing and Markov Processes [8], publicados en 1957 y 1960,respectivamente.

El contenido del escrito se encuentra organizado de la siguiente manera: en elCapıtulo 1 se establecen las Hipotesis de optimalidad sobre los elementos del modelode control que garantizan la existencia de polıticas optimas deterministas y estacio-narias. Ademas se presentan resultados sobre convergencia del algoritmo de iteracionde valores y polıticas, y se presenta una cota para error de aproximacion.

En el Capıtulo 2 se introducen los operadores de aproximacion y el modelo decontrol asociado a los operadores; se presentan resultados sobre existencia polıticasoptimas y la convergencia del algoritmo de iteracion de valores para el modelo apro-ximado. Se presenta una cota para error que se incurre al usar la polıtica obtenidapor el algoritmo de iteracion de valores aproximado en el modelo original.

Page 7: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

El Capıtulo 3 tiene como proposito implementar el algoritmo de Iteracion deValores aproximado en lenguaje Pythom para un modelo de control de un ejemplode sistema de inventario.

Page 8: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez
Page 9: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

Capıtulo 1

Algoritmo de iteracion de valores

En este capıtulo se plantea el problema principal de la teorıa de los procesos deDecision de Markov denominado problema de control y ademas se presentan algunosresultados sobre la existencia y aproximacion de soluciones a este problema. Losresultados que aquı se presentan estan contenidos en [3] y [7].

1.1. Problema de control con costo descontado a

horizonte infinito

El proceso de toma de decisiones evoluciona de la manera siguiente: al inicio elsistema se encuentra en un estado, el controlador observa el estado, decide una acciony la ejecuta. Debido al estado en que se encuentra el sistema y la accion ejecutada seincurre en un costo y el sistema transita a un nuevo estado de acuerdo a una ley detransicion probabilista. Nuevamente el controlador, con base en la historia del proce-so, toma una accion y se incurre un costo, el sistema evoluciona a un nuevo estado yla situacion anterior se repite. Una realizacion del proceso de toma de decisiones esuna sucesion de estados y acciones admisibles generada por la dinamica del procesoy las decisiones del controlador. Cada realizacion genera una sucesion de costos porperiodo que son usados para evaluar la polıtica implementada por el controlador.

Un espacio de Borel es un subconjunto de Borel de un espacio metrico completoy separable. Para cada espacio de Borel Ω se denota por B(Ω) a la σ-algebra de Borelde subconjuntos de Ω. Para un conjunto B ∈ B(Ω) se denota por IB a la funcionindicadora definida sobre Ω como IB(x) = 1 si x ∈ B y IB(x) = 0 si x ∈ Ω \B.

1

Page 10: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

CAPITULO 1 2

Modelo de control

El Modelo de control M para el proceso de toma de decisiones a tiempo discretoes una quıntupla:

(X,A, A(x)|x ∈ X, Q, C), (1.1)

donde:

1) X es un espacio de Borel, llamado espacio de estados.

2) A es un espacio de Borel, llamado espacio de acciones.

3) Para cada x ∈ X, A(x) es un subconjunto de A y se denomina conjunto deacciones admisibles cuando el sistema se encuentra en el estado x. El conjuntoK de parejas estado accion admisible esta definido por:

K := (x, a)|x ∈ X, a ∈ A(x).

4) Q es un kernel estocastico sobre X dado K, es decir, para cada B ∈ B(X),Q(B|·) : K 7→ R es una funcion Borel medible sobre K, y para cada (x, a) ∈ K,Q(·|x, a) : B(X) 7→ R es una medida de probabilidad sobre el espacio medible(X,B(X)). En este contexto a Q se le llama ley de transicion, ya que es utilizadapara determinar la dinamica del sistema.

5) C : K 7→ R es una funcion Borel medible no negativa, llamada funcion de costopor etapa.

Polıticas

Una historia es la coleccion de estados y acciones admisibles de una realizaciondel proceso de decision. Con los elementos del modelo la historia del proceso de tomade decisiones se puede describir como sigue: al inicio del proceso, periodo t = 0, elsistema se encuentra en un estado x0, la historia hasta este periodo es h0 = (x0). Elcontrolador, con base en el estado x0 decide un accion a0 ∈ A(x0), y se incurre en uncosto C(x0, a0). El sistema transita a un nuevo estado x1 de acuerdo a la distribucionde probabilidad Q(·|x0, a0). Entonces la historia al periodo 1 es h1 = (x0, a0, x1). Denuevo el controlador con base en h1 ejecuta una accion a1 ∈ A(x1), y se incurre en uncosto C(x1, a1) y la situacion se repite. Si ht = (x0, a0, ..., xt−1, at−1, xt) es la historia alperiodo t y el controlador con base en ht ejecuta la accion at, entonces el sistema tran-sita al estado xt+1, y la historia hasta el periodo t+1 es ht+1 = (x0, a0, ..., xt, at, xt+1).

Page 11: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

CAPITULO 1 3

Para cada t ∈ 0, 1, ..., , sea Ht el conjunto de posibles historias al tiempo t,entonces H0 = X y para t ≥ 1, Ht = Kt × X, donde Kt se define inductivamentecomo K1 = K y Ks = Ks−1 ×K para s ≥ 2.

Una polıtica es una sucesion φ = π0, π1, π2, ... de kerneles estocasticos πt sobreel conjunto de acciones A dado Ht, tales que π(A(xt)|ht) = 1. Se denota por Π alconjunto de todas las polıticas.

Las polıticas se clasifican de acuerdo al tipo de kernel de los que esta compuesta,y estos se agrupan de acuerdo a la parte que usan de la historia.

Una polıtica φ = π0, π1, π2, ... es de Markov si los kerneles πt solo dependen delultimo estado xt de la historia ht, es decir, πt(·|ht) = πt(·|xt) para cada t ∈ 0, 1, ..., .

Una polıtica de Markov φ = π0, π1, π2, ... es estacionaria si los kerneles es-tocasticos πt no cambian con el periodo, es decir, πt(·|ht) = π(·|xt) para cadat ∈ 0, 1, .... En este caso se escribe φ = π, π, π, ... o simplemente π.

Sea F el conjunto de los selectores medibles, es decir, funciones medibles f : X 7→ Atal que para cada x ∈ X, f(x) ∈ A(x).

Una polıtica de Markov es determinista si para cada t ∈ 0, 1, ..., , πt(a|xt) = 1para algun a ∈ A(xt), o bien, si existe un selector ft ∈ F, tal que πt(·|xt) = Ift(xt)(·)con ft(xt) ∈ A(xt).

Una polıtica de Markov estacionaria φ = π, π, π, ... es determinista si para cadax ∈ X, π(a|x) = 1 para algun a ∈ A(x), o bien, si existe un selector f ∈ F, tal queπ(a|x) = Ia(f(x)) con f(x) ∈ A(x). Si φ es una polıtica de Markov estacionariadeterminista y esta definida por un selector f , entonces se escribe φ = f∞ o solo f .En adelante cuando se hace referencia a una polıtica determinista estacionaria f∞,se entendera que f es un selector que define a la polıtica.

Un caso particular de las polıticas deterministas estacionarias f∞ es cuando elselector es una funcion constante, es decir, f(x) = a para cada x ∈ X cuando elmodelo admite este tipo de polıticas. En este caso se denotara la polıtica deterministaconstante como f∞ = a.

Page 12: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

CAPITULO 1 4

Problema de control

Se considera una realizacion del proceso de decision ((x0, a0), (x1, a1), ..., (xt, at), ...)en la que el controlador ha ejecutado la polıtica π y la correspondiente sucesion decostos por etapa (C(x0, a0), C(x1, a1), ..., C(xt, at), ...). Una manera intuitiva de medirel desempeno de la polıtica π para dicha realizacion es, por ejemplo, con el criteriocosto descontado:

∞∑t=0

αtC(xt, at), para α ∈ (0, 1). (1.2)

Medir el desempeno de una polıtica a partir de realizaciones no es viable, ya que,debido a la dinamica aleatoria del proceso, es posible obtener realizaciones diferentesque arrojan valores distintos para el desempeno de la polıtica. Se requiere definir eldesempeno de una polıtica de tal manera que no cambie con cada realizacion. Unamanera de abordar el problema anterior es construir un espacio de probabilidad quesea consistente con la dinamica del proceso de decision, es decir, en este espacio deprobabilidad la sucesion de parejas admisibles forma un proceso estocastico, y enconsecuencia la sucesion de costos tambien. Teniendo esta estructura probabilista, esposible emplear la esperanza en (1.2) para medir el desempeno de una polıtica.

En lo que sigue se construye dicho espacio de probabilidad para lo cual se empleael Teorema de Iunesco Tulcea, ver [11] pag. 249.

Para cada t ∈ 0, 1, 2, 3, ..., sea (Ωt,Ft) el espacio medible donde Ωt = X × A yFt = B(X ×A). Sea ν una medida de probabilidad sobre (X,B(X)), conocida comodistribucion inicial y π = (πt) una polıtica. Se define P0 funcion real sobre F0 como:

P0(B) :=

∫B

ν(dx0)π0(da0|x0) (1.3)

para cada B ∈ F0. Entonces P0 es una medida de probabilidad sobre (Ω0,F0). Seat ∈ 0, 1, 2, 3, .... Para cada B ∈ Ft+1 y (x0, a0, ..., xt, at) ∈ Ω0 × · · · × Ωt, se define

Pt+1(B|x0, a0, ..., xt, at) :=

∫B

Q(dxt+1|xt, at)πt+1(dat+1|x0, a0, ..., xt, at, xt+1). (1.4)

Entonces para cada (x0, a0, ..., xt, at) ∈ Ω0 × · · · × Ωt, Pt+1(·|x0, a0, ..., xt, at) es unamedida de probabilidad sobre Ωt+1, y para cada B ∈ Ft+1, Pt+1(B|·) es una funcionBorel medible sobre Ω0 × · · · × Ωt. Por lo tanto Pt+1 es un kernel estocastico sobreFt+1 dado Ω0 × · · · × Ωt.

Page 13: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

CAPITULO 1 5

Para cada t ∈ 0, 1, 2, 3, ... se define la funcion Pt sobre rectangulos de Ω0×· · ·×Ωt de la manera siguiente:

Pt(B0 × · · · ×Bt) :=

∫B0

P0(d(x0, a0))

∫B1

P1(d(x1, a1)|(x0, a0))

· · ·∫Bt

Pt(d(xt, at)|(x0, a0), · · · (xt−1, at−1))

(1.5)

para cada B0 × · · · × Bt ∈ Ω0 × · · · × Ωt. Con los elementos anteriores el Teoremade extension de Caratheodory, establece que existe una media P sobre (Ω0 × · · · ×Ωt,F0 ⊗ · · · ⊗ Ft) tal que P coincide con Pt sobre los rectangulos B0 × · · · ×Bt.

Sean Ω = ×∞t=0Ωt y F = ⊗∞t=0Ft. Con los elementos anteriores el Teorema deIunesco Tulcea asegura la existencia de una medida de probabilidad Pπv , sobre (Ω,F)el espacio de trayectorias o el espacio canonico, tal que para cada t ∈ 0, 1, 2, 3, ...

Pπνω ∈ Ω(x0, a0) ∈ B0, · · · , (xt, at) ∈ Bt = Pt(B1 × · · · ×Bt) (1.6)

para cada B0 × · · · × Bt ∈ F0 × · · · × Ft. El Teorema tambien afirma que existe unproceso estocastico ξ = ((X0,A0), (X1,A1), ...) sobre (Ω,F) tal que

Pπν ((X0,A0) ∈ B0, · · · , (Xt,At) ∈ Bt) = Pt(B1 × · · · ×Bt) (1.7)

para cada rectangulo B0 × · · · ×Bt ∈ F0 × · · · × Ft.

Observacion 1. La medida Pt en (1.5) se puede escribir informalmente de la si-guiente manera:

Pt(d(x0, a0), · · · , (d(xt, at)) = P0(d(x0, a0))P1(d(x1, a1)|(x0, a0)) · · ·Pt(d(xt, at)|ht−1)

con ht−1 = (x0, a0, · · ·xt−1, at−1); aun mas, de (1.3) y (1.4)

Pt(dx0, da0, · · · , dxt, dat) = ν(dx0)π0(da0|x0)Q(dx1|x0, a0)π1(da1|x0, a0, x1)

· · ·Q(dxt|xt−1, at−1)πt(dat|ht−1)(1.8)

Ası Pπν se puede representar como sigue:

Pπν (dx0, da0, dx1, da1, · · · ) = ν(dx0)π0(da0|x0)Q(dx1|x0, a0)π1(da1|x0, a0, x1) · · ·

En resumen, para cada polıtica π y distribucion de estado inicial ν, el Teorema deIonescu Tulcea garantiza la existencia de una medida de probabilidad sobre (Ω,F),el espacio canonico, que se denota por Pπν y satisface (1.7). Si existe x ∈ X tal que

Page 14: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

CAPITULO 1 6

ν(x) = 1 se dice que el estado inicial del proceso es x, entonces se escribe Pπx enlugar de Pπν . La esperanza con respecto a la medida de probabilidad Pπν se denotamediante Eπν , o Eπx para Pπx.

El criterio para medir el desempeno de las polıticas que se utiliza en este trabajo,se denomina costo esperado descontado con horizonte infinito y se define como sigue:para cada polıtica π y estado inicial x,

V (π, x) = Eπx

[∞∑n=0

αnC(xn, an)

], (1.9)

donde α es un numero fijo en el intervalo (0, 1), llamado factor de descuento. Paracada estado x, se denota por V ∗(x) a la funcion valor, es decir,

V ∗(x) = ınfπ∈Π

V (π, x). (1.10)

El problema de control consiste en encontrar una polıtica π∗ ∈ Π tal que paracada x ∈ X

V ∗(x) = V (π∗, x). (1.11)

Una polıtica que satisface (1.11) se llama polıtica optima.

Una de las hipotesis en los elementos del Modelo de control es que tanto la leyde transicion como el costo por etapa son funciones Borel medibles sobre K. Dichahipotesis se requiere en la construccion del espacio de probabilidad y en la definiciondel desempeno.

Observacion 2.

a) Para una polıtica de Markov π, el espacio canonico se puede establecer unica-mente con el espacio de estados, es decir, Ω = ×∞t=1X y F = ⊗∞t=1B(X). Asi elproceso de estados (xt) es un proceso de Markov sobre (Ω,F) y

Pπν (dx0, dx1, dx2, · · · ) = ν(dx0)Q(dx1|x0, π0)Q(dx2|x1, π1)Q(dx3|x2, π2) · · · .

donde

Q(·|xt, πt) =

∫A

Q(·|xt, at)πt(dat|xt) (1.12)

para cada t ∈ 0, 1, 2, 3, ....

b) Para una polıtica π = f∞ de Markov estacionaria determinista

Pf∞ν (dx0, dx1, dx2, · · · ) = ν(dx0)Q(dx1|x0, f(x0))Q(dx2|x1, f(x1))

Q(dx3|x2, f(x2)) · · · .

Page 15: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

CAPITULO 1 7

c) Si se considera una polıtica estacionaria determinista y constante f∞ = a,entonces

Pπν (dx0, dx1, dx2, · · · ) = ν(dx0)Q(dx1|x0, a)Q(dx2|x1, a)Q(dx3|x2, a) · · · .

En este caso no son necesarias las hipotesis de medibilidad sobre la variable deacciones en C y Q, para la construccion del espacio canonico y en la definiciondel desempeno.

Observacion 3. Ahora se considera un proceso de decision en el que, por restriccio-nes tecnologicas solo es posible emplear polıticas deterministas estacionarias y cons-tantes. Un modelo de control para el proceso de decision con dicha restriccion debeser de la forma

M = (X,A, A(x) = A|x ∈ X, Q, C) (1.13)

donde en este caso:

- X es un espacio de Borel.

- A es un espacio de Borel.

- Para cada x ∈ X, el conjunto de acciones admisibles es A(x) = A. El conjuntoK esta definido por:

K := (x, a)|x ∈ X, a ∈ A.

- Para cada B ∈ B(X) y para cada a ∈ A, Q(B|·, a) : X 7→ R es una funcionBorel medible sobre X, y para cada (x, a), Q(·|x, a) : B(X) 7→ R es una medidade probabilidad sobre el espacio medible (X,B(X)).

- Para cada a ∈ A, C(·, a) : X 7→ R es una funcion medible sobre X no negativa.

Una polıtica estacionaria determinista y constante queda determinada por una acciona ∈ A, la que el controlador emplea en cada caso y en todo momento. Para cadapolıtica estacionaria determinista y constante determinada por a ∈ A, el espaciocanonico (Ω,F) involucra solo al espacio de estados y el proceso de estados xt esun proceso de Markov, (ver incisos b) y c) de la Observacion 2). Ası el desempenode f∞ = a es

V (a, x) = Eax

[∞∑n=0

αnC(xn, a)

], (1.14)

donde α es un numero fijo en el intervalo (0, 1). Para cada estado x, se denota porV∗(x) a la funcion valor, es decir,

V∗(x) = ınf

a∈AV (a, x). (1.15)

Page 16: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

CAPITULO 1 8

El problema de control consiste en encontrar una accion a∗ ∈ A tal que para cadax ∈ X

V∗(x) = V (a∗, x).

1.2. Existencia y calculo de polıticas optimas

Hipotesis de optimalidad. El Teorema de seleccion medible es un resultadobasico que permite establecer condiciones que garantizan la existencia de polıticasoptimas deterministas y estacionarias; algunas versiones de este se pueden ver en [7]y [6]. Aquı se presenta un version especializada al modelo de control.

Con M(X) se denota la coleccion de funciones reales medibles de X en R, ycon Mb(X) al espacio de Banach de las funciones medibles y acotadas con la normasupremo. Se denota con C(X) a la coleccion de las funciones continuas sobre X ycon Cb(X) al espacio de Banach de las funciones continuas y acotadas con la normasupremo.

Definicion 1. Una multifuncion o correspondencia φ de X en A es una funcioncon dominio en X tal que para cada x ∈ X, φ(x) es un subconjunto no vacıo de A.

Definicion 2. Se dice que el kernel estocastico Q es debil continuo si para cadau ∈ Cb(X), la funcion v′ : K 7→ R definida como

v′(x, a) :=

∫X

u(y)Q(dy|x, a) (1.16)

es continua y acotada sobre K. Se dice que Q es fuertemente continuo sobre A(x) sipara cada u ∈Mb(X), v′(x, ·) es continua y acotada sobre A(x) para cada x ∈ X.

Se consideran dos conjuntos de hipotesis sobre el modelo de control M :

Hipotesis 1.

a) El conjunto de acciones admisibles es compacto.

b) El costo por etapa es acotado y para cada estado, es continuo sobre el conjuntode acciones admisibles.

c) El kernel de transicion es fuertemente continuo sobre el conjunto de accionesadmisibles.

Hipotesis 2.

Page 17: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

CAPITULO 1 9

a) El conjunto de acciones admisibles es compacto y la multifuncion φ de X en Adefinida como φ(x) = A(x), es continua.

b) El costo por etapa es continuo y acotado.

c) El kernel de transicion es debil continuo.

Establecidas las hipotesis anteriores sobre el Modelo de Control, se tiene el siguien-te resultado, el cual es consecuencia directa de una version del Teorema de seleccionmedible.

Teorema 1. Sea v : X 7→ R una funcion medible. Se define u : K 7→ R como

u(x, a) := C(x, a) +

∫X

v(y)Q(dy|x, a), (1.17)

y u∗ : X 7→ R mediante

u∗(x) := ınfA(x)

[C(x, a) +

∫X

v(y)Q(dy|x, a)

]= ınf

A(x)u(x, a). (1.18)

Entonces u es medible y se cumple lo siguiente:

a) Si el modelo de control M satisface la Hipotesis 1, entonces para cada x ∈ X,u(x, ·) es continua sobre A(x); existe un selector f ∗ ∈ F tal que para cadax ∈ X,

u(x, f ∗(x)) = u∗(x) = mınA(x)

u(x, a), (1.19)

y u∗ es medible.

b) Si el modelo de control M satisface la Hipotesis 2 y v : X 7→ R es continua,entonces u es continua sobre K, existe f ∗ ∈ F para el cual se cumple (1.19), yu∗ es continua y acotada.

Para caracterizar a las polıticas optimas estacionarias deterministas se hace usodel operador de programacion dinamica. Para cada u ∈Mb(X) se define

Tu(x) := mına∈A(x)

[C(x, a) + α

∫X

u(y)Q(dy|x, a)

], (1.20)

para cada x ∈ X. Por el Teorema 1, bajo la Hipotesis 1 la relacion (1.20) define unoperador T : Mb(X) 7→ Mb(X) , mientras que bajo la Hipotesis 2 la relacion define

Page 18: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

CAPITULO 1 10

un operador tal que T (Cb(X)) ⊂ T (Cb(X)).

Para cada selector f ∈ F, se define para cada u ∈Mb(X)

Tfu(x) := C(x, f(x)) + α

∫X

u(y)Q(dy|x, f(x)), (1.21)

para cada x ∈ X. Bajo la Hipotesis 1, para cada f ∈ F, la relacion (1.21) define unoperador Tf : Mb(X) 7→ Mb(X), mientras que bajo la Hipotesis 2, para cada f ∈ F,la (1.21) define un operador Tf : Cb(X) 7→ Cb(X) .

El resultado que sigue asegura la existencia de polıticas optimas deterministasestacionarias.

Teorema 2.

a) Si el modelo M satisface la Hipotesis 1, entonces la funcion valor V ∗ es el unicopunto fijo en Mb(X) de T .

b) Si el modelo M satisface la Hipotesis 2, entonces la funcion valor V ∗ es el unicopunto fijo en Cb(X) de T .

c) Si el modelo M satisface la Hipotesis 1 o la Hipotesis 2, existe un selectorf∗ ∈ F, tal que para cada x ∈ X

V ∗(x) = C(x, f∗(x)) + α

∫X

V ∗(x)Q(dy|x, f∗(x)), (1.22)

es decir, V ∗(x) = Tf∗V∗(x), y la polıtica determinista estacionaria f∞∗ es opti-

ma. Recıprocamente si f∞∗ es optima entonces el selector f∗ satisface (1.22).

Corolario 1. Una polıtica determinista estacionaria f∞∗ es optima si y solo siV ∗(x) = Tf∗V

∗(x).

Para demostrar el Teorema 2 se utilizaran algunos resultados los cuales se presen-tan a continuacion.

Definicion 3. Sea u ∈ Mb(X). Una polıtica determinista estacionaria f∞, es unapolıtica u−glotona para el operador T , si el selector f satisface

Tu(x) = C(x, f(x)) + α

∫X

u(y)Q(dy|x, f(x)),

para cada x ∈ X.

Page 19: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

CAPITULO 1 11

El siguiente lema es consecuencia directa del Teorema 1.

Lema 1.

a) Si el modelo M satisface la Hipotesis 1, para cada u ∈ Mb(X), existe unapolıtica f∞ determinista estacionaria u−glotona.

b) Si el modelo M satisface la Hipotesis 2, para cada u ∈ Cb(X), existe una polıticaf∞ determinista estacionaria u−glotona.

Lema 2.

a) Si el modelo M cumple la Hipotesis 1, entonces T : Mb(X) 7→ Mb(X) es unoperador de contraccion con modulo α, en consecuencia por el Teorema delpunto fijo de Banach, se cumplen las siguientes propiedades:

i) existe un unica funcion u∗ ∈Mb(X) tal que Tu∗ = u∗;

ii) para cada funcion v ∈Mb(X)

lımn 7→∞

‖ T nv − u∗ ‖= 0. (1.23)

Ademas para cada u ∈Mb(X) no negativa, si Tu ≤ u, entonces V ∗ ≤ u.

b) Suponga que el modelo M cumple la Hipotesis 2, entonces T : Cb(X) 7→ Cb(X)es un operador de contraccion con modulo α, existe una unica u∗ ∈ Cb(X) talque Tu∗ = u∗, y para cualquier funcion v ∈ Cb(X) se cumple (1.23). Ademaspara cada u ∈ Cb(X) no negativa, si Tu ≤ u, entonces V ∗ ≤ u.

En adelante con Vπ se denota al desempeno de una polıtica π.

Lema 3.

a) Suponga que el modelo M cumple la Hipotesis 1. Entonces para cada f ∈ F,Tf : Mb(X) 7→ Mb(X) es un operador de contraccion con modulo α, Vf∞ esel unico punto fijo de Tf en Mb(X), es decir, TfVf∞ = Vf∞, y para cualquierfuncion v ∈Mb(X)

lımn7→∞

‖ T nf v − Vf∞ ‖= 0. (1.24)

b) Suponga que el modelo M cumple la Hipotesis 2. Entonces para cada f ∈ F,Tf : Cb(X) 7→ Cb(X) es un operador de contraccion con modulo α, Vf∞ es elunico punto fijo de Tf en Cb(X), y para cualquier funcion v ∈ Cb(X) se cumple(1.24).

Page 20: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

CAPITULO 1 12

La demostracion de los Lemas 2 y 3 puede consultarse en [6] o [7].

Definicion 4. Una sucesion vn se llama sucesion de iteracion de valores si v0 = 0,y para cada n ≥ 1, vn = Tvn−1.

Observacion 4. Para una sucesion de iteracion de valores vn, se tiene que:

a) por Lema 2, vn → u∗.

b) Para cada n, vn(x) ≤ Vn(π, x) ≤ V (π, x) para cada polıtica π y cada x ∈ X,por lo tanto, vn(x) ≤ V ∗(x) para cada x ∈ X, ver [[7]] pag. 49.

Demostracion del Teorema 2

a) Por el inciso a) del Lema 2, T es un operador de contraccion en Mb(X) con unicopunto fijo u∗, entonces solo basta verificar que u∗ = V ∗. Dado que Tu∗ = u∗,tambien del inciso a) del Lema 2, se tiene que u∗ ≥ V ∗. La Observacion 4implica que u∗ ≤ V ∗. Por lo tanto u∗ = V ∗ y V ∗ ∈Mb(X).

b) La demostracion es analoga a la parte a).

c) Dado que V ∗ ∈ Mb(X), por el inciso a) del Lema 1 existe una polıtica de-terminista estacionaria f∞, tal que V ∗ = TfV

∗. Del inciso a) del Lema 3,Vf∞ = TfVf∞ , por lo tanto V ∗ = Vf∞ , es decir, la polıtica f∞ es optima. Loanterior dice que existe una polıtica f∞ determinista estacionaria optima. Porotro lado, si f∞ es una polıtica determinista estacionaria optima, Vf∞ = V ∗ ydel inciso a) del Lema 3, Vf∞ = TfVf∞ , entonces V ∗ = TfV

∗.

d) La demostracion es analoga a la parte c).

El segundo objetivo de este capıtulo es presentar resultados basicos sobre laaproximacion de polıticas optimas. Usualmente, determinar una aproximacion a unapolıtica optima requiere definir una distancia en el conjunto de polıticas. Sin embar-go, ya que la eficacia de una polıtica se mide a traves de su desempeno, se medira lacercanıa entre polıticas mediante sus desempenos. La metodologıa consiste en partirde una sucesion de iteracion de valores vn, la cual debido a la propiedad de contrac-cion del operador T , converge a la funcion valor, y a su vez genera una sucesion f∞n de polıticas vn−glotona, para las cuales se tiene que Vf∞n ↑ V ∗, como se demostrara.Entonces se determina un elemento Vf∞k cuya distancia a la funcion valor sea menor aun error de aproximacion establecido. Ası la polıtica f∞k −glotona es la aproximaciona la polıtica optima deseada.

Page 21: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

CAPITULO 1 13

El metodo ası descrito tiene la desventaja de requerir la funcion valor. Esta difi-cultad plantea la siguiente pregunta: ¿como estimar la distancia entre V ∗ y Vf∞k , sinconocer explıcitamente a la funcion valor V ∗? El siguiente resultado da respuesta aesta pregunta.

Lema 4. Para cada n ∈ N, sea vn := Tvn−1 y f∞n una polıtica vn-glotona, entonces

‖ V ∗ − vn ‖≤α

1− α‖ vn − vn−1 ‖, (1.25)

y

‖ V ∗ − Vf∞n ‖≤2α

1− α‖ vn − vn−1 ‖ . (1.26)

Demostracion: Ya que V ∗ es unto fijo de T , y T es un operador de contraccion conmodulo α se tiene lo siguiente

‖ V ∗ − vn ‖ ≤‖ V ∗ − Tvn ‖ + ‖ Tvn − vn ‖=‖ TV ∗ − Tvn ‖ + ‖ Tvn − Tvn−1 ‖= α ‖ V ∗ − vn ‖ +α ‖ vn − vn−1 ‖,

por lo tanto

‖ V ∗ − vn ‖≤α

1− α‖ vn − vn−1 ‖ . (1.27)

Para demostrar la segunda desigualdad, primero observe que

‖ V ∗ − Vf∞n ‖≤‖ V∗ − vn ‖ + ‖ vn − Vf∞n ‖, (1.28)

y de (1.27)

‖ V ∗ − Vf∞n ‖≤α

1− α‖ vn − vn−1 ‖ + ‖ vn − Vf∞n ‖ . (1.29)

Por otro lado, ya que f∞n es vn-glotona, Tfvn = Tvn, entonces

‖ vn − Vf∞n ‖ ≤‖ vn − Tvn ‖ + ‖ Tvn − Vf∞n ‖=‖ Tvn−1 − Tvn ‖ + ‖ Tf∞n vn − Tf∞n Vf∞n ‖

y dado que T y Tf∞n son de contraccion con modulo α

‖ Tvn−1 − Tvn ‖ + ‖ Tf∞n vn − Tf∞n Vf∞n ‖≤ α ‖ vn−1 − vn ‖ +α ‖ vn − Vf∞n ‖,

por lo tanto

‖ vn − Vf∞n ‖≤α

1− α‖ vn − vn−1 ‖ . (1.30)

Ası de (1.29) y (1.30)

‖ V ∗ − Vf∞n ‖≤2α

1− α‖ vn − vn−1 ‖ . (1.31)

Page 22: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

CAPITULO 1 14

Lema 5. Sea vn la sucesion de iteracion de valores y f∞n la sucesion de polıticasvn − glotona con polıtica arbitraria f∞0 , es decir, con selector arbitrario f0 ∈ F,entonces

lımn−→∞

‖ V ∗ − Vf∞n ‖= 0. (1.32)

El metodo antes descrito que incluye la estimacion establecida en el Lema 4 seconoce como Algoritmo de Iteracion de Valores.

Algoritmo de Iteracion de Valores:

1. Especifique ε > 0.

2. Sea v0 = 0 y n = 1.

3. Para cada x ∈ X calcular vn(x) = Tvn−1(x). Si

‖ vn − vn−1 ‖< ε,

entonces ir al paso 4. De otro modo se asigna n := n + 1 y se regresaal paso 3.

4. Se determina la polıtica vn − glotona y parar.

Ya que el operador T es un operador de contraccion, en el paso 2 v0 puede sercualquier funcion en el dominio de T .

Page 23: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

Capıtulo 2

Operadores de aproximacion ymodelos perturbados

El metodo de iteracion de valores consiste en aproximar el punto fijo de un ope-rador del operador de programacion dinamica, mediante iteraciones o composicionessucesivas de este. Cada iteracion del operador involucra encontrar el mınimo y elargmin de una funcion para cada estado del sistema. Hallar el mınimo y el argminpuede ser un problema complejo e inviable de implementarse computacionalmente ensistemas con una cantidad infinita de estados.

Como ya se planteo en la introduccion de este escrito, una manera de hacer fren-te al problema es que para un modelo de control M con operador de programaciondinamica T proponer un “operador aproximador” T de manera que cumpla lo si-guiente: T sea el operador de programacion dinamica para algun modelo de controlde Markov M , y sea viable implementar el algoritmo de iteracion de valores con T .

En este capıtulo se presentan resultados sobre la aproximacion de procesos dedecision de Markov a partir del enfoque planteado en el parrafo anterior, dichosresultados son tomados de [13].

2.1. Operador promediador

Definicion 5. Sea S un conjunto y B(S) su correspondiente σ-algebra de Borel. Unoperador L : M(S) 7→M(S) se llama promediador si y solo si satisface las siguientescondiciones:

a) L(IS) = IS;

b) L es un operador lineal;

15

Page 24: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

CAPITULO 2 16

c) L es un operador positivo, es decir, para cada u ≥ 0 en M(S), Lu ≥ 0.

d) Si vn es una sucesion en Mb(S) tal que para cada s ∈ S vn(s) ↓ 0, entoncesLvn(s) ↓ 0.

Observacion 5. Sea L un promediador, entonces:

1) L es monotono, es decir, si u ≥ v entonces Lu ≥ Lv. Esta propiedad se siguede ser positivo.

2) L es no expansivo, es decir, para cada u, v ∈Mb(S) se tiene

‖ Lu− Lv ‖≤‖ u− v ‖ .

En efecto, si ‖ u ‖= 1 entonces para cada s ∈ S se tiene que −1 ≤ u(s) ≤ 1,ası L(−1) ≤ Lu(s) ≤ L(1) por monotonıa de L, y −L(1) ≤ Lu(s) ≤ L(1) porlinealidad, y por la definicion de L, L(1) = 1, ası ‖ L ‖≤ 1; por lo tanto

‖ Lu− Lv ‖≤‖ L ‖‖ u− v ‖≤‖ u− v ‖ .

Ejemplo 1. Sea S = [0, θ] con θ > 0, 0 = s0 < s1 < · · · < sN = θ una particionde S, D0 = [s0, s1] y Di = (si, si+1] para i = 1, 2, ..., N − 1, para cada v ∈ Mb(X) sedefine

Lv(s) :=N−1∑i=0

[si+1 − ssi+1 − si

v(si) +s− sisi+1 − si

v(si+1)

]IDi

(s). (2.1)

para cada s ∈ S. L es un operador promediador. En efecto, L : M(X) 7→ M(X) eslineal acotado y positivo, por lo tanto monotono, ademas

L(IS) =N−1∑i=0

[si+1 − ssi+1 − si

IS(si) +s− sisi+1 − si

IS(si+1)

]IDi

(s) = IS,

y si vn es una sucesion en Mb(S) tal que para cada s ∈ S, vn(s) ↓ 0, entonces

lımn7→∞

Lvn(s) =N−1∑i=0

[si+1 − ssi+1 − si

lımn7→∞

vn(si) +s− sisi+1 − si

lımn 7→∞

vn(si+1)

]IDi

(s) (2.2)

= 0. (2.3)

Por monotonıa de L se tiene que Lvn ≤ Lvn+1, por lo tanto la convergencia de lasucesion Lvn se da en forma decreciente.

Page 25: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

CAPITULO 2 17

Ejemplo 2. Sea S un subconjunto de un espacio medible. xiki=0 una coleccion depuntos de S y jiki=0 una particion de subconjuntos medibles de S tal que para cadai = 0, ..., k, xi ∈ ji, para m 6= n, jm ∩ jn = ∅ y S = ∪ki=0ji. Para cualquier funcionv ∈Mb(S) se define

Jv(x) = v(xi),

para cada x ∈ ji. Ası J : Mb(S) 7→ Mb(S) es un operador promediador. En efecto Jes un operador lineal acotado y tambien positivo. Por otro lado J(IS) = IS, y si vnes una sucesion en Mb(S) tal que para cada x ∈ S, vn(x) ↓ 0, entonces

lımn7→∞

Jvn(x) = lımn7→∞

vn(xi) = 0.

De nuevo por monotonıa de J la convergencia de la sucesion Jvn se da en formadecreciente.

Otros ejemplos de operadores promediadores pueden encontrarse en [12].

Lema 6. Sea L un promediador. Para cada s ∈ S y D ∈ B(S) se define L(D|s) :=LID(s). Entonces:

a) L es un kernel sobre S dado S;

b) L(Mb(S)) ⊂Mb(S) y para cada v ∈Mb(S),

Lv(s) =

∫S

v(y)L(dy|s),

para cada s ∈ S.

c) Si L(Cb(S)) ⊂ Cb(S) entonces el kernel es debil continuo.

Demostracion:

a) Para cada D ∈ B(S), ID es una funcion medible acotada no negativa por lo queL(D|·) = LID(·) ≥ 0 ya que L es positivo. Por otro lado I∅ = 0 y como L eslineal, L(∅|s) = L(0) = 0. Sean Ui∞i=1 subconjuntos ajenos de Borel de S yU =

⋃∞i=1 Ui. Observe que para cada s ∈ S, 0 ≤ IU(s)−

∑ni=1 IUi

(s) ↓ 0, cuandon −→∞, entonces:

0 = lımn7→∞

L(IU(s)−n∑i=1

IUi(s)) = LIU(s)− lım

n7→∞

n∑i=1

LIUi(s)

= LIU(s)−∞∑i=1

LIUi(s)

Page 26: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

CAPITULO 2 18

Ası LIU(s) =∑∞

i=1 LIUi(s). Es claro que L(S|s) = LIS(s) = 1. Por lo tanto

L(·|s) es una medida de probabilidad. Por otro lado, para cada para cada D ∈B(S), ID ∈Mb(S), ası LID ∈Mb(X), por lo que L(D|·) es medible sobre S.

b) Sea G : Mb(S) 7→Mb(S) definida para cada v ∈Mb(S) mediante

Gv(x) =

∫S

v(y)L(dy|s).

Se demuestra que para cada v ∈ Mb(S), Gv = Lv. Sea D ∈ B(S), ası ID ∈Mb(S) y

GID(s) =

∫S

ID(y)L(dy|s) = L(D|s) = LID(s).

Sea ρ un funcion simple, es decir, existen d1, ..., dn ⊂ R y D1, ..., Dn ⊂ B(S)ajenos a pares tales que ρ(s) =

∑ni=1 diIDi

(s), entonces

Gρ(s) =n∑i=1

di

∫S

IDiL(dy|s) =

n∑i=1

diL(Di|s)

=n∑i=1

diLIDi(s) = L

n∑i=1

diIDi(s) = Lρ(s).

Sea v ∈Mb(S) no negativa, por el Teorema de aproximacion simple existe unasucesion creciente de funciones simples ρn que convergen puntualmente a v.Entonces (v − ρn)(s) ↓ 0 y L(v − ρn)(s) ↓ 0. Por convergencia monotona,

Gv(s) = lımn7→∞

∫S

ρn(y)L(dy|s) = lımn 7→∞

Gρn(s)

= lımn7→∞

Lρn(s) = Lv(s).

Por lo tanto, para cualquier v ∈ Mb(S) no negativa se tiene Gv = Lv. Seanv ∈ Mb(S), v = v+ − v−, con v+ y v− medibles, no negativas y acotadas,entonces

Gv = Gv+ −Gv−

yLv = Lv+ − Lv−.

Dado que Lv+ = Gv+ y Lv− = Gv− se concluye que Gv = Lv.

c) Suponga que L(Cb(S)) ⊂ Cb(S). Sea v ∈ Cb(S), entonces v ∈ Mb(S) y por laparte b) ∫

X

v(y)L(dy|·) = Lv(·).

Por lo tanto L es debil continuo.

Page 27: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

CAPITULO 2 19

2.2. Modelo perturbado M

Dado el modelo M = (X,A, A(x)|x ∈ X, Q, C) introducido en (??) y un ope-

rador promediador L, el modelo perturbado M es la quıntupla:

M := (X,F, F|x ∈ X, Q, C),

donde:

1) X es el espacio de estados del modelo de control M .

2) F es el conjunto de selectores medibles de X en A, que en el modelo toma elpapel de conjunto de acciones.

3) Para cada x ∈ X, el conjunto de acciones admisibles es F. El conjunto K estadefinido por:

K := (x, f)|x ∈ X, f ∈ F.

4) Q : X × K 7→ R se define de la siguiente manera:

Q(B|x, f) := LQ(B|x, f(x)) =

∫X

Q(B|y, f(y))L(dy|x),

para cada (x, f) ∈ K y B ∈ B(X), donde Q es el kernel de transicion del modelo

M . Claramente Q es un kernel sobre X dado K.

5) La funcion de costo por etapa C : K 7→ R esta definida por:

C(x, f) := LC(x, f(x)) =

∫X

C(y, f(y))L(dy|x),

para cada (x, f) ∈ K, donde C el costo por etapa del modelo M .

Observacion 6.

a) Para cada f ∈ F, C(·, f) : X 7→ R es una funcion Borel medible sobre X.

b) Para cada B ∈ B(X) y cada f ∈ F, Q(B|·, f) : X 7→ R es una funcion Borelmedible sobre X.

c) Para cada (x, f) ∈ K, Q(·|x, f) : X 7→ R es una medida de probabilidad sobreX.

Page 28: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

CAPITULO 2 20

d) Para cada f ∈ F, Q(·|·, f) es un kernel de transicion de X en X.

De la Observacion anterior es claro que el modelo M es analogo al modelo 1.13,donde en este caso una polıtica determinista estacionaria constante es un selector,por lo que es posible construir un espacio de probabilidad consistente con este mo-delo. Ası para cada polıtica determinista estacionaria constante f y estado inicialx, existe una medida de probabilidad Pfx, y un proceso estocastico (X0, X1, ...) sobre

(×∞t=0Xt,⊗B(Xt)), con kernel de transicion Q, y con criterio de desempeno

V (f, x) = Efx

[∞∑n=0

αnC(xn, f)

],

y para cada x ∈ X, V ∗(x) = ınff∈F

V (f, x) es la funcion valor α-descontada. Por lo que

una polıtica f ∗ es optima α-descontada para el Modelo M si V ∗(x) = V (f ∗, x) paracada x ∈ X.

2.2.1. Existencia y aproximacion de polıticas optimas

El operador de programacion dinamica T asociado al modelo M ,esta definido por

T u(x) = ınff∈F

[C(x, f) + α

∫X

u(y)Q(dy|x, f)

](2.4)

para cada u ∈Mb(X) y cada x ∈ X.

Observacion 7. Para cada x ∈ X si

A(x) = f(x)|f ∈ F (2.5)

se tieneC(x, f)+α

∫X

u(y)Q(dy|x, f)∣∣∣f ∈ F

=

C(x, a)+α

∫X

u(y)Q(dy|x, a)∣∣∣a ∈ A(x)

,

y entonces

T u(x) = ınfa∈A(x)

[C(x, a) + α

∫X

u(y)Q(dy|x, a)

]. (2.6)

Teorema 3. Si modelo de control M satisface la Hipotesis 1, entonces T (Mb(X)) ⊂Mb(X), y T = LT . Por otro lado suponga que L(Cb(X)) ⊂ Cb(X), si el modelo de

control M satisface la Hipotesis 2, entonces para T (Cb(X)) ⊂ Cb(X) y T = LT .

Page 29: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

CAPITULO 2 21

Demostracion: Sea u ∈Mb(X), entonces para cada f ∈ F

Tu(x) ≤ C(x, f(x)) + α

∫u(y)Q(dy|x, f(x)),

para cada x ∈ X. Luego por monotonıa y linealidad de L

LTu(x) ≤ L(C(x, f(x)) + α

∫u(y)Q(dy|x, f(x))

)= LC(x, f(x)) + αL(

∫u(y)Q(dy|x, f(x)))

= C(x, f) + α

∫u(y)Q(dy|x, f).

Entonces

LTu(x) ≤ ınff∈FC(x, f) + α

∫u(y)Q(dy|x, f)|f ∈ F

= T u(x).

Dado que el modelo M satisface la Hipotesis 1, por la parte a) del Lema 1, paracada u ∈ Mb(X) existe una polıtica fu determinista estacionaria u−glotona para eloperador T , es decir, existe polıtica fu tal que

Tu(x) = C(x, fu(x)) + α

∫u(y)Q(dy|x, fu(x)), (2.7)

para cada x ∈ X. Luego de (2.7)

LTu(x) = L(C(x, fu(x)) + α

∫u(y)Q(dy|x, fu(x))

)= C(x, fu) + α

∫u(y)Q(dy|x, fu)

≥ T u(x).

Por lo tanto LT = T . Como el modelo M satisface la Hipotesis 1, para cada u ∈Mb(X), Tu ∈Mb(X), luego por la parte b) del Lema 6, LTu ∈Mb(X). Por lo tanto

T u ∈Mb(X).La demostracion de la segunda parte es analoga a la demostracion de la parte b),

tomando a Cb(X) en lugar de Mb(X) justificando la expresion (2.7) por la parte b)del Lema 1 y la parte c) del Lema 6.

Page 30: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

CAPITULO 2 22

Para cada selector f ∈ F, se define

Tfu(x) := C(x, f) + α

∫X

u(y)Q(dy|x, f), (2.8)

para cada u ∈ Cb(X) y x ∈ X.

Teorema 4. Si el modelo de control M satisface la Hipotesis 1, entonces para cadaf ∈ F, Tf (Mb(X)) ⊂ Mb(X) y Tf = LTf . Suponga que L(Cb(X)) ⊂ Cb(X), si el

modelo de control M satisface la Hipotesis 2, entonces para cada f ∈ F, Tf (Cb(X)) ⊂Cb(X) y Tf = LTf .

Demostracion: De (1.21), para cada f ∈ F el operador Tf : Mb(X) 7→ Mb(X) estadefinido por

Tfu(x) := C(x, f(x)) + α

∫X

u(y)Q(dy|x, f(X)), (2.9)

para cada u ∈Mb(X) y cada x ∈ X. Ası

LTfu(x) = C(x, f) + α

∫u(y)Q(dy|x, f)

= Tfu(x).

Por lo tanto LTf = Tf . Dado que para cada u ∈ Mb(X), Tfu ∈ Mb(X), por la parte

b) del Lema 6 LTfu ∈ Mb(X), por lo tanto Tf ∈ Mb(X). La demostracion de lasegunda parte es analoga.

El resultado que asegura la existencia de polıticas optimas para el modelo pertur-bado M es el siguiente.

Teorema 5.

a) Si el modelo de control M satisface la Hipotesis 1, entonces V ∗ es el unico punto

fijo de T en Mb(X).

b) Suponga que L(Cb(X)) ⊂ Cb(X). Si el modelo de control M satisface la Hipote-

sis 2, entonces V ∗ es el unico punto fijo de T en Cb(X).

c) Si el modelo de control M satisface la Hipotesis 1 o si L(Cb(X)) ⊂ Cb(X) y elmodelo de control M satisface la Hipotesis 2, existe un selector f∗ ∈ F tal que

V ∗(x) = C(x, f∗) + α

∫X

V ∗(y)Q(dy|x, f∗), (2.10)

es decir, V ∗ = Tf∗V∗ y f∗ es optima para el modelo M . Recıprocamente si f∗

es optima para M , satisface (2.10).

Page 31: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

CAPITULO 2 23

Corolario 2. Una polıtica f∗ es optima para el Modelo M si y solo si V ∗ = Tf∗V∗.

Para demostrar el Teorema 5 se utilizaran las siguientes definiciones y los Lemas8, 9 y 10 presentados en el Apendice A.

Definicion 6. Sea u ∈ Mb(X). Un selector f , es u−glotona para el operador T , sisatisface

T u(x) = C(x, f) + α

∫X

u(y)Q(dy|x, f),

para cada x ∈ X.

Definicion 7. Una sucesion vn se llama sucesion de iteracion de valores aproxi-

mada si v0 ∈ 0, y para cada n ≥ 1, vn = T vn−1.

Observacion 8. Para una sucesion de iteracion de valores aproximada vn, se tieneque:

a) por Lema 2, vn → u∗.

b Para cada n, vn(x) ≤ Vn(f, x) ≤ V (f, x) para cada f ∈ F y cada x ∈ X, por lo

tanto, vn(x) ≤ V ∗(x) para cada x ∈ X.

Demostracion del Teorema 5

a) Por el inciso a) del Lema 9, T es un operador de contraccion con unico punto

fijo u∗, entonces solo basta verificar que u∗ = V ∗. Dado que T u∗ = u∗, tambienpor el inciso a) del Lema 9, se tiene que u∗ ≥ V ∗. La Observacion 8 b), implica

que u∗ ≤ V ∗. Por lo tanto u∗ = V ∗.

b) La demostracion es analoga a la del inciso a).

c) Por Lema 8 existe f , tal que V ∗ = Tf V∗. Del Lema 10, Vf = Tf Vf , por lo tanto

V ∗ = Vf∞ , es decir, la polıtica f es optima. Lo anterior dice que existe unapolıtica f determinista estacionaria optima. Por otro lado, si f es una polıticaoptima, Vf = V ∗ y del Lema 8, Vf = Tf Vf , entonces V ∗ = Tf V

∗.

Para este modelo tambien se tienen los resultados sobre aproximacion a polıticasoptimas.

Teorema 6. Sea vn la sucesion de iteracion de valores aproximada, y fn lasucesion de polıticas vn−glotona con selector arbitrario f0, entonces

lımn7→∞

‖ V ∗ − Vfn ‖= 0

Page 32: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

CAPITULO 2 24

Teorema 7. Para cada n ∈ N sea vn = T vn−1 y fn una polıtica vn−glotona, entonces

‖ V ∗ − vn ‖≤α

1− α‖ vn − vn−1 ‖,

y

‖ V ∗ − Vfn ‖≤2α

1− α‖ vn − vn−1 ‖

2.3. Cotas de aproximacion

Las cotas de aproximacion para los algoritmos de iteracion de valor aproximadopueden ser expresadas en terminos de la norma supremo o de la norma en variaciontotal para medidas finitas con signo.

Lema 7. Sean R = LT y S = TL, con T el operador de programacion dinamica y Loperador promediador. Si u ∈ Mb(X) es punto fijo de R, entonces v = Tu es puntofijo de S y u = Lv.

Demostracion: Sea u ∈Mb(X) con Ru = u y v := Tu, entonces

Lv = LTu = Ru = u,

luegoSv = TLv = Tu = v.

Observacion 9. Por el Teorema l operador R = LT definido en el Lema 7 es eloperador de programacion dinamica T para el modelo M . Por otro lado, el operadorS = TL coincide con el operador de programacion dinamica asociado a un modeloperturbado donde el espacio de estados, el espacio de acciones y la funcion de costosC se mantienen como en el modelo M y el kernel de transicion Q es definido, paracada B ∈ B(X) y (x, a) ∈ K, de la siguiente manera:

Q(B|x, a) :=

∫X

L(B|y)Q(dy|x, a),

con Q el kernel de transicion del modelo M , quedando el operador de programaciondinamica definido para cada u ∈Mb(X) como

T u(x) = mına∈A(x)

[c(x, a) + α

∫X

u(y)Q(dy|x, a)

]

para cada x ∈ X. Ası T = TL = S. Dado que la funcion de costos C es la mismapara M que para M , el algoritmo de iteracion de valores en T no podra bajar lacomplejidad original por el costo por etapa.

Page 33: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

CAPITULO 2 25

Teorema 8. Suponga que L : Cb(X) 7→ Cb(X). Si el modelo original cumple laHipotesis 2, entonces

‖ V ∗ − V ∗ ‖≤ 1

1− α‖ V ∗ − LV ∗ ‖ .

Demostracion: Por el inciso b) del Teorema 2, V ∗ es punto fijo de T , por el incisob) del Lema 2, T es un operador de contraccion con modulo α, y del inciso b) del

Teorema 5, V ∗ es punto fijo de T . Sea V ∗ = T V ∗, por el Lema 7, V ∗ es punto fijo deT = TL y V ∗ = LV ∗. Entonces:

‖ V ∗ − V ∗ ‖=‖ TV ∗ − TLV ∗ ‖≤ α ‖ V ∗ − LV ∗ ‖= α ‖ V ∗ − V ∗ ‖, (2.11)

y dado que L es no expansivo

‖ V ∗ − V ∗ ‖ =‖ V ∗ − LV ∗ + LV ∗ − V ∗ ‖≤‖ V ∗ − LV ∗ ‖ + ‖ LV ∗ − V ∗ ‖=‖ V ∗ − LV ∗ ‖ + ‖ LV ∗ − LV ∗ ‖≤‖ V ∗ − LV ∗ ‖ + ‖ V ∗ − V ∗ ‖,

por lo tanto de 2.11:

‖ V ∗ − V ∗ ‖≤‖ V ∗ − LV ∗ ‖ +α ‖ V ∗ − V ∗ ‖ .

Para determinar algunas cotas de aproximacion en terminos de la norma en varia-cion total se establecen algunos resultados sobre esta norma y ası como la notacionutilizada para especificar las cotas.

La norma en variacion total de una medida finita con signo µ, se define de lasiguiente manera.

‖ µ ‖TV = sup∫

X

v(y)µ(dy)∣∣∣v ∈Mb(X), ‖ v ‖≤ 1

. (2.12)

Ası para cada funcion v ∈Mb(X) se tiene que∣∣∣ ∫X

v(y)µ(dy)∣∣∣ ≤‖ µ ‖TV ‖ v ‖ . (2.13)

Mas aun, se puede probar que para P1 y P2 medidas de probabilidad, su distancia envariacion total cumple lo siguiente

‖ P1 − P2 ‖TV = 2 supB∈B(X)

P1(B)− P2(B). (2.14)

Page 34: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

CAPITULO 2 26

En lo que sigue se establece la notacion utilizada para plantear los resultados sobrecotas de aproximacion en terminos de la norma en variacion total.

Sea F0 la subclase de polıticas estacionarias que contienen a las polıticas optimasestacionarias para el modelo M y el modelo perturbado M , y las polıticas Vn-glotona.Se define

δQ(F0) := sup‖ Qf (·|x)− Qf (·|x) ‖TV : x ∈ X, f ∈ F0,δC(F0) := sup‖ Cf (·|x)− Cf (·|x) ‖: f ∈ F0.

Para cada f ∈ F y funcion medible v sobre K, se denota vf (x) := v(x, f(X)).Entonces en particular se tiene que:

Cf (x) = C(x, f(x)) y Qf (·|x) = Q(·|x, f(x))

para cada x ∈ X. Analogamente

Cf (x) = C(x, f) y Qf (·|x) = Q(·|x, f)

para cada x ∈ X. Mas aun se puede escribir

Qfu(x) :=∫Xu(y)Qf (dy|x) y Qfu(x) :=

∫Xu(y)Qf (dy|x)

Teorema 9. Si el modelo de control M satisface la Hipotesis 1, entonces

a) Para cada f ∈ F

‖ Vf − Vf ‖≤1

1− α‖ Cf − Cf ‖ +

αk

(1− α)2supx∈X‖ Qf (·|x)− Qf (·|x) ‖TV ,

b) ‖ V ∗ − V ∗ ‖≤ 1

1− αδC(F0) +

αk

(1− α)2δQ(F0),

c) Si f∞ es una polıtica vn-glotona, entonces

‖ V ∗ − Vf∞ ‖≤2α

1− α‖ vn − vn−1 ‖ +

2

1− αδC(F0) +

2αk

(1− α)2δQ(F0) (2.15)

Por otro lado, suponga que L : Cb(X) 7→ Cb(X), si el modelo de control M satisfacela Hipotesis 2, entonces se cumple a),b) y c).

Demostracion:

Page 35: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

CAPITULO 2 27

a) Por el inciso a) del Lema 10, para cada selector f , Vf = Tf Vf , a su vez por elinciso a) del Lema 3, Vf = TfVf , entonces:

‖ Vf − Vf ‖ =‖ Tf − Tf ‖=‖ Cf + αQfVf − Cf + αQf Vf ‖=‖ Cf − Cf + α(QfVf − Qf Vf ) ‖≤‖ Cf − Cf ‖ +α ‖ QfVf − Qf Vf ‖=‖ Cf − Cf ‖ +α ‖ QfVf −Qf Vf +Qf Vf − Qf Vf ‖≤‖ Cf − Cf ‖ +α ‖ QfVf −Qf Vf ‖ +α ‖ Qf Vf − Qf Vf ‖

(2.16)

Observe que ‖ QfVf −Qf Vf ‖= supx∈X | QfVf (x)−Qf Vf (x) |, luego para cadax ∈ X se tiene que

| QfVf (x)−Qf Vf (x) | = |∫X

Vf (y)Qf (dy|x)−∫X

Vf (y)Qf (dy|x)|

≤∫x

| Vf (y)− Vf (y) | Qf (dy|x) ≤‖ Vf − Vf ‖

por lo tanto‖ QfVf −Qf Vf ‖≤‖ Vf − Vf ‖ . (2.17)

Por otro lado ‖ Qf Vf−Qf Vf ‖= supx∈X Qf Vf (x)− Qf Vf (x), y para cada x ∈ Xse tiene que

Qf Vf (x)− Qf Vf (x) =

∫X

Vf (y)(Qf (dy|x)− Qf (dy|x))

≤‖ Vf ‖‖ Qf (·|x)− Qf (·|x) ‖TV≤‖ Vf ‖ sup

x∈X‖ Qf (·|x)− Qf (·|x) ‖TV ,

por lo tanto

‖ Qf Vf − Qf Vf ‖≤‖ Vf ‖ supx∈X‖ Qf (·|x)− Qf (·|x) ‖TV . (2.18)

Entonces de (2.17) y (2.18)

‖ Cf − Cf ‖+ α ‖ QfVf −Qf Vf ‖ +α ‖ Qf Vf − Qf Vf ‖≤‖ Cf − Cf ‖ +α ‖ Vf − Vf ‖ +α sup

x∈X‖ Qf (·|x)− Qf (·|x) ‖TV ‖ Vf ‖ .

Dado que C es acotado, es decir, existe k tal que para todo (x, f) ∈ K, entonces

Vf ≤k

1− αpara cada f , ası ‖ Vf ‖≤

k

1− αpara cada f . Por lo tanto

‖ Vf − Vf ‖≤1

1− α‖ Cf − Cf ‖ +

αk

(1− α)2supx∈X‖ Qf (·|x)− Qf (·|x) ‖TV

Page 36: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

CAPITULO 2 28

b) Por el inciso a) tenemos que

‖ Vf − Vf ‖≤1

1− α‖ Cf − Cf ‖ +

αk

(1− α)2supx∈X‖ Qf (·|x)− Qf (·|x) ‖TV

para cada f ∈ F, luego

supf∈F0

‖ Vf−Vf ‖≤1

1− αsupf∈F0

‖ Cf−Cf ‖ +αk

(1− α)2supf∈F0

supx∈X‖ Qf (·|x)−Qf (·|x) ‖TV .

Ası

supf∈F0

‖ Vf − Vf ‖≤1

1− αδC(F0) +

αk

(1− α)2δQ(F0).

Entonces para cada f ∈ F0 se tiene que

‖ Vf − Vf ‖≤1

1− αδC(F0) +

αk

(1− α)2δQ(F0),

lo cual implica que para cada x ∈ X,

Vf (x)− Vf (x) ≤ 1

1− αδC(F0) +

αk

(1− α)2δQ(F0),

por lo que

1

1− αδC(F0)+

k

(1− α)2δQ(F0)+Vf (x) ≤ Vf (x) ≤ Vf (x)+

1

1− αδC(F0)+

k

(1− α)2δQ(F0),

y ya que F0 contiene a las polıticas optimas para los modelos M y M , tomandoel ınfimo sobre F0 se tiene que

1

1− αδC(F0)+

αk

(1− α)2δQ(F0)+V ∗(x) ≤ V ∗(x) ≤ V ∗(x)+

1

1− αδC(F0)+

αk

(1− α)2δQ(F0),

por lo tanto

‖ V ∗ − V ∗ ‖≤ 1

1− αδC(F0) +

αk

(1− α)2δQ(F0).

c) Suponga que f es una polıtica vn-glotona. Se tiene que

‖ V ∗−Vf ‖=‖ V ∗−V ∗+V ∗−Vf+Vf−Vf ‖≤‖ V ∗−V ∗ ‖ + ‖ V ∗−Vf ‖ + ‖ Vf−Vf ‖ .

Page 37: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

CAPITULO 2 29

Por el inciso a)

‖ Vf − Vf ‖≤1

1− α‖ Cf − Cf ‖ +

αk

(1− α)2supx∈X‖ Qf − Qf ‖TV ,

lo cual implica que

‖ Vf − Vf ‖≤1

1− αδC(F0) +

αk

(1− α)2δQ(F0). (2.19)

Por otro lado, del inciso b)

‖ V ∗ − V ∗ ‖≤ 1

1− αδC(F0) +

αk

(1− α)2δQ(F0). (2.20)

Por ultimo, del Lema 7

‖ V ∗ − Vf ‖≤2α

1− α‖ vn − vn−1 ‖ . (2.21)

Por lo tanto de (2.19), (2.20) y (2.21) se concluye que

‖ V ∗ − Vf ‖≤2α

1− α‖ vn − vn−1 ‖ +2

( 1

1− αδC(F0) +

αk

(1− α)2δQ(F0)

)

Page 38: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

CAPITULO 2 30

Page 39: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

Capıtulo 3

Un sistema de inventario

Un inventario es la cantidad de existencias de un bien o recurso cualesquiera, unsistema de inventarios es el conjunto de polıticas y controles que rigen el inventario ydeterminan que niveles se deben mantener. Los sistemas de inventarios se constituyenen una empresa con la finalidad de que las demandas de los clientes sean atendidas sindemora y para que la necesaria continuidad del proceso productivo o adquisitivo nose vea interrumpida; son una especie de reguladores que mantienen el equilibrio entrelos flujos de entrada y los de salida de la empresa. Lo anterior justifica la elaboracionde modelos matematicos con el objeto de minimizar sus gastos o costos, sujetos a larestriccion de satisfacer la demanda y que ademas den respuestas a dos preguntasclaves: ¿Cuando ordenar? y ¿Cuanto ordenar?.

Este capıtulo muestra algunos resultados numericos para ilustrar el enfoque desa-rrollado en el capıtulo anterior, para lo cual se toma un problema de control deinventario.

3.1. Aproximaciones al modelo de inventario

El sistema de inventario que se aborda en este escrito tiene las caracterısticassiguientes:

1. La demanda es aleatoria y continua.

2. El costo es la suma de los costos de adquisicion, de almacenamiento y deficitde inventario.

3. Tiempo de entrega: Inmediato.

31

Page 40: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

CAPITULO 3 32

4. Ordenes atrasadas: No se consideran.

5. Proceso de Revision: Revision Periodica.

6. Horizonte de planeacion: Infinito.

7. Numero de Artıculos: Un solo artıculo.

8. Capacidad de Alacenamiento: Finita, θ artıculos, con θ ∈ R.

Como se menciono anteriormente lo modelos de sistemas de inventario deben darrespuesta a dos preguntas: ¿Cuando ordenar? y ¿Cuanto ordenar?, dado que en estesistema de inventario se asume una Revision Periodica, al inicio de cada periodo serealiza una orden, por lo tanto solo se debe responder ¿Cuanto ordenar?.

En lo que sigue se establece la notacion para el Sistema de Inventario.

xt es el inventario al inicio del periodo t.

at es la cantidad ordenada al inicio del periodo t.

ωt es una variable aleatoria que representa la demanda al periodo t.

θ es la capacidad maxima de almacenamiento.

El sistema de inventario evoluciona de acuerdo a la siguiente ecuacion

xt+1 = max(0, xn + an − wn).

El deficit de inventario es max(0, w − i− a).

El costo por adquisicion de a artıculos es c ·a, donde c el costo unitario y c > 0.

El costo de almacenamiento es h · (x + a), donde h es el costo unitario dealmacenamiento y h > 0.

El costo por deficit es p · max(0, w − i − a), donde p es el costo unitario pordeficit y p > 0.

El problema es encontrar una estrategia de inventario, es decir, que cantidad deartıculos a ordenar en cada periodo de tal modo que se minimice el costo total espe-rado descontado a lo largo del horizonte de planeacion.

Page 41: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

CAPITULO 3 33

El sistema de inventario considerado tiene las siguientes hipotesis adicionales: ωtes una sucesion de variables aleatorias independientes e identicamente distribuidascon funcion de distribucion continua F y funcion de densidad continua ρ. La funcionde densidad ρ es una funcion Lipschitz continua sobre [0, θ] con modulo l y acotadapor una constante k′.

El sistema de inventario puede ser modelado como un problema de control concosto descontado a horizonte infinito, cuyos elementos son:

* Espacio de Estados: X = [0, θ].

* Espacio de Acciones: A = [0, θ].

* Acciones admisibles: A(x) = [0, θ − x], para cada x ∈ X.

* Kernel de transicion:

Q(B|x, a) = Eω0(IB(max(0, x+ a− w0))), (3.1)

para cada B ∈ B(X) y cada (x, a) ∈ K. Donde Eω0 es la esperanza con respectoa la funcion de distribucion de w0. Ademas w0 cuenta con esperanza ω finita.

* Costos:

El costo por adquisicion es c · a.El costo de almacenamiento por periodo es h · (x+ a).El costo esperado por deficit en cada periodo es p ·E(max(0, w− x− a)) Ası lafuncion de costo por etapa es

C(x, a) = p · Ew0(max(0, w0 − x− a)) + h · (x+ a) + c · a,

para cada (x, a) ∈ K.

Observacion 10.

a) C es una funcion continua y acotada sobre K.

b) Para cada x ∈ X, A(x) es un conjunto compacto.

c) Para cada x ∈ X, la multifuncion φ de X en A, definida como φ(x) = [0, θ−x]es continua.

Page 42: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

CAPITULO 3 34

d) Para v ∈Mb(X),∫X

v(y)Q(dy|x, a) = Eω0(v(max(0, x+ a− ω0))), (3.2)

para cada (x, a) ∈ K.

e) El kernel de transicion Q es debil continuo sobre K.

f) Para cada x ∈ X, el kernel de transicion Q es fuertemente continuo sobre A(x).

De las observaciones a), b) y e) se concluye que el modelo de inventario satisface laHipotesis 1, ademas de las observaciones a), b), c) y f) el modelo satisface la Hipotesis2

Por a), b) y e) el modelo de inventario satisface la Hipotesis 1, por a),b),c) y f)el modelo de inventario satisface la Hipotesis 2.

3.2. Cotas para el modelo perturbado M

En [14] se demuestra que una clase de polıticas llamadas stock base son optimaspara un sistema de inventario cuyo modelo de control satisface la Hipotesis 1. Demanera analoga para este modelo perturbado del modelo de control del sistema deinventario se puede demostrar que las polıticas stock base son optimas.

Definicion 8. Una polıtica determinista estacionaria f es una polıtica stock base sif(x) = S−x para cada x ∈ [0, S] y f(x) = 0 para cada x 6∈ (S, θ], donde la constanteS ∈ [0, θ], con S ≥ 0 es llamado punto de reorden.

Para establecer las cotas de aproximacion en este modelo perturbado, se conside-rara a F0 como la clase de las polıticas stock base.

Para determinar las cotas de aproximacion primero se procedera a estimar δQ(F0)

y δC(F0), para esto primero se determinaran la ley de transicion Q y la funcion de

costos C para una polıtica stock base fS con punto de reorden S ∈ [0, θ], es decir,f(x) = S − x para cada x ∈ [0, S] y f(x) = 0 para cada x 6∈ [0, S]. Para determinar

la ley de transicion Q, se observa que la ley de transicion Q queda definida de lasiguiente manera para cualquier v ∈ Cb(X)

QfSv(x) =

∫X

v(y)Q(dy|x, fS(x)), (3.3)

Page 43: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

CAPITULO 3 35

por lo tanto

QfSv(x) =

Eω0(v(max(0, S − ω0))) si x ∈ [0, S]

Eω0(v(max(0, x− ω0))) si x ∈ (S, θ],(3.4)

Luego

QfSv(x) =

∫X

∫X

v(y)Q(dy|z, fS(z))L(dz|x) (3.5)

por lo tanto

QfSv(x) =

Eω0(v(max(0, S − ω0))) si x ∈ [0, S]∫XEω0(v(max(0, z − ω0)))L(z|x) si x ∈ (S, θ],

(3.6)

Por otro lado

C(x, fs) = p · Ew0(max(0, w0 − x− (fS(x)))) + h · (x+ (fS(x))) + c · (fS(x)), (3.7)

por lo tanto

C(x, fs) =

p · Ew0(max(0, w0 − S)) + h · S + c · (S − x) si x ∈ [0, S]

p · Ew0(max(0, w0 − x)) + h · x si x ∈ (S, θ].(3.8)

Ası, considerando al operador promediador de interpolacion lineal del Ejemplo 1, lafuncion de costos es

CfS(x) = LCfs(x) =i=N−1∑i=0

[si+1 − xsi+1 − si

Cfs(si) +x− sisi+1 − si

Cfs(si+1)

]IDi

(x). (3.9)

Sea Ms= maxi∈0,1,...,N−1(si+1−si). Despues de algunos calculos se tiene que paracada v ∈ Cb(X) con ‖ v ‖≤ 1

QfSv(x)− QfSv(x) ≤ (2lθ + 4k′)· Ms, (3.10)

para cada x ∈ [0, θ], entonces

‖ QfS(·|x)− QfS(·|x) ‖TV≤ (2lθ + 4k′)· Ms, (3.11)

por lo tantoδQ(F0) ≤ (2lθ + 4k′)· Ms . (3.12)

Por otro lado

CfS(x)− CfS(x) ≤ max(h+ c− p+ p, h− p+ 2p+ c)· Ms (3.13)

Page 44: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

CAPITULO 3 36

para cada x ∈ [0, θ]. Lo cual implica que

‖ CfS − CfS ‖≤ max(h+ c− p+ p, h− p+ 2p+ c)· Ms (3.14)

Por lo tanto

δC(F0) = supf∈F0

‖ CfS − CfS ‖≤ max(h+ c− p+ p, h− p+ 2p+ c)· Ms . (3.15)

Ası por los incisos b) y c) del Teorema 9 se tiene lo siguiente

‖ V ∗− V ∗ ‖≤ 1

1− αmax(h+ c− p+ p, h− p+ 2p+ c)· Ms +

αk

(1− α)2(2lθ+ 4k′)· Ms,

(3.16)y si f∞ es una polıtica vn-glotona, entonces

‖ V ∗ − Vf∞ ‖ ≤2α

1− α‖ vn − vn−1 ‖ +

2

1− α·max(h+ c− p+ p, h− p+ 2p+ c)· Ms

+2αk

(1− α)2· (2lθ + 4k′)· Ms .

Se observa que la cota para ‖ V ∗ − Vf∞ ‖ depende de Ms por lo que en el modelo

M las cotas de aproximacion al punto fijo se pueden hacer arbitrariamente pequenastomando refinamientos de la particion establecida del intervalo [0, θ] y haciendo unnumero suficiente de iteraciones.

3.3. Implementacion

En esta seccion se implementa el algoritmo de iteracion de valores aproximado enun sistema de inventario con los siguientes datos:

θ = 40, por lo que X = A = [0, 40].

α = 0.6

La demanda ω0 tiene una funcion de densidad exponencial ρ con parametroλ = 0.1, es decir,

ρ(x) =

(0.1) exp−(0.1)x si x ≥ 0

0 en caso contrario ,(3.17)

Page 45: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

CAPITULO 3 37

con funcion de distribucion

F (x) =

1− exp−(0.1)x si x ≥ 0

0 en caso contrario ,(3.18)

y valor esperado Eω0(ω0) =1

λ.

Observe tambien que ρ es acotada por k′ = λ = 0.1 y es Lipschitz con modulol = λ2 = 0.01.

Para la funcion de costos c = 1.5, h = 0.5 y p = 3, por lo cual

C(x, a) = 3 · Ew0(max(0, w0 − x− a)) + (0.5) · (x+ a) + (1.5) · a,

para cada (x, a) ∈ K. Ası considerando x = 20 y a ∈ A(x) = 0, una cotapara C es k = 22.

De los datos anteriores se puede obtiene lo siguiente

a) δQ(F0) ≤ (0.84)· Ms.

b) δC(F0) ≤ 10· Ms.

c) ‖ V ∗ − V ∗ ‖≤ (94.3)· Ms

d) Para una polıtica f, vn-glotona

‖ V ∗ − Vf∞ ‖≤ 3 ‖ vn − vn−1 ‖ +(188.6)· Ms (3.19)

Para el modelo M las cotas dependen del refinamiento del espacio de estados, locual permite controlar la aproximacion.

En la implementacion del algoritmo de iteracion de valores aproximado se consi-dero un error de aproximacion de tamano ε = .001, al implementarlo se obtuvo que laiteracion n = 21 es la primera que satisface la condicion deseada en el algoritmo conun tamano de la particion N = 100, obteniendo una polıtica stock base con punto dereorden S = 6.4.

En siguiente imagen se pueden observar las funciones iteradas evaluadas vn conn = 1, 2, ..., 21.

Page 46: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

CAPITULO 3 38

Figura 3.1: Funciones vv, con n=1,2,...,21, ε = .001, N = 100

Page 47: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

Conclusiones

En este trabajo se estudio un esquema de aproximacion a la solucion optima deun proceso de control de Markov mediante el algoritmo de iteracion de valores. Lametodologıa consiste en aproximar el operador de programacion dinamica T medianteun operador aproximador que se expresa como la composicion de un operador L conel operador de programacion dinamica T , y que este asociado a un modelo de control.

La clase de operadores L denominados operadores promediadores tienen propie-dades que permiten establecer los errores de aproximacion entre la solucion optimadel modelo original y el desempeno de la polıtica glotona obtenida del algoritmoaproximado en terminos del error de convergencia establecido en el algoritmo y delerror entre la solucion optima del modelo original y la solucion del modelo perturbado.

Con un ejemplo se muestra que mediante una eleccion adecuada del operadorpromediador es posible reducir la complejidad numerica con respecto a la variablede estado, sin embargo no se reduce la complejidad del problema sobre el espaciode acciones, por lo que serıa de interes formular un esquema de aproximacion parareducir la complejidad en ambas variables.

Se puede probar que la clase de operadores que tengan las propiedades desea-das, no puede extenderse mas alla de los promediadores, por lo cual serıa interesanteestudiar un enfoque mas general por ejemplo aproximar directamente al modelo decontrol mediante modelos de control mas sencillos donde sea posible implementarmetodos de iteracion de polıticas.

39

Page 48: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

APENDICE A 40

Page 49: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

Apendices

41

Page 50: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez
Page 51: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

Apendice A

Lema 8.

a) Si el modelo de control M satisface la Hipotesis 1, entonces para cada v ∈Mb(X), existe un selector f , v−glotona para el operador T .

b) Suponga que L(Cb(X)) ⊂ Cb(X). Si modelo de control M satisface la Hipote-

sis 2 entonces para cada v ∈ Cb(X), existe un selector f , v−glotona para el

operador T .

Demostracion:

a) Sea u ∈ Mb(X), ya que el modelo M satisface la Hipotesis 1, por la parte a)del Lema 1 existe una polıtica f ∈ F, u−glotona para el operador T , esto es,

Tu = C(x, f(x)) + α

∫X

u(y)Q(dy|x, f(x)),

y por monotonıa y linealidad de L

Tu(x) = LTu(x) = C(x, f) + α

∫X

u(y)Q(dy|x, f),

es decir, f es u−glotona para el operador T .

b) Sea u ∈ Cb(X), ya que el modelo M satisface la Hipotesis 2, por la parte b) delLema 1 existe una polıtica f ∈ F, u−glotona para el operador T , esto es,

Tu = C(x, f(x)) + α

∫X

u(y)Q(dy|x, f(x)),

y por monotonıa y linealidad de L

Tu(x) = LTu(x) = C(x, f) + α

∫X

u(y)Q(dy|x, f),

es decir, f es u−glotona para el operador T .

43

Page 52: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

APENDICE A 44

Lema 9.

a) Si el modelo de control M satisface la Hipotesis 1, entonces T : Mb(X) 7→Mb(X) es un operador de contraccion con modulo α. Existe una unica u∗ ∈Mb(X) tal que T u∗ = u∗, y para cualquier funcion v ∈Mb(X)

lımn7→∞

‖ T nv − u∗ ‖= 0. (20)

Ademas para cada u∗ ∈Mb(X) no negativa , si T u ≤ u, entonces V ∗ ≤ u.

b) Suponga que L(Cb(X)) ⊂ Cb(X). Si modelo de control M satisface la Hipotesis

2, entonces T : Cb(X) 7→ Cb(X) es un operador de contraccion con modulo

α. Existe una unica u∗ ∈ Cb(X) tal que T u∗ = u∗, y para cualquier funcion

v ∈ Cb(X) se cumple 20. Ademas para cada u∗ ∈ Cb(X) no negativa, si T u ≤ u,

entonces V ∗ ≤ u.

Demostracion:

a) Se demostrara que T es un operador de contraccion, ası como consecuencia delTeorema del Punto fijo de Banach se tendra que existe una unica u∗ ∈ Mb(X)

tal que T u∗ = u∗, y para cualquier funcion v ∈ Mb(X) se cumplira (20). Seanu, v ∈Mb(X), como M satisface la Hipotesis 1, por por la parte a) del Lema 2T es un operador de contraccion con modulo α y del inciso 2) de la Observacion5, L es no expansivo, entonces

‖ T u− T v ‖=‖ LTu− LTv ‖=‖ L(Tu− Tv) ‖≤‖ Tu− Tv ‖≤ α ‖ u− v ‖ .

Por lo tanto T es un operador de contraccion modulo α. Por otro lado, paracada u ∈Mb(X), suponga que T u ≤ u, por la parte a) del Lema 8, existe f talque

u(x) ≥ T u = C(x, f) + α

∫X

u(y)Q(dy|x, f), (21)

para todo x ∈ X, usando 21 iteradamente,

u(x) ≥ T u = C(x, f) + α

∫X

u(y)Q(dy|x, f) ≥ C(x, f) + α

∫X

T u(y)Q(dy|x, f)

= C(x, f) + α

∫X

(C(y, f) + α

∫X

u(z)Q(dz|y, f))Q(dy|x, f)

= C(x, f) + α

∫X

C(y, f)Q(dy|x, f) + α2

∫X

∫X

u(z)Q(dz|y, f)Q(dy|x, f)

≥ C(x, f) + α

∫X

C(y, f)Q(dy|x, f) + α2

∫X

∫X

T u(z)Q(dz|y, f)Q(dy|x, f).

Page 53: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

APENDICE A 45

Se concluye que

u(x) ≥ Efx( n−1∑t=0

αtC(xt, f))

+ αnEfx(u(xn)), (22)

para todo x ∈ X, y dado que u es no negativa

u(x) ≥ Efx( n−1∑t=0

αtC(xt, f))

(23)

para todo n ∈ N. Tomando n 7→ ∞, entonces

u(x) ≥ V (f, x) ≥ V ∗(x),

para todo x ∈ X.

b) La demostracion de la parte b) es analoga.

Lema 10.

a) Si el modelo de control M satisface la Hipotesis 1, entonces para cada f ∈ F,

Tf : Mb(X) 7→ Mb(X) es un operador de contraccion con modulo α, Vf es

el unico punto fijo de Tf en Mb(X), y para cualquier funcion v ∈ Mb(X) secumple

lımn7→∞

‖ T nf v − Vf ‖= 0. (24)

b) Suponga que L(Cb(X)) ⊂ Cb(X). Si modelo de control M satisface la Hipotesis

2, entonces para cada f ∈ F, Tf : Cb(X) 7→ Cb(X) es un operador de contraccion

con modulo α, Vf es el unico punto fijo de Tf en Cb(X), y para cualquier funcionv ∈ Cb(X) se cumple (24).

Demostracion:

a) Sea f ∈ F fijo, y u, v ∈ Mb(X), como M satisface la Hipotesis 1, por por laparte a) del Lema 3, Tf es operador de contraccion con modulo α y del inciso2) de la Observacion 5, L es no expansivo, entonces

‖ Tfu−Tfv ‖=‖ LTfu−LTfv ‖=‖ L(Tfu−Tfv) ‖≤‖ Tfu−Tfv ‖≤ α ‖ u−v ‖ .

Por lo tanto Tf es de contraccion. Por otro lado

Vf (x) = Efx( ∞∑t=0

αtC(xt, f))

= C(x, f) + αEfx( ∞∑t=1

αt−1C(xt, f))

(25)

Page 54: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

APENDICE A 46

donde

Efx( ∞∑t=1

αt−1C(xt, f))

= Efx(Efx( ∞∑t=1

αt−1C(xt, f)∣∣∣h1

))= Efx

(Efx1( ∞∑t=1

αt−1C(xt, f)))

= Efx(Vf (x1)

)=

∫X

Vf (y)Q(dy|x, f).

Por lo tanto

Vf (x) = C(x, f) +

∫X

Vf (y)Q(dy|x, f),

es decir, Vf es punto fijo de Tf , y dado que Tf es de contraccion el punto fijoes unico.

b) La demostracion de la parte b) es analoga.

Page 55: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

Bibliografıa

[1] Almudevar A., Approximate fixed point iteration with an application to infinitehorizon Markov decision processes. SIAM Journal on Control and Optimization46:541-561, 2008.

[2] Bellman E., Dynamic Programming, Princeton University Press, Princeton,NJ.,1957.

[3] Bertsekas D.P., Dynamic Programming and Optimal Control, 3rd Edition, Volu-me I, Athena Scientific, Belmont, Massachusetts.

[4] Bertsekas, D.P., Shreve, S.E.,Stochastic Optimal Control: The Discrete TimeCase, Athena Scientific, Belmont , Massachusetts, 1996.

[5] Cayley A., Mathematical questions with their solutions, No. 4528, EducationTimes, 23, 18, (1875).

[6] Hernandez-Lerma O.,Adaptive Markov Control Processes, Springer-Verlag, NY,1989.

[7] Hernandez-Lerma O., Lasserre J.B., Discrete-time Markov control processes. Ba-sic optimality criteria, Springer-Verlag, NY, 1996.

[8] Howard, R.A., Dynamic Programming and Markov Processes, Wiley, New York,1960.

[9] Kallenberg L., Markov Decision Processes, University Of Leiden, 2009.

[10] Puterman M. L., Markov Decision Processes: Discrete Stochastic Dynamic Pro-gramming, Hoboken, New Jersey, USA, Wiley, 1994.

[11] Shiryaev, A.N., Probability, Graduate texts in mathematics, Springer-Velarg,New York, 1996.

47

Page 56: T E S I S Maestro Matem aticas Lizbeth Yolanda Garrido Ram rez

BIBLIOGRAFIA 48

[12] Stachurski J., Continuous state dynamic programming via nonexpansive appro-ximation, Computational Economics 31, 2008, 141-160.

[13] Vega-Amaya O., Lopez-Borbon J., A Perturbation Approach for a Class ofDiscounted Approximate Value Iteration Algorithms. Journal of Dynamics andGames American Institute of Mathematical Sciences Volume 3 , Number 3 , July2016

[14] Vega Amaya O., Montes de Oca R., Application of average dynamic program-ming to inventory systems. Mathematical Methods of Operations Research,1998.