minicurso_onesimo

EMALCACIMAT, GuanajuatoAgosto 112, 2005

CONTROL OPTIMO Y JUEGOS ESTOCASTICOS

Onesimo HernandezLermaDepartamento de Matematicas

CINVESTAVIPNMexico, D.F.

Resumen: Estas son notas para un minicurso (de 7.5 horas, aproximadamente)introductorio sobre algunos aspectos de los juegos dinamicos, incluyendo juegosdeterminsticos y estocasticos, a tiempo discreto y tiempo continuo. Se presentauna breve introduccion a problemas de control optimo y despues se ven losprincipales tipos de equilibrios cooperativos y equilibrios nocooperativos. Elcurso esta dirigido a estudiantes avanzados de licenciatura o principiantes deposgrado. No es necesario que los estudiantes satisfagan ningun requisito enparticular, solo que no se asusten si oyen frases como ecuacion diferencial,variable aleatoria, etc.

2C O N T E N I D O

1. Introduccion 6

Parte 1: Problemas de control optimo (juegos con un jugador)

2. Definicion del problema de control optimo 10Procesos de MarkovProcesos de control markovianos

3. El principio del maximo 23

4. Programacion dinamica 32

5. Control minimax (juegos contra la naturaleza) 41

Parte 2: Juegos cooperativos

6. Equilibrios de Pareto 45

7. Equilibrios de compromiso 51

8. El problema de negociacion de Nash 55

Parte 3: Juegos nocooperativos

9. Equilibrios de Nash 59

10. Juegos simetricos y de suma cero 65

11. Juegos de Stackelberg 70

Referencias 73

3Observaciones sobre la bibliografa

La literatura sobre juegos estaticos es extenssima, pero para juegos dinami-cos esta limitada a artculos sobre casos especiales y a un punado de libros, comolos siguientes.

Para juegos diferenciales (determinsticos) una buena referencia es el libro deDockner et al. (2000). Algunos libros clasicos en este tema son los de Isaacs(1965) y Leitmann (1974), aunque el primero solo trata juegos de suma cero.

El libro de Basar y Olsder (1999) solo considera equilibrios nocooperativos,pero tiene la ventaja de que estudia algunos tipos de juegos diferenciales tantodeterminsticos como estocasticos y, ademas, juegos a tiempo discreto. La desven-taja es que el material y su presentacion son un tanto arcaicos, porque el librose escribio originalmente en 1982 y entre esa fecha y la de la segunda edicion, en1999, han habido muchos nuevos desarrollos.

El libro de Filar y Vrieze (1997) estudia juegos estocasticos a tiempo discreto,con espacio de estados finito.

Por supuesto, algunos textos de teora de juegos incluyen algo sobre juegosdinamicos, por ejemplo, Fudenberg y Tirole (1991), Gibbons (1992), Petrosjan yZenkevich (1996).

Advertencia

Un concepto fundamental en teora de juegos es el de equilibrio de Nash,tambien conocido como equilibrio nocooperativo, introducido por John Nash(1950). Para juegos dinamicos, la existencia de tales equilibrios se conoce enuna variedad de casos especiales, pero para juegos con espacio de estados nonumerable sigue siendo un problema abierto. Lamentablemente, hay publica-ciones que aseguran la existencia de equilibrios de Nash pero cuyas demostra-ciones son incorrectas. Ejemplos de estas publicaciones, para juegos a tiempodiscreto, son los artculos:

Lai, H.C. Tanaka, K. (1984). On an Nperson noncooperative Markovgame with a metric state space. J. Math. Anal. Appl. 101, pp. 7896.

4 Sobel, M.J. (1973). Continuous stochastic games. J. Appl. Prob. 10, pp.597604.

Para juegos a tiempo continuo:

Borkar, V.S., Ghosh, M.K. (1992). Stochastic differential games: an occu-pation measure based approach. J. Optim. Theory Appl. 73, pp. 359385;correction: ibid, 88 (1996), pp. 251252.

Por desgracia el resultado (erroneo) en este ultimo artculo se ha reproducido entrabajos posteriores, por ejemplo:

Ramachandran, K.M. (2002). Stochastic differential games and applica-tions. Chapter 8 in Handbook of Stochastic Analysis and Applications, ed. byD. Kannan and V. Lakshmikantan, Marcel Dekker, New York.

Los equilibrios de Nash estan entre los muchsimos conceptos que son tri-viales de analizar para juegos estaticos o juegos repetidos, pero que para juegosdinamicos (con espacio de estados nonumerable) han permanecido casi into-cables hasta la fecha.

5Indice de notacion

Si A es una matriz, A = transpuesta de A.

Los vectores se escribiran como matrices columna:x = (x1, . . . , xn)

.

Si x, y son vectores, x y significa quexi yi para todo i.

El producto escalar de vectores x, y se escribe x y o xy. Dada una funcion real f : IRn IR y un vectorx = (x1, . . . , xn)

, las derivadas parciales se denotaran con subndices:

fxi = f/xi.

fx (vector fila) denota el gradiente de f , y fxx la matriz de segundas deri-vadas parciales (la matriz Hessiana), es decir,

fx = (fx1 , . . . , fxn),

fxx = (fxixj).

Si f : IRn IRk es una funcion vectorial, fx = (fi/xj) denota la matrizJacobiana.

61 Introduccion

En esta seccion se presentan algunos ejemplos que serviran para motivar e ilus-trar algunos de los conceptos que se introduciran en secciones posteriores.

Ejemplo 1.1: Oligopolios

Oligopolio: Mercado con pocos vendedores (tambien llamados productores ofirmas) y muchos compradores.

Ejemplos de oligopolios:

Servicios de transporte (autobuses, aerolneas, ...) Mercados de energeticos (gas, petroleo, electricidad, ...) Bebidas (refrescos, cerveza, ...), etc.El hecho de que haya pocos vendedores implica que las acciones de cua-

lesquiera de ellos afecta el precio del producto y, por lo tanto, tiene un impactomedible sobre los competidores.

Casos especiales:

Duopolio: El duopolio de Cournot (1838) fue la primera aplicacion deteora de juegos a economa.

Monopolio (una unica firma): en este caso el juego se reduce a un pro-blema de control optimo que se estudia en el contexto de sistemas de pro-duccion. 2

Ejemplo 1.2. Un oligopolio a tiempo discreto, N firmas, [Kirman, Sobel (1974)].En cada tiempo t = 0, 1, . . . tenemos:

Estado del juego: xt = (x1t , . . . , xNt ), dondexit := nivel de inventario de la firma i (i = 1, . . . , N) al inicio del periodo t.

Accion de control de la firma i : ait = (zit, it) dondezit := cantidad que decide producir en el periodo t,

it := precio que anuncia.

1. INTRODUCCION 7

Demanda dit del producto de la firma i. La demanda puede ser deter-minstica, estocastica o incierta.

Modelo dinamico del juego: el estado xt = (x1t , . . . , xNt ) satisfacext+1 = xt + zt dt t = 0, 1, . . . . (1.1)

Ganancia neta de la firma i : rit(xit, ait, dit). Por ejemplo, si yit := xit + zit,entonces

rit( ) = itdit hi (yit dit)+ bi (dit yit)+ cizit, (1.2)donde hi, bi, ci son constantes dadas que representan, respectivamente, cos-tos unitarios de almacenamiento, de penalizacion (por no satisfacer la de-manda total) y de produccion.

Una estrategia del jugador i es una regla, digamos pii = {piit, t = 0, 1, . . .},que en cada tiempo t le dice al jugador que accion tomar, digamos, ait = (zit, it).

piitInformacion Acciones ait

Unamultiestrategia es un vector pi = (pi1, . . . , piN) donde pii es una estrategiadel jugador i.

Sea Vi(pi, x0) la ganancia neta total del jugador i, dado que las firmas usan lamultiestrategia pi = (pi1, . . . , piN) y los inventarios iniciales son x0 = (x10, . . . , xN0 ).Por ejemplo, en un juego con horizonte finito T ,

Vi(pi, x0) := Epix0

[T1t=0

rit(xit, a

it, d

it) + r

iT (x

iT )

]. (1.3)

En un juego con horizonte infinito se tendra (e.g.)

Vi(pi, x0) := Epix0

[ t=0

tirit(x

it, a

it, d

it)

](1.4)

donde 0 < i < 1 es un factor de descuento.

8 En principio, cada jugador o firma desea maximizar su ganancia neta.

Sin embargo, la regla es que no existen multiestrategias que satisfagan tal condi-cion. Por tal motivo, en teora de juegos se habla de equilibrios en lugar demultiestrategias optimas.

En el caso estocastico, el oligopolio anterior es un caso especial de cier-tos juegos a tiempo discreto conocidos como juegos estocasticos o juegosmarkovianos, introducidos por Shapley (1953). 2

Ejemplo 1.3. Un duopolio a tiempo continuo con sticky prices [Dockner etal. (2000)]

N = 2 firmas; el producto es homogeneo. Para i = 1, 2, ai(t) 0 es la tasa de produccion de la firma i. El precio de mercado (del producto) vara de acuerdo con la funcion dedemanda [a1(t) + a2(t)], donde > 0 es una constante.

El precio es pegajoso, lo cual significa que el precio demercado no se ajustainstantaneamente al precio indicado por la funcion de demanda; de hecho,la tasa de cambio del precio p(t) es

p(t) = s{ [a1(t) + a2(t)] p(t)} para t > 0, p(0) = p0, (1.5)donde s > 0 es el parametro de rapidez de ajuste del precio.

La funcion de costo de produccion es la misma para ambas firmas:

C(ai) := c ai +1

2a2i , con 0 < c < constante.

Dada una multiestrategia pi = (a1(), a2()) la funcion objetivo de la firmai (i = 1, 2) es

Vi(pi) :=

0

ert[p(t)ai(t) c ai(t) 12a2i (t)]dt, (1.6)

donde r > 0 es el factor de descuento. Cada firma desea maximizar sufuncion objetivo (1.6) sujeta a (1.5) y ai() 0. 2

1. INTRODUCCION 9

Ejemplo 1.4: Juegos LQ. El juego (1.5)(1.6) es un ejemplo de juego LQ, delingles: Linear system, Quadratic cost. Este tipo de juegos es muy importantedebido a sus multiples aplicaciones y, sobre todo, porque en muchos casos sepueden resolver explcitamente.

En general, en un juego LQ a tiempo discreto el estado evoluciona de acuerdoa una ecuacion de la forma

xt+1 = Atxt +Btat + t para t = 0, 1, . . . (1.7)

donde xt y at son vectores que representan, respectivamente, el estado del juegoy el vector de acciones de los jugadores, y los coeficientes At y Bt son matricesde dimensiones adecuadas. El vector t en (1.7) representa perturbaciones, yasean determinsticas o estocasticas. Asimismo, en el caso LQ la funcion rit en(1.3) o (1.4) resulta ser cuadratica en el estado xt y cuadratica en el vector at deacciones de control, digamos (escribiendo y por la transpuesta de una matriz ovector y),

cit(xt, at) = xtQ

itxt + a

tR

itat (1.8)

donde Qit es una matriz simetrica y definida nonegativa, y Rit es simetrica ydefinida positiva. La funcion terminal riT en (1.3) tambien es cuadratica, di-gamos riT (xT ) = x

TS

iTxT , con S

iT matriz simetrica definida nonegativa.

10

Parte 1. Problemas de control optimo

2 Definicion del problema de control optimo

Un problema de control optimo (PCO) es un juego dinamico con un jugador. Enparticular, los Ejemplos 1.2 y 1.3 con N = 1 se reducen a PCOs.

En un PCO debemos especificar:

1. como evoluciona el sistema de interes; es decir, se debe especificar el modelodinamico del sistema;

2. como se va a controlar el sistema; es decir, se debe especificar el conjunto deestrategias admisibles, tambien llamadas polticas de control o simplementepolticas o estrategias;

3. restricciones adicionales (por ejemplo, en el estado del sistema o en las estrate-gias), si es necesario hacerlas;

4. como se va a medir la respuesta del sistema a cada una de las distintas es-trategias admisibles; es decir, se debe especificar la funcion objetivo, tambienllamada ndice de funcionamiento.

Dadas estas cuatro componentes, el PCO se puede resumir como sigue: optimizarla funcion objetivo sujeta a las restricciones en 1, 2 y 3.

En esta seccion describiremos las componentes 1 a 4 de un PCO.

Definicion 2.1: El modelo dinamico. Los modelos mas comunes (aunque no losunicos) son los siguientes.

Sistemas a tiempo discreto:

xt+1 = F (xt, at, t) para t = 0, 1, . . . , T, (2.1)

con condicion inicial x0 = x, donde T es el horizonte del problema, y last son perturbaciones. Dependiendo de las t, se dice que (2.1) representa un

sistema estocastico si las t son variables aleatorias;

2. DEFINICION DEL PROBLEMA DE CONTROL OPTIMO 11

sistema determinstico si las t forman una sucesion de constantes convalores conocidos;

sistema incierto si se sabe que las t son constantes con valores en algunconjunto dado, pero no se conoce el valor particular de cada t.

En todo caso (incluyendo los modelos a tiempo continuo que veremos a con-tinuacion), el conjunto en donde toman sus valores las variables xt se llama elespacio de estados del PCO y lo denotaremos por X. Para fijar ideas supon-dremos que X es un subconjunto cerrado de IRd para algun entero d 1. (Masgeneralmente, basta suponer que X es un espacio de Borel, es decir, un subcon-junto de Borel de un espacio metrico separable y completo.)

Sistemas a tiempo continuo:

Caso determinstico:xt = F (t, xt, at) para 0 t T, (2.2)

con T y condicion inicial dada x0 = x. Caso estocastico: este caso admite una gran diversidad de modelos. Elmas estudiado es el de una ecuacion diferencial estocastica

dxt = F (t, xt, at)dt+ (t, xt, at)dWt, 0 t T, x0 = x, (2.3)con T , y Wt es un proceso de Wiener. El estado inicial x0 puede serdeterminstico o estocastico. Otros modelos estocasticos a tiempo continuoson las cadenas de Markov, los procesos de Levy, los procesos hbridos (e.g., elsistema (2.3) pero, ademas, con una componente de saltos),...

Definicion 2.2: Estrategias admisibles. Una estrategia de control, digamos pi ={at}, generalmente se especifica imponiendo restricciones(a) en las acciones de control at directamente, y/o

(b) en la informacion que puede o debe usar el controlador en cada tiempo t.

Por ejemplo, en (a), un caso muy comun es pedir

at A(xt) t, (2.4)

12

donde A(x) es el conjunto de acciones factibles cuando el estado es x.

Con respecto a (b), un casomuy general es el de una estrategia noanticipan-te, tambien conocida como estrategia con memoria (memory strategy), en laque, en cada tiempo t, la accion at depende de toda la historia del procesohasta el tiempo t. Por ejemplo, en un PCO a tiempo discreto tenemos

at = g(t, x0, . . . , xt, a0, . . . , at1),

donde g es una funcion dada. El otro extremo es cuando g depende de t unica-mente,

sistema

controlador

- -a x

Figura 2.1. Un esquema de retroalimentacion.

controlador- -t at

Figura 2.2. Una estrategia de lazo abierto.

es decir,at = g(t) t, (2.5)

en cuyo caso se dice que pi es una estrategia de lazo abierto (open loop). Si gdepende solo de t y xt, es decir,

at = g(t, xt) t, (2.6)


decimos que pi es una estrategia de retroalimentacion (feedback), tambien lla-mada estrategia de lazo cerrado (closed loop) o estrategia markoviana. Si ade-mas g no depende de t, i.e.

at = g(xt) t, (2.7)entonces pi es una estrategia markoviana estacionaria.

Las estrategias mencionadas se dice que son determinsticas, y generalmenteson suficientes para estudiar problemas de control. Sin embargo, en algunosproblemas de control con restricciones o en problemas de juegos es indispensa-ble usar estrategias aleatorizadas, tambien conocidas como estrategias mixtaso controles relajados (relaxed controls), en las que cada accion de control at esuna variable aleatoria con una distribucion de probabilidad t concentrada enel conjunto A(xt) en (2.4), lo cual denotamos como

at t(). (2.8)Mas explcitamente, t(B) := Prob (at B) para B A(xt). En algunos casos,la distribucion t depende no solo del tiempo t sino tambien del estado xt. Eneste caso escribimos

at t(|xt) t. (2.9)Las estrategias en (2.8) y (2.9) son la version aleatorizada (o relajada) de lasestrategias de lazo abierto y de lazo cerrado en (2.5) y (2.6), respectivamente.

Para cada estado x X, el conjunto de acciones factibles A(x) en (2.4) es unsubconjunto cerrado de un espacio A que se llama el espacio de acciones. Amenos que se especifique lo contrario, supondremos que A es un subconjuntocerrado de IRm para algun m 1. (Mas generalmente, basta suponer que A esun espacio de Borel.)

Definicion 2.3. Restricciones adicionales. Estas restricciones pueden dependerde la naturaleza del PCO. Por ejemplo, en un problema de control de pobla-ciones (e.g. pesqueras, epidemias, etc.) el estado xt del sistema es el tamanode la poblacion al tiempo t, y obviamente se debe pedir una condicion de nonegatividad,

xt 0 t.Esta misma restriccion se debe cumplir en problemas de control de recursos re-novables (e.g. agua, bosques) o norenovables (e.g. petroleo, minerales), o en

14

problemas financieros en los que el estado es un capital. En otras situaciones sepuede requerir que el estado terminal xT pertenezca a un cierto conjunto K, i.e.xT K.

Otro caso muy comun es cuando se desea optimizar una cierta funcion obje-tivo, digamos V0(pi), sobre todas las estrategias pi para las que

Vi(pi) bi i = 1, . . . , n, (2.10)

donde las Vi() son funciones dadas y las bi son constantes. Por ejemplo, en unproblema de control de produccion, tpicamente se desea maximizar la ganan-cia neta V0(pi) sujeta a que ciertos costos Vi(pi) (e.g. costos de manufactura, dealmacenamiento, de distribucion, etc.) estan acotados por arriba, como en (2.10).

Definicion 2.4. La funcion objetivo o ndice de funcionamiento. Para un PCOdeterminstico a tiempo discreto, ejemplos tpicos de funcion objetivo son: paracada estrategia pi = {at} y cada estado inicial x0 = x,

costo total con horizonte finito T :

V (pi, x) :=T1t=0

c(xt, at) + CT (xT ), (2.11)

donde c(x, a) es el costo por etapa, y CT (x) es el costo terminal

costo total descontado con horizonte infinito:

V (pi, x) :=t=0

tc(xt, at), (2.12)

donde 0 < < 1 es el factor de descuento.

En un PCO estocastico a tiempo discreto se debe tomar la esperanza en ellado derecho de (2.11) y (2.12); por ejemplo, en lugar de (2.11) tendramos

V (pi, x) := E

[T1t=0

c(xt, at) + CT (xT )

]. (2.13)


En un PCO a tiempo continuo las sumatorias en (2.11) y (2.12) se reemplazanpor integrales. Por ejemplo, en el caso de horizonte finito

V (pi, x) :=

T0

c(xt, at)dt+ CT (xT ). (2.14)

Si ademas el PCO es estocastico, se debe tomar la esperanza en el lado derecho,i.e.

V (pi, x) = E

[ T0

c(xt, at)dt+ CT (xT )

]. (2.15)

En teora de juegos, a una funcion objetivo tambien se le llama funcion depago (payoff function).

Finalmente, como ya mencionamos al principio de esta seccion, en un PCOse especifican la funcion objetivo V (pi, x) (alguna de las funciones (2.11) a (2.15))y el conjunto, digamos , de estrategias admisibles y entonces el PCO consisteen optimizar (ya sea minimizar o maximizar) V (pi, x) sobre todas las estrategiaspi para las que el proceso de estados {xt} sigue el modelo dinamico corres-pondiente (e.g. (2.1) a (2.3)) y satisface las restricciones adicionales (e.g. (2.10)),si las hay. A la funcion

V (x) := infpi

V (pi, x) x X, (2.16)

se le llama la funcion de valor del PCO. En el caso de costos, como en (2.11)(2.15), a V (x) tambien se le llama funcion de costo mnimo. Si en lugar decostos tenemos ganancias o utilidades que se desean maximizar, entoncesen lugar de (2.16) la funcion de valor es

V (x) := suppi

V (pi, x) (2.17)

y se le llama tambien la funcion de ganancia (o de utilidad)maxima.

En todo caso, si existe una estrategia pi tal queV (x) = V (pi, x) x X, (2.18)

se dice que pi es una estrategia optima.

Ejemplo 3.5. El siguiente PCO se conoce como problema de seleccion de porta-folio (de inversion) o como problema de inversion y consumo, y se puede

16

plantear a tiempo discreto o a tiempo continuo.

Tiempo discreto. Considerese un mercado financiero con dos tipos de ac-tivos:

un activo libre de riesgos (e.g. algun tipo de bonos o CETES = Certificadosde la Tesorera) con una tasa fija de interes r > 0, y

un activo con riesgo (e.g. algun tipo de acciones) con una tasa aleatoria deinteres t 0. Obviamente, pedimos que E(t) > r.

La variable de estado es el capital xt de un cierto inversionista, que en cadatiempo t (t = 0, 1, . . . , T ) debe decidir cuanto consumir y cuanto invertir.Entonces las acciones de control son

at = (ct, pt) [0, xt] [0, 1], (2.19)donde

ct := cantidad que el inversionista decide consumir, pt := fraccion de xt ct que decide invertir en el activo con riesgo, de modo

que 1 pt es la fraccion de xt ct que invertira en el activo sin riesgo.El conjunto A(x) := [0, x] [0, 1] en (2.19) es el conjunto de acciones factibles,como en (2.4).

El modelo dinamico del sistema es

xt+1 = [(1 pt)(1 + r) + ptt](xt ct) t = 0, 1, . . . (2.20)con condicion inicial x0 = x > 0. Una funcion objetivo tpica es una utilidad deconsumo

V (pi, x) := Epix

[Tt=0

tU(ct)

](2.21)

donde T , (0, 1) es el factor de descuento, y U(c) es una funcion deutilidad. El PCO consiste en maximizar la funcion en (2.21) sobre todas las es-trategias pi = {at} con at como en (2.19), bajo la restriccion (2.20).

Tiempo continuo. En este caso el precio b(t) del activo sin riesgo (el bono,digamos) vara de acuerdo a una ecuacion diferencial ordinaria

db(t) = rb(t)dt.


con r > 0, mientras que el precio s(t) del activo con riesgo (el stock) esta dadopor una ecuacion diferencial estocastica

ds(t) = s(t)[mdt+ dw(t)],

donde m > r y > 0 son constantes, y w() es un proceso de Wiener estandar.Las acciones de control a(t) = (c(t), p(t)) tienen la misma interpretacion que en(2.19). El modelo de sistema, en lugar de (2.20), ahora resulta ser la ecuaciondiferencial estocastica.

dx(t) = (1 p(t))x(t)r dt+ p(t)x(t)[mdt+ dw(t)] c(t)dt, (2.22)

con x(0) = x > 0. Los tres terminos en el lado derecho de (2.22) corresponden,respectivamente, a la ganancia por el capital invertido en el bono, la gananciapor la inversion en el stock, y la disminucion del capital debida al consumo.

Por ultimo, la funcion objetivo que se desea optimizar es de nuevo como en(2.21), pero en tiempo continuo, i.e.

V (pi, x) := Epix

[ T0

etU(c(t))dt], (2.23)

donde > 0 es el factor de descuento.

Notese que en (2.20) necesariamente se tiene xt 0 para todo t, si x0 = x > 0,mientras que en (2.22) la condicion de nonegatividad no es evidente (por laspropiedades del proceso w()); se debe imponer la condicional adicional x(t) 0.Otra forma de asegurar la condicion de nonegatividad consiste en sustituir eltiempo terminal T en (2.23) por el tiempo aleatorio

:= min{T, 0},

donde 0 := inf{t 0 | x(t) = 0} es el primer tiempo en el que el proceso x()llega a cero.

Las aplicaciones del control optimo a problemas de finanzas se iniciaron conlos trabajos de Samuelson (1969) y Merton (1969) para problemas a tiempo dis-creto y tiempo continuo, respectivamente. Actualmente, dichas aplicaciones son

18

material estandar; ver e.g. Fleming y Rishel (1975), Fleming y Soner (1992), Sethiy Thompson (2000), Karatzas y Shreve (1998), Zariphopoulou (2002).

Procesos de Markov

Para motivar la definicion de proceso de Markov, considerese la ecuaciondiferencial ordinaria, en IRn,

x(t) = F (x(t)) t 0, con x(0) = x0. (2.24)(La funcion F podra depender del tiempo t.) Bajo ciertas hipotesis sobre F , estaecuacion tiene una solucion unica

x(s) = x0 +

s0

F (x(r))dr s 0.

Ademas, para t > s 0 tenemos

x(t) = x(s) +

ts

F (x(r))dr. (2.25)

Interpretando a s como el tiempo presente y a t > s como el tiempo futuro,la ecuacion (2.25) dice que el estado presente x(s) determina el futuro x(t); o bien,que dado el estado presente x(s), el futuro x(t) es independiente del pasado x(r), parar < s. Por este motivo se dice que (2.25) es una condicion de causalidad (elpresente determina el futuro); tambien se dice que el sistema determinstico x()no tiene memoria o que satisface la condicion de Markov (tambien llamadapropiedad de Markov).

Para procesos estocasticos la condicion de Markov se expresa de manera si-milar a (2.25). Por ejemplo, si x = {xt, t 0} es un proceso estocastico a tiempocontinuo, con valores en algun espacio de estados X, se dice que x satisface lacondicion de Markov o que x es un proceso de Markov si para todo conjuntoB X y tiempos t s 0 se tiene

P(xt B | xr 0 r s) = P(xt B | xs). (2.26)En particular, comparando esta expresion con (2.25) vemos que el sistema deter-minstico x() es un proceso de Markov. Los procesos de Markov incluyen lassoluciones de ecuaciones diferenciales estocasticas

dxt = F (xt)dt+ (xt)dWt, (2.27)


bajo ciertas hipotesis sobre los coeficientes F y , los cuales pueden dependertambien del tiempo t, no solo del estado xt (vea (2.3)). Otros ejemplos son lascadenas de Markov (cuyo espacio de estados es un conjunto numerable), losprocesos de Levy, ...

Para un proceso estocastico a tiempo discreto, x = {xt, t = 0, 1, . . .} conespacio de estados X, la propiedad de Markov se puede escribir como:

P(xt+1 B | x0, . . . , xt) = P(xt+1 B | xt) (2.28)para todo t = 0, 1, . . . y B X. Esta es una probabilidad de transicion en unpaso, de t a t+1, pero se puede demostrar que es equivalente a una condicion enk pasos, de t a t+ k, para k = 1, 2, . . .

Un proceso de Markov a tiempo discreto tambien se conoce como cadena deMarkov.

En muchsimas aplicaciones, una cadena de Markov x = {xt, t = 0, 1, . . .} sedefine mediante una ecuacion de diferencias

xt+1 = F (xt, t) t = 0, 1, . . . ;x0 dado, (2.29)donde {t} es una sucesion de variables aleatorias independientes, con valoresen algun conjunto S, e independientes del estado inicial x0, y F : X S Xes una funcion dada. Por ejemplo, un proceso muy comun es el proceso autore-gresivo de primer orden definido por

xt+1 = G(xt) + t, (2.30)

tambien conocido como proceso con ruido aditivo. Un caso especial son lossistemas lineales

xt+1 = xt + t

con X = S = IRn y una matriz cuadrada de orden n.

Procesos de control markovianos: tiempo discreto

Sea x = {xt, t = 0, 1, . . .} un proceso controlado con valores es un espacioX. Por analoga con la propiedad de Markov (2.28), se dice que x es un procesode control markoviano (PCM) si para cualquier estrategia pi = {at, t = 0, 1, . . .}

20

y cualquier t = 0, 1, . . . , la distribucion de x en el tiempo t + 1, dada toda lahistoria del proceso hasta el tiempo t depende solo del estado y la accion en eltiempo t, es decir

Prob(xt+1 B | x0, a0, . . . , xt, at) = Prob(xt+1 B | xt, at)=: Q(B|xt, at) (2.31)

para todo B X. La funcion Q en (2.31), i.e.Q(B|x, a) := Prob(xt+1 B | xt = x, at = a) (2.32)

se llama la ley de transicion del PCM.

Por ejemplo, supongase que tenemos variables aleatorias i.i.d. t como en(2.29), e independientes de x0. Para cualquier estrategia dada pi = {at}, defini-mos el proceso xpi = {xt} como

xt+1 = G(xt, at, t) t = 0, 1, . . . ;x0 dado, (2.33)dondeG : XAS X es una funcion dada (compare con (2.29)). Entonces xes un PCM y su ley de transicion Q se puede calcular mediante la distribucioncomun de las vv.aa. t. Notese tambien que si pi es una estrategia markoviana (porejemplo como en (2.6) o (2.7)), entonces x es una cadena de Markov. En efecto, siat = g(xt) para todo t = 0, 1, . . ., entonces (2.33) resulta

xt+1 = G(xt, g(xt), t) t = 0, 1, . . . , (2.34)de modo que x es precisamente de la forma (2.29).

Observe que el sistema lineal (1.7) y el modelo de inversion y consumo (2.20)son ambos PCMs, porque son de la forma (2.33).

Un hecho muy importante es que un PCM se puede describir de maneraconcisa mediante unmodelo de control (MC) markoviano

MC := (X, A,Q, c), (2.35)

donde X es el espacio de estados del PCM, A es el conjunto de acciones, Q es la ley detransicion (en (2.32)), y c : X A IR es la funcion de costo por etapa que se usapara definir la funcion objetivo de interes, como en (2.11)(2.13). Algunas veces


es necesario anadir componentes al modelo de control. Por ejemplo, si conside-ramos un costo terminalCT (x) como es (2.13), quizas convendra reescribir (2.35)como

MC = (X, A,Q, c, CT ).

Si ademas hay restricciones en los controles como en (2.4), entonces escribira-mos

MC = (X, A, {A(x)|x X}, Q, c, CT ).En fin, el modelo de control markoviano se puede adaptar a cada problema par-ticular que se este analizando.

Procesos de control markovianos: tiempo continuo

Sea x = {xt, 0 t T} un proceso controlado, el cual depende por supuestode la estrategia particular pi = {at, 0 t T} que se este usando. Decimos quex es un proceso de control markoviano (PCM) a tiempo continuo si cuando pies una estrategia markoviana, el proceso x resulta ser proceso de Markov. (Estadefinicion es una extension de la idea que usamos en (2.3.4).)

Un PCM a tiempo continuo tambien se puede representar mediante un mo-delo de control (MC) markoviano, pero el asunto es un poco mas complicadoque a tiempo discreto porque, en lugar de la ley de transicion Q en (2.35), debe-mos especificar el generador infinitesimal La (a A) del PCM, es decir, enlugar de (2.35) ahora tenemos

MC = (X, A,La, c), (2.36)

donde La es un operador definido sobre algun conjunto adecuado de funciones.

Por ejemplo, el sistema determinstico (2.2) es un PCM porque si pi = {at} esuna estrategia markoviana, digamos at = g(t, xt), entonces (2.2) se reduce a unaecuacion diferencial ordinaria

xt = F (t, xt, g(t, xt)) G(t, xt).

En este caso el generador infinitesimal asociado a (2.2) es el operador

Lav(x) := F (t, x, a) vx (2.37)

22

definido para cierta subfamilia de funciones v(x) de clase C1.

Analogamente, la ecuacion diferencial estocastica (2.3) tambien define unPCM bajo hipotesis adecuadas sobre F (t, x, a), (t, x, a) y at y el gene-rador La resulta ser

Lav(x) := F (t, x, a) vx + 12Tr[D(t, x, a)vxx], (2.38)

donde D := , vxx es la matriz hessiana de v, y Tr(B) :=

i bii es la traza deuna matriz B = (bij). Explcitamente,

Tr(Dvxx) =i,j

(k

ikkj

)vxixj (2.39)

cuando el coeficiente en (2.3) es una matriz, digamos = (ij). Por supuesto,en el caso escalar (2.39) se reduce a 2 2v/x2.

Nota bibliografica. Para problemas de control a tiempo discreto el lector puedeconsultar (por ejemplo): Arkin y Evstigneev (1987), Bertsekas (1987, 2000),HernandezLerma y Lasserre (1996, 1999), Stokey y Lucas (1989). Para proble-mas a tiempo continuo: Fleming y Rishel (1975), Fleming y Soner (1992),HernandezLerma (1994), Sethi y Thompson (2000), Yong y Zhou (1999).

3. EL PRINCIPIO DEL MAXIMO 23

3 El principio del maximo

Hay varias tecnicas generales para estudiar PCOs como son el analisis convexoy la programacion lineal (usualmente en espacios vectoriales de dimension in-finita). Sin embargo, por razones computacionales, en la mayora de las aplica-ciones las tecnicas mas usadas son el principio del maximo (que algunos autoresllaman el principio de Pontryagin) y la programacion dinamica. En esta seccionveremos brevemente la primera de estas tecnicas; la segunda se estudia en lasiguiente seccion.

Para simplificar la exposicion solo consideraremos problemas determinsti-cos con horizonte finito, a tiempo discreto y a tiempo continuo. Al final de laseccion se mencionan algunas referencias sobre problemas estocasticos.

Problemas a tiempo discreto.

Considerese el PCO determinstico con espacio de estados X = IRn, espaciode acciones A = IRm, y modelo dinamico

xt+1 = F (t, xt, at) t = 0, 1, . . . , T 1 (3.1)con estado inicial x0 = x. La funcion objetivo que se desea minimizar es el costototal

V (pi, x) :=T1t=0

L(t, xt, at) + C(xT ), (3.2)

sobre el conjunto de estrategias pi = {at}.

A grandes rasgos, la idea del principio del maximo consiste en usar el me-todo de multiplicadores de Lagrange para minimizar (3.2) sujeto a la restriccion(3.1). Para este fin, primero expresamos (3.1) en la forma

xt+1 F (t, xt, at) = 0 t = 0, 1, . . . , T 1.Despues introducimos multiplicadores de Lagrange p0, p1, . . . , pT en IRn, a losque llamaremos vectores adjuntos (tambien llamados vectores de coestado), ydefinimos el lagrangiano

V (pi, x, p) := V (pi, x) +T1t=0

pt+1 [xt+1 F (t, xt, at)], (3.3)

24

donde p = {p0, . . . , pT}. Por lo tanto, sustituyendo (3.2) en (3.3) y usando elhamiltoniano, definido para cada t = 0, 1, . . . , T 1 como

H(t, xt, at, pt+1) := pt+1 F (t, xt, at) L(t, xt, at), (3.4)

un poco de algebra elemental nos permite reescribir (3.3) como

V (pi, x, p) =T1t=0

[pt xt H(t, xt, at, pt+1)] + C(xT ) + pT xT p0 x0.

Finalmente, bajo la siguiente hipotesis y usando resultados de optimizacion nolineal se obtiene el Teorema 3.2 (cuya demostracion se puede ver en Halkin(1966), Tabak y Kuo (1971) o Sethi y Thompson (2000)).

Hipotesis 3.1.

(a) Para cada t = 0, 1, . . . , T 1, las funciones de costo L(t, x, a) y C(x) son declase C1 en x y a;

(b) Para cada t = 0, 1, . . . , T 1 y a A, la funcion F (t, x, a) es de clase C1 en x;

(c) Para cada t = 0, 1, . . . , T 1 y x IRn, el conjunto {F (t, x, a) : a A} esconvexo.

Teorema 3.2. (El principio del maximo caso determinstico, tiempo discreto).Suponga que se cumple la Hipotesis 3.1. Supongase tambien que existe unaestrategia optima a = {at , t = 0, . . . , T 1} para el PCO (3.1)(3.2), y seax = {xt , t = 0, . . . , T} la trayectoria correspondiente que se obtiene de (3.1)con estado inicial x0 = x0. Entonces existe un conjunto p = {p0, . . . , pT} devectores adjuntos que satisfacen la ecuacion adjunta

pt = Hx(t, xt , a

t , pt+1) t = 0, . . . , T 1, (3.5)

i.e.pt = Fx(t, x

t , a

t )pt+1 Lx(t, xt , at ),

con la condicion terminalpT = Cx(x

T ), (3.6)


y la maximizacion del hamiltoniano:

H(t, xt , at , pt+1) = max

aAH(t, xt , a, pt+1) (3.7)

para t = 0, . . . , T 1.

El nombre principio del maximo para el Teorema 3.2 viene precisamentede la condicion (3.7).

Nota 3.3. El Teorema 3.2 da condiciones necesarias de optimalidad, a saber, la exis-tencia de la sucesion p de vectores adjuntos que satisfacen (3.5), (3.6) y (3.7).Bajo hipotesis adecuadas estas condiciones tambien son suficientes. De hecho, sitales condiciones se satisfacen, entonces la busqueda de un par optimo (a, x)se reduce a resolver un problema con valores de frontera que consiste de

(a) las ecuaciones (3.1) y (3.5), que tambien se conocen como las ecuaciones cano-nicas del PCO;

(b) las condiciones de frontera (3.6) y x0 = x0; y

(c) la maximizacion del hamiltoniano, es decir, encontrar a tal que

H(t, xt , at , pt+1) = max

aAH(t, xt , a, pt+1).

Este procedimiento solo asegura, en general, la existencia de estrategias optimasde lazo abierto (ver (2.5)). En contraste, el metodo de programacion dinamicaque veremos en la siguiente seccion necesariamente da estrategias markovianas(como en (2.6)).

Ejemplo 3.4: Sistema LQ determinstico a tiempo discreto. Considerese elproblema de encontrar una estrategia de control que minimize la funcion decosto

V (pi, x) =1

2

T1t=0

(Qx2t +Ra2t ) +

1

2Sx2T , (3.8)

con pi = {at}, sujeta axt+1 = xt + at t = 0, 1, . . . , T 1; x0 = x. (3.9)

Las constantes Q y S en (3.8) son nonegativas y R es positiva, mientras que loscoeficientes y en (3.9) son distintos de cero. El espacio de estados y el de

26

acciones son X = A = IR. (Exactamente el mismo analisis que presentamos acontinuacion se puede extender a un problema vectorial con X = IRn y A = IRm,en cuyo caso los coeficientes en (3.8) y (3.9) son matrices de dimensiones ade-cuadas. Ademas, dichos coeficientes pueden variar con el parametro de tiempo:Qt, Rt, ST , t, t.)

Comparando (3.8)(3.9) con (3.1)(3.2) vemos que el hamiltoniano en (3.4)resulta

H(t, xt, at, pt+1) = (xt + at) pt+1 12(Qx2t +Ra

2t ).

Luego, comoHx = pt+1 Qxt y Ha = pt+1 Rat,

el problema con valores de frontera mencionado en la Nota 3.3 resulta:

(a) Ecuaciones canonicas: para t = 0, . . . , T 1,

xt+1 = xt + at, pt = pt+1 Qxt. (3.10)

(b) Condiciones de frontera: x0 = x, pT = SxT .

(c) Maximizacion del hamiltoniano: de la igualdad Ha = 0 obtenemos.

at = R1pt+1 t = 0, . . . , T 1. (3.11)

Como la segunda derivada parcial Haa = R es negativa, se puede de-mostrar que los controles en (3.11) dan una estrategia optima, aunque por su-puesto aun falta calcular los vectores adjuntos pt. Con este fin, sustituimos (3.11)en (3.10):

xt+1 = xt +R12pt+1, pt = pt+1 Qxt (3.12)

y combinando estas ecuaciones vemos que necesariamente pt es de la forma

pt = Ktxt t = 0, . . . , T, (3.13)

donde K0, . . . , kT son constantes. En efecto, la condicion de frontera pT = SxTimplica que KT = S. Asimismo, de la segunda ecuacion en (3.12) tenemos

pT1 = pT QxT1


y usando la primera ecuacion en (3.12) podemos escribir pT en funcion de xT1.En general, para obtener Kt procedemos como sigue.

Sustituyendo (3.13) en (3.12) obtenemos

xt+1 = xt +R12Kt+1xt+1,

pt = Kt+1xt+1 Qxt.De la primera de estas ecuaciones despejamos xt+1 y sustituimos su valor en lasegunda ecuacion. As se obtiene que

pt = [2RKt+1/(R 2Kt+1)Q]xt

y comparando con (3.13) vemos que las constantes Kt satisfacen que

Kt = 2RKt+1/(R 2Kt+1)Q t = 0, 1, . . . , T 1, (3.14)

con condicion terminal KT = S, bajo la hipotesis de que S 6= R/2. La ecuacion(3.14) es un caso especial de la llamada ecuacion de Riccati y se resuelve haciaatras: empezando con KT = S, se calculan KT1, KT2, . . . , K0.

Conociendo el valor de los vectores adjuntos pt podemos determinar los con-troles optimos y la correspondiente trayectoria y la funcion de costomnimo. Porejemplo, sustituyendo (3.13) en (3.11) obtenemos

at = R1Kt+1xt+1

= R1Kt+1(xt + at) [por (3.9)]

y despejando at obtenemos los controles optimos:

at = Gtxt t = 0, . . . , T 1,con Gt := Kt+1/(R 2Kt+1). 2

Problemas a tiempo continuo.

Sea A[0, T ] el conjunto de todas las funciones medibles a() : [0, T ] A.El conjunto A[0, T ] es esencialmente la familia de las estrategias de lazo abiertodefinidas sobre el intervalo [0, T ].

Ahora consideraremos el PCO que consiste en minimizar el costo

J(a()) := T0

L(t, x(t), a(t))dt+ C(x(T )) (3.15)

28

sobre todas las estrategias a() A[0, T ], sujetas a que

x(t) = F (t, x(t), a(t)) 0 t T, x(0) = x0. (3.16)

Supondremos que el espacio de estados y el conjunto de acciones son X = IRn yA = IRm.

Por supuesto, para que (3.8) y (3.9) esten bien definidas se requieren hipotesisadecuadas de medibilidad, de Lipschitz, etc., que se pueden ver en, por ejemplo,los libros de Fleming y Rishel (1975) o de Yong y Zhou (1999). Un tratamientoun tanto informal del principio del maximo, pero con un buen numero de apli-caciones, se puede ver en Sethi y Thompson (2000). Aqu solo enunciaremos elresultado principal, que requiere la siguiente notacion y terminologa.

Si a() es una funcion en A[0, T ] y x() es la correspondiente solucion de (3.9)se dice que (x(), a()) es un par admisible. Ademas, si a() es una estrategiaoptima y x() es la solucion de (3.9), decimos que (x(), a()) es un par optimo.Dado un par admisible (x(), a()) y una funcion p() : [0, T ] IRn, que llamare-mos una (funcion o) variable adjunta, definimos el hamiltoniano

H(t, x(t), a(t), p(t)) := p(t) F (t, x(t), a(t)) L(t, x(t), a(t)). (3.17)

(Compare esta definicion con (3.4).) Con esta notacion, el analogo de las condi-ciones necesarias (3.5)(3.7) resulta como sigue.

Teorema 3.5. (El principio del maximo caso determinstico, tiempo con-tinuo). Supongase que existe un par optimo para el PCO (3.8)(3.9). Entonces,bajo ciertas hipotesis sobre las funciones F (t, x, a), L(t, x, a) y C(x), existe unavariable adjunta p() : [0, T ] IRn que satisface la ecuacion adjunta

p(t) = Hx(t, x(t), a(t), p(t)) (3.18)= Fx(t, x(t), a(t))p(t) + Lx(t, a(t), x(t))

con condicion terminalp(T ) = Cx(x(T )), (3.19)

y la maximizacion del hamiltoniano:

H(t, x(t), a(t), p(t)) = maxaA

H(t, x(t), a, p(t)). (3.20)


Las ecuaciones (3.11) y (3.12) se cumplen para casi todo t [0, T ].

La Nota 3.3 (para problemas a tiempo discreto) tambien es valida en el casocontinuo, con algunos cambios obvios de notacion.

Ejemplo 3.6: un problema de control de inventarioproduccion. Considereseun problema de control cuyos componentes son, en cada tiempo 0 t T : la variable de estado x(t) := el nivel de inventario la variable de control a(t) := la tasa de produccion la variable exogena s(t) := la tasa de ventas.Ademas, hay dos valores de referencia, un nivel de inventario de seguridad x y unnivel eficiente de produccion a.

El nivel de inventario vara de acuerdo a la ecuacion diferencial

x(t) = a(t) s(t) para t 0, x(0) = x0. (3.21)Las estrategias de control son funciones medibles a(t), nonegativas. El PCOconsiste en encontrar una estrategia que minimiza la funcion objetivo.

J(a()) := T0

1

2[h (x x)2 + c (a a)2]dt, (3.22)

donde x = x(t) y a = a(t); h > 0 es el costo de mantenimiento y c > 0 el costode produccion. La interpretacion de (3.22) es que el controlador desea mantenerel nivel de inventario x() y la tasa de produccion a() lo mas cerca posible delos valores de referencia x y a, respectivamente. (A problemas de este tipo seles llama problemas de seguimiento o de rastreo, porque el estado y los controlesdeben seguir o rastrear lo mas cerca posible a los valores x, a.)

Comparando (3.21)(3.22) con (3.15)(3.16) vemos que el hamiltoniano (en(3.17)) resulta ser

H(t, x(t), a(t), p(t)) = p(t) (a(t) s(t)) 12[h (x(t) x)2 + c (a(t) a)2].

Luego, como

Hx = h (x(t) x) y Ha = p(t) c (a(t) a),obtenemos el siguiente problema con valores de frontera:

30

(a) Las ecuaciones canonicas

x(t) = a(t) s(t), (3.23)p(t) = h (x(t) x); (3.24)

(b) las condiciones de frontera: x(0) = x0, p(T ) = 0;

(c) maximizacion del hamiltoniano; haciendo Ha = 0 vemos que

a(t) = p(t)/c+ a. (3.25)

ComoHaa = c < 0, la funcion a() en (3.23) es en efecto la estrategia optimadel problema (3.21)(3.22), pero aun falta calcular la variable adjunta p(). Conesto en mente, sustituimos (3.25) en (3.23) para obtener

x(t) = p(t)/c+ a s(t), x(0) = x0. (3.26)Para resolver las ecuaciones (3.24) y (3.26), primero derivamos (3.26) y as obte-nemos una ecuacion con p, es decir,

x(t) = p(t)/c s(t).Ahora sustituimos (3.24) en esta ultima ecuacion para obtener

x(t) = 2(x(t) x) s(t), con :=h/c;

equivalentemente,x 2x(t) = 2x s(t). (3.27)

La solucion general de esta ecuacion es de la forma

x(t) = a1et + a2et +Q(t), x(0) = x0, (3.28)

donde Q(t) es cualquier solucion particular de (3.27). (La funcion Q se puededeterminar si se conoce la forma explcita de s(t).) Como en (3.28) hay solouna condicion inicial, para determinar las constantes a1, a2, sustituimos (3.28) en(3.26) y esto da que la variable adjunta p(t) satisface:

p(t) = c(a1et + a2et + Q(t) s(t) a), (3.29)con condicion terminal p(T ) = 0. Las ecuaciones (3.28) y (3.29), con sus respec-tivas condiciones de frontera, dan un sistema de dos ecuaciones algebraicas que


permiten determinar los valores de a1 y a2. Habiendo determinado estos valoresse obtiene la forma explcita del control optimo en (3.25). (Notese que no impusi-mos la condicion a(t) 0; si la tasa de produccion a(t) es negativa, significa quedebemos eliminar o desechar inventario.) 2

El caso estocastico.

Para sistemas estocasticos a tiempo continuo, y salvo contadas excepciones,el principio del maximo se ha desarrollado principalmente para ecuaciones dife-renciales estocasticas, como en (2.3). Una buena referencia para este caso, conuna extensa bibliografa, es el libro de Yong y Zhou (1999). Una extension delprincipio del maximo ha permitido a JosaFombellida y RinconZapatero (2005)proponer un nuevo enfoque para problemas de control estocastico. Un enfoquesimilar ha sido estudiado por BourdacheSiguerdidjane y Fliess (1987) para pro-blemas determinsticos y por RinconZapatero (2004) y RinconZapatero et al.(1998) para juegos diferenciales.

Curiosamente, para sistemas estocasticos a tiempo discreto hay poqusimasreferencias, entre las que cabe mencionar el libro de Arkin y Evstigneev (1983).

32

4 Programacion dinamica

Como se menciono en la Nota 3.3, para encontrar una estrategia optima el prin-cipio del maximo se reduce esencialmente a resolver un problema con valoresde frontera. Esto requiere determinar una estrategia optima simultaneamente conlas otras variables (la trayectoria y los vectores adjuntos) en el problema. Unenfoque alternativo consiste en descomponer el PCO en etapas, cada una cor-respondiente a un subproblema con una sola variable, de modo que el PCO seresuelve en forma secuencial, por etapas. Esta es la idea del metodo de progra-macion dinamica que veremos en esta seccion. Primero consideraremos PCOs atiempo discreto y despues a tiempo continuo.

La programacion dinamica fue introducida por Richard Bellman en la decadade los anos 1950 vea el libro de Bellman (1956), por ejemplo.

Problemas a tiempo discreto.

Consideraremos de nuevo el PCOdeterminstico en (3.1)(3.2) pero por con-veniencia notacional escribiremos las variables xt y at como x(t) y a(t), respecti-vamente. As pues, tenemos el modelo dinamico

x(t+ 1) = F (t, x(t), a(t)) t = 0, . . . , T 1, con x(0) = x0, (4.1)

con funcion objetivo

V (pi, x) :=T1t=0

L(t, x(t), a(t)) + C(x(T )), (4.2)

donde pi = {a(t)}. El espacio de estados es X = IRn y el de acciones de control esun conjunto cerrado A IRm.

La programacion dinamica se basa en el siguiente principio de optimali-dad que introdujo Bellman, y cuya demostracion es evidente.

Lema 4.1. (El principio de optimalidad) Sea a() = {a(0), . . . , a(T 1)} unaestrategia optima para el problema (4.1)(4.2), y sea x() = {x(0), . . . , x(T )} latrayectoria correspondiente; en particular, x(0) = x0. Entonces para cualquier

4. PROGRAMACION DINAMICA 33

tiempo s {0, . . . , T 1}, la estrategia truncada a(t) para s t T 1, es laestrategia optima que lleva el sistema (4.1) del punto x(s) al punto x(T ).

Para ver como se usa el Lema 4.1, consideremos el PCO (4.1)(4.2) pero solodel tiempo s en adelante (con 0 s T 1), con estado inicial x(s) = x, esdecir, sea

V (pi, s, x) :=T1t=s

L(t, x(t), a(t)) + C(x(T )) (4.3)

y sea v(s, x) el correspondiente costo mnimo, i.e.

v(s, x) := infpiV (pi, s, x). (4.4)

Ademas, como en el tiempo terminal T no se aplican acciones de control, defin-imos

v(T, x) := C(x). (4.5)

Luego, si en el Lema 4.1 interpretamos s y x(s) = x como el tiempo y el estadoiniciales, se sigue de (4.3) y (4.4) que

v(s, x) = V (a(), s, x)

=T1t=s

L(t, x(t), a(t)) + C(x(T ))

= L(s, x, a(s)) + V (a(), s+ 1, x(s+ 1))= L(s, x, a(s)) + v(s+ 1, x(s+ 1)).

Por lo tanto, como x(s+ 1) = F (s, x(s), a(s)) = F (s, x, a(s)), obtenemos

v(s, x) = L(s, x, a(s)) + v(s+ 1, F (s, x, a(s))). (4.6)

Pero, por la definicion (4.4), v(s, x) es el costo mnimo de operar el sistema deltiempo s al tiempo T , de modo que

v(s, x) L(s, x, a) + v(s+ 1, F (s, x, a)) a A. (4.7)

Finalmente, combinando (4.6) y (4.7) vemos que

v(s, x) = minaA

[L(s, x, a) + v(s+ 1, F (s, x, a))] s = 0, . . . , T 1. (4.8)

34

y que el mnimo en el lado derecho de (4.8) se alcanza en a(s), como en (4.6).

La ecuacion (4.8) con la condicion terminal (4.5) se llama la ecuacion deprogramacion dinamica (EPD), o ecuacion de Bellman, y es la base del algo-ritmo de programacion dinamica (4.9)(4.10) en el siguiente teorema

Teorema 4.2. (El teorema de programacion dinamica) Sean J0, J1, . . . , JT lasfunciones sobre X definidas hacia atras (de s = T a s = 0) como

JT (x) := C(x), (4.9)

y para s = T 1, T 2, . . . , 0,Js(x) := min

a[L(s, x, a) + Js+1(F (s, x, a))]. (4.10)

Suponga que para cada s = 0, 1, . . . , T 1, existe una funcion as : X Aque alcanza el mnimo en el lado derecho de (4.10) para todo x X. Entoncesla estrategia markoviana pi = {a0, . . . , aT1} es optima y la funcion de valorcoincide con J0, i.e.

infpiV (pi, x) = V (pi, x) = J0(x) x X. (4.11)

De hecho, para cada s = 0, . . . , T, Js coincide con la funcion en (4.4)(4.5), i.e.

v(s, x) = Js(x) 0 s T, x X. (4.12)

Es importante observar que (4.12) significa que algoritmo (4.9)(4.10) da elcosto optimo (o costo mnimo) del PCO (4.1)(4.2) con tiempo y estado inicial0 s T 1 y x(s) = x, respectivamente.

Consideremos ahora el sistema estocastico en el que (4.1) y (4.2) se susti-tuyen por

x(t+ 1) = F (t, x(t), a(t), (t)) t = 0, . . . , T 1, con x(0) = x, (4.13)

V (pi, x) := E

[T1t=0

L(t, x(t), a(t)) + C(x(T ))

], (4.14)

con pi = {a(t)}, y las perturbaciones (0), . . . , (T 1) en (4.13) son variablesaleatorias independientes e identicamente distribuidas (i.i.d.) con valores en


algun espacio S. Resulta entonces que, con algunos cambios adecuados, prac-ticamente todo lo que aparece en los parrafos anteriores sigue siendo valido.Mas precisamente, en las expresiones en las que aparece la funcion F [a saber,(4.6)(4.8) y (4.10)] debemos escribir F (s, x, a, (s)) en lugar de F (s, x, a); ade-mas, se debe tomar la esperanza en las expresiones donde aparezcan terminosestocasticos, o sea, en el lado derecho de (4.3), (4.6)(4.8), y (4.10). Para masdetalles, vea el Ejemplo 4.4.

Nota 4.3. Una demostracion detallada del teorema de programacion dinamicaen el caso estocastico a tiempo discreto aparece en HernandezLerma y Lasserre(1996), Seccion 3.2. Otras demostraciones, as como un buen numero de ejemplosy aplicaciones, aparecen en Arkin y Evstigneev (1987), Bertsekas (1987), Le Vany Dana (2003), LuqueVasquez et al. (1996), Stokey y Lucas (1989), ... 2

Para ilustrar el algoritmo de programacion dinamica, a continuacion vere-mos una version estocastica del sistema LQ en el Ejemplo 3.4.

Ejemplo 4.4: Sistema LQ estocastico a tiempo discreto. Considere el sistemalineal

xt+1 = xt + at + t t = 0, 1, . . . ;x0 dado,con coeficientes , distintos de cero. Las perturbaciones t son variables

aleatorias i.i.d., independientes de x0, y con media 0 y varianza 2 finita, i.e.

E(t) = 0, 2 := E(2t ) 0 y q, qT 0.

En este caso, la ecuacion de programacion dinamica (4.9)(4.10) resulta

JT (x) := qTx2 (4.16)

36

y para s = T 1, T 2, . . . , 0:Js(x) := min

a[qx2 + ra2 + EJs+1(x+ a+ s)]. (4.17)

Esta ecuacion se resuelve hacia atras: sustituyendo (4.16) en (4.17) obtenemos

JT1(x) = mina

[qx2 + ra2 + qTE(x+ a+ T1)2]

donde, usando (4.15),

E(x+ a+ T1)2 = (x+ a)2 + 2.

Luego,

JT1(x) = mina

[(q + qT2)x2 + (r + qT

2)a2 + 2qTxa+ qT2].

El lado derecho de esta ecuacion se minimiza en

aT1(x) = GT1x, con GT1 := (r + qT2)1qTy el mnimo es

JT1(x) = KT1x2 + qT2, con KT1 := (r + qT2)1qT r2 + q.

En general, es facil ver que la estrategia optima pi = {a0, . . . , aT1} esta dadapor

as(x) = Gsx, con Gs := (r +Ks+12)1Ks+1, (4.18)con ganancias Ks dadas recursivamente por KT := qT y para s = T 1, . . . , 0:

Ks = (r +Ks+12)1Ks+1r2 + q.

Asimismo, el costo optimo del tiempo s en adelante, en (4.12), resulta

Js(x) = Ksx2 + 2

Tn=s+1

Kn para s = 0, . . . , T 1. (4.19)

En particular, con s = 0 se obtiene el costo mnimo en (4.11). 2

Nota. Es interesante comparar el problema LQ estocastico en el ejemplo anteriorcon el problema LQ determinstico en el Ejemplo 3.4: se puede ver que en ambos


casos la estrategia optima esta dada por (4.18). Sin embargo, difieren en el costomnimo; la diferencia esta en que, en el caso determinstico, la varianza 2 queaparece en (4.19) es cero.

Para referencia futura, a continuacion veremos brevemente el caso de costodescontado con horizonte infinito. Considerese el PCO que consiste del sistemaestocastico.

xt+1 = F (xt, at, t) t = 0, 1, . . . ; con x0 = x, (4.20)con funcion objetivo

V (pi, x) := E

[ t=0

tc(xt, at, t)

](4.21)

en donde c(x, a, ) es la funcion de costo por etapa, y (0, 1) es el factorde descuento. Como siempre, X y A representan el espacio de estados y deacciones, respectivamente. Asimismo, denotaremos por A(x) el conjunto de ac-ciones factibles en el estado x; vease (2.4). El PCO (4.15)(4.16) es estacionarioen el sentido de que las funciones F (x, a, ) y c(x, a, ) no dependen del tiempo ty, ademas, 0, 1, . . . son variables aleatorias i.i.d. cuya distribucion de probabil-idad la denotaremos por , es decir

(B) := Prob[0 B] B S, (4.22)donde S es el espacio de perturbaciones, o sea el conjunto en el que tomanvalores las variables t. Considerese la funcion de valor

v(x) := infpiV (pi, x)

y la sucesion de funciones vn definidas iterativamente como

vn(x) := infaA(x)

E[c(x, a, 0) + vn1(F (x, a, 0))]

= infaA(x)

S

[c(x, a, s) + vn1(F (x, a, s))](ds), (4.23)

para n = 1, 2, . . . , con v0(x) 0. Con esta notacion, se tiene el siguiente resultadobajo una variedad de hipotesis (veanse las referencias en la Nota 4.3, o la seccion8.3 en HernandezLerma y Lasserre (1999)).

Teorema 4.5. Bajo hipotesis adecuadas:

38

(a) la funcion de valor v satisface la ecuacion de programacion dinamica

v(x) = infaA(x)

S

[c(x, a, s) + v(F (x, a, s))](ds) x X. (4.24)

(b) Supongase que existe una funcion g : X A tal que g(x) A(x) y g(x)minimiza el lado derecho de (4.24) para todo x X, i.e.

v(x) =

S

[c(x, g(x), s) + v(F (x, g(x), s))](ds).

Entonces g define una estrategiamarkoviana estacionaria (recuerdese (2.7))que es optima para el PCO (4.20)(4.22).

(c) Cuando n , vn(x) v(x) para todo x X. (Las funciones vn, definidasen (4.23), se llaman funciones de iteracion de valores.)

La parte (c) del Teorema 4.5 se usa para aproximar la funcion v(x) o paradeducir propiedades de ella.

Problemas a tiempo continuo

Consideremos el PCO (4.1)(4.2) pero en tiempo continuo, es decir

x(t) = F (t, x(t), a(t)) t [0, T ], x(0) = x, (4.25)

V (pi, x) :=

T0

L(t, x(t), a(t))dt+ C(x(T )),

con pi = {a()}. Asimismo, como en (4.3)(4.5), para cada estado s [0, T ] yestado inicial x(s) = x, definimos

V (pi, s, x) :=

Ts

L(t, x(t), a(t))dt+ C(x(T ))

yv(s, x) := inf

piV (pi, s, x) para 0 s < T, v(T, x) := C(x).

En este caso, el principio de optimalidad es completamente analogo al caso detiempo discreto (Lema 4.1), y el teorema de programacion dinamica es comosigue.

Teorema 4.6 Bajo ciertas hipotesis sobre las funciones F,L,C y el conjunto A, ysuponiendo que v(s, x) es de clase C1,1([0, T ] IRn), v es solucion de la ecuacion


de programacion dinamica

vs + infaA

[F (s, x, a) vx + L(s, x, a)] = 0 (s, x) [0, T ) IRn, (4.26)

con condicion de frontera v(T, x) = C(x). Si ademas g(s, x) es una funcion quealcanza el mnimo en (4.21), entonces

a(s) := g(s, x(s)) s [0, T ]

es una estrategia optima, i.e. v(s, x) = V (a(), s, x).

Para PCOs a tiempo continuo (determinsticos o estocasticos) la ecuacionde programacion dinamica, como (4.26), tambien se conoce como ecuacion deHamiltonJacobiBellman.

Usando el hamiltoniano H(s, x, a, p) en (3.10) podemos expresar (4.26) como

vs supaA

H(s, x, a,vx) = 0.

Esto establece un vnculo entre la programacion dinamica y el principio delmaximo.

La demostracion del Teorema 4.6 se puede ver en, por ejemplo, Fleming yRishel (1975), Fleming y Soner (1992), Yong y Zhou (1999). Estos libros estudianel control de ecuaciones diferenciales ordinarias (como en (4.25)) y estocasticas(como en (2.3)). Otros sistemas estocasticos a tiempo continuo incluyen lascadenas de Markov ver, por ejemplo, Guo y HernandezLerma (2003a) oPrietoRumeau y HernandezLerma (2005a). Aunque es costumbre estudiarcada uno de estos sistemas por separado, es posible hacer estudios unificadosque incluyen practicamente cualquier tipo de proceso de control markoviano(PCM) a tiempo continuo, como en (2.36)(2.38); ver HernandezLerma (1994),PrietoRumeau y HernandezLerma (2005b) y sus referencias, donde en parti-cular podemos ver lo siguiente.

Nota 4.7. Usando el generador infinitesimal (2.37) podemos expresar la ecuacionde programacion dinamica (4.26) como

vs + infaA

[Lav(s, x) + L(s, x, a)] = 0 (s, x) [0, T ) IRn. (4.27)

40

De hecho, expresada de esta manera usando el generador infinitesimal delPCM la ecuacion (4.27) resulta ser la ecuacion de programacion dinamicapara cualquier PCM a tiempo continuo, con horizonte finito T . Por ejemplo, sien lugar del sistema determinstico (4.25) consideramos la ecuacion diferencialestocastica (2.3), entonces el generador La en (4.27) sera el operador en (2.38).Asimismo, si el PCM es un proceso markoviano de saltos con espacio de estadosnumerable y tasas de transicion qxy(a), entonces tomando s = 0 en (4.27) elgenerador La resulta

Lav(x) :=yX

qxy(a)v(y).

Para mas detalles, vea las referencias mencionadas en el parrafo anterior.

5. CONTROL MINIMAX (JUEGOS CONTRA LA NATURALEZA) 41

5 Control minimax (juegos contra la naturaleza)

Considerese un problema de control en el que de hecho hay dos decisores (enlugar de solo uno), el controlador y un oponente. El sistema puede evolu-cionar en tiempo continuo o tiempo discreto. Para fijar ideas, consideremos elsistema estocastico

xt+1 = F (xt, at, bt, t) t = 0, 1, . . . , (5.1)

que depende de las estrategias pi = {at} del controlador y = {bt} del oponente. Por lo tanto, tambien la funcion objetivo del PCO depende de lasestrategias de ambos decisores, i.e. tenemos V (pi, , x), donde x0 = x es el estadoinicial. Considerese la funcion

V #(pi, x) := sup

V (pi, , x).

Si pi es una estrategia del controlador queminimiza V #(pi, x), i.e., para todox X:

V #(pi, x) = infpiV #(pi, x),

o equivalentementeV #(pi, x) = inf

pisupV (pi, , x), (5.2)

se dice entonces que pi es una estrategia minimax.

La interpretacion de (5.2) es que pi es la mejor estrategia del controlador en lapeor de las circunstancias, porque pi minimiza lo maximo (= lo peor) que puedehacer el oponente, cuando dicho maximo se calcula sobre todas las estrategias del oponente. Por esta caracterstica, a un problema de control minimax tambiense le llama problema de control del peor caso (worstcase control). Las tecnicasque se usan para estudiar estos problemas son, principalmente, extension delmetodo de programacion dinamica o del principio del maximo; ver GonzalezTrejo et al. (2003) o Poznyak (2002a, 2002b).

Juegos contra la naturaleza

Una aplicacion tpica del control minimax es a problemas de control que de-penden de parametros desconocidos. En este caso, el oponente es la natu-

42

raleza que de alguna manera, en cada tiempo t, selecciona el valor del parame-tro. Estos problemas se conocen como juegos contra la naturaleza.

Por ejemplo, en lugar de (5.1) considerese un problema de control (un unicojugador) con modelo dinamico

xt+1 = F (xt, at, t), t = 0, 1, . . . , con x0 = x, (5.3)donde las t son perturbaciones. Consideraremos dos casos:

Caso 1: El sistema es incierto, es decir, se sabe que las t son constantes convalores en algun conjunto dado S, pero no se conoce el valor particular de t.

Caso 2: El sistema es estocastico, es decir, las t son variables aleatorias i.i.d.con valores en un conjunto S y distribucion comun (ver (4.22)), pero no seconoce . Sin embargo, s sabemos que debe pertenecer a un conjunto M(S)de distribuciones admisibles.

En el caso estocastico el PCO consiste en minimizar el costo esperado (4.21),mientras que en el caso incierto el costo es determinstico, as que eliminamos laesperanza en (4.21) y la funcion objetivo resulta

V (pi, x) :=t=0

tc(xt, at, t). (5.4)

Consideremos primero el caso 2. Entonces, por el Teorema 4.5 (a), (b), sabe-mos que si se conoce , entonces la funcion de valor v(x) satisface la ecuacion deprogramacion dinamica (4.24), y una funcion g : X A que alcanza el mnimoen el lado derecho de (4.24) define una estrategia optima. Resulta que el Teo-rema 4.5 sigue siendo valido con algunos cambios adecuados, que dan comoresultado lo siguiente.

Teorema 5.1. (Teorema de control minimax)Considerese el PCO estocastico queconsiste en minimizar el costo esperado (4.21), sujeto a (5.3). Se desconoce ladistribucion de las perturbaciones t pero se sabe que pertenece a un conjuntoM(S) de distribuciones sobre el espacio S. Entonces, bajo ciertas hipotesis:

(a) la funcion de valor v(x) := infpi supM(S) V(pi, x) satisface la ecuacion

v(x) = infaA(x)

supM(S)

S

[c(x, a, ) + v(F (x, a, s))](ds). (5.5)

5. CONTROL MINIMAX (JUEGOS CONTRA LA NATURALEZA) 43

(b) Si existe una funcion f : X A tal que f(x) A(x) alcanza el mnimo en(5.5), i.e.

v(x) = sup

S

[c(x, f(x), s) + v(F (x, f(x), s))](ds), (5.6)

entonces f define una estrategia minimax, o sea at := f(xt) para todo t =0, 1, . . ..

Es importante observar que la funcion v en (5.5) se puede aproximar por unasucesion de funciones de iteracion de valores, como en el Teorema 4.5(c). Paramayores detalles, vea GonzalezTrejo et al. (2003). En esta misma referencia sepueden ver ejemplos concretos de control minimax para problemas con hori-zonte finito, horizonte infinito, y tambien con costo promedio (tambien lla-mado costo ergodico).

En el caso 1, cuando las variables t son inciertas, el teorema anterior esvalido (bajo hipotesis adecuadas) sustituyendo la ecuacion (5.5) por la siguiente:

v(x) = infaA(x)

supsS

[c(x, a, s) + v(F (x, a, s))]. (5.7)

El cambio en (5.6) es similar.

Los problemas de control minimax de sistemas inciertos tambien se conocencomo problemas de control robusto. El nombre se debe a que resultados como(5.7) son robustos en el sentido de que valen para todo valor s S. Comoejemplo, Poznyak (2002a, 2002b) estudia PCOs con una ecuacion diferencial es-tocastica de la forma (2.3), pero cuyos coeficientes dependen de un parametroincierto s en algun conjunto S. Entonces en lugar de (2.3) se tiene

dxt = Fs(t, xt, at)dt+

s(t, xt, at)dWt 0 t T, s S.

Bernhard (2005) propone tecnicas de control robusto para estudiar algunos pro-blemas en finanzas.

En la seccion 9 veremos que un problema de control minimax es un casoparticular de ciertos juegos dinamicos conocidos como juegos de suma cero.

44

Parte 2. Juegos cooperativos

En lo que resta de estas notas consideraremos juegos dinamicos con N ju-gadores, N 2, de modo que todos los conceptos introducidos en la Seccion 2(para N = 1) se deben reinterpretar de manera adecuada. Por ejemplo, en unmodelo dinamico, como en (2.1)(2.3), en lugar de la accion at del controladorahora tenemos un vector de acciones

at = (a1t , . . . , a

Nt ),

en donde ait es la accion del jugador i al tiempo t. Asimismo, en lugar del con-junto A(x) de acciones factibles en (2.4), para un juego A(x) es el producto carte-siano

A(x) = A1(x) AN(x),dondeAi(x) representa el conjunto de acciones factibles para el jugador i cuandoel estado del juego es x. Por ultimo, en lugar de una funcion objetivo (la funcionobjetivo del controlador), como en (2.11)(2.15), ahora tenemos un vector

V (pi, x) = (V 1(pi, x), . . . , V N(pi, x))

en donde V i(pi, x) es la funcion objetivo del jugador i, dado que el estado inicialdel juego es x, y que los jugadores siguen lamultiestrategia

pi = (pi1, . . . , piN)

donde pii es la estrategia del jugador i. De aqu se sigue que expresiones como(2.16) o (2.17) en las que se desea minimizar o maximizar V (pi, x), para jue-gos dejan de tener un significado obvio. En esta segunda parte del curso vere-mos el caso en el que optimizar una funcion vectorial se entiende en el sentidode Pareto.

Para fijar ideas, supondremos que las funciones objetivo V i(pi, x) son costosque se desea minimizar.

6. EQUILIBRIOS DE PARETO 45

6 Equilibrios de Pareto

En un juego cooperativo los jugadores desean cooperar para alcanzar un resul-tado que, en algun sentido, sea benefico para todos ellos. (Por el contrario, en unjuego nocooperativo los jugadores no hacen acuerdos para cooperar; mas bien,actuan independientemente y solo les preocupa alcanzar sus objetivos individ-uales.)

Para juegos cooperativos estaticos existen varios conceptos de solucion, al-gunos de los cuales se remontan al trabajo pionero de von Neumann y Morgen-stern (1944). Sin embargo, cuando se intenta extrapolar estos conceptos a juegoscooperativos dinamicos muchos de ellos resultan ser inconsistentes en el tiempoo dinamicamente inestables. (Vea la Nota 6.3(a) o, por ejemplo, Filar y Petrosjan(2000), Haurie (2001), Petrosjan (2005) para una discusion de las inconsisten-cias que pueden ocurrir). Por tal motivo, para juegos dinamicos cooperativosnos restringiremos al caso mas comun y mas estudiado, a saber, los equilibrios dePareto.

Observacion. Recuerdese que para vectores x = (x1, . . . , xN) y y = (y1, . . . , yN)se dice que

x y ssi xi yi i = 1, . . . , N.Asimismo, x < y ssi x y y x 6= y ; y x

46

equilibrio de Pareto si no existe pi tal queV (pi) < V (pi). (6.2)

Sea el conjunto de equilibrios de Pareto (suponiendo que el conjunto no esvaco). Entonces el conjunto de vectores

{V (pi) | pi } se llama el frente de Pareto del juego.

El metodo mas usual para estudiar la existencia de equilibrios de Pareto es elmetodo de escalarizacion definido como sigue. Sea

SN1 := { IRN | >> 0 y 1 + + N = 1}.Para cada SN1 considerese la funcion escalar

V (pi) := V (pi) =Ni=1

iVi(pi). (6.3)

Teorema 6.2. Bajo ciertas hipotesis, se obtiene lo siguiente. Si para algun vector SN1 existe unamultiestrategia pi queminimiza la funcion escalar (6.3),i.e.

V (pi) V (pi) pi , (6.4)entonces pi es un equilibrio de Pareto.

La demostracion de este teorema es trivial. En efecto, si pi satisface (6.4)pero no es un equilibrio de Pareto, entonces (por la Definicion 6.1) existe unamultiestrategia pi tal que

V (pi) < V (pi).

Multiplicando ambos lados de esta desigualdad por el vector se obtiene queV (pi) < V (pi), lo cual contradice (6.4); es decir, necesariamente pi es un equi-librio de Pareto.

Por el contrario, la demostracion del recproco del Teorema 6.2 requiere unpoco mas de trabajo; vease, por ejemplo, HernandezLerma y Romera (2004).


De hecho, esta referencia estudia problemas de control multiobjetivos (es decir, uncontrolador con N objetivos V 1(), . . . , V N()), pero la demostracion para juegoses basicamente la misma.

Nota 6.3. (a) Si se admite que algunas de las componentes del vector en (6.4)sean cero (pero con suma total = 1), entonces solo se podra garantizar que pi esun equilibrio de Pareto debil. (Se dice que pi es un equilibrio de Pareto debil sino existe pi tal que V (pi)

48

conhi(t, x, a1, a2) :=

1

2et(q1x2 + ria2i + rija

2j), j 6= i,

donde > 0 es un factor de descuento. Dado un vector = (1, 2) en S1 elcosto escalarizado (6.3) resulta

V (a1, a2) = 1V1(a1, a2) + 2V2(a1, a2) (6.7)

=

0

h(t, x, a1, a2)dt,

donde (por (6.6))

h(t, x, a1, a2) =1

2et(Qx2 +R1a21 +R2a

22)

conQ := 1q1 + 2q2 y Ri = iri + jrji para i = 1, 2; j 6= i. (6.8)

Para minimizar el costo (6.7) sujeto a (6.5) usaremos programacion dinamica.

Sea a = (a1, a2) y s 0. Dado el estado inicial x(s) = x, seav(s, x) := inf

aV (a, s, x),

dondeV (a, s, x) :=

s

h(t, x, a)dt, x(s) = x.

Luego, de (4.26) (o (4.27)) la ecuacion de programacion dinamica es

vs + infa[(x+B1a1 +B2a2) vx + h(t, x, a1, a2)] = 0.

Se puede verificar que las estrategias optimas son, para i = 1, 2,

ai = Kix x X, con Ki := R1i BiM0, (6.9)dondeM0 es la solucion positiva de la ecuacion

(B21/R1 +B22/R2)M

20 (2 )M0 Q = 0,

con Q y Ri en (6.8) Es decir, a = (a1, a2) es el equilibrio de Pareto para el vectordado = (1, 2) y, ademas, sustituyendo (6.9) en (6.6) se obtiene que el costooptimo para cada jugador i = 1, 2 es

V i (x0) =1

2Pix

20, (6.10)


donde Pi es la solucion (positiva) de la ecuacion

2(c 12)Pi + Qi = 0 (6.11)

conc := B1K1 B2K2, Qi := qi + riK2i + rijK2j , j 6= i. (6.12)

El caso estocastico. Supongase que, en lugar de (6.5), la ecuacion de estadoes

dx = (x+B1a1 +B2a2)dt+GdW, x(0) = x0, t 0,donde G es una constante y W es un proceso de Wiener estandar, en cuyo casolas funciones de costo en (6.6) y (6.7) se deben sustituir por sus valores esperadosdada la condicion inicial x(0) = x0. Por ejemplo, en lugar de (6.6) ahora tenemos

Vi(a1, a2) :=

0

E[hi(t, x, a1, a2)|x(0) = x0]dt.

y similarmente en (6.7). Usando de nuevo programacion dinamica se puede verque las estrategias optimas son como en (6.9), es decir, las mismas que en el casodeterminstico. Sin embargo, los costos optimos (6.10) s deben modificarse yresultan

V ei (x0) =1

2Pix

20 +

1

2QiSi, (6.13)

con Pi y Qi como en (6.11) y (6.12), mientras que Si es la solucion de la ecuacion

2(c 12)Si +G

2 = 0.

Los resultados (6.9), (6.10) y (6.13) para sistemas LQ son bien conocidos. Paramayores detalles se puede consultar practicamente cualquier texto sobre con-trol optimo (o juegos dinamicos) que incluya modelos a tiempo continuo, porejemplo, Basar y Olsder (1999), Fleming y Rishel (1975), Fleming y Soner (1992),HernandezLerma (1994), Klompstra (1992), Sethi y Thompson (2000), Yong yZhou (1999). 2

Nota 6.5. Para concluir esta seccion, observese que un equilibrio de Pareto es, enefecto, un equilibrio cooperativo en el sentido de que ninguna otra decisionconjunta de los jugadores puede disminuir el costo de al menos uno de ellos sin

50

incrementar el costo de los otros. Mas explcitamente, si usamos el metodo deescalarizacion para encontrar equilibrios de Pareto, vemos de (6.3)(6.4) que alvariar el vector , vara el correspondiente equilibrio de Pareto y, por lo tanto,tambien vara el vector de costos V (pi, x) a lo largo del frente de Pareto. Esto haceque algunos jugadores resulten beneficiados (al disminuir su costo o funcionobjetivo), mientras que otros salen perjudicados (al incrementar su costo). Estasituacion lleva a una pregunta natural: de entre todos los equilibrios de Pareto,cual es el mas justo para todos los jugadores? Esta pregunta se puede respon-der de varias maneras. En las siguientes dos secciones veremos algunas de lasposibles respuestas.

7. EQUILIBRIOS DE COMPROMISO 51

7 Equilibrios de compromiso

Con respecto a la Nota 6.5, para encontrar un equilibrio justo algunos autoreshan propuesto el siguiente procedimiento. Para cada i = 1, . . . , N , sea

V i := infpiV i(pi).

El vectorV := (V 1 , . . . , V

N ) (7.1)

se llama el mnimo virtual del juego. (Tambien se le conoce como mnimoutopico,mnimo ideal omnimo sombra.)

Definicion 7.1. Dada una norma sobre IRN , se dice que una multiestrategiapi es un equilibrio de compromiso con respecto a dicha norma si

V (pi) V = infpi V (pi) V . (7.2)

Observe que la funcion

(pi) := V (pi) V para pi es una funcion de utilidad para el juego, en el sentido de que si pi y pi son talesque V (pi) < V (pi), entonces (pi) < (pi). De aqu se sigue que un equilibrio decompromiso necesariamente es un equilibrio de Pareto.

Generalmente, en (7.2) se usa una norma Lp, definida como

u p :=(

Ni=1

|ui|p)1/p

1 p

52

por ejemplo, HernandezLerma y Romera (2004a), Yu y Leitmann (1974). Estaultima referencia interpreta el termino V i(pi) V i como la pena o pesar (regret)del jugador i cuando se usa la multiestrategia pi. Por lo tanto, se sigue de (7.2)que un equilibrio de compromiso pi minimiza la pena del grupo de jugadoresporque V (pi) es el punto mas cercano al mnimo virtual, con respecto a la norma .

El proposito del siguiente ejemplo es ilustrar el calculo de un equilibrio decompromiso. Sin embargo, para simplificar la presentacion, no consideramosun problema de juegos sino mas bien un problema de control multiobjetivos, esdecir, un controlador que desea minimizar en el sentido de Pareto un vectorde costos, digamos

V (pi) = (V1(pi), . . . , VN(pi)). (7.3)

Ejemplo 7.3: Control multiobjetivossistema LQ estocastico a tiempo dis-creto. Sean y numeros reales distintos de cero y considerese el sistema lineal,escalar,

xt+1 = xt + at + t para t = 0, 1, . . . , (7.4)

con espacio de estados y de acciones X = A = IR. Las perturbaciones t sonvariables aleatorias i.i.d., que son independientes del estado inicial x0, y talesque

E(0) = 0 y E(20) =: 2 0 arbitrario y formamos el producto

V (pi) := V (pi) =Ni=1

iVi(pi).

7. EQUILIBRIOS DE COMPROMISO 53

Por (7.6) y (7.7), podemos expresar V (pi) como

V (pi) = (1 )Epi0[ t=0

tc(xt, at)

](7.8)

con

c(x, a) :=Ni=1

ici(x, a) = ( s)x2 + ( r)a2,

donde s := (s1, . . . , sN) y r := (r1, . . . , rN). El problema LQ de encontrar unaestrategia que minimiza (7.8) sujeta a (7.4) es muy bien conocido. Por ejemplo,en la pag. 72 de HernandezLerma y Lasserre (1996) se puede ver que la estrate-gia optima es la estrategia (markoviana estacionaria)

f(x) = [( r) + 2z()]1z()x x X, (7.9)donde z() es la unica solucion positiva de la ecuacion de Riccati

2z2 + (r r2 s2)z sr = 0, (7.10)con r = r y s = s. Asimismo, para cualquier estado inicial x0 = x, la funcionde costo optimo es

V (f, x) = z()[(1 )x2 + 2] x X,con 2 como en (7.5). Por lo tanto, suponiendo que la distribucion inicial 0 tienesegundo momento finito, i.e.

0 :=

x20(dx) 0. En particular, si tomamos = e(i), donde e(i) es el vector concoordenadas

e(i)j =

{1 si j = 1,0 si j 6= i,

54

y despues variamos i = 1, . . . , N, entonces obtenemos el mnimo virtual V =(V 1 , . . . , V

N ) en (7.1). Mas explicitamente, si en (7.12) sustituimos por e(i)

obtenemos el costo mnimo

V i = infpiV i(pi) = V i(fe(i)) = zik(0)

donde zi es la unica solucion positiva de la ecuacion de Riccati (7.10) con r = riy s = si.

Finalmente, para encontrar una estrategia de compromiso pi se debe se-leccionar una norma en IRN y calcular pi que minimiza V (pi) V , como en(7.2). Estas operaciones se pueden realizar al menos en principio usandouna cierta funcion de soporte, como en el Ejemplo 5.7 de HernandezLerma yRomera (2004b).

8. EL PROBLEMA DE NEGOCIACION DE NASH 55

8 El problema de negociacion de Nash

Otra forma de ver cual es el equilibrio mas justo entre todos los equilibriosde Pareto consiste en encontrar la solucion de Nash del problema de negociacion(bargaining problem). Nash (1950b, 1953) introdujo este problema para juegosestaticos con un numero finito de acciones y de jugadores y posteriormente seha estudiado para varios tipos de juegos dinamicos, por ejemplo, juegos dife-renciales, como en Haurie (1976, 1982), Petrosyan (2003),..., y juegos diferen-ciales estocasticos, como en Gaidov (1990). En cualquier caso, la formulacion esesencialmente la misma. Para facilitar la exposicion aqu solo consideraremosjuegos con N = 2 jugadores.

Para i = 1, 2, sea V i(pi) la funcion objetivo del jugador i, con pi = (pi1, pi2), ysea V0 := (V 10 , V 20 ) el vector cuyas coordinadas son los valores minimax

V 10 := minpi1

maxpi2

V 1(pi1, pi2),

V 20 := minpi2

maxpi1

V 2(pi1, pi2).

A la pareja V 0 se le llama el status quo. (En general, el status quo no nece-sariamente son los valores minimax; es decir, las componentes de V 0 se puedenseleccionar de otras maneras.) A las multiestrategias pi en el conjunto

ir := {pi | V 1(pi) V 10 , V 2(pi) V 20 }

se les llama multiestrategias individualmente racionales. Si pi = (pi1, pi2) es unamultiestrategia individualmente racional, entonces la diferencia

V i0 V i(pi) 0 para i = 1, 2 (8.1)

se interpreta como el beneficio por cooperar del jugador i cuando se usa la multi-estrategia pi. (Compare (8.1) con la pena o pesar V i(pi) V i del jugador i enla Nota 7.2.)

Definicion 8.1. Si pi ir es una multiestrategia que maximiza la funcion

b(pi) := [V 10 V 1(pi)] [V 20 V 2(pi)], pi ir,

56

se dice que pi es la solucion de Nash al problema de negociacion.

Un calculo directo muestra que si pi satisface la definicion anterior, entoncespi es un equilibrio de Pareto.

Para cualquier numero N 2 de jugadores los conceptos anteriores siguensiendo validos, con los cambios obvios. Por ejemplo, la funcion b(pi) en la Defi-nicion 8.1 ahora resulta ser

b(pi) := [V 10 V 1(pi)] [V N0 V N(pi)]y el conjunto de multiestrategias individualmente racionales es

ir := {pi | V i(pi) V i0 i = 1, . . . , N}.En el siguiente teorema se da una caracterizacion de una solucion de Nash

(al problema de negociacion) basada en la desigualdad

(y1 yN)1/N N1Ni=1

yi yi > 0, i = 1, . . . , N. (8.2)

entre la media geometrica (y1 yN)1/N de N numeros yi 0 y la mediaaritmetica N1

i yi.

Teorema 8.2. (Ehtamo et al., 1988) Supongase que pi ir es tal que, para todoi = 1, . . . , N ,

V i(pi) < V i0 ,

y sea

i :=b(pi)

V i0 V i(pi), (8.3)

es decir

i =N

j = 1

j 6= i

[V j0 V j(pi)]

Si ademas pi es tal que

V (pi) V (pi) pi , (8.4)

8. EL PROBLEMA DE NEGOCIACION DE NASH 57

entonces pi es una solucion de Nash al problema de negociacion, i.e.

b(pi) b(pi) pi ir. (8.5)

Demostracion. Fjese una estrategia arbitraria pi ir. Observe que (8.4) esequivalente a

(V0 V (pi)) (V0 V (pi))=

i

i [Vi0 V i(pi)],

i.e., por (8.3), (V0 V (pi)) N b(pi). (8.6)

Equivalentemente, usando de nuevo (8.3) y definiendo

yi :=V i0 V i(pi)V i0 V i(pi)

= i V i0 V i(pi)

b(pi),

podemos expresar (8.6) como

N Ni=1

i [Vi0 V i(pi)]/b(pi)

=ni=1

yi

N (y1 yN)1/N [por (8.2)]= N [b(pi)/b(pi)]1/N .

Finalmente, multiplicando la expresion anterior por 1/N se obtiene b(pi) b(pi).Luego, como pi ir es arbitraria, se sigue (8.5). 2

El Teorema 8.2 sugiere el siguiente algoritmo, introducido por Ehtamo etal. (1988), para encontrar una solucion de Nash. Supongase que para cada vector en

SN1 := { IRN | >> 0, 1 + + N = 1}existe una multiestrategia pi = (pi1, . . . , pi

N ) tal que

V (pi) V (pi) pi , (8.7)

58

de modo que pi es un equilibrio de Pareto (por el Teorema 6.2). Con esta no-tacion el algoritmo es como sigue.

Paso 1. Para cada SN1 encuentre pi que satisface (8.7).

Paso 2. Encuentre SN1 tal que, para todo i = 1, . . . , N, V i(pi) < V i0 y,ademas (como en (8.3)),

i =b(pi)

V i0 V i(pi).

Del Teorema 8.2 se sigue demanera evidente que pi es una solucion deNashal problema de negociacion. Sin embargo, aunque el algoritmo es conceptual-mente simple, es poco util por la dificultad de realizar los pasos 1 y 2.

Para juegos estaticos hay soluciones distintas de la de Nash al problema denegociacion ver, por ejemplo, Kalai y Smorodinsky (1975), Petrosjan y Zenke-vich (1996), Roth (1979, 1985).

Kaitala et al. (1985) estudian el problema de negociacion asociado a un juegodiferencial que representa dos cooperativas pesqueras que explotan una mismapesquera. Una situacion mas general se analiza en el artculo de Ehtamo et al.(1988).

9. EQUILIBRIOS DE NASH 59

Parte 3. Juegos nocooperativos

En un juego nocooperativo los jugadores actuan independientemente y ca-da uno desea alcanzar su propio objetivo individual.

9 Equilibrios de Nash

Primero consideraremos el caso de N = 2 jugadores.

Definicion 9.1. Sea pi2 2 una estrategia (fija) del jugador 2. Definimos elconjunto de las respuestas optimas del jugador 1 a la estrategia pi2 como

RO1(pi2) := {pi1 1 | V 1(pi1, pi2) = inf

pi1V 1(pi1, pi2)}. (9.1)

Analogamente, el conjunto de las respuestas optimas del jugador 2 a una es-trategia pi1 1 del jugador 1 se define como

RO2(pi1) := {pi2 2 | V 2(pi1, pi2) = inf

pi2V 2(pi1, pi2)}. (9.2)

Se dice que la multiestrategia (pi1, pi2) 1 2 es un equilibrio de Nash si

pi1 RO1(pi2) y pi2 RO2(pi1).

Equivalentemente, (pi1, pi2) es un equilibrio de Nash si

V 1(pi1, pi2) = inf

pi1V 1(pi1, pi2)

yV 2(pi1, pi

2) = inf

pi2V 2(pi1, pi

2).

En palabras, en un equilibrio de Nash, un jugador no puede mejorar susituacion si altera su estrategia unilateralmente.

Nota 9.2. Para algunos tipos de juegos (por ejemplo, juegos markovianos atiempo discreto con espacio de estados nonumerable) hasta la fecha ha sido

60

imposible dar condiciones generales para la existencia de equilibrios de Nash.Trataremos de explicar porque.

Considerese lamultifuncion que a cada multiestrategia (pi1, pi2) 1 2le asocia el conjunto RO1(pi2)RO2(pi1), i.e.

(pi1, pi2) := RO1(pi2)RO2(pi1).

Se puede ver facilmente que (pi1, pi2) es un equilibrio de Nash si y solo si (pi1, pi2)es un punto fijo de , es decir,

(pi1, pi2) (pi1, pi2). (9.3)

El problema con (9.3) es que los teoremas de punto fijo de multifunciones requierenhipotesis muy restrictivas, por ejemplo, alguna condicion de continuidad de ,y que los conjuntos (pi1, pi2) sean compactos, convexos, etc. Esto requiere, deentrada, introducir una topologa adecuada sobre 1 2 con respecto a la cualse satisfacen las hipotesis de los teoremas de punto fijo. Salvar estos obstaculostopologicos no es facil en muchos casos. 2

Caso general (N 2). Sea := 1 N . Para cada multiestrategiapi = (pi1, . . . , piN) en y i, sea

[pii|] := (pi1, . . . , pii1, , pii+1, . . . , piN)la multiestrategia con respecto a la cual cada jugador k usa la estrategia pik sik 6= i, mientras que el jugador i usa .

Se dice que una multiestrategia pi = (pi1, . . . , piN ) es un equilibrio de Nashsi para cada i la estrategia pii i es una respuesta optima del jugador i contrapi, es decir,

Vi(pi) = infi

Vi([pii |]). (9.4)

Esto tambien se puede expresar equivalentemente como

pii arg mini

Vi([pii |]) i = 1, . . . , N. (9.5)

En realidad, la definicion anterior de equilibrio de Nash es adecuada parajuegos estaticos pero no para juegos dinamicos. El problema es que en un juego


dinamico puede darse el caso de que, en algun instante del juego, algunos de losjugadores decidan unilateralmente desviarse de la posicion de equilibrio y, porlo tanto, la multiestrategia correspondiente deja de ser un equilibrio. Para evi-tar este tipo de situacion se puede suponer que los acuerdos entre los jugadoresson vinculantes; recuerde la Nota 6.3(c). Otra manera de evitar desviaciones uni-laterales de la posicion de equilibrio consiste en demostrar que un equilibrio deNash es perfecto en el sentido de la siguiente definicion.

Definicion 9.3. Considerese un juego dinamico con N jugadores y sea Vi(t, x, pi)la funcion objectivo del jugador i(i = 1, . . . , N) dado que la condicion inicial deljuego es x(t) = x en el tiempo t 0. Sea pi = (pi1, . . . , piN ) una multiestrategiamarkoviana, es decir, cada pii es markoviana (o de retroalimentacion), como en(2.6). Se dice que pi es un equilibrio de Nash perfecto si, para cada i = 1, . . . , Ny cualquier condicion inicial (t, x), se cumple que

Vi(t, x, pi) = infVi(t, x, [pi

i |]),

donde el infimo se calcula sobre todas las estrategias markovianas del jugadori.

En otras palabras, un equilibrio de Nash perfecto es una multiestrategia mar-koviana que es un equilibrio de Nash para cualquiera que sea la condicion ini-cial del juego. En este caso, algunos autores dicen que el equilibrio de Nash esperfecto en los subjuegos (subgame perfect).

Notese que resolver (9.4) o (9.5) esencialmente equivale a resolver un PCOpara cada i. Esto sugiere que, en principio, podemos usar tecnicas como el prin-cipio del maximo o programacion dinamica para encontrar equilibrios de Nash.

El principio del maximo.

Considerese un juego diferencial con N 2 jugadores, espacio de estadosX = IRn y conjuntos de accionesAi IRmi para i = 1, . . . , N . El modelo dinamicoes (comparese con (3.16))

x(t) = F (t, x(t), a(t)) 0 t T, x(0) = x0. (9.6)Los controles admisibles son de lazo abierto, a() = (a1(), . . . , aN()), donde ai()es una funcion medible de [0, T ] a Ai. Los jugadores desean maximizar las

62

funciones objetivo

J i(a()) := T0

Li(t, x(t), a(t))dt+ Ci(T, x(T )).

Sea p(t) = [pij(t)] la matriz N n de variables adjuntas cuya iesima fila es

pi(t) = (pi1(t), . . . , pin(t)) para i = 1, . . . , N.

Definimos el hamiltoniano

H i(t, x, a, p) := Li(t, x, a) + pi(t) F (t, x, a). (9.7)

Supongase que a() es un equilibrio de Nash y sea x() la trayectoria corre-spondiente (solucion de (9.6)). En este caso (bajo ciertas hipotesis sobre F,Li, Ci,etc.) se cumplen las siguientes condiciones necesarias para cada i = 1, . . . , N :las ecuaciones adjuntas

pi(t) = H ix(t, x(t), a(t), p(t)) (9.8)

la condicion terminalpi(T ) = Cix(T, x(T )), (9.9)

y lamaximizacion del hamiltoniano

H i(t, x(t), a(t), pi(t)) H i(t, x(t), ai, pi(t)) ai Ai. (9.10)

(Compare (9.8)(9.10) con (3.18)(3.20).)

Las ecuaciones (9.6) y (9.8)(9.10) definen un problema con dos condicionesde frontera que en algunos casos se puede resolver explcitamente. Por ejem-plo, Clemhout y Wan (1974) consideran juegos trilineales, llamados as porque elhamiltoniano es lineal en el estado, en los controles, y en la variable adjunta.Asimismo, Dockner et al. (1985) identifican varios tipos de juegos diferencialesque son solubles, en el sentido de que se pueden determinar equilibrios de Nashde lazo abierto, ya sea explcitamente o cualitativamente. Esto ultimo sig-nifica que se puede obtener un equilibrio de Nash resolviendo un sistema deecuaciones diferenciales de la forma

ai = i(t, a) para i = 1, . . . , N.


Programacion dinamica.

Para cada a = (a1, . . . , aN), sea [ai|a] el vector con componentes ak si k 6= i,y ai = a, es decir,

[ai|a] = (a1, . . . , ai1, a, ai+1, . . . , aN).

Supongase que para cada i = 1, . . . , N existen funciones vi(s, x) de clase C1,1

que satisfacen la ecuacion de programacion dinamica (cf. (4.26)):

vit + maxaAi

{F (t, x, [ai|a]) vix + Li(t, x, [ai|a])} = 0 (9.11)

para todo (t, x) en [0, T ] IRn, con condicion de frontera

vi(T, x) = Ci(T, x) x IRn. (9.12)

Ademas, sea a(t, x) A1 AN lamultiestrategia cuyas componentes ai(t, x)alcanzan el maximo en (9.11). Entonces a(t, x) es un equilibrio de Nash perfectoy

minicurso_onesimo

Documents