trabajo de operaciones

23
Trabajo de Investigación de Operaciones Presentado por: Beleño Carvajal Luis Fernando. Negrette Tapia Juan Gabriel Docente. Jorge Mario López

Upload: juan-negrete

Post on 09-Dec-2015

33 views

Category:

Documents


0 download

DESCRIPTION

Cadenas de Markov

TRANSCRIPT

Presentado por: Beleño Carvajal Luis Fernando. Negrette Tapia Juan Gabriel

Docente.Jorge Mario López

INTRODUCCIÓN

Las Cadenas de Markov reflejan claramente lo que son procesos estocásticos. Se conoce, pues, como procesos estocásticos a aquellos en donde una variable (el tiempo, por ejemplo) depende de la otra. En este parte entran en juego las probabilidades, y la manera en cómo una variable depende de la otra se puede apreciar en las diferentes Cadenas de Markov.

Las cadenas de Markov de tiempo discreto son procesos de corta memoria en el sentido de que solo “recuerdan” el ´ultimo estado visitado para decidir cuál será el próximo.En procesos con “larga memoria” (cadenas con conexiones completas) el valor que toma el proceso en cada paso depende de todo el pasado.La mayor diferencia que hay entre Cadenas de Markov de Tiempo Discreto y Cadenas de Markov de Tiempo Continuo es que las primeras saltan de un estado a otro en tiempos enteros 1, 2, 3,… y las de tiempo continuo lo hacen en tiempos aleatorios t1, t2, t3,...

Para nuestro interés, en las continuas páginas se presentarán procesos de Cadenas de Markov de Tiempo Continuo y resultados importantes de este tipo de procesos. Se mostrarán ejemplos relacionados con la biología, aunque dichos procesos tienen muchas aplicaciones en otras áreas como economía, sociología, física, etc.

OBJETIVOS.

OBJETIVOS GENERALES.

Identificar los procesos presentes en las cadenas de Markov ocultas y su

aplicación en la industria.

Identificar procesos de cadenas de Markov de tiempo continuo como

resultado de haber asimilado los conceptos previos a este.

OBJETIVOS ESPECÍFICOS

Identificar las clases de estados existentes con sus respectivas variables.

Diferenciar claramente las características de las cadenas de Markov que

guardan ciertas relaciones.

Determinar cuáles que son y cuáles son las principales aplicaciones de las

cadenas de Markov ocultas

Formular probabilidades en los procesos de tiempo continuo.

CADENAS DE MARKOV DE TIEMPO CONTINUO

Existen ciertos casos (como en algunos modelos de líneas de espera) en los que se requiere un parámetro de tiempo continuo, debido a que el proceso se está observando de manera continua a través del tiempo.

DESCRIPCIÓN DE “CADENAS DE MARKOV DE TIEMPO CONTINUO”

Estados posibles del sistema: 0,1,.., M Los estados son discretosParámetro continuo: Tiempo t’ para t ’ ≥0

Estado del sistema en el tiempo t’: variable aleatoria X ( t ’)

Sean:t ’=r , tiempo pasadot ’=s, tiempo presentet ’=s+t , t unidades al futuro

El sistema se observa en los tiempos r y s, y sus respectivos estados son

X (s)=i X (r )=x (r )

Distribución de probabilidad del estado del sistema en el tiempo t ’=s+tP {X (s+t)= j∨X (s)=i y X (r )=x (r)}Para j=0,1 ,... , M

Luego, Un proceso estocástico de tiempo continuo tiene la propiedad Markoviana si: P {X (s+t)= j∨X (s)=i} Probabilidad de transición igual que en eventos discretosPara j=0,1 ,... , M ,r ≥0 s>r y t >0 no es necesario que t sea entero.

Si las probabilidades de transición son independientes de s, se llaman probabilidades de transición estacionaria u homogénea:P {X (s+t)= j∨X (s)=i}=P {X (t)= j∨X (0)=i} Para toda s > 0

Denotada por la Función de probabilidad de transición de tiempo continúoP ij(t)=P{X (t )= j∨X (0)=i }

Se supone que

Ahora, sea la variable aleatoria Ti: el tiempo que pasa cada vez que el proceso está en un estado i antes de ir a otro estado diferente. Si el proceso entra en i en el tiempo s, entonces para t >0, se observa que Ti>t si y sólo si X ( t ´ )=i parat ´ ens≤ t ´ ≤ s+t . esto implicara que P {Ti>t+s∨Ti>s}=P {Ti>t } Esta propiedad de la variable aleatoria Ti se conoce como la falta de memoria. Existe sólo una distribución continua con esta propiedad (la exponencial) definida por función de distribución acumulada P {Ti>t }=1−e−qt parat ≥0 donde q es el parámetro y la media es 1/q.

Con lo anterior en mente, tenemos que La variable aleatoria Ti tiene una distribución exponencial con media 1/qi. Cuando abandona el estado i el proceso entra en el estado j con probabilidad

de transición Pij con:

Las intensidades de transición aquí cumplen el papel análogo que cumplen las transiciones de un paso en las cadenas de Markov de tiempo discreto. Las intensidades de transición son:

Probabilidades de estado estable

Para cualesquiera estados i y j, y números no negativos t y s (0 ≤ s ≤ t),

Los estados i , j se comunican si existen tiempos t 1 , t 2 / Pij(t 1)>0 y Pji (t 2)>0 Se supone que la cadena de Markov de tiempo continuo es irreductible, es decir, todos los estados de una cadena se comunican formando una sola clase

Las siguientes ecuaciones de estado estable son más útil para obtener las probabilidades de estado estable:

Ejemplo.

1

Un taller opera con 2 máquinas idénticas que operan continuamente excepto cuando se descomponen.

El tiempo requerido para reparar una máquina tiene distribución exponencial con media 1/2 de día. Cuando se termina la reparación el tiempo que transcurre hasta la siguiente descompostura se distribuye exponencial con medio 1 día.

Nota: Las distribuciones son independientes

Definamos la variable aleatoria

X ( t ´ ): Número de máquinas descompuestas en el tiempo t ´ (los valores posibles

de X ( t ´ ) son 0, 1,2)

Podemos usar las probabilidades de estado estable para hallar la distribución de probabilidad de estado estable para el número de máquinas descompuestas.Debemos hallar para i , j=0,1,2q i : Tasa de transición hacia fuera del estado i por unidad de tiempo que pasa en iq ij : Tasa de transición del estado i al j por unidad de tiempo que pasa en i

El estado (número de máquinas descompuestas)

Aumenta en 1 cuando ocurre una descompostura Disminuye en 1 cuando hay una reparación

Como las descomposturas y las reparaciones ocurren una a la vez

q02 = 0q20 = 0

El tiempo esperado de reparación es ½ de día La tasa a la que se terminan las reparaciones (cuando hay máquinas descompuestas) es 2 máquinas por díaEsto implica

MAQUINA 2MAQUINA 1

q21 = 2q10 = 2

El tiempo esperado hasta que se descompone una máquina es 1 día La tasa a la que se descomponen las máquinas (cuando está operando) es 1 por díaEsto implica q12=1Durante los tiempos en que las dos máquinas operan, las descomposturas ocurren a una tasa de 1+1=2 por día q 01=2

Estas tasas de transición se pueden usar para calcular la tasa de transición total hacia fuera del estado

q2 = q21 = 2q0 = q01 = 2q1 = q10 + q12 = 3

Ecuaciones de Balance Tasa de salidas de un estado = Tasa de entradas a ese estado

Cualquiera de estas ecuaciones se puede eliminar como redundante y obtendremos

(π 0 , π 1 , π 2)=(2/5 ,2/5 ,1/5)

CONCLUSIÓN: ambas máquinas estarán descompuestas simultáneamente el 20% del tiempo y una máquina estará descompuesta el 40%. Las dos estarán buenas el 40%.

LAS CADENAS OCULTAS DE MARKOV

Existen diferentes situaciones en la naturaleza que obedecen o se comportan como las cadenas de Markov, sin embargo dentro de estos hay fenómenos que aparentemente depende de una sola variable, una sola causa, sin embargo, esta causa implícitamente depende de otra, que a simple vista o de forma inmediata no se distingue, porque se dice que está escondida u oculta en el fenómeno. Claro está, estos problemas no dejan de comportarse como cadena de Markov, por ello se les conoce como cadenas ocultas de Markov.

Los modelos ocultos de Markov fueron descritos por primera vez en una serie de artículos estadísticos por Leonard E. Baum y otros autores en la segunda mitad de la década de 1960. Una de las primeras aplicaciones de las cadenas ocultas de Markov fue en el reconocimiento del habla, comenzando en la mitad de la década de 1970. En la segunda mitad de la década de 1980, las cadenas ocultas de Markov comenzaron a ser aplicados al análisis de secuencias biológicas, en particular de DNA. Desde entonces, se han hecho ubicuos en el campo de la bioinformática. Algunas de las definiciones que han dado autores o exponentes del tema son:

“una cadena de Markov oculta es un doble proceso estocástico con un proceso subyacente que no es observable (oculto) pero que puede ser observada a través de otro conjunto de procesos estocásticos que generan la secuencia de observaciones.” Rabiner.

“. . .es una función probabilística de una cadena oculta de Markov es un proceso estocástico generado por dos mecanismos interrelacionados, una cadena de Markov subyacente que tiene un número finito de estados, y un conjunto de funciones aleatorias, cada una asociada con un estado. En instantes discretos de tiempo, se asume que el proceso está en algún estado y una observación es generada por la función aleatoria asociada al estado actual. La cadena de Markov subyacente cambia entonces de estado de acuerdo con su matriz de probabilidad de transición. El observador ve localmente la salida de las funciones aleatorias asociadas a

cada estado y no puede observar directamente los estados de la cadena de Markov.” Magdi y Gader.

INTERPRETACIÓN DE UNA CADENA DE MARKOV OCULTA

En el siguiente diagrama que se encuentra la interpretación grafica de una cadena oculta de Markov. Cada óvalo representa una variable aleatoria que puede tomar determinados valores. La variable aleatoria X ( t) es el valor de la variable oculta en el instante de tiempo (t), la variable aleatoria Y (t ) es el valor de la variable observada en el instante de tiempo (t). Las flechas indican dependencias condicionales. Del diagrama queda claro que el valor de la variable oculta X ( t) (en el instante t) solo depende del valor de la variable oculta X ( t−1) (en el instante t). A esto se le llama propiedad de Markov. De forma similar, el valor de la variable observada Y (t ) solo depende del valor de la variable oculta X ( t) (ambas en el instante t).

ELEMENTOS DE UNA CADENA DE MARKOV

1. El número de estados en el modelo (N). Aunque los estados en los que se encuentra el sistema modelado se consideran ocultos, para muchas aplicaciones prácticas existe alguna significación física asociada a los estados del sistema. Generalmente los estados están interconectados de tal manera que cualquier estado puede ser alcanzado desde cualquier otro.

Los estados serán denotados como S={S1 , S2 ,... , SN }, y el estado en el instante t como q (t).

2. El número de símbolos de observación distintos por estado M. Es el alfabeto de tamaño discreto del modelo. Los símbolos corresponden usualmente a la salida “física” u observable del sistema modelado. Se denotan los símbolos como V={v 1 , v 2, . , vm } o posibles valores observables en cada estado. M es un total y V es cada uno de los estados que van apareciendo.

3. La distribución de probabilidad de transición o el conjunto de probabilidades A={a ij }. Usualmente representada por una matriz donde: a ij=P(qt +1=Sj∨qt=Si) Esto es, la probabilidad de estar en el estado Sj en el instante t+1, dado que en el instante t estuve en el estado Sí. Para el caso especial en el que cada estado puede llevar a cualquier otro estado en una sola transición, a ij>0 para todo i, j. En otros tipos de MOM, se tiene que a ij=0 para uno o más pares (i, j).

4. La distribución de probabilidad de observación de símbolos B = {bj (k)}. Esta distribución de probabilidad representa la probabilidad de observar el símbolo k estando en el estado j donde: bj(k)=P (vkent∨qt=Sj) ,1≤ j ≤ N ,1≤ k ≤ M

5. La distribución inicial π Representa el estado inicial del sistema modelado,

donde: π i=P(q1=Si),1≤i ≤ N . Dados valores apropiados para

N , M , A ,B y π, el modelo oculto de Markov puede ser utilizado como el

generador de una secuencia de observaciones O=O 1O2・・・OT .

En resumen, los elementos de los modelos ocultos de Markov:

T= longitud de la secuencia de observaciones

N= cantidad de estados en el modelo

M= cantidad de símbolos observables

S= estados: {S1 , S2 , S3 , S 4 , …, S N }

Q= secuencia de transiciones: {q1 ,q 2, q3 , q 4 , ……,q N }

V= conjunto discreto de observaciones posibles {v1 , v2 , v 3 , v 4 ,……, v N }

q t = estados visibles en el momento t

A {aij }=aij=P (q t +1=Sj /q t=Si)

B {b j(k )}=P(V kt /q t=Sj)

Π={π }=P (q1=Si) .

TIPOS DE MODELOS OCULTOS DE MARKOV

La siguiente clasificación de los modelos ocultos de Markov, no se debe

exclusivamente a alguna de sus características. Esto quiere decir, que los dos

primeros tipos cuya clasificación depende de los valores de las matrices de

probabilidad de transición, son excluyentes entre ellos pero no con el tercer tipo.

Así, podemos tener MOM que sean no ergódicos y autoregresivos o bien

ergódicos y autoregresivos al mismo tiempo.

Ergódicos:

Cuando un modelo oculto de Markov tiene una matriz de probabilidad de transición de estados completa (es decir, que no es cero para ningún aij) se dice que el modelo oculto de Markov es ergódico. En este tipo de modelo oculto de Markov cualquier estado puede ser visitado nuevamente con probabilidad 1 y estas visitas no deben tomar necesariamente lugar en intervalos de tiempo periódicos. La siguiente figura muestra un ejemplo de este tipo de modelo, esta es la cadena de Markov de la detección de las anomalías en la carga de un procesador con N=4, siendo N el número de estados.

No Ergódicos:

En los casos en los que las matrices de transición de los modelos ocultos de markov pueden tener algunos valores “0”, se dice que no son ergódicos. Por ejemplo, si se tiene una matriz triangular superior, se tendría un modelo oculto como el que se muestra a continuación. A estos modelos se les conoce también como modelos “izquierda-derecha”, pues la secuencia de estados producida por la secuencia de observaciones siempre deberá proceder desde el estado más a la izquierda, hasta el que esté más a la derecha.Estos modelos imponen un orden temporal al modelo oculto de markov, pues los estados con número menor, generan observaciones que ocurrieron antes que las generadas por los estados con índices mayores. La figura obedece a una matriz A triangular superior y N= 4.

Autoregresivos:

Los modelos ocultos de Markov autoregresivos, tienen casos especiales del parámetro “B”. Cuando los símbolos observables de un modelo oculto Markoviano son vectores continuos (no son un conjunto discreto como un alfabeto), la función de distribución de probabilidad bj(k), es remplazada por la función continua bj(x ),1≤ j≤ N dondebj(x )dx = probabilidad de que el vector de observación O se encuentre entre x y x+dx. Las siguientes son las formas especiales de bj(x ) que han sido propuestas.Estos se clasifican en dos:

Gaussianos con mezcla de densidades

Donde cjk es el peso de la mezcla, N es la distribución normal y μjk ,Ujk son los

vectores de medias y covarianzas asociados con el estado j y la mezcla k.

Gaussianos auto regresivos con mezcla de densidades

donde

Y

APLICACIONES DE LAS CADENAS OCULTAS DE MARKOV.

Los modelos ocultos de Markov son especialmente aplicados al reconocimiento de formas temporales, como el reconocimiento del habla, los gestos y movimientos corporales, reconocimiento óptico de caracteres, de escritura manual, de gestos o bioinformática, predicción de regiones que codifican proteínas dentro de genomas, modelado de familias de secuencias de proteína o ADN relacionado, predicción de elementos de estructura segundaria en secuencias primarias de proteínas, Criptoanálisis, traducción automática, seguimiento de partículas musicales, comportamiento del cliente, entre otros.

En general, las aplicaciones varían en distintas ramas científicas nos dan a entender la flexibilidad y potencialidades de estos modelos matemáticos, que da una data histórica representativa, pueden estimar probabilidades y con estas extrapolar conclusiones a posteriori dentro de un marco de alta variabilidad y poco conocimiento de las variables cuantitativas.

Reconocimiento de palabra aislada usando cadenas ocultas de markov HMM

Para cada palabra de un vocabulario de palabras se quiere diseñar un modelo oculto de markov (HMM) con N estados. Para cada palabra en el vocabulario se tiene un conjunto de entrenamiento con K instancias de la palabra hablada por uno o más locutores. Cada ocurrencia de la palabra constituye una secuencia de observación. Las observaciones son alguna representación espectral (cepstral) o temporal de la señal de voz.

1. Para cada palabra v en el vocabulario se debe construir un HMM λv , es decir se deben estimar los parámetros del modelo (Ad, Bd, πd ) que optimizan la probabilidad del conjunto de vectores de entrenamiento asociados a la d-ésima palabra.

2. Para cada palabra desconocida que se quiere reconocer, se debe obtener la secuencia de vectores de observación O. Luego calcular la probabilidades de que esa secuencia haya sido generada por cada uno de los modelos posibles P(O∨λ d ) , con 1≤ d≤ D y luego seleccionar la palabra cuyo modelo tenga la más alta probabilidad, i.e.

D∗¿argmax (P(O∨λ d ))1≤ d≤ D

A continuación se mostrara Diagrama de bloques de un reconocedor de dígitos aislados.

HMM para digito 0

P(O| λ0 )

DIGITO DESCONOCIDO

DIGITO RECONOCIDO

Obs. De secuencia HMM para 1

P(O| λ1 )

D*=argmax (P(O| λd )) . 1≤d ≤ D

.

.

Calculo de la probabilidad

Del procedor final

Calculo de la probabilidad

Calculo de la probabilidad

Selección máxima

λ9

dd d

λ1

λ0

CONCLUSIÓN

Previo a los conceptos estudiados, dentro de los procesos que se encuentran

clasificados como cadenas de Markov de tiempo continuo se hallan muchas

aplicaciones cotidianas llevadas al contexto de nivel ingenieril con el fin de

aumentar el nivel de asertividad en la solución de problemas, se hizo por ejemplo,

mención a la teoría de colas donde la evolución o el comportamiento de dicho

proceso se hace de manera continua.

Es fundamental el conocimiento de expertos para formular probabilidades en los

procesos de tiempo continuo, ello conlleva a Identificar adecuadamente las clases

de estados existentes con sus respectivas variables sin temor alguno de

equivocarse.

A medida que se vuelve natural identificar procesos de tiempo continúo, entonces

también se adquiere destreza en Diferenciar claramente las características de las

cadenas de Markov que guardan ciertas relaciones como es el caso de cadenas

de Markov de tiempo discreto y continúo.

BIBLIOGRAFÍA

Hillier Frederick S. Lieberman Gerald J. Introducción a la investigación de operaciones. 9º edición. Editorial Mc Graw Hill.

Phil Blunsom. Hidden Markov Models. Agosto 19, 2004. Disponible en: http://www.alexu.edu.eg

Troncoso Carrére Nicolás. “Cadenas de Markov Ocultas”. Publicación: Valparaíso, 24 de Noviembre de 2005. Disponible en: http://www.alumnos.inf.utfsm.cl

“Investigación operativa. Cadenas de Markov en tiempo continuo”. Disponible en http://www.dia.fi.upm.es