Transcript
Page 1: MOM MarcoTeorico cadenas de markow

CAPITULO 1

Page 2: MOM MarcoTeorico cadenas de markow

MARCO TEÓRICO

1. MODELOS OCULTOS DE MARKOV

Según Morgan (1991) “Los MOM describen un proceso de probabilidad el cual produce una secuencia de eventos o símbolos observables. Son llamados ocultos porque hay un proceso de probabilidad subyacente que no es observable, peor afecta la secuencia de eventos observados”.

Xuang, Acero y Hon(2001) “ Los MOM son una extensión de las cadenas de Markov en donde la salida del sistema puede tomar varios valores para cada estado con lo que nace una nueva variable aleatoria (discreta o continua), conocida como vector de variables aleatorias. Este tipo de sistema se implanta como un doble proceso estocástico: el de las transiciones entre estados y el de la salida para cada estado”.

Un MOM es un proceso estocástico que consta de un proceso de Markov no observado (oculto) q = {qt}t∈Ν y un proceso observado O = {ot}t∈Ν cuyos estados son dependientes estocásticamente de los estados ocultos, es decir, es un proceso bivariado (q,O). Los MOM se pueden considerar también como sistemas generativos estocásticos, los cuales se emplean en la modelación de series de tiempo.

Solamente los símbolos emitidos por el proceso q son observables, pero no la ruta o secuencia de estados q, de ahí el calificativo de "oculto" de Markov, ya que el proceso de Markov q es no observado.

1.1. Elementos que componen a los MOM:

a) N: representa el número de estados del MOM.Denotación:

_ Estado: S = {S1, S2, S3,…, Sn}_ Estados en el tiempo: t como qt.

b) M: representa el número de observaciones que se producen. Si estas son continuas M es infinito.Denotación:

_ Símbolo de observación: V = {V1, V2,…, VM}_ Observación en tiempo: t, Ot E V.

c) A = {aij}: Matriz de transición de probabilidades, donde a ij es la probabilidad de que se dé la transición desde el estado i al estado j.Denotación:

_ aij = P(qt = Sj | qt-1 = Si ), 1≤ i,j ≤ N, 2 ≤ t ≤ T, aij ≥ 0  ∀ ij.

Page 3: MOM MarcoTeorico cadenas de markow

Se pueden presentar casos en el que un estado puede ser alcanzado por otro estado en un solo paso, tenemos que:

aij > 0Para todo i,j. En los MOM en general, se tiene que a ij = 0 para uno o mas parejas de valores (i, j).

∑i=1

N

aij=1 ∀ i.

d) B = {bj(K)}: la distribución de parámetros de las probabilidades de observación en el estado j.Denotación:

bi(k) = P(Vk en t | qt = Sj), 1≤ j ≤ N, 1≤ k ≤ M tal que

bj(k) ≥ 0, 1≤ j ≤ N, 1≤ k ≤ My

∑k=1

k

bj (k )=1, 1≤ j ≤ N

e) Π: conjunto de probabilidades de estado inicial π = {πi}, siendo pi la probabilidad de que el estado inicial de MOM sea el Si.Denotación:

πi = P(q1 = Si), 1≤ i ≤ Ntal que

πi ≥ 0, 1≤ i ≤ Ny

∑i=1

N

π i=1

Establecidos los valores apropiados para N, M, A, B y π, a los MOM se les puede utilizar para que genere una secuencia de observaciones.

O = O1, O2,…, Ot

Por lo tanto, un modelo de Markov se describe como: λ = (A,B, π)

Page 4: MOM MarcoTeorico cadenas de markow

1.2. TIPOS DE MODELOS OCULTOS DE MARKOV MOM discretos: En éste, las observaciones son vectores de

símbolos de un alfabeto finito con M+1 elementos diferentes

MOM continuos: Se asume que las distribuciones de los símbolos observables son densidades de probabilidad definidas sobre espacio de observación continuos.

MOM semicontinuos: Al igual que los continuos, pero con la diferencia en que las funciones bases son comunes a todos los modelos.

1.3. ARQUITECTURAS DE UN MOM

Un MOM puede ser representado como un grafo dirigido de transiciones/emisiones como se ilustra en la figura 1.1. La arquitectura específica que permita modelar de la mejor forma posible las propiedades observadas depende en gran medida de las características del problema. Las arquitecturas más usadas son:

a) Ergódicas: o completamente conectadas en las cuales cada estado del modelo puede ser alcanzado desde cualquier otro estado en un número finito de pasos.

Ilustración 1: Arquitectura del grafo de un modelo de urnas y bolas (Ergódica).

Page 5: MOM MarcoTeorico cadenas de markow

b) Izquierda-derecha: hacia adelante o Bakis las cuales tienen la propiedad de que en la medida que el tiempo crece se avanza en la secuencia de observación asociada O, y en esa misma medida el índice que señala el estado del modelo permanece o crece, es decir, los estados del sistema van de izquierda a derecha. En secuencias biológicas y en reconocimiento de la voz estas arquitecturas modelan bien los aspectos lineales de las secuencias.

Ilustración 2: Arquitectura Izquierda - derecha con 4 estados

c) Izquierda-derecha paralelas, son dos arquitecturas izquierda-derecha conectadas entre sí.

Ilustración 3: Arquitectura de izquierda derecha paralelo con 6 estados.

Page 6: MOM MarcoTeorico cadenas de markow

1.4. PROBLEMAS BÁSICOS DE LOS MOM:

Existen tres problemas básicos relacionados con los MOM:

a) Problema de Evaluación: Dada una secuencia de observación O = {o1, o2,..., oT } y un modelo λ = {A,B, π}, ¿Cómo calculamos P(O | λ), la probabilidad de la secuencia de observación?

Algoritmo de avance: Definamos la variable de avance α t(i), como la probabilidad de la secuencia de observación parcial hasta el tiempo t y estado s i en el tiempo t, dado el modelo, ejemplo:

αt(i) = P(o1o2 ...ot, qt = si|λ)

Se puede demostrar fácilmente que:

α1(i) = πibi(o1), 1 ≤ i ≤ N

P(O|λ) =∑i=1

N

αT (i)

Por inducción:

αt+1 (j) = ¿

Ilustración del algoritmo de avance:

Page 7: MOM MarcoTeorico cadenas de markow

Algoritmo de retroceso: Del mismo modo, definamos la variable de retroceso β t(i), como la probabilidad de la secuencia de observación parcial desde el tiempo t + 1 hasta el final, dado el estado s i en tiempo t y el modelo, ejemplo:

βt(i) = P(ot+1ot+2 ...oT |qt = si, λ)

Puede demostrarse fácilmente que:βT (i)=1, 1 ≤ i ≤ N

y:

P(O|λ) = ∑i=1

N

πibi(o1) β1( i)

Por inducción:

βt (i) = ∑j=1

N

aijbj (ot+1) βt+1( j); t = T − 1, T − 2... 1; 1 ≤ i ≤ N

Ilustración del algoritmo del retroceso:

Page 8: MOM MarcoTeorico cadenas de markow

b) Problema de Decodificación: Dada una secuencia de observación O = {o1, o2,..., oT}, ¿cómo elegimos una secuencia de estado Q = {q1, q2,..., qT } que de algún modo sea óptima?

Algoritmo de Viterbi: es un algoritmo de programación dinámica para encontrar la secuencia más probable de estados ocultos - llamado el camino de Viterbi - en los resultados en una secuencia de eventos observados, especialmente en el contexto de fuentes de información de Markov y modelos ocultos de Markov.

El algoritmo de Viterbi permite encontrar las secuencias de estados más

probable en un Modelo oculto de Markov (MOM), , a

partir de una observación , es decir, obtiene la secuencia óptima que mejor explica la secuencia de observaciones.

1. Inicialización:δ1(i) = πibi(o1), 1 ≤ i ≤ Nψ1(i) =0

2. Recursión:δt(j) = max [δt−1(i)aij] bj(ot) 2 ≤ t ≤ T, 1 ≤ j ≤ N1≤i≤N

ψt(j) = argmax[δt−1(i)aij], 2 ≤ t ≤ T, 1 ≤ j ≤ N 1≤i≤N 3. Terminación:

P∗ = max[δT (i)] 1≤i≤N

q∗ = argmax[δT (i)] 1≤i≤N

4. Trayectoria inversa (secuencia de estado):q∗t = ψt+1(q*

t+1), t = T − 1, T − 2,..., 1Cómputo ≈ N2T

Page 9: MOM MarcoTeorico cadenas de markow

c) Problema del Entrenamiento: ¿Cómo ajustamos los parámetros del modelo λ = {A, B, π} para maximizar P(O | λ)?

Algoritmo de reestimación de Baum-Welch: La reestimación de Baum-Welch emplea el algoritmo de avance – retroceso.

1. Hay que defefinir ξ t(i,j) como la probabilidad de estar en el estado si en tiempo t y en el estado sj en tiempo t + 1, dado el modelo y la secuencia de observación:

ξt(i, j) = P(qt = si, qt+1 = sj|O, λ)2. Luego:

ξt(i, j) = αt (i)aijbj (ot+1)βt+1( j)

P(O∨ λ)

γt(i) = ∑j=1

N

ξt (i , j)

3. Sumando γ t(i) y ξt(i,j), obtenemos:

∑t=1

T−1

γt (i) = número esperado de transiciones desde si.

∑t=1

T−1

ξt (i , j) = número esperado de transiciones desde si a sj.

Ilustración del algoritmo de Baum-Welch


Top Related