uimp: sistemas de video en aml

SANTANDER 2008. Los sistemas de información en la sociedad del siglo XXI: La Información en Función del Contexto. 5 Julio 2008

I. Introducción. Visión Artificial en IUA-AmIII. Vigilancia sobre visión, elementosg

Imagen: detecciónVídeo: seguimientogReconocimiento de actividad, situaciones, gestosCalibración, alineamiento, fusión sensores

III. Algunas técnicas aplicadas. gu as éc cas ap cadasModelos probabilistas en visión artificial: seguimiento y reconocimientog yAprendizaje de parámetros, generalización

I. INTRODUCCIÓN

Computación Ubicua y Móvil

Entornos InteligentesEntornos Inteligentes y Cooperativos

I. INTRODUCCIÓN

Aprovechar tecnologícas de procesado comunicaciónAprovechar tecnologícas de procesado, comunicación y visualización

Las técnicas existentes de HCI (Human-Computer Interaction) d ll d b t ll i ipueden ser un cuello de botella en nuevos servicios

El uso de gestos proporciona alternativas a interfacesEl uso de gestos proporciona alternativas a interfaces complejas en dispositivos de HCI

La interpretación de gestos permitirá facilidad y natuarlidadp g p y

La cámara sería un sensor ideal si fuera fiableMáxima cantidad de datos, no precisa llevar nada encimaL i ió tifi i l “ i” fi i t t bLa visión artificial “casi” es suficientemente buena

I. INTRODUCCIÓN

CienciaCienciapercepciónconocimientoconocimientocomportamiento

Aplicacionesdiseño servicios orientados al usuario (user-centric)

Ingeniería eIngenieríaInterfaces de audioInterfaces táctiles

Cos

te

Interfaces de visión artificialNuevos conceptos en software inteligente y adaptativo

Complejidad Interfaz U iinteligente y adaptativo Usuario

I. INTRODUCCIÓN

Un punto clave de los entornos de Inteligencia Ambiental es que deben aprender y Ambiental es que deben aprender y mantenerse actualizados de forma autónoma› Construye incrementalmente modelos dinámicos del › Construye incrementalmente modelos dinámicos del

entorno y configura sus serviciosInteligenciag› Consciente (“awareness”): el sistema analiza el

contexto, se adapta a los usuarios que lo habitan, y d ti d t i taprende a partir de su comportamiento

› Adaptable: aprende acerca del entorno y de los usuarios con objeto de mejorar sus funcionamientousuarios con objeto de mejorar sus funcionamiento

I. INTRODUCCIÓN

Cualquier información que caracterize al usuario y su situaciónusuario y su situación› “Context is any information that can be used to

characterise the situation of an entity. An entity i l bj t th t i id d is a person, place, or object that is considered relevant to the interaction between a user and an application, including the user and

li ti th l ”application themselves”Ej.: al movernos cambia el contexto: objetos

d i t ique nos rodean e interacciones› location-aware: si el comportamiento del

sistema depende de la posición de los objetossistema depende de la posición de los objetos

I. INTRODUCCIÓN

Contexto Físico (sensores)› Localización espacio temporal (posición orientación › Localización espacio-temporal (posición, orientación,

velocidad, aceleración)› Características del entorno (temperature, luz, ruido, …)› Actividad (hablando, leyendo, caminando, …) › Recursos próximos› Estado psicológico y fisiológico› Interacción entorno

C t t S i lContexto Social› Agenda, preferencias, planes

Q i h l d d it› Quienes hay alrededor, citas

I. INTRODUCCIÓN

E i d ióEspacio de percepciónDonde está la atención del usuario (<15m)usuario ( 15m)

Espacio de acciónEspacio donde actúa p(<1m)

Principios de diseñoC i idi i d Coincidir espacios de percepción y acciónInterfaz útil, sin distracciónMinimizar dispositivos “instalados” en el usuario

I. INTRODUCCIÓN

Seguimiento de la Seguimiento de la PresenciaPresencia: ¿: ¿Hay alguien Hay alguien Seguimiento de la Seguimiento de la cabezacabezaSeguimiento de la Seguimiento de la miradamirada

PresenciaPresencia: ¿: ¿Hay alguien Hay alguien ahí?ahí?LocalizaciónLocalización: : ¿Dónde ¿Dónde miradamirada

Lectura de labiosLectura de labiosReconocimiento Reconocimiento

LocalizaciónLocalización: : ¿Dónde ¿Dónde están?están?IdentificaciónIdentificación: : ¿Quienes ¿Quienes

facialfacialIdentifiacióndIdentifiaciónd e e expresión facialexpresión facial

son?son?ActividadActividad: : ¿Qué están ¿Qué están haciendo?haciendo?Seguimiento de manosSeguimiento de manosGestos con manosGestos con manos

haciendo?haciendo?

Gestos con manosGestos con manosGestos con brazosGestos con brazos RecRec. de . de

postura/postura/actividadactividadactividadactividad

I. INTRODUCCIÓN

Ejemplo 1: Reconocimiento de cara para puerta de seguridadpara puerta de seguridad

I. INTRODUCCIÓN

Ejemplo 2:”Escritura manual” y reconocimiento de gestosreconocimiento de gestos

I. INTRODUCCIÓN

Ejemplo 2: gestos manuales› Dos tipos de gestos manuales: posición de la Dos tipos de gestos manuales: posición de la

mano, movimiento

Imagen de: www.nada.kth.se/cvap/adstracts/cvap251.htmlI. INTRODUCCIÓN

Ejemplo 3: ”Movimiento de los ojos”A li i t l PC› Aplicaciones para controlar un PC

I. INTRODUCCIÓN

Ejemplo 4: “VirtualScreen”Como una pantalla táctil por p p“control remoto”

Los dedos son el punteroLos dedos son el punteroIdentificación robusta de dedosCalibración automáticaCalibración automáticaGesto para clickConmutación inteligente deConmutación inteligente de comandos

I. INTRODUCCIÓN

Problema similar: Teclado virtual o teclado “sobre el papel” (paper keyboard)

I. INTRODUCCIÓN

Ejemplo 5: control de dispositivos con movimiento

scrolls

zoom in-out

I. INTRODUCCIÓN Imagen de: http://www.ee.oulu.fi/mvg/mvg.php

Ejemplo 5Natural y barato (otros sensores) Natural y barato (otros sensores) Idea: estimar movimiento con camaraintegradaintegrada

I. INTRODUCCIÓN Imagen de: http://www.ee.oulu.fi/mvg/mvg.php

Ejemplo 6: CamBall (tenis Ejemplo 6: CamBall (tenis por Internet)› Raquetas reales con › Raquetas reales, con

marcador reconocible› Bola mesa y red virtuales› Bola, mesa y red virtuales› Imagen del contrario› Audiencia en Internet› Audiencia en Internet

I. INTRODUCCIÓN

Ejemplo 7: Tangible UIs -A t d Augmented Reality› Base de datos y

estructura física(Smart wall)(Smart wall)

Imagen de http://hcc.cc.gatech.edu/I. INTRODUCCIÓN

Facilita Interfaz natural› Visión artificial, procesado de texto

Imagen de http://hcc.cc.gatech.edu/I. INTRODUCCIÓN

Ejemplo 8: RealidadAumentada: “Archeo Guide”› reconstruir

monumentos y facilitar información

I. INTRODUCCIÓN

Detección de objetosd ifi ió d bjIdentificación de objetosSeguimiento de objetosg jReconocimiento de actividadesC lib ió d íd f ió Calibración de vídeo, fusión sensoresRealidad Aumentada

II. ELEMENTOS VISIÓN

ModeloModelo GeométricoGeométrico IU de IU de ApliacionesApliaciones

A áli iA áli iAnálisisAnálisis

SensoresSensores ActuadoresActuadores

MundoMundo RealRealII. ELEMENTOS VISIÓN Imagen de http://research.microsoft.com/easyliving/

Problema 1: ¿Hay objetos de interés? ¿Cuantos? DETECCIÓN¿Cuantos? DETECCIÓNProblema 2: ¿Donde están?

ÓSEGMENTACIÓNDiferentes posibilidadesDiferentes posibilidades

Modelos estadísticos (píxel)Texturas (bloque)Texturas (bloque)Construcción bottom-upBú d t dBúsqueda top-down


Detectar personas en diferentescondicionescondiciones

Detectar y reconocer caras


Razonamiento temporal: MOVIMIENTORazonamiento temporal: MOVIMIENTO

• Número y tipo de objetos

• Posición velocidadSecuencia

E t d

Salida

Si t ti d

SEGUIMIENTO DE OBJETOS

Í • Posición, velocidad, forma, etc.

Entrada SintetizadaSOBRE VÍDEO

tiempo


Continuidad de los objetosContinuidad de los objetos

DetecciónDetecciónImagenImagen crudacruda

DetecciónDetección(con color)(con color)

Blobs Blobs CandidatosCandidatos

Blobs Blobs identificadosidentificados


MúltiplesMúltiples CámarasCámaras móvilesmóviles: : MúltiplesMúltiples CámarasCámaras móvilesmóviles: : coordinacióncoordinación

29II. ELEMENTOS VISIÓN

Raw Paths

2.5

3

3.5

4

1

1.5

2

SSD vs. Time Shift

0

0.5

-2 -1 0 1 2

Robust Rotation & Translation

500600700800900

erro

r

Robust Rotation & Translation

3

3.5

4

0100200300400

2000 1000 0 1000 2000

SSD

1.5

2

2.5

-2000 -1000 0 1000 2000

shift (milliseconds)

0

0.5

1

-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 Imagen de http://research.microsoft.com/easyliving/

Clasificación y seguimiento qué actividadrealiza el usuario

II. ELEMENTOS VISIÓN Imagen de: http://www.ee.oulu.fi/mvg/mvg.php

Affective computing: maquinas capaces de reconocer y expresar emociones( y p (Rosalind Picard, MIT, 1997 )› a. Recognize/expresar emociones

b ‘T ’ i ?› b. ‘Tener’ emociones ¿?Procesar señales e Imágenes› Voz› Voz› Señales fisiológicas (piel, respiración, pulso,…)› Analisis de video: gestos faciales, postura,

movimientomovimiento,…Inteligencia Artificial› Reconocimiento de patrones/aprendizajep p j

32II. ELEMENTOS VISIÓN

Investigación en describir estado emotivo: Russell’s th f l d l (R ll 1980)theory of arousal and valence (Russell, 1980)

Actividad (Arousal)

ActivaExtasis

Af t (V l )Satisfaccion

Ira

Tensión Afecto (Valence)Tensión

Contención PositivoNegativo

Aburrimiento

ContenciónTristeza

PasivaDepresión

Aburrimiento


Realidad AumentadaRealidad Aumentada› El sistema “aumenta” la escena real› El usuario mantiene la sensación de › El usuario mantiene la sensación de

presencia en el mundo real› Necesita mecanismo para combinar el p

mundo real y el virtualTecnologías soporte› Basadas en Monitor› Basadas en soporte móvil (Optical see-

through)II. ELEMENTOS VISIÓN

Más simple, menosmenossensación de realismorealismo

Inmersión

Feb 4, Spring 2002CS 7497 37

Alinear modelos 3D de objetos con suproyección en la escenaproyección en la escena› Sombras, oclusiones,…Seguir movimiento en el tiempo cuandoSeguir movimiento en el tiempo cuandoel usuario se mueve e interactúa


Aprendizaje y generalizaciónió d ib f ióExtracción de atributos y transformación

Inferencia: secuencias ocultas de Markov en reconocimiento de actividadesactividadesModelos estadísticos: aproximaciones y metodos bayesianosmetodos bayesianos

III. TÉCNICAS

“A di j ” d t i l “Aprendizaje”: determinar los parámetros o estructura de un modelo(probabilistico)(probabilistico)

Ej.: ajustar distribuciones para objetosdetectados en imágenesS i d ( d t th)Supervisado (ground truth)

“Inferencia”: Estimar variables ocultas Inferencia”: Estimar variables ocultas, dadas observaciones– Ej: dada una observación (vídeo) estimarEj: dada una observación (vídeo), estimar

personas y su movimiento

III. TÉCNICAS

Dependencias estadísticas

Variables observadas

Variables no observables

“Aprendizaje”: dependencias yAprendizaje : dependencias, y modelo ( o parámetros).

III. TÉCNICAS

Dependencias estadísticas

Variables observadas y1 y2

Variables no observables x1 x2

“Aprendizaje”: dependencias yAprendizaje : dependencias, y modelo ( o parámetros).“Inferencia”: dado el modelo, y lasobservaciones {y1,y2}, inferir {x1, x2}observaciones {y1,y2}, inferir {x1, x2} (o su distribución)

III. TÉCNICAS

D d d i i d bl i bl X Dado un dominio de problema con variables X1,.., XT queda especificado con su pdf p(X1,.., XT )Si tenemos la pdf completa podemosSi tenemos la pdf completa, podemos› Marginalizar

∑= )(p)p( XXXX› Condicionar

∑≠∈

=ji},T,...,1{i

Ti1j ),,,(p)p( XXXX ……

)p( kj XX

Aprender la distribución conjunta p(X Z) X-inputs )p(

),p()|p(

k

kjkj X

XXXX =

Aprender la distribución conjunta p(X,Z), X inputs, Z-label› Calcular p(Z|X), predecir y tomar el más probable

á› Fácilmente formar Clasificadores, regresores, predictores

III. TÉCNICAS

Paradigma de inducción sobre ejemplosg j p

Casos Positivos/Negativos

Técnicas de Aprendizaje

Atributos Imagen

Operadores de región NegativosAprendizajeImagen de región

Regiones Detectadas

GROUND TRUTH

Gradiente IntensidadFlujo Óptico

Detector BordesRealMódulo Fase

Detectadas

Realmin max µ σ min max µ σ min max µ σ Canny Cornr HPF

16 36 27.7 7.84 2.49 23.79 13.23 6.20 -1.8 -1.0 -1.50 0.21 14 3 16 SÍ16 27 21.3 3.95 5.94 13.10 8.90 2.06 -1.6 1.28 -1.48 0.14 5 0 4 SÍ2 68 43.9 18.63 0.19 3.20 1.34 0.72 -3.0 3.12 0.32 1.65 0 0 0 NO

III. TÉCNICAS

Casos Positivos Casos NegativosCasos Positivos Casos Negativos

III. TÉCNICAS

Imagen de testImagen de test

Contiene el objeto?objeto?

III. TÉCNICAS

Segmentation de imagenes: separar objetos del fondofondoEliminar efectos de iluminación, irregularidad, sombras, etc., maximizando el contrasteEj.: Umbralizado adaptativo: blanco/negro

III. TÉCNICAS

Bordes: pixeles con cambio brusco› Detección mediante analisis de variacion› Detección mediante analisis de variacion

intensidadContornos: cadenas vecindad 8 de Contornos: cadenas vecindad 8 de bordes se conectan en sentido horario› Filtro para dejar lo parecido a forma geometrica (elipse)› Filtro para dejar lo parecido a forma geometrica (elipse)

5

67

4 0

5 7

2 13

III. TÉCNICAS

y yCoordenadas locales cámaras

yx

z

x

y zzy

x

Coordenadas

• Sensores de diferentes tipos• Razonamiento de oclusiónz

globales mundo

• Arquitecturas de fusiónz

Image from http://www.hpl.hp.com/personal/John_MacCormick/WOMOT03/cal.giftalk/page.018.gifIII. TÉCNICAS

Identificar y registrar objeto detectado y su correspondencia con objeto logicosu correspondencia con objeto logico

III. TÉCNICAS

Transf coord: utilización de marcadores

Modelo: secuencias de acciones representadas con máquina de p qestados finitos

Máquina de estados con estado

Transiciones: cadena de Markov oculta. Inferencia: determinar la secuencia más probable, {X1,…,Xi} a

Máquina de estados con estado de persona

Inferencia: determinar la secuencia más probable, {X1,…,Xi} a partir de las observaciones {Y1, …, Yi}

Cadena de Markov Oculta (HMM)III. TÉCNICAS

1) Seguir movimientode personas reunión

2) La información visual 2) La información visual infiere estadosindividuales

3) Estado global de ió ióreunión: agregación

estados individuales

Imagen de http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/coral-1/www/caloIII. TÉCNICAS

Ejemplo de clasificación de

d d

)Z,,Z,Z|,,,(P 01tt01tt −− XXXStandingestado de persona

Los estados de laStand

Los estados de la persona se infieren

Sitting

dinámicamente a partir de la

i d

Sit

secuencia de imágnenes

Sit

Tiempo (segundos)III. TÉCNICAS

Parámetros de actividad: se d ti d d taprenden a partir de datos

grabados de reuniones (etiquetas manualmente) Generalización: determinar

las relaciones significatiavsentre acciones y atributos

Desplazamiento horizontal

Desplazamiento verticalDesplazamiento relativo: relación sobre medias y varianzas de cada clase

III. TÉCNICAS

Alta complejidadAlta complejidadDesilusión Felicidad Desilusión /consuelo

SatisfacciónTristeza Melancolía

56

Imagen de: http://emotion-research.net/projects/humaine/ws/wp3III. TÉCNICAS

III. TÉCNICAS

Form lación Ba esiana del Formulación Bayesiana del seguimiento› Estimar una distribución condicional

)|p( ZZZX ),...,,|p( 11 ZZZX −ttt

Estado en t Secuencia de ImágenesXt: NúNúmero,Posiciones,Formas,VelocidadesVelocidades,…III. TÉCNICAS

Ejemplo de http://www.cs.jhu.edu/~wolff/course600.461/week3.2/sld012.htm

1 1 1: 1 11: p( | ) p(p( | ) ) | )p( | t tt t tt tt t d− − − −∝ ∫ X X X Z XZ XX Z

Predicción

1 1 1: 1 11: p( | ) p(p( | ) ) | )p( | t tt t tt tt t− − − −∫

Distribución del estado a posteriori

Verosimilitud

Predicción a priori

posteriori de observación

D t t í ti )|( IXDos etapas características: se obtiene con y

)|p( :1 tt IX)|p( tt XI )|p( 1−tt XX

III. TÉCNICAS

Mecanismo

PosicionesPosiciones““ZonaZona de de inicializacióninicialización””

Mecanismo

pasadaspasadas

Nueva Nueva ObservaciónObservación

P i ióP i ióPosiciónPosiciónPredichaPredicha

G ti i t tiP di ió l t l hi t i -Gestionar pistas activasPredicción: explota la historia y un modelo previo de movimiento

III. TÉCNICAS

Modelo de procesos lineales y error gausiano:N(X;μ σ): sol subóptima secuncial)|p( :1 tt ZX N(X;μ,σ): sol subóptima secuncial)|p( :1 tt ZX

1. Predicción (modelo)2. Asociación (optim. combinatoria3. Actualización (estimación estadística)III. TÉCNICAS

t j t)|( ZX se representa como un conjuntode partículas:

)|p( :1 tt ZX{( , )}i i

t tπX1tX 2

tX 1Nt−X N

tX...N puntos:p

N pesos: 1π 2π 1Nπ − NπMuestreo del conjunto usando los pesos aproximados para

tπ tπ tπ tπ

p( | )X Zaproximados para 1:p( | ).t tX Z

Imagen de http://www.hpl.hp.com/personal/John_MacCormick/WOMOT03/cal.giftalk/page.018.gifIII. TÉCNICAS

t j t)|( ZX se representa como un conjuntode partículas:

)|p( :1 tt ZX

{( , )}i it tπX

Muestreo del conjunto usando los pesos aproximados para p( | )X Zaproximados para 1:p( | ).t tX Z

III. TÉCNICAS Imagen de http://www.hpl.hp.com/personal/John_MacCormick/WOMOT03/cal.giftalk/page.018.gif

Modelo a velocidad constante:2( | ) ( 0 8 )G +

Modelo de variación de forma11 1 1

2p( | , ) ( 0 8 ). ,t tt tt xx x xG xx σ− −− − = +

12

1 1 10.2(p( | ) ( ,) )t t tt t sss sG s s σ−− − −+ −=

1ts −

0 2( )1ts −

1 1 10.2( )t t ts s s− − −+ −III. TÉCNICAS

Modelo de distribución de la observación (verosimilitud)

T i i D tTraining Data

1 ∑ forekforef

forefpfpf ),(G

K1)0l|zp( τ+Σμ=≠ ∑

backbackGl ΔΣ∑ )(1)0|( backk backbackgk

backgkgg G

Klz τμ +Δ+Σ== ∑ ),()0|p(

III. TÉCNICAS

CamaraCamaraCalibrada

M d l G li d d ili dModelo Generalizado de cilindrosIII. TÉCNICAS

La visión artificial forma parte del cambio esperado en la interacción entre humanos e infraestructuras de información

Interfaces invisibles al humano en entornos inteligentes

Parte de sistemas de monitorización y seguridad: hogar, Parte de sistemas de monitorización y seguridad: hogar, recintos, etc.

Elementos esenciales: detección y extracción de Elementos esenciales: detección y extracción de características, alineamiento, correspondencia, seguir el

i i t i i t d imovimiento, reconocimiento de acciones

Problemas: representación, precisión, ajuste, aprendizaje, eficiencia

III. TÉCNICAS

uimp: sistemas de video en aml

Technology