uimp: sistemas de video en aml
TRANSCRIPT
SANTANDER 2008. Los sistemas de información en la sociedad del siglo XXI: La Información en Función del Contexto. 5 Julio 2008
I. Introducción. Visión Artificial en IUA-AmIII. Vigilancia sobre visión, elementosg
Imagen: detecciónVídeo: seguimientogReconocimiento de actividad, situaciones, gestosCalibración, alineamiento, fusión sensores
III. Algunas técnicas aplicadas. gu as éc cas ap cadasModelos probabilistas en visión artificial: seguimiento y reconocimientog yAprendizaje de parámetros, generalización
I. INTRODUCCIÓN
Computación Ubicua y Móvil
Entornos InteligentesEntornos Inteligentes y Cooperativos
I. INTRODUCCIÓN
Aprovechar tecnologícas de procesado comunicaciónAprovechar tecnologícas de procesado, comunicación y visualización
Las técnicas existentes de HCI (Human-Computer Interaction) d ll d b t ll i ipueden ser un cuello de botella en nuevos servicios
El uso de gestos proporciona alternativas a interfacesEl uso de gestos proporciona alternativas a interfaces complejas en dispositivos de HCI
La interpretación de gestos permitirá facilidad y natuarlidadp g p y
La cámara sería un sensor ideal si fuera fiableMáxima cantidad de datos, no precisa llevar nada encimaL i ió tifi i l “ i” fi i t t bLa visión artificial “casi” es suficientemente buena
I. INTRODUCCIÓN
CienciaCienciapercepciónconocimientoconocimientocomportamiento
Aplicacionesdiseño servicios orientados al usuario (user-centric)
Ingeniería eIngenieríaInterfaces de audioInterfaces táctiles
Cos
te
Interfaces de visión artificialNuevos conceptos en software inteligente y adaptativo
Complejidad Interfaz U iinteligente y adaptativo Usuario
I. INTRODUCCIÓN
Un punto clave de los entornos de Inteligencia Ambiental es que deben aprender y Ambiental es que deben aprender y mantenerse actualizados de forma autónoma› Construye incrementalmente modelos dinámicos del › Construye incrementalmente modelos dinámicos del
entorno y configura sus serviciosInteligenciag› Consciente (“awareness”): el sistema analiza el
contexto, se adapta a los usuarios que lo habitan, y d ti d t i taprende a partir de su comportamiento
› Adaptable: aprende acerca del entorno y de los usuarios con objeto de mejorar sus funcionamientousuarios con objeto de mejorar sus funcionamiento
I. INTRODUCCIÓN
Cualquier información que caracterize al usuario y su situaciónusuario y su situación› “Context is any information that can be used to
characterise the situation of an entity. An entity i l bj t th t i id d is a person, place, or object that is considered relevant to the interaction between a user and an application, including the user and
li ti th l ”application themselves”Ej.: al movernos cambia el contexto: objetos
d i t ique nos rodean e interacciones› location-aware: si el comportamiento del
sistema depende de la posición de los objetossistema depende de la posición de los objetos
I. INTRODUCCIÓN
Contexto Físico (sensores)› Localización espacio temporal (posición orientación › Localización espacio-temporal (posición, orientación,
velocidad, aceleración)› Características del entorno (temperature, luz, ruido, …)› Actividad (hablando, leyendo, caminando, …) › Recursos próximos› Estado psicológico y fisiológico› Interacción entorno
C t t S i lContexto Social› Agenda, preferencias, planes
Q i h l d d it› Quienes hay alrededor, citas
I. INTRODUCCIÓN
E i d ióEspacio de percepciónDonde está la atención del usuario (<15m)usuario ( 15m)
Espacio de acciónEspacio donde actúa p(<1m)
Principios de diseñoC i idi i d Coincidir espacios de percepción y acciónInterfaz útil, sin distracciónMinimizar dispositivos “instalados” en el usuario
I. INTRODUCCIÓN
Seguimiento de la Seguimiento de la PresenciaPresencia: ¿: ¿Hay alguien Hay alguien Seguimiento de la Seguimiento de la cabezacabezaSeguimiento de la Seguimiento de la miradamirada
PresenciaPresencia: ¿: ¿Hay alguien Hay alguien ahí?ahí?LocalizaciónLocalización: : ¿Dónde ¿Dónde miradamirada
Lectura de labiosLectura de labiosReconocimiento Reconocimiento
LocalizaciónLocalización: : ¿Dónde ¿Dónde están?están?IdentificaciónIdentificación: : ¿Quienes ¿Quienes
facialfacialIdentifiacióndIdentifiaciónd e e expresión facialexpresión facial
son?son?ActividadActividad: : ¿Qué están ¿Qué están haciendo?haciendo?Seguimiento de manosSeguimiento de manosGestos con manosGestos con manos
haciendo?haciendo?
Gestos con manosGestos con manosGestos con brazosGestos con brazos RecRec. de . de
postura/postura/actividadactividadactividadactividad
I. INTRODUCCIÓN
Ejemplo 1: Reconocimiento de cara para puerta de seguridadpara puerta de seguridad
I. INTRODUCCIÓN
Ejemplo 2:”Escritura manual” y reconocimiento de gestosreconocimiento de gestos
I. INTRODUCCIÓN
Ejemplo 2: gestos manuales› Dos tipos de gestos manuales: posición de la Dos tipos de gestos manuales: posición de la
mano, movimiento
Imagen de: www.nada.kth.se/cvap/adstracts/cvap251.htmlI. INTRODUCCIÓN
Ejemplo 3: ”Movimiento de los ojos”A li i t l PC› Aplicaciones para controlar un PC
I. INTRODUCCIÓN
Ejemplo 4: “VirtualScreen”Como una pantalla táctil por p p“control remoto”
Los dedos son el punteroLos dedos son el punteroIdentificación robusta de dedosCalibración automáticaCalibración automáticaGesto para clickConmutación inteligente deConmutación inteligente de comandos
I. INTRODUCCIÓN
Problema similar: Teclado virtual o teclado “sobre el papel” (paper keyboard)
I. INTRODUCCIÓN
Ejemplo 5: control de dispositivos con movimiento
scrolls
zoom in-out
I. INTRODUCCIÓN Imagen de: http://www.ee.oulu.fi/mvg/mvg.php
Ejemplo 5Natural y barato (otros sensores) Natural y barato (otros sensores) Idea: estimar movimiento con camaraintegradaintegrada
I. INTRODUCCIÓN Imagen de: http://www.ee.oulu.fi/mvg/mvg.php
Ejemplo 6: CamBall (tenis Ejemplo 6: CamBall (tenis por Internet)› Raquetas reales con › Raquetas reales, con
marcador reconocible› Bola mesa y red virtuales› Bola, mesa y red virtuales› Imagen del contrario› Audiencia en Internet› Audiencia en Internet
I. INTRODUCCIÓN
Ejemplo 7: Tangible UIs -A t d Augmented Reality› Base de datos y
estructura física(Smart wall)(Smart wall)
Imagen de http://hcc.cc.gatech.edu/I. INTRODUCCIÓN
Facilita Interfaz natural› Visión artificial, procesado de texto
Imagen de http://hcc.cc.gatech.edu/I. INTRODUCCIÓN
Ejemplo 8: RealidadAumentada: “Archeo Guide”› reconstruir
monumentos y facilitar información
I. INTRODUCCIÓN
Detección de objetosd ifi ió d bjIdentificación de objetosSeguimiento de objetosg jReconocimiento de actividadesC lib ió d íd f ió Calibración de vídeo, fusión sensoresRealidad Aumentada
II. ELEMENTOS VISIÓN
ModeloModelo GeométricoGeométrico IU de IU de ApliacionesApliaciones
A áli iA áli iAnálisisAnálisis
SensoresSensores ActuadoresActuadores
MundoMundo RealRealII. ELEMENTOS VISIÓN Imagen de http://research.microsoft.com/easyliving/
Problema 1: ¿Hay objetos de interés? ¿Cuantos? DETECCIÓN¿Cuantos? DETECCIÓNProblema 2: ¿Donde están?
ÓSEGMENTACIÓNDiferentes posibilidadesDiferentes posibilidades
Modelos estadísticos (píxel)Texturas (bloque)Texturas (bloque)Construcción bottom-upBú d t dBúsqueda top-down
II. ELEMENTOS VISIÓN
Detectar personas en diferentescondicionescondiciones
Detectar y reconocer caras
II. ELEMENTOS VISIÓN
Razonamiento temporal: MOVIMIENTORazonamiento temporal: MOVIMIENTO
• Número y tipo de objetos
• Posición velocidadSecuencia
E t d
Salida
Si t ti d
SEGUIMIENTO DE OBJETOS
Í • Posición, velocidad, forma, etc.
Entrada SintetizadaSOBRE VÍDEO
tiempo
II. ELEMENTOS VISIÓN
Continuidad de los objetosContinuidad de los objetos
DetecciónDetecciónImagenImagen crudacruda
DetecciónDetección(con color)(con color)
Blobs Blobs CandidatosCandidatos
Blobs Blobs identificadosidentificados
II. ELEMENTOS VISIÓN
MúltiplesMúltiples CámarasCámaras móvilesmóviles: : MúltiplesMúltiples CámarasCámaras móvilesmóviles: : coordinacióncoordinación
29II. ELEMENTOS VISIÓN
Raw Paths
2.5
3
3.5
4
1
1.5
2
SSD vs. Time Shift
0
0.5
-2 -1 0 1 2
Robust Rotation & Translation
500600700800900
erro
r
Robust Rotation & Translation
3
3.5
4
0100200300400
2000 1000 0 1000 2000
SSD
1.5
2
2.5
-2000 -1000 0 1000 2000
shift (milliseconds)
0
0.5
1
-2 -1.5 -1 -0.5 0 0.5 1 1.5 2 Imagen de http://research.microsoft.com/easyliving/
Clasificación y seguimiento qué actividadrealiza el usuario
II. ELEMENTOS VISIÓN Imagen de: http://www.ee.oulu.fi/mvg/mvg.php
Affective computing: maquinas capaces de reconocer y expresar emociones( y p (Rosalind Picard, MIT, 1997 )› a. Recognize/expresar emociones
b ‘T ’ i ?› b. ‘Tener’ emociones ¿?Procesar señales e Imágenes› Voz› Voz› Señales fisiológicas (piel, respiración, pulso,…)› Analisis de video: gestos faciales, postura,
movimientomovimiento,…Inteligencia Artificial› Reconocimiento de patrones/aprendizajep p j
32II. ELEMENTOS VISIÓN
II. ELEMENTOS VISIÓN
Investigación en describir estado emotivo: Russell’s th f l d l (R ll 1980)theory of arousal and valence (Russell, 1980)
Actividad (Arousal)
ActivaExtasis
Af t (V l )Satisfaccion
Ira
Tensión Afecto (Valence)Tensión
Contención PositivoNegativo
Aburrimiento
ContenciónTristeza
PasivaDepresión
Aburrimiento
II. ELEMENTOS VISIÓN
Realidad AumentadaRealidad Aumentada› El sistema “aumenta” la escena real› El usuario mantiene la sensación de › El usuario mantiene la sensación de
presencia en el mundo real› Necesita mecanismo para combinar el p
mundo real y el virtualTecnologías soporte› Basadas en Monitor› Basadas en soporte móvil (Optical see-
through)II. ELEMENTOS VISIÓN
Más simple, menosmenossensación de realismorealismo
Inmersión
Feb 4, Spring 2002CS 7497 37
Alinear modelos 3D de objetos con suproyección en la escenaproyección en la escena› Sombras, oclusiones,…Seguir movimiento en el tiempo cuandoSeguir movimiento en el tiempo cuandoel usuario se mueve e interactúa
II. ELEMENTOS VISIÓN
Aprendizaje y generalizaciónió d ib f ióExtracción de atributos y transformación
Inferencia: secuencias ocultas de Markov en reconocimiento de actividadesactividadesModelos estadísticos: aproximaciones y metodos bayesianosmetodos bayesianos
III. TÉCNICAS
“A di j ” d t i l “Aprendizaje”: determinar los parámetros o estructura de un modelo(probabilistico)(probabilistico)
Ej.: ajustar distribuciones para objetosdetectados en imágenesS i d ( d t th)Supervisado (ground truth)
“Inferencia”: Estimar variables ocultas Inferencia”: Estimar variables ocultas, dadas observaciones– Ej: dada una observación (vídeo) estimarEj: dada una observación (vídeo), estimar
personas y su movimiento
III. TÉCNICAS
Dependencias estadísticas
Variables observadas
Variables no observables
“Aprendizaje”: dependencias yAprendizaje : dependencias, y modelo ( o parámetros).
III. TÉCNICAS
Dependencias estadísticas
Variables observadas y1 y2
Variables no observables x1 x2
“Aprendizaje”: dependencias yAprendizaje : dependencias, y modelo ( o parámetros).“Inferencia”: dado el modelo, y lasobservaciones {y1,y2}, inferir {x1, x2}observaciones {y1,y2}, inferir {x1, x2} (o su distribución)
III. TÉCNICAS
D d d i i d bl i bl X Dado un dominio de problema con variables X1,.., XT queda especificado con su pdf p(X1,.., XT )Si tenemos la pdf completa podemosSi tenemos la pdf completa, podemos› Marginalizar
∑= )(p)p( XXXX› Condicionar
∑≠∈
=ji},T,...,1{i
Ti1j ),,,(p)p( XXXX ……
)p( kj XX
Aprender la distribución conjunta p(X Z) X-inputs )p(
),p()|p(
k
kjkj X
XXXX =
Aprender la distribución conjunta p(X,Z), X inputs, Z-label› Calcular p(Z|X), predecir y tomar el más probable
á› Fácilmente formar Clasificadores, regresores, predictores
III. TÉCNICAS
Paradigma de inducción sobre ejemplosg j p
Casos Positivos/Negativos
Técnicas de Aprendizaje
Atributos Imagen
Operadores de región NegativosAprendizajeImagen de región
Regiones Detectadas
GROUND TRUTH
Gradiente IntensidadFlujo Óptico
Detector BordesRealMódulo Fase
Detectadas
Realmin max µ σ min max µ σ min max µ σ Canny Cornr HPF
16 36 27.7 7.84 2.49 23.79 13.23 6.20 -1.8 -1.0 -1.50 0.21 14 3 16 SÍ16 27 21.3 3.95 5.94 13.10 8.90 2.06 -1.6 1.28 -1.48 0.14 5 0 4 SÍ2 68 43.9 18.63 0.19 3.20 1.34 0.72 -3.0 3.12 0.32 1.65 0 0 0 NO
III. TÉCNICAS
Casos Positivos Casos NegativosCasos Positivos Casos Negativos
III. TÉCNICAS
Imagen de testImagen de test
Contiene el objeto?objeto?
III. TÉCNICAS
Segmentation de imagenes: separar objetos del fondofondoEliminar efectos de iluminación, irregularidad, sombras, etc., maximizando el contrasteEj.: Umbralizado adaptativo: blanco/negro
III. TÉCNICAS
Bordes: pixeles con cambio brusco› Detección mediante analisis de variacion› Detección mediante analisis de variacion
intensidadContornos: cadenas vecindad 8 de Contornos: cadenas vecindad 8 de bordes se conectan en sentido horario› Filtro para dejar lo parecido a forma geometrica (elipse)› Filtro para dejar lo parecido a forma geometrica (elipse)
5
67
4 0
5 7
2 13
III. TÉCNICAS
y yCoordenadas locales cámaras
yx
z
x
y zzy
x
Coordenadas
• Sensores de diferentes tipos• Razonamiento de oclusiónz
globales mundo
• Arquitecturas de fusiónz
Image from http://www.hpl.hp.com/personal/John_MacCormick/WOMOT03/cal.giftalk/page.018.gifIII. TÉCNICAS
Identificar y registrar objeto detectado y su correspondencia con objeto logicosu correspondencia con objeto logico
III. TÉCNICAS
Transf coord: utilización de marcadores
Modelo: secuencias de acciones representadas con máquina de p qestados finitos
Máquina de estados con estado
Transiciones: cadena de Markov oculta. Inferencia: determinar la secuencia más probable, {X1,…,Xi} a
Máquina de estados con estado de persona
Inferencia: determinar la secuencia más probable, {X1,…,Xi} a partir de las observaciones {Y1, …, Yi}
Cadena de Markov Oculta (HMM)III. TÉCNICAS
1) Seguir movimientode personas reunión
2) La información visual 2) La información visual infiere estadosindividuales
3) Estado global de ió ióreunión: agregación
estados individuales
Imagen de http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/coral-1/www/caloIII. TÉCNICAS
Ejemplo de clasificación de
d d
)Z,,Z,Z|,,,(P 01tt01tt −− XXXStandingestado de persona
Los estados de laStand
Los estados de la persona se infieren
Sitting
dinámicamente a partir de la
i d
Sit
secuencia de imágnenes
Sit
Tiempo (segundos)III. TÉCNICAS
Parámetros de actividad: se d ti d d taprenden a partir de datos
grabados de reuniones (etiquetas manualmente) Generalización: determinar
las relaciones significatiavsentre acciones y atributos
Desplazamiento horizontal
Desplazamiento verticalDesplazamiento relativo: relación sobre medias y varianzas de cada clase
III. TÉCNICAS
Alta complejidadAlta complejidadDesilusión Felicidad Desilusión /consuelo
SatisfacciónTristeza Melancolía
56
Imagen de: http://emotion-research.net/projects/humaine/ws/wp3III. TÉCNICAS
III. TÉCNICAS
III. TÉCNICAS
III. TÉCNICAS
III. TÉCNICAS
Form lación Ba esiana del Formulación Bayesiana del seguimiento› Estimar una distribución condicional
)|p( ZZZX ),...,,|p( 11 ZZZX −ttt
Estado en t Secuencia de ImágenesXt: NúNúmero,Posiciones,Formas,VelocidadesVelocidades,…III. TÉCNICAS
Ejemplo de http://www.cs.jhu.edu/~wolff/course600.461/week3.2/sld012.htm
1 1 1: 1 11: p( | ) p(p( | ) ) | )p( | t tt t tt tt t d− − − −∝ ∫ X X X Z XZ XX Z
Predicción
1 1 1: 1 11: p( | ) p(p( | ) ) | )p( | t tt t tt tt t− − − −∫
Distribución del estado a posteriori
Verosimilitud
Predicción a priori
posteriori de observación
D t t í ti )|( IXDos etapas características: se obtiene con y
)|p( :1 tt IX)|p( tt XI )|p( 1−tt XX
III. TÉCNICAS
Mecanismo
PosicionesPosiciones““ZonaZona de de inicializacióninicialización””
Mecanismo
pasadaspasadas
Nueva Nueva ObservaciónObservación
P i ióP i ióPosiciónPosiciónPredichaPredicha
G ti i t tiP di ió l t l hi t i -Gestionar pistas activasPredicción: explota la historia y un modelo previo de movimiento
III. TÉCNICAS
Modelo de procesos lineales y error gausiano:N(X;μ σ): sol subóptima secuncial)|p( :1 tt ZX N(X;μ,σ): sol subóptima secuncial)|p( :1 tt ZX
1. Predicción (modelo)2. Asociación (optim. combinatoria3. Actualización (estimación estadística)III. TÉCNICAS
t j t)|( ZX se representa como un conjuntode partículas:
)|p( :1 tt ZX{( , )}i i
t tπX1tX 2
tX 1Nt−X N
tX...N puntos:p
N pesos: 1π 2π 1Nπ − NπMuestreo del conjunto usando los pesos aproximados para
tπ tπ tπ tπ
p( | )X Zaproximados para 1:p( | ).t tX Z
Imagen de http://www.hpl.hp.com/personal/John_MacCormick/WOMOT03/cal.giftalk/page.018.gifIII. TÉCNICAS
t j t)|( ZX se representa como un conjuntode partículas:
)|p( :1 tt ZX
{( , )}i it tπX
Muestreo del conjunto usando los pesos aproximados para p( | )X Zaproximados para 1:p( | ).t tX Z
III. TÉCNICAS Imagen de http://www.hpl.hp.com/personal/John_MacCormick/WOMOT03/cal.giftalk/page.018.gif
Modelo a velocidad constante:2( | ) ( 0 8 )G +
Modelo de variación de forma11 1 1
2p( | , ) ( 0 8 ). ,t tt tt xx x xG xx σ− −− − = +
12
1 1 10.2(p( | ) ( ,) )t t tt t sss sG s s σ−− − −+ −=
1ts −
0 2( )1ts −
1 1 10.2( )t t ts s s− − −+ −III. TÉCNICAS
Modelo de distribución de la observación (verosimilitud)
T i i D tTraining Data
1 ∑ forekforef
forefpfpf ),(G
K1)0l|zp( τ+Σμ=≠ ∑
backbackGl ΔΣ∑ )(1)0|( backk backbackgk
backgkgg G
Klz τμ +Δ+Σ== ∑ ),()0|p(
III. TÉCNICAS
CamaraCamaraCalibrada
M d l G li d d ili dModelo Generalizado de cilindrosIII. TÉCNICAS
La visión artificial forma parte del cambio esperado en la interacción entre humanos e infraestructuras de información
Interfaces invisibles al humano en entornos inteligentes
Parte de sistemas de monitorización y seguridad: hogar, Parte de sistemas de monitorización y seguridad: hogar, recintos, etc.
Elementos esenciales: detección y extracción de Elementos esenciales: detección y extracción de características, alineamiento, correspondencia, seguir el
i i t i i t d imovimiento, reconocimiento de acciones
Problemas: representación, precisión, ajuste, aprendizaje, eficiencia
III. TÉCNICAS