escuela - uji.eslopeza/papers/1999-phd/tesislopeza99.pdf · escuela sup erior de t ecnolog a y...

206

Upload: ngodung

Post on 19-Mar-2019

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Escuela Superior de Tecnolog��a y Ciencias ExperimentalesDepartamento de Inform�aticaT�ecnicas de Visi�on Estereosc�opica basadas en Regionespara la Obtenci�on de Representaciones 3D de la Escena

TESIS DOCTORALpresentada porM. �Angeles L�OPEZ MALOdirigida porFiliberto PLA BA~N�ONCastell�on, Septiembre de 1999

Page 2: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc
Page 3: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

A Pepe

Page 4: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc
Page 5: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

ResumenLa visi�on estereosc�opica engloba un amplio abanico de t�ecnicas para la correspon-dencia y la reconstrucci�on tridimensional. Las t�ecnicas basadas en regiones son escasasen la literatura comparadas con las t�ecnicas basadas en segmentos de los bordes, o last�ecnicas basadas en �areas. Esto es debido fundamentalmente a que los resultados de losm�etodos de segmentaci�on var��an mucho de una imagen a otra, lo que hace m�as dif��cil elemparejamiento de regiones.En esta tesis se abordan estos problemas generados por las diferencias en la segmen-taci�on de ambas im�agenes del par est�ereo mediante dos t�ecnicas distintas. La primeraes una t�ecnica cl�asica basada en grafos, de la que existen numerosas aplicaciones en laliteratura, a la que se ha a~nadido un preproceso, tambi�en basado en grafos, para resolverlos problemas de la segmentaci�on. La segunda es una nueva t�ecnica de correspondenciaen la que s�olo se segmenta una de las dos im�agenes, y se buscan las correspondenciasen la otra imagen bas�andose en la minimizaci�on de una funci�on de energ��a y aplicandociertas restricciones sobre la profundidad de las regiones. En esta t�ecnica, las correspon-dencias, la reconstrucci�on tridimensional y las oclusiones se obtienen en un solo procesocooperativo.Palabras clave: visi�on estereosc�opica, segmentaci�on, correspondencia, reconstruc-ci�on 3D, detecci�on de oclusiones, correlaci�on, grafo de asociaci�on, clique m�aximo, mini-mizaci�on de una funci�on de energ��a.AbstractStereoscopic vision includes a wide range of techniques for correspondence and three-dimensional reconstruction. Region-based techniques have been hardly addressed in theliterature compared with edge-based techniques or area-based techniques. This is duemainly to the fact that the results of segmentation methods vary signi�cantly from oneimage to another, which makes the matching of regions more di�cult.In this thesis, the problems generated by the di�erences in segmentation from bothimages of the stereo pair are faced by means of two di�erent techniques. First, we usea classic graph-based technique, widely used in the literature, where we add a new pre-process stage, which is a graph-based step, in order to solve the segmentation problems.

Page 6: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Second, we present a novel matching technique where only one of the images is segmen-ted, and correspondences are searched in the other image by means of the minimizationof an energy function and the application of some constraints on the depth of the regions.In this technique, correspondences, three-dimensional reconstruction and occlusions areobtained in an only cooperative process.Keywords: stereoscopic vision, segmentation, correspondence, 3D reconstruction,occlusion detection, correlation, association graph, maximal clique, minimization of anenergy function.

Page 7: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

AgradecimientosQuisiera poder agradecer a todas las personas que me han ayudado, acompa~nado, aten-dido y animado a lo largo de los a~nos que ha llevado la elaboraci�on de esta tesis doctoralen la misma medida en que yo he recibido su apoyo, pero el material y el tiempo con elque cuento es ��n�mo comparado con todo lo que tengo que decir. As�� pues, sirva estap�agina como peque~no e incompleto resumen de mi gratitud a todas estas personas.En primer lugar, a mis padres, por su apoyo y por ser el seno donde naci�o mi a�ci�onpor el estudio. A mi hermana Marisa, por ser mi mejor amiga. A Laura y Alberto, y atoda mi familia, por ense~narme tantas cosas.A mis amigos, Isabel, Pedro, Maribel, Rafa, Luis, Gloria, Antonio, Mar, Nuria, Jose,Naly, Germ�an, Feli, Inma, Merche, Carlos, Germ�an, Bel�en, Cristina, Miguel, Ma Jos�e,Gloria V., Juan, Susan, Pablo, Christine, Jose Manuel, V��ctor... y un largo etc�etera, porlas tertulias, por los paseos, por sus consejos, por sus �animos, por ser quienes son, ende�nitiva, por su amistad.A Filiberto Pla, por ser mi director de tesis, por sus valiosos consejos y por guiarmeen el arduo aprendizaje de la investigaci�on. A mis compa~neros del Grupo de Visi�on porOrdenador, por el trabajo en grupo y por hacer m�as f�acil el d��a a d��a.A todos los miembros del Departamento de Inform�atica de la Universitat Jaume I, enlos que siempre he encontrado colaboraci�on y compa~nerismo. A Tico Cervera y VicentPalmer, del Departamento de Matem�aticas, por su paciencia y sus respuestas a mispreguntas. A Angel P. del Pobil, investigador principal del proyecto TAP95-0710, porproporcionarme el marco en el que se inscribe el trabajo de esta tesis. A la CYCIT,Ministerio de Educaci�on y Ciencia, por �nanciar el proyecto.A los miembros del proyecto ROBOTVIS del INRIA, Sophia Antipolis (Francia), porsu c�alida acogida durante 8 meses repartidos en los a~nos 1996 y 1997, por comprender misdi�cultades con el idioma, por las valiosas charlas cient���cas, y por proprocionarme unextraordinario ambiente de trabajo. A Soraya, Stephane, Robert, Ma Cristina, Jerome,Marie Cecile, Andr�es, Zorabelia, C�esar, Elisabeth, Tania, y tantos otros, por su amistad.Al Dr. Olivier Faugeras, director de ROBOTVIS, por aceptarme en su proyecto, porfacilitarme el acceso a la extens��sima biblioteca y el material necesario, y por sus valiosassugerencias. A la Fundaci�o Caixa Castell�o, por �nanciar las estancias.i

Page 8: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

ii A los desarrolladores de TarjetJr, por proporcionarme un software que, aunque to-dav��a en desarrollo, podr��a llegar a ser una plataforma de intercambio cient���co en visi�onpor ordenador, y especialmente a Peter Vanroose, por buscar soluciones a los m�ultiplesproblemas de instalaci�on. A los Drs. Rachid Deriche, Luc Robert y Theo Papadopoulos,por su accesibilidad y sus interesant��simas conversaciones. Y en especial, al Dr. MichaelBrady, por contagiarme su inconsumible entusiasmo por la investigaci�on.A todos los investigadores e investigadoras que han contribuido a que la visi�on este-reosc�opica sea hoy una l��nea abierta de investigaci�on, por sus contribuciones a la ciencia,y en particular, por mostrarme en sus escritos este fant�astico mundo.Y �nalmente, a Pepe, a quien dedico este trabajo, por absolutamente todo.Angeles L�opez,Septiembre 1999.

Page 9: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

�Indice GeneralNotaci�on y Lista de S��mbolos xv1 Introducci�on 11.1 Objetivos de la presente tesis . . . . . . . . . . . . . . . . . . . . . . . . . 21.2 Organizaci�on de este documento . . . . . . . . . . . . . . . . . . . . . . . 32 Estado del arte 52.1 Geometr��a de un sistema de visi�on estereosc�opico . . . . . . . . . . . . . . 62.1.1 El modelo de c�amara . . . . . . . . . . . . . . . . . . . . . . . . . . 72.1.2 Sistemas de coordenadas y matriz de proyecci�on . . . . . . . . . . 72.1.3 Geometr��a epipolar . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.2 El problema de la correspondencia . . . . . . . . . . . . . . . . . . . . . . 102.2.1 Introducci�on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.2.2 Restricciones de un sistema de visi�on estereosc�opico . . . . . . . . 112.2.3 Clasi�caci�on de las t�ecnicas de correspondencia est�ereo . . . . . . . 152.2.4 M�etodos basados en correlaci�on . . . . . . . . . . . . . . . . . . . . 162.2.5 M�etodos basados en programaci�on din�amica . . . . . . . . . . . . . 232.2.6 M�etodos basados en relajaci�on . . . . . . . . . . . . . . . . . . . . 252.2.7 M�etodos basados en grafos . . . . . . . . . . . . . . . . . . . . . . 262.2.8 Correspondencia de regiones . . . . . . . . . . . . . . . . . . . . . . 282.2.9 Reconstrucci�on de la escena a partir de datos de rango . . . . . . . 312.3 Discusi�on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

iii

Page 10: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

iv �INDICE GENERAL3 Correspondencia de regiones basada en grafos 353.1 Introducci�on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353.1.1 Trabajo previo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.1.2 Motivaci�on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393.1.3 Aportaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423.2 El problema de los errores en la segmentaci�on . . . . . . . . . . . . . . . . 433.2.1 El grafo de asociaci�on de incompatibilidades . . . . . . . . . . . . . 433.3 El criterio de similitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.3.1 Requisitos del criterio de similitud . . . . . . . . . . . . . . . . . . 463.3.2 Coe�ciente de correlaci�on . . . . . . . . . . . . . . . . . . . . . . . 473.3.3 Normalizaci�on del coe�ciente de correlaci�on . . . . . . . . . . . . . 493.3.4 Coe�ciente de coincidencia . . . . . . . . . . . . . . . . . . . . . . 503.3.5 Pesos de los arcos del grafo de asociaci�on . . . . . . . . . . . . . . 523.4 Algoritmo de la etapa de preproceso . . . . . . . . . . . . . . . . . . . . . 523.4.1 Mejoras en la e�ciencia . . . . . . . . . . . . . . . . . . . . . . . . 533.5 Un algoritmo sub�optimo para la b�usqueda del mejor clique m�aximo . . . . 563.6 Resultados experimentales . . . . . . . . . . . . . . . . . . . . . . . . . . . 573.6.1 Respuesta a diferentes m�etodos de segmentaci�on . . . . . . . . . . 573.6.2 Complejidad computacional . . . . . . . . . . . . . . . . . . . . . . 623.6.3 Evaluaci�on de la in uencia del ruido . . . . . . . . . . . . . . . . . 673.7 Discusi�on y conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 694 Correspondencia de regiones basada en minimizaci�on de energ��a 734.1 Introducci�on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 734.1.1 Planteamiento del problema . . . . . . . . . . . . . . . . . . . . . . 744.1.2 Aportaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 784.2 Restricciones del proceso de correspondencia . . . . . . . . . . . . . . . . 794.2.1 Restricci�on epipolar . . . . . . . . . . . . . . . . . . . . . . . . . . 794.2.2 Restricci�on de profundidad (o de disparidad) . . . . . . . . . . . . 804.2.3 Restricci�on de continuidad de la �gura . . . . . . . . . . . . . . . . 804.2.4 Restricci�on de orden . . . . . . . . . . . . . . . . . . . . . . . . . . 804.3 La funci�on de energ��a . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

Page 11: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

�INDICE GENERAL v4.3.1 Diferencia con las t�ecnicas cl�asicas basadas en �areas . . . . . . . . 834.4 Escenas con super�cies planas fronto-paralelas . . . . . . . . . . . . . . . . 844.4.1 Restricci�on de profundidad constante dentro de una regi�on . . . . 844.4.2 C�alculo de la derivada de la funci�on de energ��a . . . . . . . . . . . 854.4.3 An�alisis de la derivada de la funci�on de energ��a . . . . . . . . . . . 854.4.4 El algoritmo de correspondencia . . . . . . . . . . . . . . . . . . . 874.4.5 An�alisis de coste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 914.5 Resultados experimentales . . . . . . . . . . . . . . . . . . . . . . . . . . . 934.5.1 Experimentos con im�agenes sint�eticas . . . . . . . . . . . . . . . . 944.5.2 Selecci�on de �dini . . . . . . . . . . . . . . . . . . . . . . . . . . . 954.5.3 Evaluaci�on del esquema multiescala . . . . . . . . . . . . . . . . . 984.5.4 Otros ejemplos sint�eticos . . . . . . . . . . . . . . . . . . . . . . . 1024.5.5 Experimentos con escenas reales . . . . . . . . . . . . . . . . . . . 1054.6 Escenas con super�cies planas . . . . . . . . . . . . . . . . . . . . . . . . . 1084.6.1 Restricci�on de super�cies planas . . . . . . . . . . . . . . . . . . . 1084.6.2 C�alculo de la derivada de la funci�on de energ��a . . . . . . . . . . . 1104.7 Discusi�on y conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1134.A Ap�endice: Derivadas parciales . . . . . . . . . . . . . . . . . . . . . . . . . 1134.A.1 Derivada parcial del punto correspondiente . . . . . . . . . . . . . 1134.A.2 Derivada parcial de la intensidad . . . . . . . . . . . . . . . . . . . 1154.A.3 Derivada parcial de la intensidad media de la regi�on . . . . . . . . 1154.A.4 Derivada parcial de la varianza de la intensidad de la regi�on . . . . 1164.A.5 Derivada parcial de la desviaci�on t��pica de la intensidad . . . . . . 1164.A.6 De�nici�on del gradiente medio ponderado . . . . . . . . . . . . . . 1174.A.7 Derivada parcial de la funci�on de energ��a . . . . . . . . . . . . . . 1174.B Ap�endice: Relaci�on entre incrementos de profundidad y de disparidad . . 1184.C Ap�endice: L��mites de la profundidad . . . . . . . . . . . . . . . . . . . . . 1194.C.1 Incremento de profundidad . . . . . . . . . . . . . . . . . . . . . . 121

Page 12: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

vi �INDICE GENERAL5 Detecci�on de oclusiones 1235.1 Introducci�on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1235.2 Planteamiento del problema . . . . . . . . . . . . . . . . . . . . . . . . . . 1245.3 Algoritmo de correspondencia . . . . . . . . . . . . . . . . . . . . . . . . . 1255.3.1 La tabla de pixeles visitados . . . . . . . . . . . . . . . . . . . . . . 1315.3.2 An�alisis del coste . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1325.4 Resultados experimentales . . . . . . . . . . . . . . . . . . . . . . . . . . . 1345.4.1 Resultados con im�agenes sint�eticas . . . . . . . . . . . . . . . . . . 1345.4.2 Resultados con im�agenes reales . . . . . . . . . . . . . . . . . . . . 1415.5 Discusi�on y conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1456 Conclusiones y l��neas de trabajo futuro 1516.1 Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1516.1.1 Aportaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1526.1.2 Publicaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1546.2 L��neas de trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155A Geometr��a de un sistema de visi�on estereosc�opico 157A.1 La proyecci�on en perspectiva . . . . . . . . . . . . . . . . . . . . . . . . . 157A.1.1 La matriz de proyecci�on . . . . . . . . . . . . . . . . . . . . . . . . 157A.1.2 Par�ametros de calibraci�on . . . . . . . . . . . . . . . . . . . . . . . 160A.2 Geometr��a epipolar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162A.2.1 Geometr��a epipolar paralela . . . . . . . . . . . . . . . . . . . . . . 164A.2.2 De las matrices de proyecci�on a la matriz fundamental . . . . . . . 165A.3 Recti�caci�on de im�agenes . . . . . . . . . . . . . . . . . . . . . . . . . . . 166A.4 Correspondencia sin recti�caci�on . . . . . . . . . . . . . . . . . . . . . . . 167A.4.1 Caso general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168A.4.2 Caso particular de geometr��a paralela . . . . . . . . . . . . . . . . 169

Page 13: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

�Indice de Figuras2.1 El modelo de proyecci�on en perspectiva pinhole . . . . . . . . . . . . . . . 82.2 Geometr��a epipolar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.3 Restricci�on epipolar y restricci�on de disparidad: las l��neas de puntos re-presentan los pares de l��neas epipolares y la zona encuadrada representala zona de b�usqueda del punto correspondiente al pixel m. . . . . . . . . . 122.4 Un ejemplo de violaci�on de la restricci�on de orden: inversi�on del orden delas patas de una silla. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.5 Un ejemplo sencillo de errores en la segmentaci�on. . . . . . . . . . . . . . 283.1 Correspondencia basada en grafo de asociaci�on, sin errores de segmentaci�on. 393.2 Correspondencia basada en grafo de asociaci�on, con errores de segmentaci�on. 413.3 Grafo de asociaci�on de incompatibilidades del ejemplo anterior: las l��neasdiscontinuas corresponden a los arcos rechazados. . . . . . . . . . . . . . . 443.4 El grafo de asociaci�on del ejemplo anterior despu�es de unir las regiones.Los nodos y arcos nuevos est�an resaltados en l��nea m�as gruesa. . . . . . . 463.5 Necesidad de introducci�on de informaci�on sobre el �area intersectada enel criterio de similitud basado en correlaci�on: La disparidad de m�aximacorrelaci�on no es la mejor disparidad. . . . . . . . . . . . . . . . . . . . . . 493.6 Necesidad de introducci�on de informaci�on sobre el �area intersectada en elcriterio de similitud basado en correlaci�on: Un ejemplo de rechazo de launi�on de dos regiones, por ser mayor la correlaci�on de Li con Rj que conRj;k. Deber��a tenerse en cuenta que Rk se puede quedar sin correspondencia. 503.7 Par est�ereo de im�agenes sint�eticas corridor (sin ruido). . . . . . . . . . . . 583.8 Segmentaci�on por uni�on de regiones del ejemplo corridor y regiones uni�onresultantes del algoritmo. . . . . . . . . . . . . . . . . . . . . . . . . . . . 593.9 Mapa de disparidades real y mapa de disparidades obtenido a partir dela mejor disparidad de cada regi�on. . . . . . . . . . . . . . . . . . . . . . . 593.10 Segmentaci�on por agrupamiento de regiones del ejemplo corridor y regio-nes uni�on resultantes del preproceso. . . . . . . . . . . . . . . . . . . . . . 60vii

Page 14: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

viii �INDICE DE FIGURAS3.11 Mapa de disparidades obtenido a partir de la mejor disparidad de cadaregi�on. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 603.12 Resultados de una escena real, el ejemplo parking meter, con segmentaci�onmediante el m�etodo de uni�on de regiones. . . . . . . . . . . . . . . . . . . 613.13 Mapa de disparidades resultante, ejemplo parking meter. . . . . . . . . . . 623.14 Resultados de una escena real, el ejemplo pepsi, con segmentaci�on me-diante el m�etodo de uni�on de regiones. . . . . . . . . . . . . . . . . . . . . 633.15 Resultados de una escena real, el ejemplo textured lamp, con segmentaci�onmediante el m�etodo de uni�on de regiones. . . . . . . . . . . . . . . . . . . 643.16 Resultados de una escena real, el ejemplo lab, con segmentaci�on medianteel m�etodo de uni�on de regiones. . . . . . . . . . . . . . . . . . . . . . . . . 653.17 Crecimiento del tiempo de ejecuci�on respecto al n�umero de nodos consi-derados para encontrar el mejor clique m�aximo. . . . . . . . . . . . . . . . 673.18 Mapas de disparidades y porcentajes de correspondencia del ejemplo co-rridor usando los algoritmos �optimo y sub�optimo (Ts = 0:80). . . . . . . . 683.19 Mapas de disparidades y porcentajes de correspondencia del ejemplo corri-dor con distintos niveles de ruido y el mismo umbral, Ts = 0:40 (algoritmosub�optimo). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 683.20 Efecto del ruido en el porcentaje de correspondencia. . . . . . . . . . . . . 693.21 Relaci�on entre el tama~no del grafo y el porcentaje de correspondencia condistintos niveles de ruido. . . . . . . . . . . . . . . . . . . . . . . . . . . . 704.1 Planteamiento del problema de la correspondencia. . . . . . . . . . . . . . 764.2 Error de similitud entre una regi�on y su regi�on correspondiente en funci�onde la profundidad. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 824.3 C�alculo de la correlaci�on: integraci�on sobre la super�cie. . . . . . . . . . . 844.4 C�alculo de la correlaci�on: interpolaci�on entre los valores de los pixeles. . . 844.5 Esquema multiescala: algoritmo general. . . . . . . . . . . . . . . . . . . . 884.6 Par est�ereo de im�agenes sint�eticas pir�amide. . . . . . . . . . . . . . . . . . 944.7 Mapas de profundidades del ejemplo pir�amide: Las �areas m�as claras co-rresponden a los puntos m�as lejanos. . . . . . . . . . . . . . . . . . . . . . 954.8 Evoluci�on de Fz;8Z, de la regi�on R1 del ejemplo pir�amide. La l��neavertical indica el paso por cero. . . . . . . . . . . . . . . . . . . . . . . . . 964.9 Evoluci�on de Fz;8Z, de la regi�on R0 del ejemplo pir�amide. La l��neavertical indica la profundidad verdadera. . . . . . . . . . . . . . . . . . . . 994.10 Evoluci�on de Fz;8Z, de la regi�on R3 del ejemplo pir�amide. La l��neavertical indica la profundidad verdadera. . . . . . . . . . . . . . . . . . . . 100

Page 15: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

�INDICE DE FIGURAS ix4.11 Evoluci�on de Fz;8Z, de varias regiones del ejemplo pir�amide. La l��neavertical indica la profundidad verdadera. . . . . . . . . . . . . . . . . . . . 1014.12 Evoluci�on de Fz;8Z, de la regi�on R2 del ejemplo pir�amide. La l��neavertical indica la profundidad verdadera. . . . . . . . . . . . . . . . . . . . 1034.13 Resultados para el par de im�agenes sint�eticas corridor, segmentaci�on me-diante la t�ecnica de agrupamiento, �dini = 0:1 y �d� = 0:001. . . . . . . . 1044.14 Resultados para el par de im�agenes sint�eticas corridor, segmentaci�on poruni�on de regiones, con �dini = 0:1 y �d� = 0:001. . . . . . . . . . . . . . 1064.15 Resultados para un par de im�agenes reales, parking meter. . . . . . . . . . 1074.16 Resultados para un par de im�agenes reales, cil0001 y cil0002, del conjuntode im�agenes CIL. De arriba a abajo: im�agenes de referencia, mapas deprofundidades y mapas de disparidades. . . . . . . . . . . . . . . . . . . . 1094.17 Planteamiento del problema: super�cies planas. . . . . . . . . . . . . . . . 1105.1 Planteamiento del problema de la detecci�on de oclusiones. . . . . . . . . . 1245.2 Proceso de correspondencia en cada nivel. . . . . . . . . . . . . . . . . . . 1265.3 Resoluci�on de la tabla de pixeles visitados. . . . . . . . . . . . . . . . . . . 1315.4 Mapas de profundidades, disparidades y oclusiones del par de im�agenespir�amide. El mapa de oclusiones indica el estado �nal de cada pixel:activo (blanco), oculto (negro) y fuera-de-l��mites (gris). . . . . . . . . . . . 1355.5 Evoluci�on de Fz;8Z, de la regi�on R3 del ejemplo pir�amide: Comparaci�onde resultados con y sin detecci�on de oclusiones (1� 1 secciones). . . . . . 1365.6 Evoluci�on de Fz ;8Z, de las regiones R4 y R5 del ejemplo pir�amide condetecci�on de oclusiones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1375.7 Evoluci�on de Fz;8Z, de la regi�on R2 del ejemplo pir�amide, con y sindetecci�on de oclusiones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1385.8 Evoluci�on de Fz ;8Z, de la regi�on R2 del ejemplo pir�amide, con detecci�onde oclusiones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1405.9 Mapas de disparidades del ejemplo corridor, con y sin detecci�on de oclu-siones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1415.10 Mapas de profundidades, disparidades y oclusiones del parking meter. . . 1425.11 De izquierda a derecha: cil0001 y cil0002 del conjunto de im�agenes CIL.De arriba a abajo: imagen de referencia, mapa de profundidades, mapade disparidades y mapa de oclusiones. . . . . . . . . . . . . . . . . . . . . 1445.12 Resultados del par est�ereo despacho. De izquierda a derecha y de arriba aabajo: im�agenes izquierda y derecha, segmentaci�on por uni�on de regiones,y mapas de profundidades, disparidades y oclusiones. . . . . . . . . . . . . 146

Page 16: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

x �INDICE DE FIGURAS5.13 Cinco vistas en 3D del resultado de la reconstrucci�on de la escena despacho.1475.14 Resultados del par est�ereo libros. De izquierda a derecha y de arriba aabajo: im�agenes izquierda y derecha, segmentaci�on por uni�on de regiones,y mapas de profundidades, disparidades y oclusiones. . . . . . . . . . . . . 1485.15 Tres vistas en 3D del resultado de la reconstrucci�on de la escena libros. . . 149A.1 El modelo de proyecci�on en perspectiva pinhole . . . . . . . . . . . . . . . 158A.2 Geometr��a de dos vistas de la escena. . . . . . . . . . . . . . . . . . . . . . 163A.3 Geometr��a epipolar. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163A.4 Geometr��a epipolar paralela. . . . . . . . . . . . . . . . . . . . . . . . . . . 165

Page 17: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

�Indice de Algoritmos4.1 CORRESPONDENCIA1, C�alculo de Z del nivel k, sin detecci�on deoclusiones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 905.1 CORRESPONDENCIA2. C�alculo de Z del nivel k, con detecci�on deoclusiones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1275.2 TRANSFORMAR. Obtener T; S a partir de I2, dada Z. . . . . . . . . 1275.3 INCREMENTAR. Calcular nueva Z dados I1; T; S (iteraci�on t) . . . . 1285.4 CORRESPONDENCIA3. C�alculo de Z del nivel k, con detecci�on deoclusiones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1305.5 INCREMENTAR2. Calcular nueva Z dados I1; T; S (iteraci�on t) . . . 130

xi

Page 18: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

xii �INDICE DE ALGORITMOS

Page 19: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

�Indice de Tablas3.1 Porcentaje de correspondencia para el ejemplo corridor (sin ruido). . . . . 663.2 Porcentaje de correspondencia para el ejemplo corridor (sin ruido), usandoel algoritmo sub�optimo con K = 30. . . . . . . . . . . . . . . . . . . . . . 664.1 Resultados del ejemplo sint�etico pir�amide, �dini = 0:5, �d� = 0:00001. . . 944.2 N�umero de iteraciones en el ejemplo sint�etico pir�amide, con �dini = 0:5,�d� = f0:00001; 0:001g. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 974.3 N�umero de iteraciones en el ejemplo sint�etico pir�amide, �dini = f0:1; 0:01g,�d� = 0:001. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 984.4 Resultados del ejemplo sint�etico pir�amide, �dini = 0:5, �d� = 0:1. . . . . 985.1 Resultados del ejemplo sint�etico pir�amide: comparaci�on del algoritmocon oclusiones con el algoritmo sin oclusiones, �d = 0:5, �d� = 0:001. Zindica profundidad y O indica n�umero de pixeles ocultos. . . . . . . . . . 1345.2 N�umero de iteraciones en el ejemplo sint�etico pir�amide con detecci�on deoclusiones, �d = f0:5; 0:1g, �d� = 0:001. . . . . . . . . . . . . . . . . . . . 1395.3 Tiempos relativos del ejemplo pir�amide con detecci�on de oclusiones, ypar�ametros �d = f0:5; 0:1g, �d� = 0:001. . . . . . . . . . . . . . . . . . . 1395.4 Par�ametros y resultados de correspondencia de los pares de im�agenes CIL. 143

Page 20: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

xiv �INDICE DE TABLAS

Page 21: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Notaci�on y Lista de S��mbolosNotaci�on[a; b] Intervalo continuo de valores[a::b] Intervalo discreto de valoresjDj Si D es un intervalo (continuo o discreto), jDj indica su tama~no.Si D es un conjunto de elementos, jDj indica el cardinal del conjunto.Si D es un escalar, jDj indica su valor absoluto.Sistemas de coordenadas(Xw; Yw; Zw) Sistema de coordenadas del mundo(Xc; Yc; Zc) Sistema de coordenadas de la c�amara(U; V ) Sistema de coordenadas del plano imagen(u; v) Sistema de coordenadas normalizado de la imagen(u0; v0) Origen del sistema de coordenadas del plano imagenS��mbolosLas siguientes tablas presentan los s��mbolos y variables m�as importantes de cada cap��tulo:En todos los cap��tulosI1; I2 Im�agenes del par estereosc�opicoI 0k Primera derivada de la imagen Ik (gradiente de Ik)M Punto en 3Dm;mi;m0;m0i Punto en 2D~M; ~m Puntos M y m en coordenadas homog�eneasP , P 0 Matrices de proyecci�onF Matriz fundamentall0m L��nea epipolar de un pixel m de una imagen en la otra imagenxv

Page 22: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

xvi Notaci�on y Lista de S��mbolosEn todos los cap��tulosC;C 0 Centros �opticos de las c�amarasf Longitud focalb Distancia entre las dos im�agenes de un sistema binocular paralelod DisparidadD Intervalo de disparidades posiblesdmin; dmax Disparidad m��nima y m�axima, respectivamenteZmin; Zmax Profundidad m��nima y m�axima, respectivamenteCap��tulo 2W (m) Vecindario del pixel mN N�umero de pixeles del vecindarioIk(m) Intensidad media del vecindario de m, de la imagen Ik�k(m) Desviaci�on t��pica de la intensidad del vecindario de m, imagen IkCccc(m;m0) Correlaci�on entre el vecindario de m y el de m0 por el criterio cccCap��tulo 3Li; Rj Regiones de la imagen izquierda y derecha, respectivamenteN;M N�umero de regiones en la imagen izquierda y derecha,respectivamenteS(Li; Rj) Similitud entre dos regionesB(Li; Rj ;Lh; Rk) Compatibilidad entre dos emparejamientos de regionesA(Li) N�umero de pixeles de la regi�on LiTs Umbral de similitud m��nima para considerar un par deregiones como una correspondencia posibleL(p;q;:::;t) Uni�on de las regiones Lp, Lq, ... ,Lt.Li;j;d; Ri;j;d Zonas de intersecci�on de las regiones Li, Rj a disparidad d enla imagen izquierda y en la imagen derecha, respectivamente�Li;j;d ; �Ri;j;d Media de intensidad de Li;j;d y Ri;j;d�Li;j;d ; �Ri;j;d Desviaci�on t��pica de la intensidad de Li;j;d y Ri;j;dCccc(Li; Rj ; d) Correlaci�on entre regiones Li y Rj a disparidad d, criterio cccCij(d) Correlaci�on entre regiones Li y Rj a disparidad d normalizadaNij(d); N 0ij(d) Coe�ciente de coincidencia de Li y Rj a disparidad ddij Mejor disparidad entre las regiones Li y RjK N�umero de nodos para la b�usqueda del mejor clique m�aximoen el algoritmo sub�optimo

Page 23: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Notaci�on y Lista de S��mbolos xviiCap��tulos 4 y 5Z Mapa de profundidadesm;mi Pixel de la imagen de referencia, m = (u; v)m0;m0i Pixel correspondiente a m;miR;Ri Regi�on de la imagen de referenciaR0; R0i Regi�on correspondiente a R;Rif12 Funci�on para calcular m0 a partir de m y su profundidadg12 Funci�on para calcular R0 a partir de R y su profundidadFz ; Fp; Fq Derivadas parciales de F respecto a z; p; q�k(R) Intensidad media de la regi�on R de la imagen Ik�k(R) Desviaci�on t��pica de la intensidad de la regi�on R, imagen Ikrij ; r0ij Elementos de la matriz de rotaci�ontk; t0k Elementos de los vectores de traslaci�on, k = x; y; z

Page 24: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

xviii Notaci�on y Lista de S��mbolos

Page 25: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 1Introducci�onEl trabajo de investigaci�on que se presenta en esta tesis se ha llevado a cabo en elGrupo de Visi�on por Ordenador de la Universitat Jaume I de Castell�o, y es producto deuna colaboraci�on con el Grupo de Rob�otica Inteligente de la misma universidad, en unproyecto �nanciado por la CICYT (Ministerio de Educaci�on y Ciencia), TAP95-0710,titulado Movimiento inteligente de un brazo robot con incertidumbre basado en visi�onarti�cial y sensores para tareas de extracci�on, desplazamiento e inserci�on.Este proyecto aborda el estudio, desarrollo e implementaci�on de un sistema parala plani�caci�on del movimiento �no y grueso de un robot manipulador para tareas deextracci�on, desplazamiento e inserci�on de herramientas, aplicable a una c�elula de fabri-caci�on exible. El sistema carece de un conocimiento completo previo de su entorno, quees adquirido mediante el uso de visi�on arti�cial {para el movimiento grueso{ y sensoresde fuerza {para el movimiento �no{. Para la plani�caci�on del movimiento grueso, seobtiene un mapa 3D del entorno mediante visi�on estereosc�opica que junto con las posi-ciones de partida y objetivo del sistema, se integrar�a en un plani�cador del movimientodel brazo robot.Aproximar el mundo que rodea al robot por medio de una representaci�on poli�edrica delos objetos de la escena, permitir��a obtener de una forma general informaci�on de diferen-tes tipos de entorno, sin conocimiento a priori del tipo de objetos presentes, pudiendo as��proporcionar al plani�cador del robot una informaci�on cuantitativa y cualitativa v�alidapara la plani�caci�on del movimiento.La mayor parte de las t�ecnicas de plani�caci�on del movimiento (al menos para robotsmanipuladores) parten de un modelo geom�etrico previo, lo que a veces resulta irreal. Sepretende proporcionar un modelo cuantitativo espacial del entorno, para determinar lazona del espacio libre y poder plani�car el movimiento grueso del robot sin colisiones.Por tanto, se desea obtener un mapa 3D del entorno de un robot, teniendo en cuentalas condiciones habituales de trabajo del mismo. La visi�on estereosc�opica sirve paraconstruir este tipo de mapa, ya que proporciona informaci�on tridimensional sobre laescena de una forma pasiva, sin interactuar con el entorno.1

Page 26: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

2 Cap��tulo 1. Introducci�on1.1 Objetivos de la presente tesisLa presente tesis doctoral se enmarca dentro de una de las �areas de la visi�on por orde-nador, la visi�on estereosc�opica, que es la base de muchas aplicaciones pr�acticas de visi�onpor ordenador (inspecci�on industrial, navegaci�on de robots, manipulaci�on de im�agenesde sat�elite y de im�agenes m�edicas, etc.) en las que es necesario calcular la distanciadesde el observador a los objetos de la escena a partir de dos o m�as im�agenes adquiridascon una o varias c�amaras.Las recientes investigaciones hacen de la visi�on estereosc�opica una herramienta cadavez m�as �util tanto en sistemas est�aticos (dos o m�as c�amaras �jas) como en los din�amicos(generalmente dos c�amaras en movimiento). En esta tesis nos centramos en la con�-guraci�on m��nima para la visi�on estereosc�opica que consiste en un sistema est�atico dedos c�amaras. Este tipo de sistemas permite obtener cierta informaci�on tridimensionalutilizando el principio de la triangulaci�on. Dado un elemento caracter��stico en una delas dos im�agenes, y dada su proyecci�on en la otra imagen (su elemento correspondiente)se puede calcular la distancia del observador al objeto representado por dicho elementomediante una sencilla t�ecnica de triangulaci�on a partir de las coordenadas imagen deambos.A diferencia del caso m�as general de una �unica c�amara en movimiento que captu-ra secuencias de im�agenes, los puntos de vista en los sistemas estereosc�opicos no sonarbitrarios. La geometr��a de una cabeza estereosc�opica determina, a menudo con preci-si�on, la transformaci�on geom�etrica entre ambas c�amaras. Esta informaci�on resulta muy�util para buscar c�omo se corresponden entre s�� los elementos que aparecen en las dosim�agenes, y es aqu�� donde radica entonces la di�cultad: en la b�usqueda en una imagen,del elemento hom�ologo a un elemento dado en la otra imagen.Se han desarrollado muchas t�ecnicas para tratar este problema, conocido como elproblema de la correspondencia, que di�eren en la geometr��a de las im�agenes, en lasprimitivas, en las restricciones empleadas, o en la estrategia de la correspondencia,como se puede ver en las numerosas revisiones de las t�ecnicas de visi�on este-reosc�opica [Barnard y Fishler, 1982] [Dhond y Aggarwal, 1989] [Faugeras et al., 1992][Lane y Thacker, 1994] [Jones, 1997].La selecci�on del m�etodo de correspondencia todav��a est�a muy ligado al �area de apli-caci�on de la misma, debido a la variedad de las metodolog��as empleadas y a las ca-racter��sticas de cada una de ellas. En el �area de aplicaci�on de la rob�otica, las escenassuelen ser interiores construidos por el hombre, de modo que los objetos suelen estarformados por super�cies lisas, generalmente planos, y con escasa textura. Este tipo deobjetos pueden ser f�acilmente aproximados por planos u otro tipo de super�cies simples,a diferencia de las escenas de exteriores donde resulta m�as dif��cil aproximar la forma deobjetos (por ejemplo la vegetaci�on o las ramas de un �arbol). Por eso hemos seleccionadolas regiones (obtenidas mediante alg�un m�etodo de segmentaci�on) como primitivas de la

Page 27: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 1. Introducci�on 3correspondencia, ya que representan la proyecci�on de las super�cies tridimensionales enla imagen.Un problema inherente en la reconstrucci�on tridimensional es la detecci�on de lasdiscontinuidades en la profundidad y las oclusiones, no solamente por su importanciaen la creaci�on de un mapa 3D de la escena, sino tambi�en porque a menudo suponen unproblema importante en las t�ecnicas de correspondencia.El objetivo principal de esta tesis doctoral es la recuperaci�on de la informaci�on tridi-mensional sobre la escena utilizando t�ecnicas de visi�on estereosc�opica binocular basadasen regiones. Para llevar a cabo este objetivo es necesario abordar los siguientes proble-mas:� B�usqueda de la correspondencia entre regiones de un par estereosc�opico deim�agenes.� Detecci�on de las discontinuidades en la profundidad y de las oclusiones.� Reconstrucci�on basada en regiones para la obtenci�on de una representaci�on po-li�edrica de la escena tridimensional.Para abordar estos problemas, se han explorado dos l��neas de trabajo diferentes: unat�ecnica cl�asica basada en grafos, y una t�ecnica nueva basada en minimizaci�on de unafunci�on de energ��a. En la primera t�ecnica, se parte del trabajo previo realizado por otrosautores y se resuelven algunos problemas que producen los errores de segmentaci�on en lacorrespondencia. En la segunda t�ecnica, se pretende evitar las diferencias en la segmen-taci�on entre ambas im�agenes, realizando la segmentaci�on de una imagen de referencia ybuscando correspondencias en la otra imagen sin segmentar. En esta t�ecnica, se abordala detecci�on de las oclusiones y la reconstrucci�on de la escena tridimensional como partesintegrantes del proceso de correspondencia, de modo que se obtiene un modelo poli�edricode la escena sin necesidad de calcular el mapa de disparidades intermedio y segmentar�este a posteriori.1.2 Organizaci�on de este documentoEsta tesis est�a organizada en los siguientes cap��tulos:� En el cap��tulo 2, se expone un resumen el estado del arte en el campo de lavisi�on estereosc�opica. Debido al elevado y variado n�umero de t�ecnicas que intentanresolver el problema de la visi�on estereosc�opica, no se ha pretendido revisarlas todasexhaustivamente, pero s�� profundizar en aquellas t�ecnicas m�as a�nes a los objetivospropuestos. Al �nal del cap��tulo se puede encontrar una discusi�on sobre las l��neasen las que se enmarca el trabajo que se presenta en esta tesis.

Page 28: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

4 Cap��tulo 1. Introducci�on� En el cap��tulo 3, se aborda el problema de la correspondencia de regiones basada engrafos de asociaci�on, donde se realizan aportaciones al trabajo existente dirigidasa la resoluci�on de los problemas que generan los errores en la segmentaci�on y laaplicaci�on de t�ecnicas para reducir el tiempo de computaci�on en la b�usqueda deeste tipo de soluciones.� En el cap��tulo 4, se propone una nueva t�ecnica de correspondencia de regionesbasada en la minimizaci�on de una funci�on de energ��a, que a su vez se basa enla correlaci�on de las regiones correspondientes. Este m�etodo permite realizar lacorrespondencia y la reconstrucci�on tridimensional en un solo proceso, y obtenerdirectamente una representaci�on poli�edrica de la escena.� En el cap��tulo 5 se extiende el m�etodo para integrar la detecci�on de oclusiones en elproceso de correspondencia en un proceso cooperativo que encuentra las oclusionesy las profundidades al mismo tiempo.� En el cap��tulo 6 se resumen las conclusiones a las que se ha llegado tras la realiza-ci�on de este trabajo, enumerando las principales aportaciones del mismo al campode la visi�on estereosc�opica as�� como una discusi�on sobre las l��neas de trabajo futuro.Se ha incluido asimismo un ap�endice sobre la geometr��a epipolar, donde se haceuna breve exposici�on de algunos conceptos b�asicos que se manejan a lo largo de estedocumento.

Page 29: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 2Estado del arteLa visi�on estereosc�opica es el conjunto de t�ecnicas que tratan de la recuperaci�on de lainformaci�on tridimensional a partir de dos o m�as vistas de una escena.En este proceso se pueden distinguir los siguientes pasos:Calibraci�on: c�alculo de los par�ametros que relacionan las coordenadas de un punto dela escena con sus coordenadas en la imagen.Recti�caci�on: transformaci�on de la geometr��a del sistema estereosc�opico, dados lospar�ametros de calibraci�on, para simpli�car tanto como sea posible la b�usqueda dela correspondencia.Correspondencia: b�usqueda del punto correspondiente en una imagen para cada pun-to caracter��stico de la otra imagen. Este proceso proporciona lo que se denominaun mapa de disparidades, preferiblemente un mapa denso.Reconstrucci�on: recuperaci�on de la escena 3D, es decir, el c�alculo de las profundidadesde los puntos de la imagen, a partir de las disparidades de los mismos de modoque se obtiene un mapa de profundidades.A menudo estos pasos se pueden unir o se pueden eliminar, como en el caso delos sistemas que no necesitan alguno o ninguno de los par�ametros de calibraci�on[Hartley et al., 1992] [Hollinghurst y Cipolla, 1994] o que los estiman durante la co-rrespondencia [Deriche et al., 1994], o algunos m�etodos que realizan la correspondenciaen un solo paso, sin recti�car las im�agenes previamente y obteniendo directamente laestructura tridimensional [Robert y Deriche, 1996] [Super y Klarquist, 1997].En los �ultimos a~nos, gran parte de la investigaci�on en visi�on estereosc�opica se haenfocado hacia el problema de la detecci�on de oclusiones. En el pasado, los algoritmosde estereovisi�on ten��an problemas en presencia de oclusiones y de discontinuidades en la5

Page 30: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

6 Cap��tulo 2. Estado del arteprofundidad, y la localizaci�on de las mismas sol��a tratarse generalmente como parte dela reconstrucci�on de la escena tridimensional [Gamble y Poggio, 1987].Sin embargo, las investigaciones recientes muestran que las oclusiones pueden ayudaren el c�alculo de la correspondencia. Esto supone un gran paso en la b�usqueda de lacorrespondencia al considerar las oclusiones y discontinuidades en la profundidad no unproblema a evitar, sino una fuente de informaci�on a tener en cuenta [Geiger et al., 1992].Sea cual sea el momento de abordarlas, hay dos problemas principales en lo concernientea las oclusiones:� >c�omo identi�car los puntos (o elementos) ocultos?� >qu�e hacer con ellos?, es decir, >c�omo determinar su profundidad?En esta tesis nos centramos en la etapa de correspondencia, presentando dos t�ecnicasde correspondencia basadas en regiones. En este cap��tulo se pretende revisar brevementelas t�ecnicas de correspondencia m�as conocidas. En la secci�on 2.1 se introduce brevementela geometr��a de un sistema de visi�on estereosc�opico. En la secci�on 2.2 se revisan las prin-cipales metodolog��as de correspondencia existentes en la literatura, a modo de resumendel extenso conjunto de m�etodos que forman la visi�on estereosc�opica. Finalmente, en lasecci�on 2.3 se resaltan las l��neas de trabajo en las que se enmarca esta tesis, delimitandolas �areas a�nes al trabajo que se detalla en los siguientes cap��tulos.2.1 Geometr��a de un sistema de visi�on estereosc�opicoLa calibraci�on consiste en obtener la relaci�on entre cualquier punto del mundo y su pro-yecci�on en el plano imagen. Esta relaci�on consiste en una serie de par�ametros intr��nsecosy extr��nsecos, que son necesarios para realizar medidas en la imagen en muchas aplica-ciones de visi�on. Se han desarrollado muchos algoritmos de calibraci�on para sistemasmonoculares, como la conocida t�ecnica de Tsai [1987]. Tambi�en se han desarrolladot�ecnicas que extraen los par�ametros de calibraci�on a partir de una secuencia de im�a-genes [Robert, 1995] [Chang et al., 1993].En el caso de la visi�on estereosc�opica, cada punto del mundo tiene dos proyeccio-nes. La relaci�on entre la geometr��a de ambas proyecciones se llama geometr��a epipolar.Muchas aplicaciones no necesitan una calibraci�on total, sino solamente la recuperaci�onde la geometr��a epipolar, la cual proporciona la estructura 3D en t�erminos de geo-metr��a proyectiva. La estructura proyectiva no proporciona informaci�on m�etrica com-pleta, pero contiene mucha informaci�on que a menudo es su�ciente para aplicaciones co-mo navegaci�on y reconocimiento de objetos [Rothwell et al., 1995] [Robert et al., 1997][Beardsley et al., 1994]. En otro caso, existen m�etodos que recuperan una estructu-ra af��n [Faugeras, 1995] [Quan, 1993] o una estructura euclidiana a partir de la ca-libraci�on proyectiva [Hartley et al., 1992] [Mohr et al., 1993] [Robert y Faugeras, 1995][Devernay y Faugeras, 1996].

Page 31: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 2. Estado del arte 7En nuestro caso, nos interesa la geometr��a de la proyecci�on de la escena en los sis-temas binoculares, que describimos someramente en esta secci�on y con m�as detalle enel ap�endice A. As��mismo, en esta secci�on se sientan las bases de la notaci�on que se haseguido a lo largo de esta tesis, y se dan algunas de�niciones b�asicas. En los siguientescap��tulos se asume que se conocen los par�ametros de calibraci�on, o que las im�agenesest�an recti�cadas.2.1.1 El modelo de c�amaraUna imagen es la proyecci�on de la escena tridimensional sobre el plano imagen de unac�amara, tambi�en llamado plano ret��nico. Por tanto, el primer paso para calibrar lospar�ametros que permitan realizar mediciones en la imagen es determinar el modelo dela c�amara que se est�e usando.El modelo de descripci�on de la c�amara m�as conocido es el modelo de c�amara pinhole,que asume una proyecci�on perspectiva sin distorsi�on de la lente (�gura 2.1). El punto Ces el llamado centro �optico de la c�amara y el eje de la vista se denomina eje �optico. Ladistancia entre el centro �optico, C, y el plano imagen (que intersecta con el eje �opticoen c) se denomina longitud focal, o simplemente, focal. Nos basaremos en este modelode c�amara que es el m�as utilizado en los sistemas de visi�on por ordenador.Se han hecho muchos esfuerzos en la calibraci�on de la distorsi�on de la lente, como sonlos trabajos de Nomura et al. [1992], Devernay y Faugeras [1995] y Zhang [1996c], quepermiten la eliminaci�on de esta distorsi�on. Esto permite que cualquier c�amara puedaconsiderarse como una c�amara pinhole mediante la aplicaci�on de la inversa de la funci�onde distorsi�on a los elementos de la imagen.2.1.2 Sistemas de coordenadas y matriz de proyecci�onPara calcular los par�ametros de la proyecci�on, consideraremos los siguientes sistemas decoordenadas:� Sistema de coordenadas del mundo: (Xw; Yw; Zw) centrado en el origen O.� Sistema de coordenadas de la c�amara: (Xc; Yc; Zc), centrado en el centro �optico,C, y donde el eje Zc es paralelo al eje �optico.� Sistema de coordenadas del plano imagen: (U; V ), centrado en c, donde ambos ejesson paralelos a los ejes Xc y Yc.� Sistema de coordenadas normalizado: (u; v), que se encuentra tambi�en en el planoimagen, pero centrado generalmente en una de las esquinas de la imagen. Di�eredel sistema de coordenadas del plano imagen en el origen y en las unidades de losejes u y v.

Page 32: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

8 Cap��tulo 2. Estado del artec

M

m

Z

Y

X

V

U

C

Z

Yw

Xw

c

c

c

w

v

u

O

Figura 2.1: El modelo de proyecci�on en perspectiva pinholeSea un punto M en la escena y su proyecci�on en el plano imagen m, en coordenadasdel mundo y normalizadas, respectivamente:M = [x; y; z]T y m = [u; v]TDenotamos un punto en coordenadas homog�eneas como~M = [x; y; z; 1]T y ~m = [u; v; 1]TLa calibraci�on consiste en obtener la relaci�on entre un punto del mundo, M , y suproyecci�on normalizada en el plano imagen, m. Esta relaci�on se puede expresar ent�erminos de geometr��a proyectiva mediante la ecuaci�ons ~m = P ~M (2.1)donde s es un factor de escala arbitrario y P es una matriz 3�4 llamada matriz deproyecci�on (m�as detalles en la secci�on A.1.1). La matriz de proyecci�on se puede descom-poner en los par�ametros intr��nsecos y los par�ametros extr��nsecos de la calibraci�on, comose puede ver con detalle en la secci�on A.1.2.2.1.3 Geometr��a epipolarLa geometr��a epipolar es la relaci�on entre las proyecciones de una misma escena en dosplanos imagen de dos c�amaras. Dadas las matrices de ambas proyecciones, P y P 0, un

Page 33: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 2. Estado del arte 9punto M del espacio tridimensional es proyectado en dos puntos diferentes, m y m0, enla primera y la segunda imagen, respectivamente,s ~m = P ~M (2.2)s0 ~m0 = P 0 ~M (2.3)de modo que todos los puntos de la l��nea recta entre M y el centro �optico de la primerac�amara, C, se proyectan en dicha c�amara sobre el mismo puntom y en la segunda c�amarasobre una l��nea recta llamada la l��nea epipolar dem, l0m, tal como se puede observar en la�gura 2.2. An�alogamente, todos los puntos de la l��nea recta entre M y C 0 se proyectanen la segunda c�amara sobre el mismo punto m0 y en la primera c�amara sobre una l��nearecta llamada la l��nea epipolar de m0, lm0 .lm’

l’m

II’

M

m’

C’

C

m

Figura 2.2: Geometr��a epipolar.La relaci�on entre un punto de la imagen y su l��nea epipolar es proyectiva lineal ypuede escribirse como, F ~m = l0m (2.4)F T ~m0 = lm0 (2.5)donde F es una matriz 3�3 llamada la matriz fundamental (para m�as detalles v�ease lasecci�on A.2).Conociendo los pares de puntos m, m0 que corresponden a un punto del mundoM esposible hallar la localizaci�on deM mediante una sencilla t�ecnica de triangulaci�on (�gura2.2). S�olo es posible recuperar la distancia del punto M a la c�amara (profundidad) si setienen dos o m�as vistas del mismo. As�� pues, para poder recuperar la estructura tridi-mensional de la escena, es crucial el proceso de identi�caci�on de los elementos hom�ologosen las diferentes im�agenes.

Page 34: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

10 Cap��tulo 2. Estado del arte2.2 El problema de la correspondencia2.2.1 Introducci�onSi un objeto es observado desde dos puntos de vista diferentes la posici�on de las pro-yecciones en cada imagen de un mismo punto de la escena 3D ser�an diferentes. Esposible de�nir el problema de la correspondencia como el de la b�usqueda de una funci�ond : (u; v)! (du; dv) tal que dado el punto m = (u; v) de la imagen de referencia, el puntom0 = m+ d(m) = (u+ du; v + dv) representa la proyecci�on del mismo punto del espacio3D sobre la segunda imagen. La funci�on d se denomina disparidad y ha de ser conformea la geometr��a epipolar.En el caso particular de la geometr��a paralela (secci�on A.2.1), dv = 0 y por tantola funci�on disparidad es un escalar de modo que dado el punto m, m0 = m + d(m) =(u + d; v). Esta es la formulaci�on m�as com�un, ya que solamente requiere recti�car lasim�agenes, y permite obtener un mapa de disparidades cuya relaci�on con la profundidadde los puntos de la imagen es sumamente sencilla: la funci�on disparidad es inversamenteproporcional a la profundidad del punto 3D proyectado,d = bfzc (2.6)donde f es la longitud focal, b es la distancia entre las c�amaras y zc es la profundidaddel punto 3D en coordenadas de la c�amara.As�� como el principio de la triangulaci�on es muy simple, el problema de la corres-pondencia es de dif��cil soluci�on y constituye el problema clave de la estereovisi�on. Esteproblema ser��a pr�acticamente irresoluble si no se dispusiera de informaci�on adicionalque restrinja el espacio de soluciones posibles, ya que a priori cualquier elemento de unaimagen podr��a ser el hom�ologo a cualquier elemento de la otra imagen. Sin embargo,es posible aplicar una serie de restricciones bas�andose en el modelo geom�etrico de lasc�amaras y en el modelo fotom�etrico de los objetos de la escena. La mayor��a de los al-goritmos de estereovisi�on se basan generalmente en las mismas restricciones expresadasmediante diferentes formalismos.En general, los algoritmos de estereovisi�on utilizan como entrada las primitivas ex-traidas de la imagen y devuelven como resultado un mapa de disparidades asociado aestas primitivas, aunque a veces devuelven directamente su posici�on tridimensional. Seha desarrollado un gran n�umero de t�ecnicas que se distinguen por la elecci�on de lasprimitivas, por las restricciones que les son asociadas y por la estrategia de la corres-pondencia. Una vez identi�cadas las restricciones que permiten reducir el espacio deb�usqueda, �estas se integran en un algoritmo de b�usqueda que obtenga el conjunto decorrespondencias �nal. Este algoritmo tambi�en puede interpretarse como un m�etodo deoptimizaci�on que se compone de:� un criterio que permita seleccionar y distinguir entre conjuntos de correspondenciascorrectos e incorrectos, que constituir�a la funci�on a optimizar, y

Page 35: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 2. Estado del arte 11� un algoritmo que explore el espacio de b�usqueda.En esta secci�on examinaremos primero cu�ales son estas restricciones y a continua-ci�on revisaremos las principales t�ecnicas desarrolladas hasta el momento para resolver elproblema de la correspondencia.2.2.2 Restricciones de un sistema de visi�on estereosc�opicoJones [1997] clasi�ca las restricciones aplicables al problema de la correspondencia endos tipos. Las restricciones unarias son las que se derivan de la geometr��a del sistemay de la similitud entre los elementos entre los que se intenta establecer la corresponden-cia. Estas restricciones contienen informaci�on espec���ca a cada posible correspondencia.Las restricciones binarias son las que miden la compatibilidad entre pares de posiblescorrespondencias.El conjunto de correspondencias potenciales es el producto cartesiano de los con-juntos de primitivas extraidas de cada imagen. Este conjunto puede ser enorme y portanto, costoso de procesar. Las restricciones unarias permiten extraer un conjunto deposibles correspondencias m�as reducido, basado en la localizaci�on de los elementos y ensu similitud. Las restricciones binarias sirven para proporcionar criterios de selecci�onrobustos en los casos en los que hay con ictos entre correspondencias.Restricci�on epipolarEl punto hom�ologo a uno dado est�a restringido a pertenecer a una l��nea de la imagendeterminada por la geometr��a del sistema estereosc�opico [Ayache, 1991], que dependedirectamente del modelo geom�etrico de la c�amara. Es la restricci�on geom�etrica m�asimportante debido a que supone una reducci�on en el espacio de b�usqueda del hom�ologoa un elemento dado. La b�usqueda de una correspondencia pasa de ser bidimensional (unplano) a unidimensional (una recta) gracias a la relaci�on geom�etrica que existe entre unpunto del espacio 3D y sus dos proyecciones, tal como se detalla en la secci�on A.2 sobrela geometr��a epipolar.Restricci�on de disparidad (o de profundidad)La restricci�on sobre la disparidad surge de la restricci�on sobre las profundidades a las quese pueden encontrar los objetos de la escena. Generalmente se puede establecer un in-tervalo de disparidades D = [dmin; dmax] que depende de la con�guraci�on de las c�amarasrespecto a la escena y que est�a directamente relacionado con el intervalo de profundida-des [Zmin; Zmax] de los puntos de la escena. Por lo tanto, el punto hom�ologo a uno dadoest�a restringido a pertenecer a un segmento de la recta epipolar correspondiente, lo quesupone una mejora sobre la restricci�on epipolar (�gura 2.3).

Page 36: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

12 Cap��tulo 2. Estado del artel’m

m

I I’Figura 2.3: Restricci�on epipolar y restricci�on de disparidad: las l��neas de pun-tos representan los pares de l��neas epipolares y la zona encuadradarepresenta la zona de b�usqueda del punto correspondiente al pixel m.Restricci�on de similitudEs una restricci�on unaria que se basa en las propiedades de las primitivas empleadas enla correspondencia y que se combina con las dos restricciones geom�etricas anteriores enla b�usqueda de los posibles hom�ologos de un elemento dado.Generalmente, se basa en las propiedades fotom�etricas de los elementos que compo-nen la escena, de modo que s�olo aquellos candidatos que tengan intensidades similaresa un elemento dado pueden ser elementos hom�ologos a �el. El criterio de similitud fo-tom�etrica supone una hip�otesis lambertiana sobre los objetos de la escena, es decir, quelas propiedades fotom�etricas y de re ectancia de un objeto se conservan en su proyecci�on,mostr�andose iguales en dos vistas diferentes.En el caso de primitivas complejas (segmentos curvos, esquinas, regiones, etc.) sueleconsiderarse en la similitud las propiedades geom�etricas de las primitivas. Este es elcaso del l��mite en el gradiente de la disparidad (o DGL), utilizado como restricci�onunaria1 en el caso de primitivas con orientaci�on, como son por ejemplo los segmentoslineales [Pollard et al., 1985]. Generalmente, los atributos de una determinada primitivase agrupan en un vector de caracter��sticas y a cada atributo se le asocia un peso queindica su importancia en el c�alculo de la similitud entre dos elementos. De este modo sepueden considerar distintas propiedades para determinar cu�ales de las correspondenciaspotenciales son posibles.Restricci�on de unicidadEs la primera y m�as importante de las restricciones binarias: para cada punto de unaimagen existe como m�aximo un punto hom�ologo en la otra imagen [Marr y Poggio, 1977][Marr y Poggio, 1979]. Esta restricci�on se cumple siempre y cuando no haya objetos1Originalmente se utiliz�o como una restricci�on de continuidad binaria [Burt y Julesz, 1980].

Page 37: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 2. Estado del arte 13transparentes en la escena. Esta restricci�on obliga a seleccionar s�olo una de las posiblescorrespondencias de cada elemento de la imagen. Si despu�es de aplicar las restriccionesanteriores todav��a hay m�as de un candidato a la correspondencia, es necesario utilizarlas restricciones binarias para realizar esta selecci�on.De la restricci�on de unicidad se deduce que dadas dos im�agenes estereosc�opicas, lascorrespondencias calculadas para los elementos de una imagen, y las correspondenciascalculadas para los elementos de la otra imagen deben proporcionar los mismos pa-res de elementos hom�ologos. Esta formulaci�on se denomina restricci�on de consistenciaizquierda-derecha y se emplea en muchos m�etodos para validar el resultado de la corres-pondencia [Fua, 1991] [Fusiello et al., 1997b].Restricci�on de continuidadBas�andose en las propiedades de continuidad y de cohesi�on de la materia, lospuntos adyacentes en el espacio 3D permanecen adyacentes en cada proyec-ci�on [Marr y Poggio, 1977, Grimson, 1981]. De ah�� se deduce que la disparidad (oprofundidad) de los elementos de la escena debe variar de manera suave a lo largode la imagen. Aplicando esta restricci�on se puede establecer la compatibilidad oincompatibilidad entre dos posibles correspondencias dadas.Existen numerosas formas de formular esta restricci�on en la pr�actica, dependiendo delas primitivas de la correspondencia. Por ejemplo, dos puntos adyacentes y sus correspon-dencias deber��an satisfacer el l��mite en el gradiente de la disparidad [Burt y Julesz, 1980][Pollard et al., 1985] [Prazdny, 1985] excepto en el caso de que alguno de ellos sea unborde.La continuidad de la �gura (�gural continuity) [Mayhew y Frisby, 1981][Grimson, 1985] es otra formulaci�on de esta restricci�on que permite evitar los problemasde discontinuidad en los l��mites de las super�cies imponiendo la continuidad de ladisparidad �unicamente a lo largo de los contornos de las �guras de la imagen, y no atrav�es de ellos. Por ejemplo, dos pares de puntos que pertenezcan al mismo contorno enambas im�agenes son compatibles. Otro ejemplo con primitivas lineales: dos segmentosde l��nea que est�an conectados en ambas im�agenes est�an necesariamente conectados enel mundo 3D y por tanto son compatibles [Horaud y Skordas, 1989].Los puntos donde se producen discontinuidades en la disparidad se denominan con-tornos de oclusi�on y pueden deberse a dos causas:� La existencia de un cambio brusco de profundidad.� La no existencia de correspondencia debido a una oclusi�on.Esto signi�ca que la funci�on de reconstrucci�on, que asigna a cada punto de la imagen suprofundidad, es continua a tramos.

Page 38: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

14 Cap��tulo 2. Estado del arteRestricci�on de conservaci�on del ordenDados dos elementos situados a lo largo de una l��nea epipolar, sus hom�ologos se en-cuentran a lo largo de la l��nea epipolar correspondiente, de modo que el orden de loselementos en la primera imagen coincide con el orden de los elementos correspondien-tes en la otra imagen. Esta restricci�on no se cumple siempre, pero geom�etricamente espoco probable que dos puntos se proyecten produciendo un ordenamiento diferente enlas im�agenes izquierda y derecha. Si la escena est�a formada por super�cies de peque~naextensi�on con diferencias grandes en la profundidad respecto a otros objetos de la escenase puede violar esta condici�on (por ejemplo, la inversi�on de las patas de una silla, comose muestra en la �gura 2.4). Sin embargo, esta restricci�on se utiliza en la mayor parte delas t�ecnicas de correspondencia, siendo especialmente �util cuando en la escena puedenaparecer patrones repetitivos.

Figura 2.4: Un ejemplo de violaci�on de la restricci�on de orden: inversi�on del ordende las patas de una silla.Restricciones topol�ogicasAdem�as de la restricci�on de conservaci�on del orden, existen otras restricciones topol�ogicasque intentan servirse del hecho de que la estructura 3D vista en ambas im�agenes esid�entica y que esto restringe su proyecci�on desde distintos puntos de vista.Algunas de estas restricciones tienen que ver con el paralelismo: l��neas 3D que soncasi paralelas en el espacio se proyectan en l��neas 2D casi paralelas en cada c�amara.En el caso de los segmentos lineales se traduce en restricciones de colinearidad paradeterminar la compatibilidad entre correspondencias.Zhang y Faugeras [1992] formulan las restricciones de rigidez para el caso de lacorrespondencia de segmentos lineales, que consisten en cuatro restricciones acerca de lalongitud, la distancia, y los �angulos de los segmentos.

Page 39: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 2. Estado del arte 15Otras restricciones se �jan en que la posici�on relativa entre las primitivas sea similarde una imagen a otra. Esta restricci�on es muy efectiva, pero es menos cierta en elcaso de vistas estereosc�opicas muy separadas, donde las oclusiones pueden producirviolaciones locales de la misma. Por esta raz�on, se tiende a implementar restriccionesm�as d�ebiles como es el caso de las relaciones entre segmentos lineales left-of, right-ofdel art��culo de Horaud y Skordas [1989], que tambi�en incluye las relaciones collinear-with y same-junction-as. Estas relaciones proporcionan conjuntamente una descripci�onestructural de la escena que permite extraer relaciones de compatibilidad entre pares decorrespondencias.Restricciones jer�arquicasLos m�etodos de correspondencia jer�arquicos proporcionan una alternativa e�ciente a losm�etodos de b�usqueda exhaustiva. En general se establece una jerarqu��a de primitivas yse obtiene la correspondencia en cada nivel de la jerarqu��a desde la primitiva m�as com-pleja (nivel m�as alto) a la m�as simple (nivel m�as bajo) consecutivamente. La principalventaja es el ahorro computacional que se produce al reducir el espacio de b�usqueda enlas correspondencias de nivel m�as alto. La rigidez de la jerarqu��a hace que la correspon-dencia en los niveles m�as bajos sea dependiente de que la jerarqu��a se haya establecidocorrectamente. La desventaja radica en que las primitivas de mayor nivel son general-mente f�aciles de de�nir (por ejemplo, super�cie u objeto) pero suelen ser muy dif��cilesde extraer de manera robusta.En general, cuanto m�as compleja es una primitiva, m�as descriptivos son sus atri-butos y hay menos ocurrencias de la misma en la imagen. Las primitivas complejasson m�as susceptibles de producir las correspondencias correctas mediante la compa-raci�on de sus atributos y, gracias a las relaciones jer�arquicas, las correspondencias dealto nivel proporcionan restricciones considerables sobre las correspondencias posiblesen las primitivas de niveles inferiores. Este aspecto es deseable para reducir el espaciode b�usqueda considerablemente. Estas caracter��sticas de los sistemas jer�arquicos hansido utilizadas en numerosos trabajos [Marapane y Trivedi, 1989] [Sander et al., 1989][Marapane y Trivedi, 1992] para obtener correspondencias m�as �ables.2.2.3 Clasi�caci�on de las t�ecnicas de correspondencia est�ereoEl problema de la correspondencia no es un �area exclusiva de la visi�on estereosc�opicapuesto que tambi�en aparece en otras �areas de la visi�on por computador como son elreconocimiento de objetos, el an�alisis de secuencias de im�agenes y el an�alisis de im�agenestridimensionales. Un resumen del estado del arte del problema de la correspondencia entodas estas �areas se puede encontrar en Zhang [1993].En las revisiones de las t�ecnicas de visi�on estereosc�opica [Barnard y Fishler, 1982][Dhond y Aggarwal, 1989] [Faugeras et al., 1992] [Lane y Thacker, 1994] los algoritmosde b�usqueda de la correspondencia se clasi�can en dos grandes familias:

Page 40: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

16 Cap��tulo 2. Estado del arte� M�etodos basados en �areas: tambi�en llamados m�etodos basados en super�cies.Explotan la resoluci�on radiom�etrica [Sonka et al., 1993] de los pixeles por mediode �areas o ventanas sobre la imagen. Obtienen resultados muy buenos sobre lasim�agenes que presentan una textura importante. Permiten crear un mapa densode disparidades siendo posible incluso obtener una precisi�on subpixel. Como des-ventaja est�a el hecho de que asumen una super�cie continua y por tanto presentanproblemas en presencia de discontinuidades de las super�cies tridimensionales.� M�etodos basados en caracter��sticas: tambi�en llamados m�etodos basados enprimitivas. Explotan las primitivas de alto nivel obtenidas de la imagen, queconsisten en elementos con caracter��sticas distintivas como pueden ser los puntosde contorno, los segmentos lineales de los contornos, los segmentos curvos de loscontornos, las regiones, etc. De estas primitivas se seleccionan las caracter��sticasdistintivas que pueden ser atributos de posici�on, orientaci�on, curvatura, etc. quesirvan para establecer la correspondencia. Proporcionan una informaci�on m�as dis-persa aunque tambi�en m�as robusta cuanto m�as signi�cativa es la primitiva.Se puede encontrar una revisi�on reciente de los m�etodos que emplean primitivascomplejas en el art��culo de Jones [1997].Los m�etodos de correspondencia que se presentan en los cap��tulos 3 y 4 se clasi�can apriori en la categor��a de m�etodos basados en caracter��sticas, debido a que est�an basadosen regiones resultantes de la segmentaci�on de una o varias im�agenes, que son primitivasde alto nivel. Sin embargo, estos m�etodos explotan la radiometr��a de los pixeles de laregi�on de forma similar a los m�etodos basados en �areas, en lugar de considerar carac-ter��sticas t��picas de las regiones como son el �area, el per��metro, los momentos de inercia,la elongaci�on, etc.De esta manera se intentan aunar las dos ventajas principales de ambas familias dem�etodos: conseguir correspondencias robustas gracias al uso de primitivas de alto nivelde signi�cado, evitando los problemas en presencia de discontinuidades, y conseguir unmapa denso de profundidades que proporcione un mapa tridimensional aproximado dela escena real que sea de utilidad para aplicaciones de rob�otica.Adem�as de estas dos grandes familias, las t�ecnicas de correspondencia estereosc�opicase pueden clasi�car seg�un la estrategia utilizada. Aunque no se pretende hacer un estudioexhaustivo del estado del arte, a continuaci�on se estudian los aspectos fundamentales delas estrategias m�as conocidas, profundizando m�as en aqu�ellas que est�an relacionadas deuna u otra manera con el trabajo que se expone en los siguientes cap��tulos.2.2.4 M�etodos basados en correlaci�onEstos m�etodos consideran cada imagen como una se~nal bidimensional en la que se buscapara cada punto la traslaci�on que minimiza un cierto criterio. El m�etodo m�as cl�asico deesta familia es la optimizaci�on de un criterio de correlaci�on.

Page 41: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 2. Estado del arte 17Las t�ecnicas de estereovisi�on basadas en correlaci�on son de los m�etodos m�as an-tiguos [Gennery, 1980] pero siguen en vigencia, teniendo numerosas aplicaciones enrob�otica [Faugeras et al., 1993] [Zhang, 1996a]. Son m�etodos basados en �areas, don-de para cada pixel de la imagen se calcula la correlaci�on entre una ventana de tama~no�jo centrada en ese pixel y una ventana del mismo tama~no centrada en cada pixel dela otra imagen susceptible de corresponderle. Generalmente las im�agenes se encuentranrecti�cadas para que el uso de ventanas de correlaci�on sea m�as sencillo. Se elige comocorrespondiente aqu�el punto que maximice la medida de correlaci�on y de �el se deducela disparidad. Para calcular la disparidad con precisi�on subpixel se puede aproximarlos valores de correlaci�on en el vecindario del m�aximo a una curva de segundo grado ycalcular la disparidad �optima por interpolaci�on.Algunos algoritmos calculan puntos de inter�es en los que realizar la correlaci�on parareducir el tiempo de computaci�on. Los puntos de inter�es pueden ser pasos por cerode la segunda derivada de la intensidad [Moravec, 1977] [Castan y Shen, 1984], esto es,pixeles pertenecientes a los contornos (edge pixels o edgels), u otras primitivas de mayornivel como esquinas (corners) [Zhang et al., 1995]. En estos casos, es necesaria unaetapa de interpolaci�on entre las disparidades calculadas para obtener un mapa denso dedisparidades.Sin embargo, con las arquitecturas hardware modernas es posible realizar la corre-laci�on sobre todos los puntos de la imagen y retener s�olo aquellas correspondencias queparezcan \v�alidas". El problema reside entonces en proporcionar una de�nici�on efecti-va de la validez de una correspondencia y en a~nadir una etapa de postproceso dondese pueda asignar un valor de disparidad a los pixeles sin correspondencia. Por ejemplo,Fua [1991] utiliza como criterio de validez la restricci�on de consistencia izquierda-derechay una interpolaci�on entre las disparidades \v�alidas" para calcular las disparidades no en-contradas.La principal ventaja de estos m�etodos sobre los m�etodos basados en primitivas esla obtenci�on de una representaci�on densa de la escena observada. Otra ventaja de last�ecnicas de correlaci�on es que resultan f�aciles de paralelizar. Se pueden encontrar algunasimplementaciones paralelas en los trabajos de Fua [1993] y Devernay [1996].Sin embargo, para que los vecindarios de los puntos correspondientes tengan unasfunciones de intensidad similares, es necesario, en teor��a, que las super�cies alrededor delos puntos cumplan las restricciones fotom�etricas y geom�etricas siguientes:� restricci�on lambertiana: las super�cies deben ser lambertianas en cada punto, esdecir, que la intensidad de la proyecci�on en cada imagen de un punto 3D debe serindependiente del punto de vista (no debe haber re exiones especulares).� restricci�on fronto-paralela: los m�etodos de correlaci�on asumen impl��citamente quela disparidad es constante localmente (dentro de la ventana de correlaci�on). Estoes equivalente a decir que las super�cies deben ser paralelas a los planos imagende ambas c�amaras.

Page 42: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

18 Cap��tulo 2. Estado del arte� restricci�on de continuidad: la mayor parte de los m�etodos se basan en la hip�otesis deque las super�cies son al menos localmente continuas. Por ejemplo, estos m�etodosno son capaces de encontrar la correspondencia y reconstruir satisfactoriamenteobjetos de textura tridimensional compleja como son los matorrales o los �arboles.En la pr�actica, estas restricciones son laxas: la restricci�on lambertiana puede conver-tirse en \localmente lambertiana" si se normalizan localmente las intensidades, o si se �l-tran las im�agenes previamente con un �ltro laplaciana de la gaussiana [Nishihara, 1984a]de modo que se busca la correspondencia entre las variaciones locales de la intensidaden lugar de la propia intensidad. Una mejor soluci�on ser��a incluir una funci�on de re ec-tancia [Oren y Nayar, 1994] dentro de la funci�on de correlaci�on, pero este m�etodo tienela desventaja de que se necesitar��a conocer la posici�on de las fuentes luminosas.As��mismo, la restricci�on fronto-paralela no es necesario que se veri�que estrictamen-te, de modo que se pueden encontrar las correspondencias incluso en las super�ciesligeramente inclinadas respecto a los planos imagen de las c�amaras. Algunos m�etodospermiten evitar esta restricci�on teniendo en cuenta la deformaci�on local de la super�ciecomo la que presenta Devernay [Devernay y Faugeras, 1994] [Devernay, 1996] que consis-te en hacer dos c�alculos de la disparidad: una primera etapa mediante el m�etodo cl�asicode correlaci�on y una segunda etapa denominada correlaci�on �na que estudia la normal yla curvatura locales de la super�cie, representadas respectivamente por las propiedadesdiferenciales de primer y segundo orden de la disparidad, para re�nar y completar losresultados obtenidos en la primera etapa.Un m�etodo que evita totalmente la restricci�on fronto-paralela es el de Super y Klar-quist [1997] que, para cada punto de inter�es de la imagen, realiza una b�usqueda en elespacio de super�cies planas 3D. Cada super�ce 3D hipot�etica se usa para de�nir unpar de trozos de imagen con posiciones, formas, tama~nos, orientaciones e intensidadesconsistentes con la hip�otesis y entre s��. De este modo, se asegura que la comparaci�onentre los dos trozos da un ��ndice de correlaci�on �able de la similitud entre las intensi-dades. Dado que la deformaci�on entre im�agenes se tiene en cuenta expl��citamente, nosufre la restricci�on fronto-paralela y permite la existencia de deformaciones grandes entreim�agenes. Otra caracter��stica de este m�etodo es que obtiene directamente la posici�ontridimensional de los puntos de inter�es. Sin embargo, no se modelan las oclusiones ni laexistencia de discontinuidades.La tercera restricci�on hace que se produzcan problemas en presencia de discontinui-dades de las super�cies tridimensionales. Para el tratamiento de las discontinuidadesen la profundidad se han desarrollado algoritmos que se basan en la selecci�on adaptati-va de la ventana de correlaci�on, en la b�usqueda de �optimos globales mediante t�ecnicasde programaci�on din�amica, en aproximaciones bayesianas y en el uso de m�as de dosc�amaras.Las investigaciones recientes se centran esencialmente sobre estos problemas que sonel tratamiento de las oclusiones, de las discontinuidades y de las super�cies no fronto-paralelas.

Page 43: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 2. Estado del arte 19El uso de m�as de dos c�amaras permite reducir el n�umero de ambig�uedades e in-crementar la habilidad de la detecci�on de oclusiones, al disponer de m�ultiples proyec-ciones de la escena. Muchos trabajos emplean sistemas trinoculares para hallar la co-rrespondencia utilizando t�ecnicas de predicci�on y veri�caci�on [Ayache y Lustman, 1987][Kitamura y Yachida, 1990] [Robert y Faugeras, 1991], que generalmente se basan enprimitivas cuyo nivel simb�olico es mayor que el de un simple pixel (segmentos lineales,segmentos curvos).Otros trabajos emplean m�as de tres c�amaras, como Okutomi y Kanade [1993], ySakamoto et al. [1997] que emplean un conjunto de c�amaras en l��nea a distintas distanciaspara reducir el n�umero de ambig�uedades en la optimizaci�on de un criterio de correlaci�on.Satoh y Ohta [1994] [1995] [1996] [Satoh et al., 1996] emplean una matriz de 3�3 c�amaraspara aumentar la habilidad en la detecci�on de oclusiones y en consecuencia, la precisi�onde la correspondencia.No obstante, nosotros nos centraremos en los sistemas binoculares, y por tanto,estudiaremos las dem�as t�ecnicas despu�es de ver los principales criterios de correlaci�on.Criterio de correlaci�onPara obtener buenos resultados es necesario elegir un criterio de correlaci�on que permitaobtener buenas correspondencias en cualquier situaci�on. La mayor parte de los criteriosde correlaci�on derivan de dos medidas fundamentales:� la distancia eucl��dea entre los dos vectores formados por las intensidades de lasim�agenes, conocida como SSD (Sum of Squared Di�erences), y� el producto escalar de estos dos vectores, conocida como CC (Cross-Correlation).Para comparar los distintos criterios, vamos a denotar la ventana de correlaci�on centradaen un pixel cualquiera m como W (m), y los pixeles del vecindario de m como mi,i = [1::N ], siendo N el n�umero de pixeles de la ventana. As��mismo, para cada disparidadd, el pixel correspondiente a m = (u; v) es m0 = (u+ d; v) y los pixeles que pertenecen ala ventana alrededor dem0 los denotaremos comom0i 2W (m0), siguiendo el mismo ordenadoptado en mi 2W (m). Esta notaci�on nos permitir�a extender f�acilmente la de�nici�onde los criterios de correlaci�on a regiones arbitrarias como se ver�a en los cap��tulos 3 y 4de esta tesis.� El criterio SSD (Sum of Squared Di�erences) consiste en minimizar la suma de lasdiferencias de las intensidades sobre el conjunto de la ventana de correlaci�on, o loque es igual, maximizar la funci�onCSSD(m;m0) = � 1N X8mi2W (m)(I1(mi)� I2(m0i))2 (2.7)donde I1 e I2 son las intensidades de cada una de las im�agenes. Cuando la ventanaes de tama~no �jo se puede prescindir de la divisi�on por N .Este criterio es muy sensible a las diferencias de iluminaci�on entre las dos im�agenes.

Page 44: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

20 Cap��tulo 2. Estado del arte� El criterio ZSSD (Zero-mean Sum of Squared Di�erences) consiste en minimizar lasuma de las diferencias de intensidad respecto a la media de intensidad calculadasobre la ventana de correlaci�on, o de manera equivalente, maximizar la ecuaci�onCZSSD(m;m0) = � 1N X8mi2W (m)((I1(mi)� I1(m))� (I2(m0i)� I2(m0)))2 (2.8)donde I1(m) e I2(m0) son las medias de intensidad dentro de las ventanas W (m) yW (m0), respectivamente. Este criterio permite calcular la correspondencia en su-per�cies donde la iluminaci�on es ligeramente diferente de modo que hay diferenciaspeque~nas de desplazamiento en la funci�on de transferencia de las c�amaras.En la pr�actica, se considera que las funciones I1 e I2 var��an poco sobre la ventanade correlaci�on y se utiliza el siguiente criterioCZSSD(m;m0) = � 1N X8mi2W (m)((I1(mi)� I1(mi))� (I2(m0i)� I2(m0i)))2= � 1N X8mi2W (m)(I 01(mi)� I 02(m0i))2 (2.9)que es equivalente a �ltrar las im�agenes con un �ltro laplaciana de la gaussia-na [Nishihara, 1984a] para obtener las im�agenes I 01 e I 02 y aplicar el criterio SSD acontinuaci�on.� El criterio ZNSSD (Zero-mean Normalized Sum of Squared Di�erences) consiste enminimizar la suma de las diferencias de intensidad respecto a la media de intensidadcalculada sobre la ventana de correlaci�on, normalizada por la varianza local de lasintensidades. Esto equivale a maximizar la ecuaci�onCZNSSD(m;m0) = �P8mi2W (m)((I1(mi)� I1(m))� (I2(m0i)� I2(m0)))2N�1(m)�2(m0) (2.10)donde �1(m) y �2(m0) son las desviaciones t��picas de la intensidad dentro de lasventanas W (m) y W (m0), respectivamente. Este criterio permite calcular la co-rrespondencia en super�cies donde la iluminaci�on es diferente tanto en gananciacomo en desplazamiento y, por tanto, es insensible a las diferencias en la funci�onde transferencia de las c�amaras.Se puede efectuar una simpli�caci�on similar a la anterior, dejando parte de losc�alculos al �ltrado de las im�agenes. Adem�as, en el caso de que la ventana decorrelaci�on sea �ja se puede simpli�car no s�olo el n�umero de pixelesN , sino tambi�enla variaci�on de la intensidad en la ventana de referencia, �1(m).� El criterio CC (Cross-Correlation) consiste en maximizar el producto escalar dedos vectores de intensidad,CCC(m;m0) = 1N X8mi2W (m) I1(mi)I2(m0i) (2.11)

Page 45: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 2. Estado del arte 21En la pr�actica, este criterio es inutilizable porque favorece las zonas de intensidadelevada que no necesariamente son similares a la ventana de correlaci�on de laimagen de referencia.� El criterio ZNCC (Zero-mean Normalized Cross-Correlation) consiste en maximi-zar el coseno de dos vectores de intensidad,CZNCC(m;m0) = P8mi2W (m)((I1(mi)� I1(m))(I2(m0i)� I2(m0)))N�1(m)�2(m0) (2.12)de modo que si el resultado es 1 ambos vectores son id�enticos mientras que si es -1son totalmente opuestos.Se puede aplicar la misma simpli�caci�on que en el criterio ZNSSD. En el caso deventanas �jas, tambi�en se puede simpli�car N y �1(m).Como se ha anotado anteriormente, los criterios que dan mejores resultados son losque comparan las intensidades �ltradas por la media, es decir, ZSSD, ZNSSD y ZNCC,ya que permiten relajar la restricci�on lambertiana impl��cita en las t�ecnicas de correlaci�on.Selecci�on adaptativa de la ventana de correlaci�onNishihara [1984b] demostr�o que la probabilidad de obtener correspondencias falsas sereduce a medida que crecen el tama~no de la ventana de correlaci�on y la cantidad detextura. Sin embargo, a medida que crece el tama~no de la ventana se pierde precisi�onhasta el punto de poder perder caracter��sticas importantes de la imagen. El tama~no dela ventana debe ser su�cientemente grande para incluir su�ciente variaci�on de intensidadpara la correspondencia y reducir la sensibilidad al ruido, pero su�cientemente peque~napara evitar los efectos de la distorsi�on proyectiva.De este razonamiento surgieron los algoritmos de correspondencia con ventana adap-tativa. Kanade y Okutomi [1990] [1994] [Okutomi y Kanade, 1992] proponen seleccionarla ventana adaptativamente mediante la evaluaci�on de la variaci�on local de la intensidady la disparidad. Emplean un modelo estad��stico que representa la incertidumbre de ladisparidad de los puntos de la ventana, que presumiblemente se incrementar�a a medidaque se incrementa la distancia de los puntos al punto central. De este modo puedencalcular la incertidumbre de una estimaci�on de la disparidad, teniendo en cuenta tantola varianza de la intensidad como la de la disparidad. El algoritmo busca una venta-na que produzca la estimaci�on de la disparidad con la menor incertidumbre para cadapixel de la imagen, de modo que no s�olo se controla el tama~no sino tambi�en la formarectangular de la ventana.Se han desarrollado numerosas versiones de la t�ecnica de correspondencia con ventanaadaptativa, como es la de Menard y Kropatsch [1997] que asocian una m�ascara gaussianaa la ventana de correlaci�on, de modo que la in uencia de los pixeles del vecindario sonponderados en funci�on de su distancia al pixel central. Esto hace que la forma de la

Page 46: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

22 Cap��tulo 2. Estado del arteventana sea circular en vez de rectangular, al mismo tiempo que permite controlar elradio de in uencia mediante un par�ametro que se puede adaptar a cada caso individual.Otro aspecto interesante de este m�etodo es que se obtiene la disparidad de m�aximacorrelaci�on a diferentes escalas, de modo que si en la escala de menor resoluci�on no hayun �unico m�aximo, se asume que no hay punto correspondiente, y en caso contrario, setiene en cuenta la disparidad anterior en sucesivas iteraciones hasta que se obtiene unm�aximo global a lo largo de la escala.Otra versi�on de este tipo de algoritmos es la de Lotti [1996] que utiliza 4 ventanasadaptativas (arriba-izquierda, arriba-derecha, abajo-izquierda, abajo-derecha) en lugarde una para cubrir un m�aximo de formas geom�etricas alrededor del pixel central. Eltama~no de cada ventana viene restringido por los contornos obtenidos mediante el ope-rador de Canny-Deriche [Deriche, 1987] sobre las dos im�agenes, y el resultado de cadauna se valida por criterios de textura, de ruido y un umbral en el ��ndice de correlaci�on.La disparidad asociada al pixel central se calcula a partir del pico m�aximo de la cur-va de disparidades v�alidas. Finalmente, se realiza una segunda etapa de validaciones einterpolaciones sucesivas para completar el mapa denso de disparidades.Otras versiones con m�ultiples ventanas intentan simpli�car la t�ecnica de la ventanaadaptativa como son las que han desarrollado Geiger, Ladendorf y Yuille [1992] [1995],que utilizan dos ventanas �jas rectangulares a izquierda y derecha del pixel en estudio,una l��nea por debajo y por encima de la l��nea epipolar y de modo que ambas ventanasintersectan en una cierta �area alrededor del pixel, y la de Intille y Bobick [1994a], que uti-lizan 9 ventanas diferentes, una centrada en el pixel central y el resto en las 8 direccionesalrededor del mismo. En ambos casos, para cada pixel y cada posible correspondenciase elige el mejor ��ndice de correlaci�on obtenido de las m�ultiples ventanas y se aplica unat�ecnica de programaci�on din�amica para encontrar las correspondencias. M�as adelanteprofundizaremos tambi�en en este tipo de m�etodos que integran tanto t�ecnicas basadasen �areas como basadas en primitivas (secci�on 2.2.5).Fusiello et al. [1997b] [1997a] utilizan la misma t�ecnica de m�ultiples ventanas queIntille y Bobick [1994a] pero utilizando una maximizaci�on del ��ndice de correlaci�on yposterior validaci�on mediante la restricci�on de consistencia izquierda-derecha.En resumen, los m�etodos basados en ventanas adaptativas intentan evitar los proble-mas generados por la presencia de oclusiones eliminando aquellas correspondencias cuyavalidez sea dudosa, determinando su incertidumbre mediante diversos m�etodos. Aunquelos m�etodos basados en ventanas adaptativas consiguen obtener un conjunto de corres-pondencias v�alidas, no consiguen modelar las oclusiones expl��citamente, y necesitan unaetapa de postproceso en la que se completa el mapa de disparidades mediante algunat�ecnica de interpolaci�on [Lotti, 1996].Sin embargo, Geiger et al. [1992] muestran que las oclusiones pueden ayudar en elc�alculo de la correspondencia. Seg�un ellos, las oclusiones no son elementos a detectary eliminar, porque as�� no se explota toda la informaci�on potencial que contienen. Esposible modelar las oclusiones y las discontinuidades de la profundidad expl��citamente de

Page 47: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 2. Estado del arte 23modo que forman parte integrante del problema que se procede a resolver y por tanto, dela soluci�on obtenida. De este modo las oclusiones y discontinuidades de la profundidadno son problemas a evitar, sino una fuente de informaci�on a tener en cuenta.2.2.5 M�etodos basados en programaci�on din�amicaEn las t�ecnicas basadas en programaci�on din�amica, la b�usqueda de la soluci�on se realizamediante el algoritmo de Viterbi que consiste en partir el problema original en dos sub-problemas, cada uno de los cuales se puede resolver de manera �optima y cuyos resultadosse pueden procesar para alcanzar un �optimo global del problema original. La restricci�onde particionamiento que se aplica en el problema de la correspondencia estereosc�opicaes la restricci�on de orden y el criterio que selecciona el camino �optimo est�a basado en lasdiferencias fotom�etricas de los pixeles a emparejar. Estos m�etodos permiten obtener unconjunto de correspondencias para un conjunto de elementos, que es un �optimo globalseg�un una funci�on de coste, en lugar de obtener un �optimo local para cada elementoconsiderado.En general, en las t�ecnicas basadas en programaci�on din�amica, el espacio de b�usquedade la correspondencia se representa mediante un espacio bidimensional que incluye todaslas posibles correspondencias para cada pixel de una l��nea epipolar. La soluci�on alproblema de la correspondencia se representa como un camino desde el primer punto dela l��nea epipolar al �ultimo, que minimiza una funci�on de coste. En la funci�on de coste setienen en cuenta tanto los errores de similitud entre los puntos correspondientes comolas oclusiones. De este modo se consigue obtener un conjunto denso de correspondenciasque minimizan una funci�on de coste global para cada l��nea epipolar.Geiger et al. [1995] de�nen un espacio bidimensional llamado el espacio de corres-pondencia (matching space) cuyos ejes vienen dados por las l��neas epipolares izquierda yderecha. Cada nodo del espacio de correspondencia contiene el error de similitud entreun elemento de la l��nea epipolar izquierda y uno de la derecha, calculado mediante unat�ecnica de ventana m�ultiple que es una simpli�caci�on de la t�ecnica de Kanade y Okuto-mi [1994]. La principal novedad consiste en que las oclusiones se modelan como saltos enel camino soluci�on y se incorporan en la funci�on de coste en funci�on de la envergadurade este salto. Este modelo asume que una discontinuidad en la disparidad a lo largode la l��nea epipolar siempre corresponde a una regi�on oculta en la otra imagen. As��,se pueden incorporar las oclusiones en el proceso de correspondencia, imponiendo estarestricci�on sobre el conjunto de los posibles caminos en el espacio de correspondencias,llamada restricci�on de oclusi�on. En el espacio as�� de�nido se busca la soluci�on �optima,utilizando adem�as de la restricci�on de oclusi�on, la restricci�on de orden y la restricci�on decontinuidad de la �gura. Esta �ultima supone una restricci�on d�ebil de suavizado sobre elmapa de disparidades resultante. El coste computacional del algoritmo para cada l��neaepipolar es O(N jDj2), donde N es el tama~no de la l��nea epipolar y jDj el n�umero deposibles disparidades.

Page 48: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

24 Cap��tulo 2. Estado del arteBelhumeur [1993b] utiliza una aproximaci�on bayesiana que relaciona las oclusionesy la correspondencia est�ereo [Belhumeur y Mumford, 1992] [Belhumeur, 1993a] por me-dio de una funci�on de densidad de probabilidad a priori, y estima las correspondenciasmediante un algoritmo de m�aximo a posteriori. Para manejar las oclusiones y disconti-nuidades de la profundidad adecuadamente, Belhumeur a�rma que deber��a mantenerseun mapa detallado de la geometr��a de la escena internamente, incluyendo no solamen-te la profundidad sino tambi�en la orientaci�on de la super�cie, las discontinuidades ylos pliegues. Aunque el modelo es muy completo y proporciona una soluci�on global alproblema de la correspondencia, la b�usqueda de la soluci�on �optima requiere un esfuer-zo computacional enorme, O(N jDj2S2), donde S es el n�umero de posibles valores deinclinaci�on, para una dimensi�on.Intille y Bobick [Intille y Bobick, 1994a] utilizan una representaci�on del espacio decorrespondencias similar a la de Geiger et al. , llamada imagen del espacio de dispari-dades (disparity space image, DSI), que consiste en un espacio bidimensional cuyos ejesvienen dados por una l��nea epipolar y todas las disparidades posibles. En el DSI, lasdiscontinuidades de profundidad y las oclusiones se modelan de manera similar al espa-cio de correspondencia, considerando disparidades en lugar de posiciones absolutas en lal��nea epipolar correspondiente. La principal diferencia es que ellos proponen de�nir tresposibles estados para cada nodo, de modo que para calcular el estado de un nodo s�olose pueden considerar tres nodos vecinos y ciertas transiciones legales entre estados. As��se reduce el coste computacional del algoritmo a O(3N jDj).Sin embargo, debido a que el coste de un nodo oclusi�on es una constante, el coste deuna regi�on oculta es linearmente proporcional a la anchura de la regi�on y en consecuen-cia, peque~nas variaciones en el coste de cada oclusi�on pueden cambiar el camino m��nimoglobal, particularmente en im�agenes con ruido. Para intentar minimizar la sensibilidaddel algoritmo al coste de oclusi�on, Intille y Bobick utilizan puntos de control verdaderos(ground control points) para guiar la correspondencia. Estos puntos de control puedenconsistir en correspondencias conocidas de alta �abilidad, generalmente obtenidas me-diante alguna otra t�ecnica de correspondencia. Introducir un punto de control en el DSIsigni�ca que todos los posibles caminos pasar�an por �el, de modo que el n�umero de posi-bles caminos se reduce. Al mismo tiempo, se puede determinar una serie de nodos delDSI por los cuales no pasa ning�un camino v�alido y por tanto se puede evitar el c�alculode esos nodos, con lo que el coste computacional tambi�en se reduce.Otro modo de incorporar puntos de control en el DSI consiste en considerar no unasino varias correspondencias posibles para un punto dado. En esta l��nea, en el DSI sepuede incorporar la informaci�on que proporcionan los bordes [Intille y Bobick, 1994b].Trazando en el DSI la posici�on de un borde de la izquierda y la posici�on de su pun-to correspondiente en la derecha (que seg�un la restricci�on de oclusi�on ser�a tambi�en unborde) podemos observar que forman dos l��neas que intersectan en la ordenada que co-rresponde a su disparidad. Por tanto, si trazamos las l��neas correspondientes a todos losbordes de las l��neas epipolares izquierda y derecha, todas las intersecciones que aparecenconstituyen todas las correspondencias posibles entre bordes. Utilizar estos puntos deintersecci�on como puntos de control permite as��mismo reducir el espacio de b�usqueda.

Page 49: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 2. Estado del arte 25Algunos m�etodos que utilizan la programaci�on din�amica como estrategia de corres-pondencia est�an basados en primitivas, como Bensrhair et al. [1996] que realizan lacorrespondencia entre edgels y despu�es interpolan las disparidades entre los mismos, yLi [1994] que realiza la correspondencia de l��neas en lugar de edgels.En otros trabajos, los puntos de los bordes se usan para proporcionar informaci�onsobre la localizaci�on de las discontinuidades de la disparidad. Baker y Binford [1981] fue-ron los primeros en combinar la correspondencia basada en �areas y basada en primitivasen dos etapas. En primer lugar obtienen una correspondencia de puntos de bordes queaparecen en cada l��nea epipolar a diferentes resoluciones y a continuaci�on obtienen losvalores de disparidad en los intervalos obtenidos. Adem�as, se intenta evitar el problemade las oclusiones considerando dos lados en cada borde (izquierdo y derecho) y empa-rejando bordes izquierdos con izquierdos y bordes derechos con derechos. Sin embargo,no se modelan expl��citamente las oclusiones. Rojas et al. [1997] tambi�en proponen dosetapas, que se pueden aplicar conjunta o independientemente, e incorporan una funci�onde visibilidad para manejar las oclusiones.Ohta y Kanade [1985] utilizan intervalos limitados por contornos como primitivaspara la correspondencia, utilizando la consistencia entre l��neas adyacentes en la funci�onde coste. Cox et al. [1992] [1996] intentan evitar el suavizado que producen las restric-ciones de continuidad aplicando una regularizaci�on basada en restricciones de cohesi�on(cohesivity constraints).Recientemente, Birch�eld y Tomasi [1998] proponen procesar cada l��nea indepen-dientemente y a~nadir un postproceso que consiste en propagar los valores de disparidad�ables en regiones de valores de disparidad no �ables. Este postproceso es efectivo en lapropagaci�on de las disparidades en las regiones que tienen poca variaci�on en la intensi-dad. Sin embargo, aunque en el proceso se modelan las oclusiones, en el postproceso s�olose tiene en cuenta la �abilidad de las disparidades para la propagaci�on de la informaci�on.2.2.6 M�etodos basados en relajaci�onEl problema de la correspondencia se puede traducir como la asignaci�on de etiquetas�unicas a un conjunto de primitivas de una imagen, dada una lista de posibles correspon-dencias de cada primitiva.Este problema se puede resolver mediante un algoritmo iterativo y localmente pa-ralelo donde, dadas las primitivas de la imagen izquierda y de la imagen derecha, seconstruye un conjunto inicial con todos los emparejamientos posibles. Este conjunto seorganiza como una colecci�on de nodos faig de modo que hay un nodo por cada pri-mitiva de la primera imagen. A cada nodo ai se le asocia un vector de caracter��sticasgeom�etricas de la primitiva de la primera imagen, y el conjunto de etiquetas, ei, querepresenta las posibles correspondencias de las primitivas. Una etiqueta especial llama-da el car�acter nulo (null label) es incluido inicialmente en el conjunto ei. Esta etiqueta

Page 50: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

26 Cap��tulo 2. Estado del artesigni�ca considerar la posibilidad de que no haya correspondencia con la segunda ima-gen [Barnard y Thompson, 1980]. A cada etiqueta e de ei se asocia un n�umero pi(e)que se interpreta como una estimaci�on de la probabilidad de que e sea efectivamentela correspondencia de la primitiva, de modo que pi(e) 2 [0; 1] y Pe2ei pi(e) = 1. Es-tas estimaciones de probabilidad se modi�can teniendo en cuenta la coherencia entrelos vecinos. Si hay un n�umero de primitivas compatibles relativamente elevado entre elvecindario, entonces pi(e) aumentar�a, y en caso contrario disminuir�a. Despu�es de unn�umero su�ciente de iteraciones, un nodo es considerado como emparejable si hay unaetiqueta con una probabilidad su�cientemente elevada, y no emparejable en otro caso.Por tanto, lo esencial en este tipo de t�ecnicas es la de�nici�on de la regla de actualizaci�onde las probabilidades.En el �area de correspondencia estereosc�opica son famosos los algoritmos de Marry Poggio [1976] [1979], Grimson [1981] [1985], y Pollard, Mayhew y Frisby [1985] queutilizan edgels como primitiva. En los trabajos m�as recientes, se tiende a utilizar larelajaci�on probabil��stica con primitivas de mayor nivel simb�olico como son los segmentoslineales [Christmas, 1995] [Christmas et al., 1995] [Wilson y Hancock, 1997], y los seg-mentos curvos [Nasrabadi, 1992]. Algunos m�etodos utilizan redes neuronales como esel caso de Pajares et al. [1998], que aplican la relajaci�on mediante la red neuronal deHop�eld.2.2.7 M�etodos basados en grafosTradicionalmente, el problema de la correspondencia basada en primitivas se ha formu-lado como la correspondencia entre dos estructuras relacionales. Dadas las primitivas deuna imagen, �estas est�an conectadas por relaciones binarias e incluso ternarias como, porejemplo, la distancia entre dos puntos, el �angulo entre dos rectas, un punto est�a sobreuna recta, tres rectas intersectan en un punto, etc. Aunque las relaciones pueden sern-arias, en la pr�actica se suele utilizar relaciones binarias (n = 2) y por tanto la estruc-tura relacional se convierte en un grafo est�andar. Dadas estas estructuras, la tarea delproceso de correspondencia consiste en identi�car una subestructura \id�entica" dentrode las dos estructuras. Sin embargo, raramente se puede encontrar una subestructuraid�entica porque las primitivas detectadas contienen ruido o est�an mal localizadas, o por-que hay distorsiones en las im�agenes, o porque un movimiento r��gido en el espacio 3Dgeneralmente induce a desplazamientos diferentes de las primitivas en la imagen. De ah��la introducci�on del concepto de correspondencia inexacta (inexact matching). Por tanto,el problema se traduce en la b�usqueda del m�aximo par de subgrafos isom�or�cos tal quecada subgrafo sea una parte de los grafos relacionales iniciales.La t�ecnica habitual para resolver el problema de la correspondencia bas�andose engrafos consiste en construir un grafo de asociaci�on. Cada nodo del grafo representaun posible emparejamiento entre una caracter��stica en la imagen izquierda y otra en laimagen derecha, y un arco entre dos nodos representa la compatibilidad entre los dosemparejamientos que enlaza.

Page 51: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 2. Estado del arte 27Ayache y Faverjon [1987] usan segmentos lineales de la frontera como primitivas yrepresentan todas las correspondencias posibles entre segmentos como nodos del grafo.Los arcos del grafo representan pares de segmentos compatibles, usando ciertas relacio-nes de vecindario. Exploran el grafo usando un algoritmo de predicci�on y propagaci�onque usa algunas restricciones locales y globales (restricci�on epipolar, restricci�on de si-militud geom�etrica, restricci�on de continuidad y restricci�on de unicidad). El m�etodoevita la b�usqueda exhaustiva en el grafo, pero no hay garant��a de que encuentre ni lacorrespondencia m�as numerosa ni la mejor.Horaud y Skordas [1989] usan segmentos lineales de la frontera e introducen lab�usqueda de cliques m�aximos2 como estrategia de correspondencia est�ereo. Nasraba-di y Liu[1989] aplican la misma estrategia a la correspondencia de segmentos curvos.Este m�etodo ha sido ampliamente utilizado en el �area de reconocimiento de objetosen im�agenes 2D [Bolles, 1979] [Bolles y Cain, 1982] y 3D [Yang et al., 1989], donde lab�usqueda del clique m�aximo m�as grande3 obtiene el mejor conjunto de correspondenciasentre regiones de la imagen y partes de un modelo del objeto. Sin embargo, el cliquem�aximo m�as grande no es necesariamente la mejor correspondencia, debido a variasrazones:� la existencia de oclusiones, que hace que una caracter��stica correspondiente a unadada pueda aparecer distinta o incluso no aparecer;� limitaciones en el proceso de extracci�on de caracter��sticas, que a menudo conllevaque dadas dos im�agenes similares no proporcione los mismos resultados;� alineaci�on accidental, ruido, etc. que pueden producir diferencias en la extracci�onde caracter��sticas de una y otra imagen.En la �gura 2.5 se muestra un ejemplo sencillo de correspondencia basada en grafos,donde las primitivas son regiones. La �gura ilustra un caso en el que hay seis cliquesm�aximos del mismo tama~no (dos nodos cada uno) en el grafo de asociaci�on resultante.Para intentar obtener la mejor correspondencia est�ereo, Horaud y Skordas asocianun peso a cada nodo del grafo que representa la similitud entre los dos segmentos dela frontera de ambas im�agenes. Usan una funci�on de bene�cio para encontrar el cliquem�aximo que maximiza la suma de pesos de sus nodos individuales, al que llamaremos alo largo de este documento el mejor clique m�aximo.Sin embargo, el problema de encontrar todos los cliques m�aximos de un grafo y elproblema de encontrar s�olo el clique m�aximo m�as grande, son problemas NP-completos[Balas y Yu, 1986] [Bolles y Haraud, 1986] [Davies, 1991]. Este es un problema muy2Dado un grafo G, un clique de G es cualquier subconjunto de nodos de G en el que todos los nodosest�an conectados entre s��. Un clique m�aximo (maximal clique) es un clique al que si se le a~nade cualquierotro nodo del grafo deja de ser un clique.3El clique m�aximo m�as grande (largest maximal clique) de un grafo G, es el clique m�aximo de G conmayor n�umero de nodos.

Page 52: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

28 Cap��tulo 2. Estado del arteL4

2L1L

L3

RR2

1

L5

(a) Par est�ereo de im�agenes segmentadoR1L2

R1L1

R2

R2

R2L3

4L

L5(b) Grafo de asociaci�onFigura 2.5: Un ejemplo sencillo de errores en la segmentaci�on.importante que ha propiciado el desarrollo de diversas t�ecnicas que intentan acelerarel proceso, como las implementaciones paralelas [El-Sonbaty y Ismail, 1998], o el usode modelos conexionistas [Suganthan et al., 1998]. Herault et al. [1990] derivan unafunci�on de coste asociada con la correspondencia de subgrafos relacionales, de modo queconvierten el problema de la correspondencia en un algoritmo de simulated annealingusando el m�etodo de Metropolis.Otro problema importante que aparece es que los pesos en los nodos pueden sererr�oneos debido a que las fuentes de ruido in uyen en la medici�on de la similitud entrelas caracter��sticas.Ranganath y Chipman [1992] usan una t�ecnica de relajaci�on difusa que incluye infor-maci�on estructural en los pesos de los nodos. En este m�etodo, los arcos tambi�en tienenun peso, que mide el ratio de compatibilidad entre dos nodos, construyendo as�� un grafode asociaci�on mejorado (enhanced association graph). Los pesos de los nodos se modi�-can mediante un proceso de relajaci�on iterativo que depende del n�umero y peso de losnodos conectados a cada nodo y la fortaleza de su relaci�on. Si un nodo tiene un buensoporte de los nodos conectados a �el su peso aumenta, y en caso contrario, disminuye.Despu�es del proceso de relajaci�on, los nodos sin soporte contextual (peso peque~no) seeliminan, reduciendo as�� el tama~no del grafo para la b�usqueda del mejor clique m�aximo,de modo que se disminuye el primer problema.2.2.8 Correspondencia de regionesLos m�etodos basados en primitivas se pueden clasi�car por el tipo de primitiva utilizadaen el proceso de correspondencia. La selecci�on de la primitiva es arbitraria y la �unicageneralizaci�on real que se puede hacer es que la primitiva debe ser una parametrizaci�on�util de la imagen. En general, una primitiva �util debe tener las siguientes propieda-des: unicidad, repetibilidad y signi�cado f��sico [Lane y Thacker, 1994]. El objetivo es

Page 53: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 2. Estado del arte 29proporcionar correspondencias no ambiguas. La mayor parte de los trabajos basadosen primitivas se han basado en la extracci�on de los contornos de la imagen (edgels,segmentos lineales, segmentos curvos) y en algunos casos intersecciones entre contornos(junctions, corners).A medida que crece el contenido sem�antico de la primitiva, crece la di�cultad deextracci�on de la misma, y crece la dispersi�on del mapa de disparidades. Pero al mismotiempo, los algoritmos suelen ser m�as e�cientes debido a que la cantidad de primitivasen la imagen disminuye, y las correspondencias obtenidas son m�as �ables debido a quese reduce el n�umero de ambig�uedades.Las regiones son primitivas de alto nivel, con un elevado contenido sem�antico, lo quereduce la posibilidad de ambig�uedades en la correspondencia. Marapane y Trivedi [1989][1994] propusieron el uso de regiones como primitivas de la correspondencia debido a suestabilidad y su capacidad descriptiva, lo que las hace m�as tolerantes al ruido que lasprimitivas basadas en fronteras.El uso de regiones hace que algunas de las restricciones de la correspondencia est�ereose asuman impl��citamente o que sean m�as f�aciles de introducir. Otra ventaja es el hechode que en una imagen suele haber un n�umero menor de regiones que de otras primitivascomo son las basadas en fronteras. Por tanto, establecer las correspondencias ser�a m�ase�ciente y el n�umero de correspondencias falsas o perdidas se reducir�a.Sin embargo, la correspondencia basada en regiones proporciona un mapa de dispari-dades muy disperso, por lo que Marapane y Trivedi concluyen que deber��a ser el primerpaso de un sistema estereosc�opico jer�arquico donde el problema de la correspondenciadebe resolverse primero usando regiones y despu�es, fronteras y pixeles, de modo que�nalmente se obtenga un mapa denso de disparidades. Una vez que se ha resuelto elproblema de la correspondencia usando regiones, las fronteras y los pixeles pueden usarsepara generar un mapa de disparidades de resoluci�on �na.De Agapito [1996] propone un sistema de dos niveles: regiones en el nivel alto de lajerarqu��a y esquinas en el segundo nivel. Obtiene la profundidad en las esquinas mediantetriangulaci�on y realiza una reconstrucci�on que consiste en la interpolaci�on lineal entre lasprofundidades obtenidas. Tambi�en hay m�etodos jer�arquicos en los que en primer lugarse establece la correspondencia entre segmentos de las fronteras y despu�es se calcula ladisparidad entre los pixeles intermedios [Baker y Binford, 1981], por ejemplo, medianteadaptaci�on de una funci�on polinomial [Lacey et al., 1998]. Otros m�etodos establecenla jerarqu��a entre diferentes conjuntos de regiones obtenidas con diferentes niveles desegmentaci�on [Cohen et al., 1989b] [Sander et al., 1989], e incluso ha habido intentosde segmentar las im�agenes al mismo tiempo que se establece la correspondencia en unalgoritmo cooperativo [Cohen et al., 1989a] [Randriamasy y Gagalowicz, 1991].Muchos autores resaltan que el principal problema de los algoritmos basados enregiones es el manejo de las oclusiones. Sin embargo, veremos m�as adelante que en

Page 54: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

30 Cap��tulo 2. Estado del artela t�ecnica que se propone en el cap��tulo 4 no s�olo se modelan las oclusiones, sino queadem�as ayudan en el proceso de correspondencia.Otra desventaja del uso de regiones radica en las diferencias entre los resultadosde la segmentaci�on de ambas im�agenes. Pero en realidad ha habido pocos intentos dedetectar o tener en cuenta estos efectos. Cuando se segmenta un par est�ereo de im�agenes,puede haber errores debido a, por ejemplo, el ruido, las condiciones de adquisici�on delas im�agenes, las limitaciones de los procedimientos de segmentaci�on, etc. Los erroresque aparecen son los siguientes:� Regiones ocultas parcialmente: regiones que aparecen en ambas im�agenes pero conformas diferentes debido a oclusi�on parcial de una de ellas, situaci�on en el bordede la imagen, etc.� Regiones ocultas: regiones que aparecen s�olo en una imagen.� Regiones fragmentadas: algunas regiones adyacentes de una imagen pueden corres-ponder a una o m�as regiones en la otra imagen. Este problema tambi�en se conocecomo sobre-segmentaci�on o infra-segmentaci�on4 en el �area de reconocimiento deobjetos.Las t�ecnicas de correspondencia basadas en regiones tienen que ser capaces de ma-nejar los errores de la segmentaci�on. Las regiones ocultas parcialmente producen pesosincorrectos en los nodos, que pueden corregirse mediante t�ecnicas de relajaci�on que in-troducen informaci�on contextual en los pesos de los nodos. Las regiones que no aparecenen la otra imagen producen nodos, si los hay, con pocas compatibilidades con los dem�asnodos. As��, el proceso de relajaci�on, que incluye informaci�on estructural en los pesos delos nodos, reduce el peso de estos nodos.Sin embargo, el problema de las regiones fragmentadas es m�as dif��cil. Yang etal. [1989] corrigen la sobre-segmentaci�on generando un grafo de asociaci�on aumentado.El m�etodo considera todos los nodos que tratan de emparejar caracter��sticas diferen-tes de la imagen con la misma parte del modelo, y los une en un solo nodo. En suart��culo prueban formalmente que la cardinalidad del clique m�aximo m�as grande no seincrementa cuando se unen dos nodos no adecuados y que se aumenta cuando se unennodos adecuadamente. Por tanto, la mejor correspondencia es la que representa el cliquem�aximo m�as grande del grafo de asociaci�on aumentado, o uno de ellos si hay m�as deuno. Yang et al. realizan todas las uniones posibles en un proceso iterativo sin �ltrar lasuniones no adecuadas, lo que en casos reales podr��a hacer crecer demasiado el grafo deasociaci�on.Ranganath y Chipman [1992] corrigen la sobre-segmentaci�on y la infra-segmentaci�onteniendo en cuenta los pesos de los nodos. Su m�etodo considera el conjunto de todos4En el �area de reconocimiento de objetos, cuando se sobre-segmenta una imagen se obtienen m�asregiones que partes del modelo a reconocer (oversegmentation), y al contrario, la infra-segmentaci�on(undersegmentation) ocurre cuando hay una regi�on que se corresponde con varias partes del modelo.

Page 55: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 2. Estado del arte 31los nodos que intentan emparejar la misma parte del modelo con regiones diferentes dela imagen, pero se unen s�olo cuando todos los pesos de los nodos est�an por debajo deun determinado umbral. Por tanto, el n�umero de nuevos nodos uni�on no es excesiva-mente grande. Sin embargo, en im�agenes segmentadas reales una regi�on fragmentadapodr��a ser su�cientemente grande para formar una buena correspondencia, mientras quealgunas regiones peque~nas adyacentes a ella podr��an quedarse sin correspondencia. Estem�etodo para la correspondencia de partes de un modelo con regiones de una imagen nofunciona bien en el caso de correspondencia de regiones de dos im�agenes debido a lasnumerosas diferencias que aparecen en la segmentaci�on. Debido al criterio de similitudentre regiones, algunos emparejamientos se desechan desde el principio incluso antes deformar las uniones de regiones.Criterios para la correspondencia de regionesLos trabajos que usan regiones como primitiva para la correspondencia suelen utilizarlos atributos de las regiones para calcular la similitud entre las mismas. Randriamasyy Gagalowicz [1991] usan el tama~no de la regi�on, medias de caracter��sticas y posici�ondel centro de gravedad. Marapane y Trivedi [1989] usan nivel de gris medio, �area,per��metro, anchura, longitud, y raz�on de aspecto (aspect ratio). Tambi�en proponenusar otras propiedades espectrales y espaciales tales como medidas de intensidad encanales simples o m�ultiples, compacidad, ejes mayor y menor, momentos, textura ydescriptores topol�ogicos. Cohen et al. [1989b] usan similitud en tama~no de las regiones,circularidad, posici�on del centro de gravedad, media de la intensidad, varianza de laintensidad, momentos espaciales, etc. Lee et al. [1993] usan algunos invariantes demomentos a�nes (a�ne moment invariants), que son los valores propios de una matrizque representa el movimiento aparente de la region entre dos im�agenes.Sin embargo, los errores de la segmentaci�on pueden producir que algunas regionesen una imagen sean muy diferentes en tama~no y forma a las regiones correspondientesen la otra imagen.2.2.9 Reconstrucci�on de la escena a partir de datos de rangoEl objetivo �nal es, a partir de los datos de la profundidad, obtener una descrip-ci�on lo m�as rica posible de la escena. Hay muchos trabajos sobre la segmentaci�on deim�agenes de rango entre los que destacan los basados en contornos y los basados enregiones [Besl y Jain, 1988].Dado que es dif��cil la interpretaci�on directa de una gran cantidad de datos de pro-fundidad sin estructurar, Chen y Lin [1997] transforman estos datos en descripcionesestructuradas mediante un m�etodo de segmentaci�on de la informaci�on de rango quecombina m�etodos basados en contornos y regiones de la imagen e incorpora t�ecnicas deregresi�on para rechazar las falsas correspondencias (outliers) de los datos est�ereo.

Page 56: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

32 Cap��tulo 2. Estado del arteWildes [1991] considera la siguiente pregunta: >Es la distancia a las super�cies vi-sibles el �unico resultado deseable de la visi�on est�ereo? Como alternativa considera laposibilidad de interpretar la disparidad est�ereo en t�erminos de orientaciones de las super-�cies y discontinuidades, adem�as de la distancia. Belhumeur [1993b] a�rma que deber��amantenerse un mapa detallado de la geometr��a de la escena internamente (profundi-dad, orientaci�on, etc.) durante la correspondencia, de modo que todos estos elementoscooperen en la optimizaci�on de la misma.Tarel et al. [1995] [1996] y Vezien et al. [1991] hacen la reconstrucci�on en base a primi-tivas geom�etricas de alto nivel bas�andose �unicamente en las caracter��sticas geom�etricasglobales de las proyecciones de las super�cies sobre las im�agenes. En estos m�etodos, separte de un conjunto de pares de regiones correspondientes de donde se eliminan aqu�ellospares que incluyen regiones mal segmentadas, haciendo un test de coherencia basado eninvariantes, y s�olo se reconstruyen pares de regiones v�alidos seg�un este test. Un m�etododonde se combinan la geometr��a y la fotometr��a permite adem�as el tratamiento de laszonas ocultas [Tarel, 1996].Otros autores pre�eren considerar las super�cies 3D de la escena durante la corres-pondencia en vez de durante la reconstrucci�on. Chabbi y Berger [1996] buscan super�-cies planas 3D entre las posibles correspondencias de caras 2D extraidas de las im�agenes,bas�andose en la reconstrucci�on de los contornos de las caras 2D de modo que los segmen-tos de la super�cie 3D sean coplanares. Sin embargo, necesitan del uso de un sistematrinocular para obtener tripletes de caras 2D que son validados mediante principios degeometr��a proyectiva.En todos estos trabajos basados en regiones se asume generalmente una restricci�onimportante sobre la forma de las super�cies de la escena (super�cies planas) que esutilizable en el caso de escenas de interiores y escenas urbanas.2.3 Discusi�onComo resumen de la revisi�on de las t�ecnicas existentes de visi�on estereosc�opica podemosextraer las siguientes conclusiones:� Las t�ecnicas de correlaci�on cl�asicas tienen dos problemas principales que son eltratamiento de las oclusiones y las discontinuidades en la profundidad y el trata-miento de las super�cies no fronto-paralelas.La selecci�on adaptativa de la ventana de correlaci�on y/o el uso de m�ultiplesventanas, permite evitar los problemas derivados de la presencia de oclusiones ydiscontinuidades en la profundidad, pero no saca provecho de la informaci�on que�estas proporcionan sobre la estructura tridimensional de la escena.Cada vez m�as, la selecci�on adaptativa de la ventana intenta ce~nirse a ciertas pri-mitivas de m�as alto nivel como son los bordes obtenidos mediante un detector de

Page 57: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 2. Estado del arte 33bordes tipo Canny. Se intenta cubrir un m�aximo de formas geom�etricas alrede-dor del pixel central sin rebasar las discontinuidades en la intensidad que seansigni�cativas.� Las t�ecnicas basadas en programaci�on din�amica permiten obtener una so-luci�on �optima global para cada l��nea epipolar en lugar de un conjunto de �optimoslocales, y adem�as permiten modelar las oclusiones como parte del problema de lacorrespondencia.Sin embargo, en las investigaciones recientes, bien para aumentar la robustez dela soluci�on, bien para reducir el espacio de b�usqueda, o bien para ambas cosas,se tiende a incluir en el espacio de b�usqueda informaci�on sobre los puntos de losbordes.� Las dos conclusiones anteriores nos hacen pensar que las t�ecnicas basadas en �areastienden cada vez m�as a adaptarse a la informaci�on que proporcionan ciertas pri-mitivas extraidas de las im�agenes y que una generalizaci�on de esta tendencia ser��aconsiderar los bordes proporcionados por la segmentaci�on de im�agenes como �unicol��mite posible al crecimiento de la ventana adaptativa. Es decir, considerar lasregiones resultantes de la segmentaci�on, como primitivas para la correspondencia.� En cuanto a los m�etodos basados en primitivas, seg�un aumenta el nivel de laprimitiva, aumenta la robustez de las correspondencias obtenidas, al mismo tiempoque se aumenta su dispersi�on. Debido a que es deseable obtener un mapa densode disparidades, se han propuesto sistemas jer�arquicos donde los resultados de lacorrespondencia de un tipo de primitivas sirven para inicializar la correspondenciade las primitivas del siguiente nivel en la jerarqu��a.Aunque algunos autores han propuesto el uso de regiones como primitiva (ge-neralmente como nivel m�as alto del sistema jer�arquico), las regiones han sido pocoutilizadas debido a la di�cultad que supone su extracci�on de la imagen, concreta-mente las diferencias en la segmentaci�on de las regiones correspondientes, lo quedi�culta los procesos de correspondencia y reconstrucci�on. Ha habido pocos inten-tos de resolver estos problemas producidos por los errores en la segmentaci�on, ytodav��a no existe un m�etodo robusto que los solucione.� Los m�etodos basados en grafos han sido abundantemente utilizados para re-solver el problema de la correspondencia, sobre todo, correspondencia de segmen-tos lineales. Proporcionan una soluci�on �optima, pero la b�usqueda de los cliquesm�aximos del grafo de asociaci�on es un problema NP-completo.� El proceso de reconstrucci�on de la escena tridimensional consiste generalmenteen segmentar el mapa de profundidades obtenido a partir de las disparidades paraobtener entidades de mayor nivel (super�cies, objetos), que se puedan utilizar paralas numerosas aplicaciones. En las t�ecnicas en las que el mapa de profundidades esdisperso adem�as hace falta una etapa para completarlo, generalmente utilizandoalguna t�ecnica de interpolaci�on. Aunque tambi�en se han propuesto m�etodos de re-construcci�on basados en regiones, bajo la suposici�on de que representan super�cies

Page 58: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

34 Cap��tulo 2. Estado del arteplanas de la escena, �estos fallan cuando la segmentaci�on de las regiones presentalos errores que ya se han mencionado.Hemos elegido las regiones como primitiva de la correspondencia con el objetivode, a partir de cada par de regiones correspondiente, obtener una reconstrucci�on dela super�cie que representan. Para realizar la correspondencia entre regiones, tenemosque resolver los problemas derivados de las diferencias entre la segmentaci�on de ambasim�agenes. En esta l��nea se enmarca el trabajo que se presenta en el cap��tulo 3, dondese intentan resolver los problemas de segmentaci�on mediante un m�etodo que une lasregiones adecuadas para mejorar la correspondencia y la reconstrucci�on.Sin embargo, la complejidad computacional de los m�etodos basados en grafos, nosha llevado a buscar nuevas estrategias de correspondencia. La alternativa adoptadaes considerar la correspondencia de regiones y la reconstrucci�on de las super�cies querepresentan en un solo paso, de modo que se obtenga la escena 3D directamente. En elcap��tulo 4, se presenta un nuevo m�etodo que modela las super�cies de la escena duranteel proceso de correspondencia de modo que se maximice la correlaci�on entre los pixelesno ocultos de las regiones. Aunque el problema ha de estar sujeto a ciertas restriccionescomunes en otros trabajos (super�cies planas), con este m�etodo se pretende obtener lareconstrucci�on de la escena teniendo en cuenta las oclusiones y las discontinuidades en laprofundidad, en un algoritmo donde ambas cooperan en el proceso de correspondencia.

Page 59: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 3Correspondencia de regionesbasada en grafos de asociaci�onUno de los objetivos de este trabajo es establecer la correspondencia entre dos proyec-ciones de una escena para recuperar la informaci�on tridimensional de la misma. En estecap��tulo se realiza una serie de aportaciones a una familia cl�asica de t�ecnicas, las basadasen grafos. Las regiones han sido poco utilizadas como primitiva en la literatura por ladi�cultad que supone su extracci�on de la imagen, y las di�cultades que incorporan en lacorrespondencia los errores que se derivan de la segmentaci�on. El trabajo que se presentaen este cap��tulo es el resultado de la investigaci�on realizada en aras de la resoluci�on deestos problemas en el �ambito de la correspondencia.3.1 Introducci�onEn el �area de aplicaci�on de la rob�otica, las escenas de inter�es suelen ser escenas deinteriores, donde la escena est�a formada principalmente por objetos fabricados por elhombre, con poca textura. En super�cies poco texturadas, las t�ecnicas basadas en �areastienen di�cultades, por lo que se suelen emplear t�ecnicas basadas en caracter��sticas.Las primitivas m�as utilizadas son las basadas en fronteras, como son los segmentoslineales, o los pixeles de la frontera. Aunque ha habido trabajos en los que se propon��anprimitivas de mayor contenido sem�antico que los segmentos lineales (segmentos curvos,intersecciones entre segmentos), son pocos los trabajos que proponen las regiones comoprimitiva de la correspondencia.La correspondencia de regiones hace m�as f�acil la introducci�on de algunas restriccionesde la visi�on estereosc�opica, tal como se coment�o en el cap��tulo 2. El caso m�as claro loconstituye la restricci�on de continuidad. Debido a las propiedades de continuidad y35

Page 60: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

36 Cap��tulo 3. Correspondencia de regiones basada en grafoscohesi�on de la materia, la disparidad (o la profundidad) debe variar de forma suave enlos puntos adyacentes de la imagen, salvo en los l��mites de las super�cies de la escena,donde pueden existir cambios bruscos de disparidad. Generalmente, los l��mites de lassuper�cies suelen estar en los cambios bruscos de intensidad, mientras que las �areasde intensidad homog�enea representan super�cies donde la restricci�on de continuidades aplicable. Las regiones representan �areas de intensidad homog�enea, limitadas pordiscontinuidades en la intensidad y por tanto, se puede asumir que la funci�on disparidaddebe ser suave en el interior de las regiones, mientras que puede tener discontinuidadesen las fronteras entre regiones.Sin embargo, proporcionar un s�olo valor de disparidad para cada regi�on produce unmapa de disparidades muy disperso, por lo que Marapane y Trivedi [1989] proponen unm�etodo de correspondencia jer�arquico que en primer lugar establezca la corresponden-cia entre regiones, para despu�es establecer la correspondencia entre segmentos de lasfronteras y �nalmente entre pixeles.Para establecer la correspondencia entre regiones utilizamos un m�etodo cl�asico decorrespondencia basada en grafos [Ranganath y Chipman, 1992], dado que permite unarepresentaci�on de todas las posibles correspondencias en una estructura de datos dondese pueden incorporar f�acilmente medidas de similitud entre regiones y de compatibilidadentre pares de regiones. Las t�ecnicas basadas en grafos permiten a su vez la incorporaci�onde t�ecnicas de relajaci�on que permiten a~nadir a cada posible emparejamiento informaci�onsobre el soporte que recibe del resto de emparejamientos. De este modo, el conjunto depares de regiones resultante ser�a m�as �able. Adem�as, el uso de regiones en el primerpaso de la jerarqu��a supone normalmente un menor n�umero de elementos en el grafo,dado que suele haber un n�umero menor de regiones que de fronteras.3.1.1 Trabajo previoEn la secci�on 2.2.7 se puede encontrar una revisi�on de los m�etodos de correspondenciabasados en grafos, y en la secci�on 2.2.8 las ventajas y desventajas de la correspondenciabasada en regiones, y las soluciones propuestas en la literatura a algunos de los problemasque conlleva.Como m�etodo de partida, hemos elegido el m�etodo de correspondencia basado en elgrafo de asociaci�on mejorado desarrollado por Ranganath y Chipman [1992], debido aque este m�etodo incorpora numerosas mejoras sobre el m�etodo cl�asico: incorporaci�on depesos signi�cativos en los nodos y en los arcos, una etapa de relajaci�on que incorporainformaci�on contextual en los pesos de los nodos y un m�etodo para la resoluci�on de losproblemas derivados de los errores de la segmentaci�on.Aplicado a la visi�on estereosc�opica, este m�etodo consiste en los siguientes pasos:1. Obtener todas las regiones de las dos im�agenes mediante alg�un m�etodo de segmen-taci�on.

Page 61: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 3. Correspondencia de regiones basada en grafos 372. Calcular los nodos iniciales del grafo de asociaci�on. Cada nodo del grafo representauna posible correspondencia entre una regi�on de la imagen izquierda, Li, y unaregi�on de la imagen derecha, Rj. A cada nodo se le asigna un peso, S(Li; Rj), querepresenta la similitud entre las dos regiones que forman el nodo, bas�andose enlos atributos de las regiones. Para que un par de regiones constituya una posiblecorrespondencia (un nodo), la similitud entre las mismas ha de ser mayor que undeterminado umbral, Ts.3. Crear nuevas regiones a partir de las regiones iniciales. Para cada regi�on de laizquierda, Li, si aparece en m�as de un nodo y todos los pesos de estos nodos est�anpor debajo de un umbral, que llamaremos T 0s, esto signi�ca que ninguno de ellosrepresenta una buena correspondencia. En este caso, las regiones emparejadascon Li se consideran candidatas a unirse. Para cada par de estas regiones, si susatributos son similares, se crea una nueva regi�on con la uni�on de ambas, se calcuansus atributos, se crea un nodo que representa la correspondencia entre Li y lanueva regi�on, y se incluye esta regi�on en el conjunto de las candidatas. Para cadaregi�on de la derecha se procede an�alogamente.A partir de aqu�� y a lo largo de este cap��tulo, a cada regi�on formada por la uni�onde dos o m�as regiones resultantes de la segmentaci�on la llamaremos regi�on-uni�on, ya cada una de las regiones componentes de una regi�on-uni�on la llamaremos regi�on-fragmento.4. Calcular los arcos del grafo de asociaci�on. A cada arco se le asigna un peso,B(Li; Rj ;Lh; Rk), que representa el grado de compatibilidad entre los dos nodosque conecta. Si dos nodos son incompatibles, entonces no existe arco entre ellos.La introducci�on de regiones-uni�on conlleva la aparici�on de un nuevo caso de in-compatibilidad: los nodos que contienen una regi�on-uni�on son incompatibles conlos nodos que contienen a cada una de las regiones-fragmento que la forman.5. Realizar el proceso de relajaci�on, para incluir informaci�on estructural en los pesosde los nodos, y al �nalizar, borrar los nodos que obtengan pesos por debajo de uncierto umbral.6. Encontrar el mejor clique m�aximo del grafo (el clique m�aximo cuya suma de lospesos de los nodos que lo componen sea m�axima).C�alculo del peso inicial de los nodos y de los arcosT��picamente, el peso de cada nodo del grafo se calcula a partir de una serie de atributosde las primitivas, S(Li; Rj) = n�E(Li; Rj)n (3.1)donde n es el n�umero de atributos y E(Li; Rj) es la suma ponderada del valor absolutode las diferencias de los atributos de cada regi�on. Cada atributo se pondera de modo

Page 62: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

38 Cap��tulo 3. Correspondencia de regiones basada en grafosque el peso asociado a �el determina su importancia relativa en el conjunto de atributos,E(Li; Rj) = nXk=1 jak(Li)� ak(Rj)jwk (3.2)donde wk es el peso del k-�esimo atributo y ak es el valor del mismo.Los pesos de los arcos se calculan de manera similar,B(Li; Rj ;Lh; Rm) = n�E0(Li; Rj ;Lh; Rm)n (3.3)pero bas�andose en las relaciones entre las dos regiones implicadas en cada par de nodosdel grafo en lugar de los atributos de las regiones.E0(Li; Rj;Lh; Rk) = nXk=1 ja0k(Li; Lh)� a0k(Rj ; Rm)jw0k (3.4)Estas relaciones se pueden representar en binario (0=1) o mediante un valor real([0; 1]). Por ejemplo, la adyacencia entre dos regiones de una imagen se puede represen-tar como adyacente/no adyacente o bas�andose en un porcentaje de frontera com�un enpixeles.Proceso de relajaci�onEl proceso de relajaci�on propuesto por Ranganath y Chipman [1992] es un procesoiterativo que consiste en modi�car el peso de cada nodo bas�andose en su peso inicial, enlos pesos de sus arcos (que son constantes durante el proceso) y en los pesos de los nodosconectados a �el. La regla de relajaci�on permite integrar los pesos iniciales de los nodosy la consistencia relacional entre los nodos para conseguir una correspondencia mejor.Los pesos de los nodos en el paso t+ 1 se modi�can dependiendo de los pesos de losnodos en el paso anterior, t, y el peso inicial de los nodos, como sigue:S(Li; Rj)t+1 = �S(Li; Rj)0+(1� �) 1N NXh=1� Mmaxk=1 �S(Lh; Rk)tB(Li; Rj ;Lh; Rk)�� 8i; j(3.5)donde N;M es el n�umero de regiones en la izquierda y en la derecha, respectivamen-te, � es un par�ametro que determina la in uencia del peso inicial en el resultado, yB(Li; Rj ;Lh; Rk) indica la compatibilidad entre los nodos (Li; Rj) y (Lh; Rk), o lo quees igual, el peso del arco que conecta ambos nodos, si lo hay, o 0 si no lo hay.Este proceso de relajaci�on iterativo termina cuando la diferencia entre los pesos deuna iteraci�on y la siguiente es su�cientemente peque~na,jS(Li; Rj)t+1 � S(Li; Rj)tj < " 8i; j (3.6)

Page 63: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 3. Correspondencia de regiones basada en grafos 39Los pesos de los nodos se normalizan en cada iteraci�on, haciendo que la suma de lospesos permanezca constante,S(Li; Rj)t S(Li; Rj)tP8h;8k S(Lh; Rk)0P8h;8k S(Lh; Rk)t 8i; j (3.7)Sin embargo, cuando se incluyen uniones de regiones en el grafo de asociaci�on, esnecesario tenerlo en cuenta en el proceso de relajaci�on. Esto es debido a que un nodoque contiene una regi�on-uni�on, tiene menos sumandos en el sumatorio de la ecuaci�on 3.5que las regiones que la componen. Para compensar esta falta de t�erminos, se incluye unfactor de correcci�on bi en la regla de relajaci�on. Supongamos que hay N regiones en laimagen izquierda y M en la derecha, incluyendo las nuevas regiones uni�on. Entonces laregla de relajaci�on ser�a:S(Li; Rj)t+1 = �S(Li; Rj)0 + (1� �) 1N"biS(Li; Rj)t + NXh=1� Mmaxk=1 �S(Lh; Rk)tB(Li; Rj ;Lh; Rk)��# (3.8)Esta ser�a la t�ecnica de relajaci�on que usaremos en todos los experimentos realizados.R1 R3 R4R2L1 2L L

3 4L

(u,v)u+ mind u+dmax(a) Par est�ereo de im�agenes segmentadoR1L1

L2 R2

3L R3

L4 R4

L2 R1

L3 R2

R3L4

(b) Grafo de asociaci�onFigura 3.1: Correspondencia basada en grafo de asociaci�on, sin errores de segmen-taci�on.3.1.2 Motivaci�onComo se vi�o en la secci�on 2.2.7 del cap��tulo anterior, se han usado t�ecnicas basadas engrafos en muchos trabajos sobre correspondencia est�ereo y reconocimiento de objetos.Estos trabajos obtienen resultados satisfactorios en la correspondencia cuando los erroresde segmentaci�on no son signi�cativos.

Page 64: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

40 Cap��tulo 3. Correspondencia de regiones basada en grafosEn el �area de la visi�on estereosc�opica, el problema de las diferencias entre la segmen-taci�on de la imagen izquierda y la segmentaci�on de la imagen derecha es mayor que en el�area del reconocimiento de objetos, donde se dispone de un modelo del objeto u objetosque aparecen en la escena.Incluso al segmentar las dos im�agenes del par est�ereo aplicando el mismo m�etodode segmentaci�on con los mismos par�ametros, aparecen diferencias entre las im�agenessegmentadas izquierda y derecha, como se puede observar en las �guras de la secci�on deresultados experimentales (por ejemplo, �gura 3.10). Estas diferencias pueden provocarque algunas regiones se queden sin correspondencia y que algunas correspondencias delresultado sean incompletas o incluso err�oneas.La �gura 3.1(b) muestra el grafo de asociaci�on en un ejemplo libre de errores desegmentaci�on (�gura 3.1(a)). La restricci�on de disparidad permite reducir el n�umero denodos del grafo, por ejemplo, L2 se podr��a corresponder con R1 o con R2, pero no conR3 ocon R4. La restricci�on de orden permite establecer la incompatibilidad de algunos nodos,por ejemplo, si existiera el nodo (L1; R2) ser��a incompatible con el nodo (L2; R1) porquese invierte el orden de las correspondencias a lo largo de la l��nea epipolar. Dos nodosque contienen la misma regi�on son incompatibles en base a la restricci�on de unicidad(por ejemplo, no puede existir un arco entre los nodos (L1; R1) y (L2; R1)). Si no haydiferencias signi�cativas entre los resultados de la segmentaci�on de ambas im�agenes, losatributos de las regiones proporcionan la informaci�on su�ciente para calcular los pesosde los nodos y de los arcos, de modo que el mejor clique m�aximo representa la mejorcorrespondencia.La �gura 3.2(b) muestra el grafo de asociaci�on en un ejemplo con errores de segmen-taci�on (�gura 3.2(a)). Para subsanar estos errores, deber��an crearse dos regiones-uni�onnuevas, L(3;4) y R(1;4). En la �gura se han rodeado con l��nea discontinua los grupos denodos que est�an relacionados con estas nuevas regiones.En el grafo aparecen multitud de cliques m�aximos que podr��an constituir la soluci�on,y peque~nos errores en los atributos de las regiones (debidos por ejemplo al ruido o lasoclusiones) pueden hacer que el clique m�aximo de mayor peso no sea la mejor soluci�on.El proceso de relajaci�on es el que se encarga de incluir la informaci�on estructural en lospesos de los nodos, de tal forma que crecen los pesos de los nodos de compatibilidadelevada con nodos cuyos pesos son altos, mientras que decrecen los pesos de los nodoscon pocos nodos compatibles o cuyos pesos de similitud y/o compatibilidad son bajos.De esta manera, se refuerzan los pesos de los nodos compatibles entre s�� y se evitan lasposibles incidencias en el c�alculo de la similitud a partir de los atributos.Seg�un el m�etodo de Ranganath y Chipman [1992], para que se creen las regionesnuevas a partir de las regiones-fragmento tienen que ocurrir dos cosas: que inicialmentetodas las regiones-fragmento formen un nodo con la regi�on com�un (es decir, que lasimilitud de cada emparejamiento sea mayor que Ts), y que estos nodos sean consideradoscomo candidatos para la uni�on de regiones (es decir, que la similitud sea menor que T 0s).

Page 65: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 3. Correspondencia de regiones basada en grafos 41R4

R2 R3R1L1 2L L3 4L

mindu+ maxdu+ (u,v)(a) Par est�ereo de im�agenes segmentadoR4

L2

R1L1

L1

L2 R1

R4 L4 R3

L3 R3

L3 R2

L R22

(b) Grafo de asociaci�on sin uni�on deregionesFigura 3.2: Correspondencia basada en grafo de asociaci�on, con errores de seg-mentaci�on.En la �gura 3.2(b) se puede ver rodeados por l��nea discontinua los grupos de nodos quedeber��an dar lugar a una regi�on-uni�on.Vamos a explicar los problemas de esta aproximaci�on con el ejemplo de la �gura3.2. Por un lado, el peso inicial del nodo (L1; R4) es muy probable que sea bajo, yaque, como se puede observar, los atributos usuales de las regiones (�area, per��metro,momentos de inercia, etc.) son muy diferentes. Si disminuimos Ts lo su�ciente comopara que (L1; R4) sea considerado como un emparejamiento posible podr��an introducirsemuchas falsas correspondencias en el grafo, lo que har��a crecer el esfuerzo computacional.An�alogamente suceder��a con el nodo (L2; R4). Por lo tanto, necesitamos de un criteriode similitud que reconozca la similitud entre dos regiones incluso en estas condicionesdif��ciles.Por otro lado, si el peso inicial del nodo (L1; R1) es alto, podr��a considerarse comoun emparejamiento su�cientemente bueno y por tanto no se crear��a la nueva regi�on-uni�on (y an�alogamente con el nodo (L2; R1). Para facilitar la uni�on de R1 y R4 habr��aque aumentar excesivamente el umbral T 0s, lo que podr��a generar falsas regiones-uni�onque pasar��an a engrosar el tama~no y la complejidad del grafo. Har��a falta un m�etodom�as elaborado que permitiera discriminar entre las uniones de regiones que puedenproporcionar mejores correspondencias y las que no.Tambi�en podr��a haber problemas si, adem�as de las regiones-fragmento, existiera otraregi�on en la imagen cuya similitud con la regi�on com�un fuera alta. Aunque este caso noes habitual, se puede observar en el ejemplo que si el peso del nodo (L1; R2) es mayorque el umbral T 0s, las regiones R1 y R4 no se unir��an y el problema quedar��a sin resolver.

Page 66: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

42 Cap��tulo 3. Correspondencia de regiones basada en grafos3.1.3 AportacionesEn este cap��tulo, se propone un nuevo m�etodo para manejar los errores derivados de lasegmentaci�on, que consiste en un paso de preproceso previo al c�alculo cl�asico del grafo deasociaci�on, realizando uniones de regiones que tengan probabilidad de poder encontrarsu correspondiente de una forma m�as exacta.Este m�etodo considera todos los casos posibles, pero rechaza las uniones que noproporcionen una buena correspondencia, comparando las correspondencias de regiones-fragmento a la correspondencia de la regi�on-uni�on. Adem�as, tambi�en se considera el casode que la segmentaci�on de �areas correspondientes en dos im�agenes proporcione regionesmuy diferentes. El m�etodo se basa en t�ecnicas de grafos, construyendo un grafo previo(diferente al grafo de asociaci�on) y calculando todos los conjuntos de regiones a unir.Tambi�en se propone un criterio de similitud adecuado para obtener una medida quereduzca el n�umero de falsas correspondencias, y en consecuencia, el coste computacional.Los errores de la segmentaci�on pueden producir que algunas regiones en una imagen seanmuy diferentes en tama~no y forma a las regiones correspondientes en la otra imagen. Portanto, proponemos el uso de t�ecnicas basadas en correlaci�on en lugar de atributos de lasregiones para medir la similitud entre dos regiones. Como se ver�a m�as adelante, en elcriterio de similitud se debe incluir adem�as el tama~no del �area de intersecci�on entre lasdos regiones con respecto a los tama~nos de ambas regiones.Por �ultimo, se propone un algoritmo sub�optimo para resolver el problema de lab�usqueda del mejor clique m�aximo. Este es el paso m�as costoso de todo el procesode correspondencia, ya que se trata de un problema NP-completo. El algoritmo sebasa en los pesos de los nodos para encontrar un clique m�aximo cercano a la soluci�on.Aunque no se garantiza encontrar la soluci�on �optima, los experimentos muestran que losresultados est�an muy pr�oximos a la misma, consiguiendo reducir el coste computacionalconsiderablemente.El resto de este cap��tulo se organiza como sigue. En la secci�on 3.2 se presenta laetapa de preproceso para la uni�on de regiones basada en grafos. En la secci�on 3.3 sepresenta el nuevo criterio de similitud basado en la correlaci�on de las regiones. Enla secci�on 3.4 se resume el algoritmo de preproceso desarrollado en las dos seccionesanteriores y se detallan algunos aspectos de mejora en la e�ciencia. En la secci�on 3.5 sedetalla el algoritmo sub�optimo para la b�usqueda del mejor clique m�aximo de un grafo.Los resultados experimentales en presencia de diferentes niveles de ruido y los mapasde disparidades resultantes se presentan en la secci�on 3.6. Finalmente, en la secci�on 3.7se discuten los resultados obtenidos y las conclusiones del trabajo presentado en estecap��tulo.

Page 67: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 3. Correspondencia de regiones basada en grafos 433.2 El problema de los errores en la segmentaci�onProponemos sustituir el punto 3 del m�etodo de Ranganath y Chipman [1992] por unpreproceso basado en grafos que una las regiones apropiadas. Hay algunos intentos deresolver el problema de los errores de segmentaci�on uniendo algunos grupos de regiones[Yang et al., 1989] [Ranganath y Chipman, 1992], como se detalla en la secci�on 2.2.8.La idea principal es construir un grafo similar al grafo de asociaci�on, donde los nodosrepresentan todas las correspondencias posibles, con la diferencia de que los nodos queintentan hacer corresponder la misma regi�on de una imagen est�an conectados con un arco.Este grafo, que denominaremos grafo de asociaci�on de incompatibilidades, representagrupos de regiones que podr��an unirse.Aunque todas las uniones posibles son consideradas a priori, algunas uniones serechazan mediante la realizaci�on de un test, basado en el criterio de similitud utilizadopara calcular la similitud entre dos regiones. De cada grupo de regiones obtenemos unanueva regi�on uni�on que es considerada posteriormente en el proceso de correspondencia.Finalmente, las nuevas regiones generan nuevos nodos que se a~naden al conjunto inicialde nodos para construir el grafo de asociaci�on del proceso de correspondencia.3.2.1 El grafo de asociaci�on de incompatibilidadesEl grafo de asociaci�on de incompatibilidades es un grafo donde los nodos representantodas las correspondencias posibles, y aquellos nodos que intentan hacer corresponder lamisma regi�on est�an conectados por un arco. Sin embargo, no todas estas incompatibi-lidades proporcionan uniones apropiadas, de modo que se debe aplicar alg�un �ltro querechace los arcos inadecuados. El grafo resultante representa todos los grupos de regio-nes que deber��an ser unidas, de manera que las nuevas regiones resultantes se considerenpara la correspondencia de regiones, que podr�a realizarse, por ejemplo, con el m�etodocl�asico basado en grafos [Ranganath y Chipman, 1992].Nodos del grafoSupongamos una imagen izquierda consistente en N regiones (L1; L2; :::; LN ) y una ima-gen derecha consistente en M regiones (R1; R2; :::; RM ). El primer paso para construirel grafo de asociaci�on de incompatibilidades consiste en encontrar todas las posibles co-rrespondencias entre regiones de ambas im�agenes, usando la restricci�on epipolar y, sise conoce, la restricci�on de disparidad para reducir el espacio de b�usqueda, adem�as deun criterio de similitud para medir los pesos de los nodos y rechazar aquellos pares deregiones que no sean similares. Cada posible correspondencia es un nodo (Li; Rj) enel grafo de asociaci�on de incompatibilidades, y el peso de dicho nodo, S(Li; Rj), es lamedida de similitud entre ambas regiones.

Page 68: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

44 Cap��tulo 3. Correspondencia de regiones basada en grafosIncompatibilidades entre nodosDos nodos pueden ser incompatibles por varias razones, teniendo en cuenta la relaci�onentre las regiones de una misma escena. Para unir las regiones apropiadas, interesanaquellas incompatibilidades que emergen del hecho de que dos nodos intenten establecerla correspondencia de una misma regi�on (violaci�on de la restricci�on de unicidad). Paracrear los arcos del grafo de asociaci�on de incompatibilidades, no nos interesan las incom-patibilidades derivadas, por ejemplo, de la restricci�on de orden o la restricci�on de l��miteen el gradiente de la disparidad.En la �gura 3.3 se puede ver un grafo con arcos entre cada par de nodos que in-tentan establecer correspondencia con la misma regi�on, correspondiente al ejemplo dela �gura 3.2(a). Cada nodo que incluya una regi�on-fragmento ser�a incompatible con losnodos que intentan emparejar las otras regiones-fragmento con la misma regi�on en laotra imagen. En consecuencia, habr�a al menos una incompatibilidad entre cada par deregiones-fragmento.Sin embargo, no todas estas incompatibilidades producen pares de regiones a unir.En el ejemplo (�gura 3.2(a)) las regiones L1 y L2 podr��an corresponderse con la regi�onR1 en la izquierda, pero no deber��an unirse. Sin embargo, la regi�on R1 s�� deber��a unirsea la regi�on R4 para corresponderse mejor con la regi�on L1.R4

L2

R1L1

L1

L2 R1

R4 L4 R3

L3 R3

L3 R2

L R22

Figura 3.3: Grafo de asociaci�on de incompatibilidades del ejemplo anterior: lasl��neas discontinuas corresponden a los arcos rechazados.Arcos del grafoHay que rechazar todas las incompatibilidades que no proporcionan regiones uni�on ade-cuadas y establecer arcos en el grafo para el resto de incompatibilidades. Se testeantodos los pares de emparejamientos incompatibles para ver si generan una regi�on-uni�onque se empareja con la regi�on com�un mejor que cada regi�on individual por separado. Siambas regiones juntas no se emparejan con Lk mejor que por separado, �estas no deber��anunirse, y por tanto no se crea el arco.

Page 69: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 3. Correspondencia de regiones basada en grafos 45Sean (Lk; Rp) y (Lk; Rq) dos nodos incompatibles y R(p;q) la regi�on resultante de unirRp y Rq. si S(Lk; R(p;q)) > S(Lk; Rp) y S(Lk; R(p;q)) > S(Lk; Rq)entonces establecer arco entre nodo (Lk; Rp) y nodo (Lk; Rq) (3.9)donde S() es el criterio de similitud entre dos regiones.En el ejemplo de la �gura 3.3, el arco entre los nodos (L1; R1) y (L2; R1) es rechazadoporque el emparejamiento de la regi�on-uni�on L(1;2) con R1 no es mejor que el empare-jamiento de cada regi�on-fragmento con R1 (v�ease �gura 3.2(a)). Sin embargo, el arcoentre los nodos (L3; R3) y (L4; R3) se crea porque la uni�on de las dos regiones, L(3;4), secorresponde con R3 mejor que cada regi�on-fragmento por separado.B�usqueda de todos los cliques m�aximosEl �ultimo paso del preproceso consiste en encontrar todos los cliques m�aximos en elgrafo de asociaci�on de incompatibilidades. Cada clique m�aximo representa un grupode regiones en una imagen que se emparejan con una regi�on com�un en la otra imagen.Para cada clique m�aximo se construye una nueva regi�on como la uni�on de todas lasregiones-fragmento.En el ejemplo, s�olo hay tres cliques m�aximos formados por dos nodos cada uno, dosde los cuales dan lugar a la misma regi�on-uni�on. Las regiones R1 y R4 unidas formanuna nueva regi�on, R(1;4), las regiones L3 y L4 forman la regi�on L(3;4).A continuaci�on se calculan los emparejamientos que conciernen a las nuevas regionesy se a~naden al conjunto inicial de nodos. Para calcular los arcos del grafo de asociaci�on,todos los nodos concernientes a las regiones-uni�on se consideran incompatibles con todoslos nodos concernientes a las regiones-fragmento que lo forman. En la �gura 3.4 semuestra el grafo de asociaci�on resultante.Como el n�umero de incompatibilidades entre nodos es normalmente bajo, el proce-so de encontrar todos los cliques m�aximos es bastante r�apido si usamos un algoritmoapropiado que saque ventaja de este hecho.Las nuevas regiones proporcionar�an nuevos posibles emparejamientos. Incluso pue-den aparecer emparejamientos entre regiones-uni�on que se hayan a~nadido al grafo. Todoslos nodos competir�an en el proceso de correspondencia para encontrar la mejor soluci�on.3.3 El criterio de similitudSean dos im�agenes I1 e I2 recti�cadas, de modo que los puntos correspondientes est�anen la misma horizontal en la otra imagen, y sean L y R los conjuntos de regiones de

Page 70: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

46 Cap��tulo 3. Correspondencia de regiones basada en grafosL2 R1

L2 R4 L4 R3

L3 R3

L3 R2

L R22R1L1L1R1,4

L1 R4

L3,4R3R1,4L2Figura 3.4: El grafo de asociaci�on del ejemplo anterior despu�es de unir las regiones.Los nodos y arcos nuevos est�an resaltados en l��nea m�as gruesa.la primera y la segunda imagen, respectivamente. Queremos calcular cu�al es la simili-tud entre pares de regiones, de modo que se pueda discriminar entre correspondenciascorrectas e incorrectas y se puedan comparar unas similitudes con otras.3.3.1 Requisitos del criterio de similitudEl criterio de similitud no s�olo debe proporcionar un ��ndice que sirva para rechazar lascorrespondencias incorrectas, sino que adem�as debe permitir evaluar la bondad de cadaemparejamiento. Este criterio deber��a cumplir los siguientes requisitos:1. Aceptar la correspondencia entre regiones parcialmente ocultas.2. Aceptar la correspondencia entre una regi�on fragmentada en una imagen con laregi�on completa en la otra imagen.3. Aceptar la correspondencia entre una regi�on-uni�on y su regi�on correspondiente enla otra imagen, con un peso mejor que cada regi�on-fragmento por separado.4. Rechazar pares de regiones no correspondientes.El criterio de similitud utilizado en la mayor��a de los trabajos consiste en compararalgunas propiedades de las regiones como son el �area, los momentos de inercia, la mediade intensidad, etc. En la literatura se ha probado que estas propiedades son signi�ca-tivas [Mundy y Zisserman, 1992], proporcionando buenas medidas en el primer y tercercaso. Sin embargo, cuando una regi�on de una imagen aparece muy fragmentada en laotra imagen las propiedades de los fragmentos pueden ser muy diferentes respecto de laregi�on completa.Para conseguir todos los objetivos, proponemos un criterio basado en la correlaci�on.Las medidas de correlaci�on se utilizan principalmente en las t�ecnicas de correspondencia

Page 71: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 3. Correspondencia de regiones basada en grafos 47basadas en �areas, donde el �area correspondiente tiene tama~no y forma id�enticos en laimagen izquierda y derecha, ya que viene determinado por una ventana que seleccionaun determinado vecindario alrededor de un pixel central. En nuestro caso, el criteriodebe adaptarse para manejar regiones de tama~nos y formas diferentes.3.3.2 Coe�ciente de correlaci�onConsideremos Li una regi�on en la imagen izquierda y Rj una regi�on en la imagen derecha.Ambas regiones raramente encajan con exactitud, de modo que tenemos que superponery desplazar una regi�on respecto a la otra para localizar el punto de m�axima correlaci�on.La funci�on de correlaci�on s�olo puede estar de�nida donde ambas regiones est�an de-�nidas; sin embargo, las regiones pueden tener formas muy diferentes y, por tanto, esnecesario adecuar la de�nici�on de la correlaci�on a este caso particular. Para ello, secalcula la correlaci�on considerando aquellos pixeles de Li cuyo pixel correspondiente enla imagen derecha pertenezca a Rj.Denotaremos las �areas de intersecci�on de las regiones Li y Rj a una disparidad dadad, como Li;j;d y Ri;j;d en la primera y segunda imagen, respectivamente, es decir:Li;j;d = f(x; y) 2 Li=(x+ d; y) 2 Rjg (3.10)Ri;j;d = f(x+ d; y) 2 Rj=(x; y) 2 Lig (3.11)Sean �Li;j;d y �Ri;j;d las intensidades medias de las �areas de intersecci�on y �Li;j;d ,�Ri;j;d sus desviaciones t��picas. Los criterios de correlaci�on detallados en la secci�on 2.2.4pueden ser expresados en funci�on de estas �areas del siguiente modo:� Criterio SSD (Sum of Squared Di�erences),CSSD(Li; Rj ; d) = � 1N X8(x;y)2Li;j;d(I1(x; y)� I2(x+ d; y))2; (3.12)donde N es el n�umero de pixeles del �area de intersecci�on de ambas regiones. Estecriterio da unos resultados muy malos, debido a la gran diferencia existente enlas formas y tama~nos de las �areas de intersecci�on a distintas disparidades. Elcoe�ciente de correlaci�on calculado seg�un este m�etodo var��a entre 0 y un valorm��nimo negativo que denotaremos �KSSD, es decir, est�a en el rango [�KSSD; 0].� Criterio ZSSD (Zero-Mean Sum of Squared Di�erences),CZSSD(Li; Rj ; d) = � 1N X8(x;y)2Li;j;d((I1(x; y)��Li;j;d)� (I2(x+ d; y)��Ri;j;d))2; (3.13)Este criterio no mejora los resultados obtenidos aplicando el criterio SSD, al mismotiempo que resulta m�as costoso de evaluar, debido a que es necesario calcular cadavez la intensidad media del �area de intersecci�on. El coe�ciente de correlaci�oncalculado seg�un este m�etodo est�a en el rango [�KZSSD; 0].

Page 72: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

48 Cap��tulo 3. Correspondencia de regiones basada en grafos� Criterio ZNSSD (Zero-Mean Normalized Sum of Squared Di�erences),CZNSSD(Li; Rj ; d) = �P8(x;y)2Li;j;d((I1(x; y)� �Li;j;d)� (I2(x+ d; y)� �Ri;j;d))2N�Li;j;d�Ri;j;d ;(3.14)El coe�ciente de correlaci�on calculado seg�un este m�etodo est�a en el rango [�1; 0].Debido a que la ventana es de tama~no variable no se puede prescindir de la divisi�onpor N , ni de la divisi�on por la desviaci�on t��pica, ya que ambas desviaciones var��ande una disparidad a otra.� Criterio ZNCC (Zero-Mean Cross-Correlation),CZNCC(Li; Rj ; d) = P8(x;y)2Li;j;d((I1(x; y) � �Li;j;d)(I2(x+ d; y)� �Ri;j;d))2N�Li;j;d�Ri;j;d ; (3.15)El coe�ciente de correlaci�on calculado seg�un este m�etodo est�a en el rango [�1; 1].Al igual que en el caso anterior, no se puede prescindir de la divisi�on por N , ni dela divisi�on por la desviaci�on t��pica.En los numerosos experimentos realizados para evaluar los criterios de correlaci�onde�nidos, los criterios SSD y ZSSD han dado resultados muy pobres, mientras que loscriterios ZNSSD y ZNCC han dado buenos resultados. La normalizaci�on aportada porla desviaci�on t��pica de ambas �areas de intersecci�on parece ser muy importante paraconseguir un resultado de correlaci�on signi�cativo, dado que el n�umero de puntos corre-lacionados es muy diferente en cada c�alculo.Dado que los dos criterios que dan mejores resultados son tambi�en los m�as costososde calcular, para reducir los c�alculos a realizar se llevaron a cabo experimentos utilizandocriterios aproximados, es decir, sustituyendo la media y desviaci�on t��pica de cada �areade intersecci�on por la media y desviaci�on t��pica de la regi�on completa. La motivaci�onprincipal de esta aproximaci�on se basa en que si el m�etodo de segmentaci�on proporcionaregiones donde la variaci�on de la intensidad es suave, es probable que la media y desvia-ci�on t��pica de la regi�on en su totalidad sea parecida a las medias y desviaciones t��picasde ciertos subconjuntos de pixeles de la misma.Sin embargo, esta suposici�on no se cumple cuando una regi�on ha sido infra-segmentada en una imagen y se compara con fragmentos de la misma en la otraimagen. La regi�on completa no tiene por qu�e tener media de intensidad parecida a losfragmentos. Los resultados experimentales mostraron que esta suposici�on no era v�alida,especialmente en estos casos.La medida de similitud entre dos regiones Li y Rj podr��a de�nirse inicialmente comoel coe�ciente de correlaci�on m�aximo dado un intervalo de disparidadesD = [dmin::dmax]:S(Li; Rj) = maxd2[dmin::dmax] (Cij(d)) (3.16)donde Cij(d) es la correlaci�on entre las �areas de intersecci�on de Li y Rj con disparidadd, calculada mediante cualquiera de los criterios anteriores.

Page 73: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 3. Correspondencia de regiones basada en grafos 493.3.3 Normalizaci�on del coe�ciente de correlaci�onPara poder realizar el proceso de relajaci�on normalizaremos los ��ndices de correlaci�on alrango [0; 1], de modo que 0 signi�ca que las dos regiones son totalmente diferentes y 1signi�ca que son id�enticas:� Criterio SSD Cij(d) = KSSD + CSSD(Li; Rj ; d)KSSD (3.17)� Criterio ZSSD Cij(d) = KZSSD + CZSSD(Li; Rj ; d)KZSSD (3.18)� Criterio ZNSSD Cij(d) = 1 + CZNSSD(Li; Rj ; d) (3.19)� Criterio ZNCC Cij(d) = 1 + CZNCC(Li; Rj ; d)2 (3.20)Sin embargo, independientemente del criterio de correlaci�on elegido, la medida desimilitud de�nida en la ecuaci�on 3.16 no satisface el �ultimo objetivo de la lista de requi-sitos, es decir, rechazar pares de regiones no correspondientes. Como ejemplo extremo,supongamos dos regiones que a cierta disparidad intersectan en dos pixeles. Estas regio-nes tendr�an una excelente similitud a esa disparidad si los dos pares de pixeles tienenintensidades similares, como se puede ver en la �gura 3.5. Podemos deducir que la mejordisparidad no viene determinada por la disparidad con la que se obtiene la m�axima co-rrelaci�on, sino que hay que tener en cuenta tambi�en el tama~no de la regi�on intersectada.���

���

20 20

���

���

2022 22 21

19 1822 18

2024 242524 24

22

2421 22

24 24242323

Figura 3.5: Necesidad de introducci�on de informaci�on sobre el �area intersectadaen el criterio de similitud basado en correlaci�on: La disparidad dem�axima correlaci�on no es la mejor disparidad.En la �gura 3.6 se muestra otro ejemplo que nos induce a utilizar informaci�on sobreel �area intersectada. En esta �gura se muestran una regi�on en la izquierda y dos regiones

Page 74: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

50 Cap��tulo 3. Correspondencia de regiones basada en grafosen la derecha que corresponden a la misma super�cie de la escena real. Debido proba-blemente a que la super�cie est�a inclinada respecto al plano imagen, las disparidades decorrelaci�on m�axima entre la regi�on de la izquierda y cada uno de los fragmentos var��anligeramente. Si en este ejemplo s�olo consideramos el coe�ciente de correlaci�on, puedeocurrir que el valor de similitud de la regi�on izquierda con cada uno de los fragmentossea mayor que con la uni�on de ambos.Li

LiRk

Rj Li

Rk

Rj

Figura 3.6: Necesidad de introducci�on de informaci�on sobre el �area intersectada enel criterio de similitud basado en correlaci�on: Un ejemplo de rechazode la uni�on de dos regiones, por ser mayor la correlaci�on de Li con Rjque con Rj;k. Deber��a tenerse en cuenta que Rk se puede quedar sincorrespondencia.El introducir informaci�on sobre el tama~no del �area intersectada no deber��a producirotros errores, como puede ser que dos regiones cualesquiera se unan por intersectar unazona m�as amplia aunque el coe�ciente de correlaci�on sea bastante peor. Por ejemplo,en la �gura 3.6 unir los dos fragmentos de la derecha ser��a un error si no se parecen losu�ciente a la regi�on de la izquierda. Por tanto, el �area de intersecci�on debe in uir, perono introducir errores en el criterio de similitud.3.3.4 Coe�ciente de coincidenciaPara tener en cuenta el �area de la zona intersectada entre las dos regiones, la medida desimilitud puede de�nirse considerando junto al coe�ciente de correlaci�on un coe�cienteque indique el porcentaje de �area intersectada. As��, la ecuaci�on 3.16 se transforma enS(Li; Rj) = maxd2[dmin::dmax] (Nij(d)Cij(d)) (3.21)donde Cij(d) es la correlaci�on entre las �areas de intersecci�on de Li y Rj seg�un la dispa-ridad d, y Nij(d) es un coe�ciente proporcional al �area de la zona de intersecci�on entreambas regiones superpuestas con disparidad d.La medida Nij(d), que a partir de ahora llamaremos coe�ciente de coincidencia, debeestar normalizada, ya que el coe�ciente de correlaci�on, Cij(d), es una medida normalizada

Page 75: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 3. Correspondencia de regiones basada en grafos 51en el rango [0; 1]. De este modo, si alguno de estos dos coe�cientes es un valor peque~no,el resultado ser�a peque~no.El coe�ciente de coincidencia deber��a ser, pues, el n�umero de pixeles correspondientescon respecto al tama~no de ambas regiones. Queda por determinar si la proporci�on ha deser calculada respecto al �area m��nima o el �area m�axima de las dos regiones. Sin embargo,parece imposible cumplir todos los requisitos exigidos al criterio de similitud utilizandouna sola expresi�on de similitud.De�nimos Nij(d) y N 0ij(d) como los coe�cientes de coincidencia con respecto al ta-ma~no m�aximo y m��nimo de ambas regiones, respectivamente,Nij(d) = A(Li;j;d)max (A(Li); A(Rj)) (3.22)N 0ij(d) = A(Li;j;d)min (A(Li); A(Rj)) (3.23)donde A(L) indica el n�umero de pixeles de la regi�on L. El primer coe�ciente resuelve losproblemas planteados en las �guras 3.5 y 3.6, mientras que no funciona bien en el caso delas regiones parcialmente ocultas, que podr��an ser rechazadas en el caso de que hubierafragmentos peque~nos. El segundo coe�ciente es capaz de aceptar la correspondenciaentre regiones parcialmente ocultas y rechazar los pares no correspondientes, pero puededar malos resultados a la hora de crear las regiones-uni�on.Si maximizamos el producto del primer coe�ciente de coincidencia con el coe�cientede correlaci�on, podemos calcular el valor de disparidad de mejor correspondencia entreambas regiones. Llamemos mejor disparidad a este valor,dij = argmaxd2[dmin::dmax] (Nij(d)Cij(d)) (3.24)Finalmente, dada la mejor disparidad dij entre un par de nodos, proponemos unacombinaci�on de dos criterios,S1(Li; Rj) = Nij(dij)Cij(dij) (3.25)S2(Li; Rj) = N 0ij(dij)Cij(dij) (3.26)de usos muy diferentes:1. Para la creaci�on de los nodos del grafo, es necesario tener una medida de simili-tud que satisfaga los requisitos 1,2,4 de la lista. Para este prop�osito, el criterioapropiado ser��a S2 (ecuaci�on 3.26).2. Para calcular dij , comparar entre nodos y todas las operaciones en el proceso decorrespondencia, es necesario cumplir los requisitos 1,3,4 de la lista. Para esteprop�osito, el criterio apropiado ser��a S1 (ecuaci�on 3.25).N�otese que el uso de dos medidas de similitud no causa un aumento importante en elcoste computacional dado que la tarea m�as costosa es la b�usqueda de la mejor disparidad(ecuaci�on 3.24), que se realiza solamente una vez por cada emparejamiento.

Page 76: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

52 Cap��tulo 3. Correspondencia de regiones basada en grafos3.3.5 Pesos de los arcos del grafo de asociaci�onComo consecuencia de la no utilizaci�on de los atributos de las regiones para elc�alculo de los pesos de los nodos del grafo de asociaci�on, tampoco se puedenutilizar las diferencias entre estos atributos para el c�alculo de los pesos de losarcos [Ranganath y Chipman, 1992].En este trabajo se propone calcular el peso de cada arco a partir de la diferenciaentre las mejores disparidades de los nodos que conecta, dij y dhk, de modo que si ladiferencia es cero, el peso ser�a 1 y si la diferencia es la disparidad m�axima, entonces elpeso ser�a 0. B(Li; Rj ;Lh; Rk) = jDj � jdij � dhkjjDj : (3.27)De este modo, durante el proceso de relajaci�on se refuerzan entre s�� las correspondenciasque tienen disparidades similares.3.4 Algoritmo de la etapa de preprocesoResumiendo lo expuesto en las secciones 3.2 y 3.3 podemos reescribir los pasos del pre-proceso previo al c�alculo del grafo de asociaci�on de la siguiente manera:1. Para cada par de regiones Li y Rj, encontrar la mejor disparidad dij (ecuaci�on3.24), en un rango de posibles disparidades D = [dmin::dmax]. Si el ��ndice desimilitud S2(Li; Rj) (ecuaci�on 3.26) es mayor que un cierto umbral Ts, se creaun nodo en el grafo de incompatibilidades para esta posible correspondencia y seasigna como peso del nodo el ��ndice de similitud S1(Li; Rj) (ecuaci�on 3.25). Enotro caso, el emparejamiento es rechazado.2. Para cada par de nodos del grafo, (Li; Rj); (Ll; Rk), si alguna de las regiones coin-cide (por ejemplo, i = l), se considera la uni�on de las otras dos regiones (en elejemplo, Rm = Rj [Rk), de modo que si el ��ndice de similitud seg�un el criterio S1de la regi�on com�un con la regi�on uni�on (S1(Li; Rm)) es mayor que cada uno de lospesos de ambos nodos, entonces se establece un arco entre ellos.3. Se buscan todos los cliques m�aximos del grafo, y por cada clique m�aximo de doso m�as nodos se crea una regi�on-uni�on que incluya todas las regiones asociadas ala regi�on com�un por estos nodos. Para cada regi�on nueva, se calculan todos losemparejamientos posibles seg�un el criterio establecido en el punto 1.

Page 77: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 3. Correspondencia de regiones basada en grafos 533.4.1 Mejoras en la e�cienciaLa parte m�as costosa del algoritmo anterior es el c�alculo de la mejor disparidad paraun par de regiones dadas. Este c�alculo se realiza en un bucle iterativo para todas lasdisparidades posibles D = [dmin::dmax] de modo que si en una disparidad dada, d, elproducto de ambos coe�cientes Nij(d)Cij(d) es mayor que los anteriores, se guarda d,A(Li;j;d) y Cij(d) para las siguientes iteraciones.La parte m�as costosa computacionalmente es el c�alculo de todas las correlacionesCij(d) para todas las disparidades posibles. Sin embargo, el par de regiones s�olo ser�aaceptado como una posible correspondencia si cumple la condici�on,N 0ij(d)Cij(d) > TsPor tanto, podemos sacar partido de esta condici�on para intentar evitar calcular lacorrelaci�on para algunas disparidades que de antemano podemos saber que no son lamejor disparidad. A continuaci�on se detallan los aspectos que se pueden tener en cuentapara mejorar la e�ciencia.Rango efectivo de disparidadesEl rango de disparidades posibles D = [dmin::dmax] adem�as de depender de los l��mites dela disparidad, si los hay, se puede limitar para cada par de regiones teniendo en cuenta elrect�angulo que inscribe a cada regi�on, de modo que si a partir de una determinada dispa-ridad los rect�angulos de ambas regiones no intersectan, entonces el �area de intersecci�ones 0 y no es necesario considerar esos valores de disparidad.Sea Vi = (x0i ; y0i ); (x1i ; y1i ) el rect�angulo que inscribe a la regi�on Li y seaVj = (x0j ; y0j ); (x1j ; y1j ) el rect�angulo que inscribe a la regi�on Rj , donde (x0; y0) indicael v�ertice superior izquierdo y (x1; y1) indica el v�ertice inferior derecho de cadarect�angulo. El rango efectivo de disparidades entre ambas regiones, que denotaremosD0ij = [d0min::d0max] ser��a d0min = max(dmin; x0i � x1j) (3.28)d0max = min(dmax; x1i � x0j) (3.29)�Area m��nima de intersecci�onPara que un par de regiones, (Li; Rj), se considere como una posible correspondencia,debe existir al menos un valor de disparidad d dentro del rango efectivo de disparidadesque cumpla que el producto N 0ij(d)Cij(d) sea mayor que un determinado umbral Ts.

Page 78: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

54 Cap��tulo 3. Correspondencia de regiones basada en grafosDado un valor de disparidad cualquiera d0, si el coe�ciente de coincidencia N 0ij(d0)es menor que Ts, entonces podemos descartar d0 sin necesidad de calcular el coe�cientede correlaci�on, ya que por de�nici�on 0 � Cij(d) � 1;8d 2 D0ij, y en consecuencia,N 0ij(d0)Cij(d0) � N 0ij(d0) � Ts (3.30)Por tanto, d0 no cumple la condici�on necesaria para considerar el par (Li; Rj) comouna posible correspondencia, y por tanto se puede descartar como mejor disparidad delmismo.Dicho de otra manera, si se cumple queA(Li;j;d0) � Tsmin(A(Li); A(Rj)) (3.31)entonces el par (Li; Rj) con disparidad d0 no es susceptible de formar un posible em-parejamiento en el grafo. Por tanto, se puede establecer a priori un n�umero m��nimo depixeles que debe contener la zona de intersecci�on para cualquier disparidad dAmin = Tsmin(A(Li); A(Rj)) (3.32)de modo que si A(Li;j;d0) < Amin entonces d0 se descarta como mejor disparidad, y siA(Li;j;d) < Amin;8d 2 D0ij el par (Li; Rj) se descarta como posible correspondencia.Esta condici�on permite ahorrar un buen n�umero de c�alculos sobre las regiones:� La intersecci�on entre los dos rect�angulos que inscriben a ambas regiones a unadisparidad cualquiera d, es tambi�en un rect�angulo, y el �area de este rect�anguloes el l��mite superior de A(Li;j;d). Si el �area de este rect�angulo es menor queAmin, entonces d se puede descartar sin necesidad de calcular siquiera el �area deintersecci�on.� Si el rect�angulo que inscribe el �area de intersecci�on es mayor que Amin, deberemoscalcular el �area de intersecci�on A(Li;j;d). Si se cumple A(Li;j;d) < Amin se puededescartar d sin necesidad de calcular las medias y desviaciones t��picas de las dos�areas de intersecci�on, as�� como el coe�ciente de correlaci�on.Revisi�on del �area m��nima de intersecci�onDurante el c�alculo de la mejor disparidad para un par de regiones, Li y Rj , dada unaestimaci�on de la mejor correlaci�on calculada hasta el momento, d0, se puede establecerun n�umero m��nimo de pixeles que debe contener la zona de intersecci�on a otra disparidadd1, de modo que si su �area es menor que ese valor m��nimo d1 se puede desestimar sinnecesidad de realizar el resto de los c�alculos.El razonamiento es an�alogo al anterior, esta vez especi�cando no el umbral de simi-litud m��nima, sino la similitud m�axima estimada hasta el momento.

Page 79: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 3. Correspondencia de regiones basada en grafos 55En t�erminos formales, dadas dos disparidades d0; d1A(Li;j;d1) < A(Li;j;d0)Cij(d0)! d0 es mejor que d1 (3.33)de modo que podemos descartar d1 como mejor disparidad.La demostraci�on es sencilla: d1 es mejor que d0 si y s�olo si su coe�ciente de correlaci�ones mayor que el de d0, o lo que es igual, si y s�olo si Nij(d1)Cij(d1) > Nij(d0)Cij(d0).Se puede simpli�car en ambos lados de la inecuaci�on el m�aximo de las �areas de ambasregiones, quedando como sigue:d1 es mejor que d0 $ A(Li;j;d1)Cij(d1) > A(Li;j;d0)Cij(d0) (3.34)Sabiendo que 0 � Cij(d) � 1;8d se cumple que0 � A(Li;j;d)Cij(d) � A(Li;j;d);8d (3.35)Si se cumple que A(Li;j;d1) < A(Li;j;d0)Cij(d0) entoncesA(Li;j;d1)Ci;j(d1) < A(Li;j;d0)Cij(d0) (3.36)y por tanto, como no se cumple la condici�on 3.34, d1 no puede ser mejor que d0.Esta condici�on se aplica de la misma manera que la condici�on anterior. Podemosdecir que el n�umero de pixeles m��nimo se inicializa con la ecuaci�on 3.32, y cada vez quese encuentra una disparidad mejor que la estimada en el bucle de b�usqueda de la mejordisparidad se actualiza el valor de esta variablesi A(Li;j;d1)Cij(d1) > A(Li;j;dij )Cij(dij) entoncesdij d1Amin max (Amin; A(Li;j;d1)Cij(d1))�n siEn el caso de una regi�on-uni�on se puede imponer como m��nima similitud el m�aximode las similitudes de las regiones hijas.Paralelizaci�onTodos los c�alculos relativos a regiones distintas se podr��an paralelizar, aunque no seha implementado un algoritmo paralelo en esta tesis. Una primera aproximaci�on ser��adividir la imagen izquierda en varias secciones a lo largo de las l��neas epipolares, demodo que cada regi�on de esta imagen est�e asociada a una sola secci�on y cada secci�onpueda tener varias regiones asociadas. Las secciones deben solaparse para no dividir lasregiones asociadas. La paralelizaci�on consistir��a en dar a cada procesador las regionesinvolucradas en una secci�on, y las regiones involucradas en la misma secci�on en la imagenderecha (�estas pueden estar recortadas por los l��mites de la secci�on) para construir todoslos nodos relativos a dicha secci�on.

Page 80: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

56 Cap��tulo 3. Correspondencia de regiones basada en grafos3.5 Un algoritmo sub�optimo para la b�usqueda del mejorclique m�aximoAunque se ha dirigido un gran esfuerzo a la reducci�on del tama~no del grafo, el n�umerode nodos puede ser todav��a considerable cuando hay un n�umero elevado de regiones porimagen. Buscar el mejor clique m�aximo es un problema NP-completo, de modo que eltiempo de c�alculo crece exponencialmente con respecto al n�umero de nodos del grafo.Aqu�� proponemos un algoritmo sub�optimo que tiene en cuenta los pesos de los nodospara reducir el tiempo computacional del m�etodo. Los nodos de mayor peso son losque tienen mayor probabilidad de formar parte de la soluci�on �nal. Por tanto, podemosaprovechar la informaci�on proporcionada por el criterio de similitud (y mejorada por elproceso de relajaci�on) para guiar la b�usqueda del mejor clique m�aximo.Dado el grafo de asociaci�on G = (N;A) donde N es el conjunto de nodos y A esel conjunto de arcos, proponemos el siguiente algoritmo sub�optimo para obtener unasoluci�on al problema de hallar el mejor clique m�aximo:1. Ordenar la lista N en orden de peso decreciente.2. Dividir la lista N en dos listas: N 0 con los K primeros nodos de N y N 00 conel resto de nodos. K se selecciona de modo que se cumpla alguna restricci�on detiempo.3. Obtener el subgrafo G0 = (N 0; A0), donde A0 � A contiene solamente los arcosconcernientes a los nodos de N 0.4. Buscar el mejor clique m�aximo en G0, que es un conjunto de nodos S.5. Para cada nodo ni de N 00 en orden de peso decreciente, si ni es compatible contodos los nodos de S se a~nade ni a S, en otro caso se elimina ni.Este algoritmo no garantiza encontrar la mejor soluci�on, pero, como se mostrar�a enlos resultados experimentales, se obtiene una soluci�on muy cercana a la �optima y enmuchas ocasiones id�entica. El coste de este m�etodo es la suma de los costes de los cincopasos, por lo que a continuaci�on se estudian estos costes, siendo n la longitud de la listaN , K la longitud de la lista N 0 y n�K la longitud de la lista N 00.1. La ordenaci�on de una lista de n elementos tiene un coste medio de 2n ln(n) y uncoste cuadr�atico en el peor caso.2. La divisi�on de N en dos listas tiene un coste lineal en el peor caso, O(n).3. Obtener el subgrafo G0 tiene un coste lineal respecto al n�umero de arcos de G0,que es K2=2 en el peor caso.

Page 81: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 3. Correspondencia de regiones basada en grafos 574. Buscar el mejor clique m�aximo en G0 tiene un coste exponencial. Como la selecci�onde K se har��a en funci�on del tiempo m�aximo que se desee imponer al m�etodo,llamaremos F (K) a este l��mite.5. El c�alculo de las compatibilidades de cada nodo de N 00 con la soluci�on estimadaes lineal con respecto al tama~no de la soluci�on, que inicialmente es K en el peorcaso. Por tanto, el c�alculo de la compatibilidad de todos los nodos de N 00, teniendoen cuenta que a la soluci�on se le a~naden los nodos compatibles en cada iteraci�on,tiene coste cuadr�atico, O(12(n�K + 1)(n+K)) en el peor caso.En conclusi�on, si despreciamos los t�erminos de coste inferior al cuadr�atico, el costetotal es O(K2+F (K)+ 12 (n2�K2)) y dado que K � n, queda O(12n2+F (K)). AunqueF (K) es exponencial respecto de K, �jando un valor de K que no sea muy grande,ponemos un l��mite a este t�ermino, de modo que el algoritmo es cuadr�atico respecto a n.3.6 Resultados experimentalesPara validar el m�etodo en su totalidad, hemos de realizar pruebas con distintos tipos desegmentaci�on y con distintos tipos de im�agenes. En primer lugar, se mostrar�an algunosde los experimentos realizados con dos m�etodos de segmentaci�on diferentes. Se puedeobservar que nuestro m�etodo es capaz de realizar las uniones de regiones adecuadas paramejorar en lo posible la correspondencia de las regiones, independientemente del tipo desegmentaci�on realizado.Los experimentos que se muestran en este cap��tulo han sido realizados con el crite-rio ZNCC, que se utiliza com�unmente en las t�ecnicas de estereovisi�on basadas en �areas[Papadimitriou y Dennis, 1995] [Devernay, 1996]). Sin embargo, los numerosos experi-mentos realizados muestran que el criterio ZNSSD proporciona resultados similares.Un aspecto diferente, pero no menos importante de este problema, es la complejidadcomputacional, que depende del tama~no del grafo. Por tanto, en los experimentos sehan evaluado todos los aspectos que in uyen en el n�umero de nodos del grafo, como sonel umbral de similitud, Ts, y el n�umero de nodos considerados en la b�usqueda del mejorclique m�aximo, K.Por �ultimo, para evaluar la robustez del m�etodo, se muestran los resultados obtenidosen una serie de im�agenes sint�eticas con distintos niveles de ruido.3.6.1 Respuesta a diferentes m�etodos de segmentaci�onLa �gura 3.7 muestra un ejemplo de los pares de im�agenes estereosc�opicasutilizados en los experimentos. Hay un conjunto de pares sint�eticos disponible

Page 82: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

58 Cap��tulo 3. Correspondencia de regiones basada en grafos �������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������� ��������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

Figura 3.7: Par est�ereo de im�agenes sint�eticas corridor (sin ruido).en [Froehlinghaus, 1997] con diferentes niveles de ruido. En particular, la �gura 3.7muestra el par sin ruido.Las �guras 3.8 y 3.10 muestran los resultados obtenidos al aplicar los dos m�etodosde segmentaci�on empleados en los experimentos. Uno de los m�etodos utilizados parasegmentar las im�agenes es una t�ecnica habitual de segmentaci�on por uni�on de regio-nes [Rosenfeld y Kak, 1982] (�gura 3.8). Otro m�etodo de segmentaci�on utilizado en losexperimentos es una t�ecnica de agrupamiento desarrollada por Badenas et al. [1997] queagrupa pixeles cercanos en regiones dentro de una cierta varianza en el nivel de gris(�gura 3.10). En todos los experimentos realizados, se ha aplicado el mismo m�etodode segmentaci�on a las dos im�agenes del par est�ereo, con los mismos par�ametros de seg-mentaci�on. En todos los casos, se aprecian diferencias en la segmentaci�on de ambasim�agenes, es decir, algunas regiones de la izquierda se corresponden con m�as de unaregi�on en la derecha y viceversa.En el caso de segmentaci�on mediante uni�on de regiones, �ltramos las regiones de laimagen para evitar regiones muy peque~nas de pocos pixeles. En el caso de segmentaci�onpor agrupamiento, todas las regiones peque~nas se unen a la regi�on m�as similar durante elproceso de agrupamiento [Badenas et al., 1997]. Las �areas negras que se muestran en losmapas de disparidades de cada tipo de segmentaci�on (�guras 3.9 y 3.11) correspondena regiones �ltradas (s�olo en el primer caso) o regiones sin correspondencia (en amboscasos). Excepto para las �areas negras, las zonas m�as oscuras corresponden a puntos m�aslejanos en la escena.Dado que asignamos disparidad constante dentro de cada regi�on, los mapas de dispa-ridades resultantes muestran una aproximaci�on basada en planos frontoparalelos. Estarestricci�on se asume impl��citamente tambi�en en el uso de la correlaci�on. Esta aproxima-ci�on del mapa de disparidades puede servir en una serie de aplicaciones de la rob�otica,donde el mapa que se necesita puede ser menos preciso, dado que este mapa da unaidea general de la localizaci�on de los objetos en la escena. Para aplicaciones que necesi-

Page 83: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 3. Correspondencia de regiones basada en grafos 59

Figura 3.8: Segmentaci�on por uni�on de regiones del ejemplo corridor y regionesuni�on resultantes del algoritmo. �������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������� ��������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

Figura 3.9: Mapa de disparidades real y mapa de disparidades obtenido a partirde la mejor disparidad de cada regi�on.

Page 84: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

60 Cap��tulo 3. Correspondencia de regiones basada en grafosten precisi�on, este mapa puede ser una buena inicializaci�on para la correspondencia debordes y puntos en la escena.

Figura 3.10: Segmentaci�on por agrupamiento de regiones del ejemplo corridor yregiones uni�on resultantes del preproceso. ��������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

Figura 3.11: Mapa de disparidades obtenido a partir de la mejor disparidad decada regi�on.La �gura 3.8 muestra un ejemplo de las regiones que han sido unidas como resultadodel algoritmo propuesto, y las regiones correspondientes en la otra imagen. Las regio-nes sombreadas con el mismo nivel de gris en la imagen izquierda son regiones unidasdurante la etapa de preproceso y que despu�es son emparejadas con su regi�on o regionescorrespondientes en la imagen derecha, tambi�en sombreadas con el mismo nivel de gris.Las correspondencias resultantes incluyen 8 regiones uni�on en la izquierda y 19 en laderecha, que contienen desde 2 hasta 5 regiones individuales.Algunas de las uniones no son visibles porque algunas regiones consisten en con-tornos de las regiones o grupos de baldosas lejanas que se unen para emparejarse congrupos similares en la otra imagen. La �gura 3.10 muestra los resultados con el segundo

Page 85: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 3. Correspondencia de regiones basada en grafos 61 �������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������� ��������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

(a) Par est�ereo parking meter.

(b) Fronteras de las regiones (negro) y regiones-uni�on resultantes (grises).Figura 3.12: Resultados de una escena real, el ejemplo parking meter, con seg-mentaci�on mediante el m�etodo de uni�on de regiones.

Page 86: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

62 Cap��tulo 3. Correspondencia de regiones basada en grafos ��������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

Figura 3.13: Mapa de disparidades resultante, ejemplo parking meter.m�etodo de segmentaci�on. N�otese que el algoritmo propuesto ha sido capaz de manejarel problema de las regiones fragmentadas de una imagen con respecto a la otra.La �gura 3.12 representa otro ejemplo, en este caso una escena real del conjunto depruebas JISCT [Bolles et al., 1993]1, del resultado del m�etodo propuesto para solucionarel problema de la fragmentaci�on de regiones. Algunas regiones en la izquierda se hanunido en el proceso para obtener correspondencias mejores con las regiones de la imagenderecha y as�� minimizar las diferencias en la correspondencia debidas a la fragmentaci�onde las regiones. En la �gura 3.13 se muestra el mapa de disparidades resultante.Las �guras 3.142, 3.15 y 3.16 son otros ejemplos de escenas reales, donde se muestranalgunas de las uniones de regiones obtenidas. No se muestran todas para preservar laclaridad de los resultados. En los mapas de disparidades, que se han obtenido respectoa la imagen derecha, se puede observar que hay algunos errores en la correspondenciade algunas regiones del lado derecho de la imagen. Esto es debido a que sus regionescorrespondientes se encuentran parcialmente fuera de la imagen.Tambi�en se pueden observar algunas imprecisiones en el c�alculo de la disparidad,especialmente en aquellas regiones donde la varianza de la intensidad es muy peque~na(poca textura), como es, por ejemplo, la parte frontal de la mesa en la �gura 3.16.3.6.2 Complejidad computacionalComo ya se ha comentado, el c�alculo de los cliques m�aximos es un problema NP-completo, de modo que cualquier algoritmo para hallar todos los cliques m�aximos enun grafo tiene un coste exponencial que depende del n�umero de nodos en el grafo.1Disponible en http://www.ius.cs.cmu.edu/idb/html/jisct/index.html2http://www.ius.cs.cmu.edu/idb/html/stereo/index.html

Page 87: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 3. Correspondencia de regiones basada en grafos 63

Figura 3.14: Resultados de una escena real, el ejemplo pepsi, con segmentaci�onmediante el m�etodo de uni�on de regiones.

Page 88: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

64 Cap��tulo 3. Correspondencia de regiones basada en grafos

Figura 3.15: Resultados de una escena real, el ejemplo textured lamp, con segmen-taci�on mediante el m�etodo de uni�on de regiones.

Page 89: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 3. Correspondencia de regiones basada en grafos 65

Figura 3.16: Resultados de una escena real, el ejemplo lab, con segmentaci�on me-diante el m�etodo de uni�on de regiones.

Page 90: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

66 Cap��tulo 3. Correspondencia de regiones basada en grafosEn el problema presentado de correspondencia de regiones, el n�umero de nodos delgrafo de asociaci�on depende del umbral de similitud seleccionado para considerar lospares de correspondencias posibles. La tabla 3.1 muestra el coste computacional ensegundos3 del algoritmo utilizando umbrales diferentes. Para cada umbral de similitud semuestra tambi�en la proporci�on de correspondencias obtenidas, medido como el n�umerode pixeles con correspondencia dividido por el total de pixeles de todas las regionesconsideradas en la correspondencia. El n�umero de regiones con correspondencia crece amedida que decrece el umbral porque se consideran m�as emparejamientos posibles en elproceso. umbral Ts 0.65 0.60 0.55# nodos 70 85 100% correspondencia 91.5 92.4 93.3tiempo (seg.) 40.75 53.09 13969.49Tabla 3.1: Porcentaje de correspondencia para el ejemplo corridor (sin ruido).No obstante, para tratar de evitar la complejidad exponencial del c�alculo de loscliques m�aximos, la tabla 3.2 muestra el resultado de aplicar el algoritmo de b�usquedadescrito en la secci�on 3.5. N�otese que ahora los tiempos de c�alculo han sido reducidosconsiderablemente con respecto a los tiempos mostrados en la tabla 3.1, y que de estamanera el coste computacional no se incrementa exponencialmente si el n�umero de nodosse incrementa. Mas a�un, el algoritmo sub�optimo permite ejecuciones con umbrales m�aspeque~nos que proporcionan mejores correspondencias.umbral Ts 0.65 0.60 0.55 0.50 0.45 0.40 0.35# nodos 70 85 100 118 141 192 248% correspcia. 91.5 92.4 93.3 93.7 94.0 95.3 96.0tiempo (seg.) 40.92 46.97 55.40 67.41 88.95 115.12 153.22Tabla 3.2: Porcentaje de correspondencia para el ejemplo corridor (sin ruido),usando el algoritmo sub�optimo con K = 30.En este ejemplo, los resultados del algoritmo �optimo y del algoritmo sub�optimo sonexactamente los mismos. Cuando el n�umero de nodos del grafo crece considerablemen-te, s�olo se puede aplicar el algoritmo sub�optimo. Aunque el algoritmo propuesto nogarantiza encontrar la mejor soluci�on, los resultados son id�enticos en la mayor��a de losexperimentos realizados. En el resto de experimentos, los resultados son muy similares(alrededor del 1% de diferencia en el porcentaje de correspondencia). La �gura 3.173Todos los tiempos de c�alculo que se muestran en las tablas y gr�a�cas de este cap��tulo se han obtenidocon un HP-725 75 MHz.

Page 91: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 3. Correspondencia de regiones basada en grafos 67muestra los resultados del ejemplo anterior con un umbral de 0.55 y valores diferen-tes para el n�umero de nodos considerados en la b�usqueda del mejor clique m�aximo, K.En la �gura se puede observar c�omo el tiempo de computaci�on crece exponencialmenterespecto a K.

010002000300040005000

30 40 50 60 70 80 90 100Tiempo(s.)

K (Num. nodos)3 3 3 3 3 3 3 3 33

Figura 3.17: Crecimiento del tiempo de ejecuci�on respecto al n�umero de nodosconsiderados para encontrar el mejor clique m�aximo.La selecci�on de K se puede realizar en funci�on de esta gr�a�ca, que muestra que apartir de K = 75 el tiempo computacional se dispara. Sin embargo, para evaluar laaproximaci�on a la soluci�on que se obtiene con el algoritmo sub�optimo, se han utilizadodistintos valores de K. En particular, los resultados que se muestran en la tabla 3.2 y enlas distintas �guras han sido obtenidos con K = 30. La �gura 3.18 muestra los mapasde disparidades resultantes de aplicar ambos algoritmos para encontrar la soluci�on, elmejor clique m�aximo y el algoritmo sub�optimo. N�otese que son bastante similares, portanto, el c�alculo del mejor clique m�aximo puede sustituirse por la soluci�on aproximadapropuesta.3.6.3 Evaluaci�on de la in uencia del ruidoPara poder evaluar la in uencia del ruido en el algoritmo propuesto hemos utilizadopares est�ereo con ruido blanco de diferente varianza. Por ejemplo, en la �gura 3.19 semuestran los resultados para un par de im�agenes est�ereo sin ruido, y otro con ruido devarianza 100. Los mapas de disparidades resultantes son similares, en el sentido de queproporcionan una aproximaci�on a la soluci�on, que se muestra en la �gura 3.9. Aunquelos resultados no son precisos, ambos mapas dan una idea de la posici�on de los objetosen la escena.

Page 92: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

68 Cap��tulo 3. Correspondencia de regiones basada en grafos ��������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

(a) �Optimo (86.7%).

��������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

(b) Sub�optimo (86.5%)Figura 3.18: Mapas de disparidades y porcentajes de correspondencia del ejemplocorridor usando los algoritmos �optimo y sub�optimo (Ts = 0:80). ��������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

(a) Sin ruido (97.2%)

��������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

(b) Ruido de varianza 100 (96.3%)Figura 3.19: Mapas de disparidades y porcentajes de correspondencia del ejemplocorridor con distintos niveles de ruido y el mismo umbral, Ts = 0:40(algoritmo sub�optimo).

Page 93: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 3. Correspondencia de regiones basada en grafos 69La �gura 3.20 muestra el porcentaje de correspondencia con respecto al umbral desimilitud utilizado en las im�agenes con distinto nivel de ruido. N�otese que cuanto mayores el nivel de ruido en la imagen, el umbral de similitud necesario para obtener resultadossimilares en el porcentaje de correspondencia es menor. Las medidas de similitud entreregiones correspondientes descienden debido al ruido, de modo que el n�umero de nodosdel grafo decrece.

5060708090100

0.35 0.4 0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8PorcentajedeCorrespondencia

Umbral TsSin ruido +

++++++++++Ruido de varianza 1 2 2222222222Ruido de varianza 10 � ����������

Ruido de varianza 100 4 44444444

Figura 3.20: Efecto del ruido en el porcentaje de correspondencia.La �gura 3.21 muestra la relaci�on entre el n�umero de nodos en el grafo y el porcentajede correspondencia obtenido para los ejemplos con ruido y sin ruido. Se puede observarque en el ejemplo con ruido se necesitan m�as nodos en el grafo para obtener el mismoporcentaje de correspondencias que en el ejemplo sin ruido. Esto signi�ca que se incluyenm�as nodos en el grafo para resolver los problemas de segmentaci�on que aparecen debidosal efecto del ruido.En los ejemplos con ruido, es posible obtener porcentajes de correspondencia similaresal ejemplo sin ruido decrementando el umbral de similitud. Es decir, el m�etodo propuestopuede conseguir resultados en presencia de ruido similares a los obtenidos con im�ageneslibres de ruido, lo que signi�ca que el m�etodo es robusto en presencia del ruido.3.7 Discusi�on y conclusionesEn este cap��tulo se ha presentado un m�etodo basado en grafos para la b�usqueda de lascorrespondencias de regiones, que permite manejar los errores de la segmentaci�on. Lat�ecnica consiste en una etapa de preproceso en el m�etodo cl�asico basado en grafos, para

Page 94: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

70 Cap��tulo 3. Correspondencia de regiones basada en grafos

5060708090100

200 400 600 800 1000 1200 1400PorcentajedeCorrespondencia

N�umero de nodos del grafoSin ruido +

++++ + + + + + +Ruido de varianza 1 222 2 2 2 2 2 2 2Ruido de varianza 10 ��� � �� � � � �Ruido de varianza 100 444

4 4 4 4 4 4 4

Figura 3.21: Relaci�on entre el tama~no del grafo y el porcentaje de correspondenciacon distintos niveles de ruido.calcular las regiones uni�on apropiadas a considerar en el proceso de correspondencia.Este m�etodo permite evitar los errores que se deben a la segmentaci�on considerandotanto las regiones individuales como las regiones uni�on obtenidas en el preproceso.El �unico coste adicional con respecto al m�etodo que no considera los errores en lasegmentaci�on, es el c�alculo de todos los cliques m�aximos en el grafo de asociaci�on deincompatibilidades. Dado que el n�umero de arcos es normalmente bajo, el proceso deb�usqueda de todos los cliques m�aximos es bastante r�apido, utilizando un algoritmo queaproveche este hecho.El uso de dos criterios de similitud basados en t�ecnicas de correlaci�on, uno paracrear nodos del grafo y otro para el resto del proceso de correspondencia, proporcionaun menor n�umero de ambig�uedades, reduciendo as�� el tiempo de c�alculo y produciendocorrespondencias de regiones m�as �ables.Tambi�en se ha presentado un algoritmo sub�optimo de b�usqueda del mejor cliquem�aximo de un grafo, que permite obtener una soluci�on aproximada con un costecuadr�atico respecto al tama~no del grafo.Los experimentos llevados a cabo muestran que los resultados son satisfactorios conrespecto al problema de la segmentaci�on. La construcci�on de un grafo con las incom-patibilidades entre correspondencias es una soluci�on robusta para unir regiones y, enconsecuencia, obtener mejores correspondencias.Como desventaja principal de la correspondencia de regiones est�a el hecho de queel mapa de disparidades obtenido es un mapa disperso, que proporciona un solo valor

Page 95: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 3. Correspondencia de regiones basada en grafos 71de disparidad por cada regi�on. Por lo tanto, las regiones que representan objetos de laescena con formas geom�etricas curvas o planos inclinados (por ejemplo, el plano del suelo,o una esfera) han sido asignados con una disparidad constante a lo largo de la regi�onpara obtener un mapa de disparidades denso. Estos mapas de disparidades podr��anservir como inicializaci�on a un proceso de correspondencia jer�arquico que proporcionem�as resoluci�on. Esta ser��a una l��nea de trabajo futuro, enfocada a integrar el m�etodopropuesto como parte de un algoritmo de correspondencia jer�arquico.

Page 96: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

72 Cap��tulo 3. Correspondencia de regiones basada en grafos

Page 97: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 4Correspondencia de regionesbasada en la minimizaci�on de unafunci�on de energ��aGeneralmente el proceso de reconstrucci�on se aborda despu�es del proceso de correspon-dencia. La correspondencia proporciona un mapa de disparidades, lo m�as denso posible,que son f�acilmente transformadas en profundidades mediante una simple triangulaci�on.La reconstrucci�on procede a segmentar el mapa de profundidades (tambi�en denominadoimagen de rango) para obtener una representaci�on de mayor contenido sem�antico, comoson super�cies y objetos, que sean utilizables en m�ultiples aplicaciones. En este cap��tulose presenta un m�etodo que realiza ambas etapas en un solo proceso, donde la correspon-dencia y la reconstrucci�on cooperan en la recuperaci�on de la escena tridimensional.4.1 Introducci�onEn el �area de aplicaci�on que nos incumbe (escenas de interiores) los objetos de la escenason principalmente objetos fabricados por el hombre, con poca textura. Por tanto, last�ecnicas basadas en �areas tienen di�cultades en las zonas de intensidad homog�enea,mientras que las t�ecnicas basadas en primitivas proporcionan un mapa de disparidadesdisperso, de modo que, a medida que crece el nivel signi�cativo de la primitiva, crecesu di�cultad de extracci�on, y crece la dispersi�on en los resultados. La combinaci�on dem�etodos basados en caracter��sticas y m�etodos basados en �areas no es nueva en la visi�onestereosc�opica, pero generalmente se hab��a realizado como dos pasos diferenciados en elproceso de la correspondencia.En el cap��tulo anterior, se propon��a una combinaci�on de caracter��sticas de alto nivel,como son las regiones, con una t�ecnica de correlaci�on en un mismo proceso para la73

Page 98: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

74 Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��ab�usqueda de la correspondencia. Sin embargo, a la hora de aplicar la correlaci�on, laszonas de las regiones que no intersectan entre s�� a una disparidad dada no se ten��an enconsideraci�on, debido a los problemas generados por las diferencias que aparecen entrelas segmentaciones de ambas im�agenes.Para evitar las di�cultades generadas por las diferencias en la segmentaci�on de las re-giones, en este cap��tulo se propone un nuevo m�etodo que, bas�andose en la segmentaci�onde una sola de las im�agenes que se toma como referencia, busca las regiones correspon-dientes en la otra imagen sin segmentar. El objetivo es encontrar para cada regi�on de laimagen de referencia, la profundidad que proporcione una regi�on correspondiente lo m�asparecida posible a la regi�on de referencia. La profundidad dentro de una regi�on es unafunci�on que a priori podr��a variar bastante a lo largo y ancho de la regi�on. Por tanto,ser�a necesario imponer alg�un tipo de restricci�on a la forma de la funci�on profundidadpara poder resolver el problema planteado, como se ver�a m�as adelante.La funci�on profundidad debe tener en cuenta dos cuestiones importantes relativas ala restricci�on de continuidad (ya comentadas en la secci�on 2.2.2):� debido a las restricciones de continuidad y de cohesi�on de la materia, la profundidaddebe cambiar suavemente en las zonas homog�eneas, y� las discontinuidades en la profundidad pueden aparecer en donde existen disconti-nuidades en la intensidad.Teniendo en cuenta la restricci�on de continuidad y la existencia de discontinuidades,restringiremos la forma de la funci�on profundidad en el interior de cada regi�on (zonas ho-mog�eneas), mientras que en las fronteras (discontinuidades en la intensidad) no se realizaninguna restricci�on para permitir la aparici�on de discontinuidades en la profundidad.4.1.1 Planteamiento del problemaSean I1 e I2 un par de im�agenes estereosc�opicas, donde I1 es la imagen que tomamoscomo referencia, y supongamos que conocemos los par�ametros de calibraci�on de ambasproyecciones. Si se conociese la profundidad de todos los pixeles de I1, es decir, dispu-si�esemos del mapa de profundidades, Z, podr��amos obtener una r�eplica de I1 a partir delmapa Z y los valores de intensidad de I2. La r�eplica, que llamaremos T , es una imagenque contendr��a para cada pixel m de I1 la intensidad de su pixel correspondiente m0 enI2. T (m) = I2(m0); 8m 2 I1 (4.1)m0 = f12(m;Z(m)) (4.2)donde m0 es el pixel que corresponde a m dada la profundidad de m, Z(m). Para unarevisi�on detallada de c�omo obtener el punto correspondiente a un pixel dado a partir desu profundidad, v�ease el ap�endice A.4 (ecuaci�on A.33).

Page 99: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��a 75Si Z es el mapa de profundidades verdadero (ground truth depth map), en condicionesideales, T ser��a igual a I1, excepto en aquellos pixeles de I1 cuyo pixel correspondienteest�e oculto en I2, para los que no existe correspondencia. Por tanto, T es la r�eplicam�as similar a I1 que se puede obtener a partir de I2 y Z. Cuando Z no coincideexactamente con el mapa de profundidades verdadero, pero no est�a lejos del mismo,se podr��a calcular mediante alg�un m�etodo variacional los incrementos o decrementos deZ(mi) necesarios, de modo que Z se acerque hacia la soluci�on. Por tanto, el problema dela correspondencia se puede abordar como la b�usqueda de Z que minimice las diferenciasentre I1 y T . Sin embargo, �este es un problema mal planteado1 (ill-posed problem) demodo que la existencia, unicidad y estabilidad de la soluci�on no puede garantizarse enausencia de restricciones adicionales [Terzopoulos, 1986].Se puede encontrar un m�etodo variacional para la reconstrucci�on estereosc�opicaen [Robert y Deriche, 1996], que consiste en minimizar una funci�on de energ��a basadaen diferencias entre propiedades de los pixeles correspondientes. La funci�on de energ��aincluye un t�ermino de regularizaci�on necesario para alcanzar la convergencia, suavizandola funci�on de la profundidad (Z(u; v)) en las �areas donde la intensidad es homog�enea,pero al mismo tiempo permitiendo que aparezcan discontinuidades en la profundidadesdonde existan discontinuidades en la intensidad. En su caso, la forma de la funci�on deprofundidad se restringe mediante este t�ermino de regularizaci�on que debe cumplir losdos requisitos: suavizar la profundidad en las �areas de intensidad homog�enea, no suavi-zar la profundidad a trav�es de los cambios bruscos de intensidad, y s�� a lo largo de ellos.Este m�etodo, aunque novedoso e interesante, no obtiene buenos resultados con escenasreales, y en el caso de escenas sint�eticas necesita de al menos tres im�agenes de la escenapara obtener las discontinuidades en la funci�on profundidad.En esta tesis se propone usar regiones como primitiva de la correspondencia en lugarde pixeles de la imagen para poder aplicar el m�etodo de minimizaci�on en escenas don-de los objetos est�en poco texturados, y detectar las oclusiones y discontinuidades en laprofundidad. Sin embargo, como ya se ha mencionado, este problema requiere imponeralguna restricci�on a la soluci�on. En concreto, se propone imponer una restricci�on sobrela profundidad de los pixeles que pertenecen a una misma regi�on. Por ejemplo, asumiruna escena hecha de super�cies planas es aplicable a entornos de robots donde las escenasest�an generalmente compuestas por objetos fabricados por el hombre. Aplicar esta res-tricci�on sobre la distribuci�on de la profundidad de cada regi�on hace que no necesitemosa priori ning�un t�ermino de regularizaci�on adicional sobre la funci�on profundidad.En el ejemplo de la �gura 4.1 se muestra la proyecci�on en dos planos imagen de unaescena formada por dos super�cies, Sa y Sb. Supongamos que segmentamos la imagenI1, obteniendo un conjunto de regiones, fRa; Rbg, y que buscamos su correspondenciaen I2. En la �gura se muestra cu�al ser��a la regi�on correspondiente de Rb en funci�on desu profundidad.1Un problema est�a bien planteado (well-posed) seg�un Hadamard si hay: existencia de la soluci�on,unicidad de la soluci�on y estabilidad o continuidad de la soluci�on. La estabilidad o continuidad de lasoluci�on se re�ere a que hayan peque~nas variaciones de las medidas respecto al ruido de las observaciones.

Page 100: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

76 Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��a

I

O O’

I

R

R

S

S

a

¿Z ?b

21

b¿R’?

R’a

b

a

b

Figura 4.1: Planteamiento del problema de la correspondencia.Las t�ecnicas cl�asicas consisten en segmentar la imagen I2 y calcular lacorrespondencia entre las regiones de la izquierda y de la derecha bas�andoseen sus caracter��sticas geom�etricas o en sus caracter��sticas fotom�etricas[Marapane y Trivedi, 1989] [Marapane y Trivedi, 1994] [Cohen et al., 1989b][Sander et al., 1989] [de Agapito, 1996]. Otros trabajos realizan la segmentaci�on de I1 eI2 a la vez que la correspondencia mediante un algoritmo cooperativo que intenta evitarlos errores de segmentaci�on [Cohen et al., 1989a] [Randriamasy y Gagalowicz, 1991].Sin embargo, nuestro planteamiento es muy diferente: proponemos empezar con unaestimaci�on de la profundidad de cada regi�on, fZa; Zbg, de modo que podamos calcularlas regiones correspondientes fR0a; R0bg, para despu�es modi�car las profundidades haciala soluci�on. Para ilustrar esta idea, en la �gura 4.1 se muestra c�omo var��a R0b en funci�onde Zb. En este ejemplo, si el error de similitud entre las regiones Rb y R0b se puededisminuir, se modi�ca Zb (y por tanto R0b) en esa direcci�on, hasta que se alcance unm��nimo.La funci�on de energ��a que se propone puede tener m�ultiples m��nimos locales. Paraque el algoritmo iterativo que busca el m��nimo global sea capaz de converger a la soluci�on,es necesario que el valor inicial de la profundidad no se encuentre lejos de la misma. Unasoluci�on muy com�un en los sistemas de visi�on consiste en utilizar un esquema multiescala,que procese un conjunto de representaciones de la imagen de diferente resoluci�on, desdela m�as burda hasta la m�as �na (coarse-to-�ne), de modo que los resultados de un nivelde resoluci�on se emplean para inicializar el nivel siguiente de la escala.

Page 101: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��a 77Al igual que la imagen de referencia se segmenta en un conjunto de regionesI1 = [i=1::N Riel mapa de profundidades Z estar�a formado por un conjunto de funciones Z(Ri), cadauna de las cuales est�a de�nida sobre una regi�on Ri de la imagen.Z = [8R�I1 Z(R)La idea b�asica del m�etodo que se propone consiste en partir de una estimaci�on inicialde la profundidad de cada regi�on, Z(R), que se modi�ca iterativamente mediante laminimizaci�on de una funci�on de energ��a basada en diferencias de intensidad de los pixelesde la regi�on R con su regi�on correspondiente. Para determinar la profundidad Z(R) decada regi�on, ser�a necesario realizar alguna restricci�on sobre la forma de esta funci�on, loque signi�ca realizar alguna suposici�on sobre la forma de las super�cies de la escena.La restricci�on de asumir una escena formada por super�cies planas ha sidoutilizada habitualmente en las t�ecnicas de reconstrucci�on basadas en la correspon-dencia de regiones [V�ezien y Gagalowicz, 1991] [Tarel y V�ezien, 1995] [Tarel, 1996][Chabbi y Berger, 1996]. Sin embargo, estos trabajos realizan la reconstrucci�on en unpaso posterior a la correspondencia, mientras que nosotros pretendemos realizar ambosprocesos en un solo paso.Un m�edodo que realiza la correspondencia y la reconstrucci�on en un solo paso es[Super y Klarquist, 1997] que, para cada punto de inter�es de la imagen, realiza unab�usqueda en el espacio de super�cies planas 3D. Cada super�ce 3D hipot�etica se usapara de�nir un par de trozos de imagen con posiciones, formas, tama~nos, orientacionese intensidades consistentes con la hip�otesis y entre s��. De este modo, se asegura quela comparaci�on entre los dos trozos da un ��ndice de correlaci�on �able de la similitudentre las intensidades. Dado que la deformaci�on entre im�agenes se tiene en cuentaexpl��citamente, permite la existencia de deformaciones grandes entre im�agenes. Sinembargo, no se modelan las oclusiones ni la existencia de discontinuidades.La reconstrucci�on basada en regiones se ha abordado en pocos trabajos con escaso�exito debido a los errores de segmentaci�on. Chabbi et al. [1996] no consideran laspropias regiones en la reconstrucci�on, sino sus fronteras, asumiendo que son coplanaresen el espacio 3D. Vezien et al. [1991] y Tarel et al. [1995] [1996] obtienen la posici�ontridimensional de las super�cies asumiendo que las super�cies de la escena son planas ybas�andose en las caracter��sticas geom�etricas globales de las proyecciones de las super�ciessobre las im�agenes. Sin embargo, los pares de regiones que est�an mal segmentados noson v�alidos para estos m�etodos y se eliminan mediante un test de coherencia. Lasregiones eliminadas suponen una p�erdida importante en la reconstrucci�on de la escenatridimensional.

Page 102: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

78 Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��aUn problema importante que hay que considerar durante la correspondencia es ladetecci�on de oclusiones, y su in uencia en el establecimiento de la correspondencia. Enotros estudios basados en regiones este aspecto se ha dejado aparte o se ha tratadodurante la etapa de reconstrucci�on. En este trabajo se tratan las oclusiones durante lacorrespondencia, como se ver�a en el cap��tulo 5, en un proceso cooperativo que encuentralas profundidades y las oclusiones al mismo tiempo, y el resultado es la reconstrucci�ontridimensional de la escena.4.1.2 AportacionesEl m�etodo que se propone consiste en calcular la profundidad mediante la minimizaci�onde una funci�on de energ��a basada en la correlaci�on entre una regi�on de la imagen dereferencia y su regi�on correspondiente en la otra imagen. A pesar de que se han esta-blecido similitudes en ciertos aspectos con otros m�etodos, que han sido detalladas enla secci�on anterior, el m�etodo que se propone introduce aspectos novedosos calculandolas profundidades a partir de las regiones producto de la segmentaci�on de una imagende referencia, introduciendo las restricciones de continuidad de la �gura a la vez quepermitiendo discontinuidades de la profundidad en los bordes.Correspondencia y reconstrucci�on se realizan en un solo paso. La profundidad secalcula para cada regi�on de modo que la profundidad de cada pixel se puede obtenersiguiendo la restricci�on que se imponga. Las dos restricciones que se han investigadohasta el momento son:1. La profundidad es constante para todos los pixeles de la regi�on. Esta restricci�onsupone que la escena est�a formada por planos paralelos al plano imagen de laimagen de referencia (restricci�on de planos fronto-paralelos).2. La profundidad var��a linealmente para todos los pixeles de la regi�on. Esta restric-ci�on supone que la escena est�a formada por planos de cualquier tipo (restricci�onde planos de cualquier orientaci�on).Por tanto, se proponemantener una representaci�on de la escena tridimensio-nal, de modo que en todo momento se dispone de un mapa denso de profundidades, cuyaprecisi�on con respecto al mapa de profundidades verdadero depender�a de las oclusionesy la validez de la restricci�on asumida.Junto con la b�usqueda de la correspondencia, tambi�en se trata la detecci�on deoclusiones, y su in uencia en el establecimiento de la correspondencia. Como se ver�am�as adelante, las oclusiones tienen un papel importante en la b�usqueda de la correspon-dencia, y su correcta detecci�on aumenta la precisi�on de los resultados.En este cap��tulo se presenta el estudio, desarrollo y resultados experimentales de laprimera suposici�on (restricci�on de planos fronto-paralelos) y un estudio de la posibilidadde generalizaci�on a la segunda suposici�on (restricci�on de planos de cualquier orientaci�on).

Page 103: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��a 79En el siguiente cap��tulo se estudia c�omo puede la detecci�on de oclusiones mejorar lascorrespondencias obtenidas mediante este m�etodo.En la secci�on 4.2 se detalla c�omo se aplican las restricciones de los sistemas este-reosc�opicos al m�etodo de correspondencia que se presenta en este cap��tulo. En la secci�on4.3, se explica la funci�on de energ��a elegida, y las consideraciones b�asicas de la estrategiade minimizaci�on. En la secci�on 4.4, se trata el caso de escenas formadas por planosparalelos al plano imagen. A continuaci�on, se muestran los resultados obtenidos enlos numerosos experimentos realizados con pares de im�agenes sint�eticas y reales en lasecci�on 4.5. En la secci�on 4.6 se estudia la generalizaci�on del m�etodo a la suposici�onde escenas formadas por super�cies planas cualesquiera. Finalmente, las conclusionessobre el trabajo mostrado en este cap��tulo, as�� como una discusi�on sobre los resultadosexperimentales obtenidos, se resumen en la secci�on 4.7.4.2 Restricciones del proceso de correspondencia4.2.1 Restricci�on epipolarComo ya se ha comentado al principio de este cap��tulo, dado un pixel m en la imagen dereferencia, se puede calcular el pixel correspondiente en la segunda imagen, m0, a partirde los par�ametros de calibraci�on y la profundidad estimada de ese pixel,m0 = f12(m;Z(m)) (4.3)donde la funci�on f12 depende de las matrices de proyecci�on de las im�agenes I1 e I2, quecontienen los par�ametros intr��nsecos y extr��nsecos de calibraci�on (ap�endice A.4, ecuaci�onA.33).Dada una regi�on R en la imagen de referencia, se puede calcular su regi�on corres-pondiente en la segunda imagen, R0, a partir de los par�ametros de calibraci�on y laprofundidad estimada de la regi�on,R0 = g12(R;Z(R)) (4.4)donde la funci�on g12 no es m�as que una generalizaci�on de la funci�on f12, de modo quecada pixel mi 2 R corresponde a cada punto m0i 2 R0 a una profundidad dada Z(mi),y Z(mi) se calcula a partir de la ecuaci�on que determina la profundidad de la regi�on,Z(R), es decir, depende de la profundidad de la regi�on seg�un la restricci�on impuesta.R0 = g12(R;Z(R)) = fm0i = f12(mi;Z(mi));8mi 2 Rg (4.5)De esta manera se restringe la b�usqueda de la correspondencia al �area que determinala restricci�on epipolar. Queda por de�nir cu�al es la relaci�on entre las profundidades delos pixeles que pertenecen a una misma regi�on, es decir, la forma de la funci�on Z(R).

Page 104: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

80 Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��a4.2.2 Restricci�on de profundidad (o de disparidad)En este m�etodo es fundamental proporcionar un rango de profundidades v�alido de laescena real. En el caso de que a una determinada escala no se tenga su�ciente informaci�onsobre una regi�on para obtener una aproximaci�on de su profundidad (esto puede ocurrirsobre todo en los niveles de resoluci�on m�as burda), el algoritmo podr��a diverger haciala m�axima o m��nima profundidad. Este resultado se propaga en los siguientes nivelesde la escala, donde al disponer de mayor informaci�on es posible obtener una mejoraproximaci�on. El hecho de limitar el rango de profundidades no supone una p�erdidaimportante de generalidad, debido a que, por lo general, se dispone de esta informaci�onsobre la escena, sobre todo cuando se trata de interiores.Es una restricci�on muy utilizada, generalmente para acelerar el proceso de la co-rrespondencia, ya que de este modo, la b�usqueda de la correspondencia se restringe aun segmento de la l��nea epipolar, aqu�el que determine el rango de profundidades dado,[Zmin; Zmax].4.2.3 Restricci�on de continuidad de la �guraLas discontinuidades en la profundidad normalmente aparecen en las discontinuidadesde la intensidad, mientras que las regiones de intensidad homog�enea normalmente re-presentan super�cies suaves. El uso de regiones hace que introducir estas restriccionessea m�as sencillo. Por un lado, se permiten discontinuidades en la profundidad en loscontornos de las regiones y, por otro lado, la continuidad de la profundidad a lo largode la �gura se modela expl��citamente en la restricci�on sobre la forma de la profundidaddentro de la regi�on.4.2.4 Restricci�on de ordenLa restricci�on de orden se asume al inicializar el primer mapa de profundidades a unvalor constante y propagar los resultados de un nivel a otro. Aunque posteriormenteno se impone que se siga cumpliendo la restricci�on de orden, es muy improbable que seviole esta condici�on si la segmentaci�on de las im�agenes de los distintos niveles de escalay el proceso de correspondencia funcionan con normalidad.4.3 La funci�on de energ��aLa t�ecnica de minimizaci�on aborda el problema de la correspondencia como la minimiza-ci�on de una funci�on de energ��a, y nosotros proponemos expresar esta energ��a en t�erminosde correspondencia de regiones, bas�andonos en las regiones obtenidas de la segmentaci�on

Page 105: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��a 81de la imagen de referencia. Por tanto, la funci�on de energ��a a minimizar se puede escribircomo E(Z) = ZR�I1 F (R;Z(R))dR (4.6)donde la funci�on F denota el error en similitud entre cada regi�on R de la imagen dereferencia y su correspondiente R0 calculada a partir de la profundidad estimada de laregi�on, Z(R) (ecuaci�on 4.5).Una vez se ha obtenido R0 (la regi�on correspondiente a R seg�un Z(R)), podemoscalcular el error en la similitud entre ambas regiones utilizando alguna medida de co-rrelaci�on. Por ejemplo, el m�etodo de correlaci�on ZNCC (zero-mean normalized crosscorrelation) es una medida a maximizar, de modo que podemos minimizar la siguientefunci�on de error:F (R;Z(R)) = �CZNCC(R;R0) = � 1N X8mi2R I1(mi)I2(m0i) (4.7)donde m0i = f12(mi;Z(mi)), N es el tama~no de R y I1(mi), I2(m0i) son las intensidadesnormalizadas de media cero de los pixeles mi y m0i con respecto a su regi�on, respectiva-mente: Ik(mi) = Ik(mi)� �k(R)�k(R) ; mi 2 R � Ik (4.8)donde �k(R) y �k(R) son la media y la desviaci�on t��pica de la intensidad de la regi�on R.Sustituyendo la ecuaci�on 4.7 en la funci�on de energ��a general (ecuaci�on 4.6) resultaE(Z) = ZR�I1 � 1N X8mi2R I1(mi)I2(m0i) dR (4.9)dondem0i = f12(mi;Z(mi)), y Z es tal que, debido a la restricci�on de continuidad, los pi-xeles correspondientesm0i;m0j a dos pixelesmi;mj de la misma regi�on est�an relacionadosentre s��.Esta funci�on se podr��a reescribir en funci�on de las dos variables independientes dela imagen, m = (u; v), y el mapa de profundidades Z, que es el conjunto de todas lasprofundidades y es lo que se quiere obtener,E(Z) = Zu Zv � 1N I1(u; v)I2(f12((u; v);Z(u; v))) du dv (4.10)con la condici�on de que las profundidades de todos los pixeles que pertenecen a la mismaregi�on cumplan la restricci�on impuesta. De modo que, la funci�on se puede reescribir comoE(Z) = Zu Zv F (u; v; z; @z@u; @z@v ) du dv (4.11)donde z = Z(u; v) y ( @z@u ; @z@v ) representa la variaci�on de la profundidad respecto a u y v,que ha de ser peque~na en las zonas de intensidad homog�enea.

Page 106: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

82 Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��aDe acuerdo con la ecuaci�on de Euler [Elsgoltz, 1977], la z que hace m��nima E(Z) essoluci�on de la ecuaci�on diferencial de segundo orden,Fz � @@ufFpg � @@v fFqg = 0 (4.12)donde p = @z@u , q = @z@v y Fz; Fp; Fq son las derivadas parciales de F con respecto a z; p yq, respectivamente.Sin embargo, bajo la suposici�on de que las super�cies de la imagen son planas, p yq son constantes en el interior de las regiones (0 en el caso de planos fronto-paralelos),mientras que en las fronteras de las regiones no se aplica ninguna restricci�on, para per-mitir que aparezcan discontinuidades en la funci�on Z. Por tanto, bajo la consideraci�onde super�cies planas, F no depende de p y q, de modo que Fp = 0 y Fq = 0, y por tanto,z = Z(R) es soluci�on de Fz = 0 (4.13)En la �gura 4.2(a) se muestra un ejemplo de c�omo var��a el error de correlaci�on F entreuna regi�on y su regi�on correspondiente en funci�on de su profundidad, Z, suponiendo que�esta sea constante en toda la regi�on. En la �gura 4.2(b) se muestra la derivada de estafunci�on, Fz. Se puede observar que el punto donde el error de correlaci�on alcanza unm��nimo, la funci�on Fz pasa por cero, de negativo a positivo. El m��nimo global representala profundidad a la que se encuentra la super�cie representada por la regi�on ejemplo ysu regi�on correspondiente.-1

-0.9

-0.8

-0.7

-0.6

-0.5

-0.4

-0.3

-0.2

-0.1

80 90 100 110 120 130

F

Z(a) F en funci�on de Z -0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

80 90 100 110 120 130

Fz

Z(b) Fz en funci�on de ZFigura 4.2: Error de similitud entre una regi�on y su regi�on correspondiente enfunci�on de la profundidad.En la �gura se puede observar que para cada paso por cero en Fz correspondientea un m��nimo de la funci�on F , existe una zona de Fz negativa a la izquierda y otrapositiva a la derecha. Esto nos permite, dada una Z inicial estimada, decidir si Z sedebe incrementar o decrementar para alcanzar el paso por cero.

Page 107: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��a 83Para cada valor de Z que queramos calcular, se puede dise~nar un algoritmo iterativoque incremente o decremente Z en funci�on de Fz :Zt+1 = Zt ��tFz (4.14)Por lo tanto, el problema se podr��a resolver mediante un algoritmo por descenso degradiente. Sin embargo, puede haber m�as de un paso por cero debido a la existenciade m�as de un m��nimo local. Para obtener el m��nimo global, la Z inicial a incremen-tar/decrementar, debe estar su�cientemente cerca del paso por cero correspondiente almismo. Por esta raz�on, la profundidad se debe estimar a distintas resoluciones, desde lam�as burda a la m�as �na, para dirigir la convergencia del algoritmo al m��nimo global.4.3.1 Diferencia con las t�ecnicas cl�asicas basadas en �areasEsta t�ecnica se podr��a asimilar a una t�ecnica de ventana adaptativa, donde el tama~noy forma de la ventana depende de los resultados de la segmentaci�on. Sin embargo, sillamamos W1 a la ventana de la imagen de referencia, y localizamos en I2 los puntoscorrespondientes a cada pixel perteneciente aW1, obtenemos la ventana correspondiente,W2, que puede ser de distinto tama~no y forma que W1.Un problema que aparece entonces es el de calcular la correlaci�on entre dos ventanasde tama~nos y formas diferentes, W1 y W2. En las �guras 4.3 y 4.4 se muestra unaregi�on de una imagen en la izquierda, que es la proyecci�on de una determinada super�cietridimensional, S. Cada pixel de la regi�on tiene un tama~no de ku � kv medido enlas unidades espaciales correspondientes. En la parte derecha, donde se muestra laproyecci�on de la super�cie S en la otra imagen, se puede observar que el �area quecorresponde a cada pixel podr��a tener medidas diferentes de ku y kv . Existen dos posiblessoluciones a este problema:� Calcular la correlaci�on mediante una integral de la super�cie, considerando queuna imagen es una funci�on de dos variables constante sobre la super�cie de cadapixel (constante a tramos) (�gura 4.3).� Calcular la intensidad de los puntos de la ventana W2 (que corresponden a lascoordenadas enteras de la ventana W1) por interpolaci�on lineal entre los valores deintensidad de los puntos de la segunda imagen y calcular la correlaci�on entre dosventanas iguales como en las t�ecnicas cl�asicas de correlaci�on (�gura 4.4).Nosotros hemos escogido el segundo m�etodo por ser el m�as simple y el m�as r�apido decalcular. De hecho, la t�ecnica habitual va a consistir en obtener una imagen transformadaT a partir de la segunda imagen, I2, seg�un la ecuaci�on 4.1. Tras esta transformaci�on,las dos regiones correspondientes R y R0 se encuentran en las mismas posiciones de lasim�agenes I1 y T , respectivamente. Esta transformaci�on es aplicable a todos los pixeles deI1 exceptuando aquellos cuyos pixeles correspondientes no aparezcan en I2, por ejemplo,por estar ocultos.

Page 108: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

84 Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��aI

1I

2Figura 4.3: C�alculo de la correlaci�on: integraci�on sobre la super�cie.I

1I

2TFigura 4.4: C�alculo de la correlaci�on: interpolaci�on entre los valores de los pixeles.4.4 Escenas con super�cies planas fronto-paralelas4.4.1 Restricci�on de profundidad constante dentro de una regi�onBajo esta restricci�on, la profundidad de cada regi�on, Z(R), se puede representar medianteun escalar. Por tanto, la regi�on correspondiente a una regi�on cualquiera R es:R0 = g12(R;Z(R)) = fm0 = f12(m; z);8m 2 R; z = Z(R) 2 Rg (4.15)Por ejemplo, si se asume un sistema de geometr��a paralela donde solamente se ha des-plazado una c�amara respecto de la otra en el eje Xc, el contorno de R0 es exactamentede la misma forma y tama~no que el contorno de R, y por tanto para hallar R0 solo ser��anecesario calcular el desplazamiento respecto de R, es decir, la disparidad.En de�nitiva, el mapa de profundidades se puede representar en un vector dondecada valor determina la profundidad de cada regi�on de I1.

Page 109: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��a 854.4.2 C�alculo de la derivada de la funci�on de energ��aDe las ecuaciones 4.7 y 4.13 obtenemos que para cada regi�on R hemos de encontrar Z(R)tal que Fz(R;Z(R)) = @@z 8<:� 1N X8mi2R I1(mi)I2(m0i)9=; = 0 (4.16)Debido a que R es independiente de la variaci�on de z = Z(R), la intensidad decada pixel de R, mi, la intensidad media de R, su desviaci�on t��pica, y por consiguiente,I1(mi), son constantes respecto a z, y por tantoFz(R;Z(R)) = � 1N X8mi2R I1(mi) @@z �I2(m0i) = 0 (4.17)La regi�on correspondiente, R0, s�� que var��a respecto a z, y en concreto, todos lospixeles de R0, m0i. En consecuencia, var��a tambi�en la intensidad de los m0i, su media ysu desviaci�on t��pica. El c�alculo desarrollado paso a paso de las derivadas parciales deestas funciones respecto a z se detalla en el ap�endice 4.A con el �n de no romper lacontinuidad de la exposici�on del m�etodo.Finalmente, se obtiene (ecuaci�on 4.63)Fz(R;Z(R)) = 1N Xmi2R I1 (mi)�I2 �m0i�H �R0�� I 02(m0i)@m0i@z � = 0 (4.18)donde a la funci�on H(R0) la llamaremos el gradiente medio ponderado de la regi�on R0(ecuaci�on 4.61) y es H(R0) = 1N Xm0i2R0 I2(m0i)I 02(m0i)@m0i@z (4.19)En ambas ecuaciones aparece la expresi�on I 02(m0i)@m0i@z , que indica la primera derivadade la intensidad (gradiente de intensidad) en la direcci�on de la l��nea epipolar.4.4.3 An�alisis de la derivada de la funci�on de energ��aPara analizar el signi�cado de la ecuaci�on 4.18, vamos a desarrollar la ecuaci�on comosigue, 1N Xmi2R I1 (mi)I2 �m0i�H �R0�� 1N Xmi2R I1 (mi) I 02(m0i)@m0i@z = 0 (4.20)

Page 110: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

86 Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��aEl primer t�ermino de la ecuaci�on es proporcional al ��ndice de correlaci�on (ecuaci�on4.7), mientras que el segundo t�ermino es muy similar a la de�nici�on de H.Vamos a de�nir una funci�on similar a H, que relacione intensidades en la imagen dereferencia con gradientes direccionales en la otra imagen, es decir,H12(R;R0) = 1N Xmi=1I1(mi)I 02(m0i)@m0i@z (4.21)Podemos reescribir la ecuaci�on 4.18 comoC �R;R0�H �R0��H12 �R;R0� = 0 (4.22)Tanto H como H12 dependen del gradiente de intensidad de todos los pixeles dela regi�on en la direcci�on de la l��nea epipolar, y pueden considerarse medidas similares.Ambas realizan una comparaci�on entre la intensidad normalizada de media cero y elgradiente direccional de intensidad, para todos los pixeles de la regi�on. La diferenciaestriba en que H compara intensidad y gradiente en R0, mientras que H12 comparaintensidad en R con gradiente en R0.La correlaci�on entre las intensidades de ambas regiones, C, var��a en el rango [�1; 1].Si R0 es la region correspondiente a R, en condiciones ideales, C = 1 y H = H12, demodo que CH�H12 = 0 y la profundidad no debe incrementarse ni decrementarse: elalgoritmo iterativo se detiene cuando se alcanza la profundidad soluci�on. En otro caso,CH � H12 6= 0 nos proporciona una medida de c�omo debe modi�carse la profundidadpara acercarse hacia la soluci�on. Si CH�H12 > 0 hay que decrementar Z, mientras quesi CH�H12 < 0 hay que incrementarla. Es decir, la soluci�on est�a en el paso por cerode CH�H12.Caso particular de geometr��a paralelaEn el caso de geometr��a paralela y bajo la suposici�on de super�cies fronto-paralelas, laprofundidad es constante en toda la regi�on y por tanto podemos extraer @m0i@z como factorcom�un, de modo que podr��amos reescribir la ecuaci�on 4.18 comoFz = ��0ubz2 �CH0 �H012� = 0 (4.23)dondeH0 yH012 son similares aH yH12 con la correspondiente modi�caci�on. El gradientede intensidad se calcula en este caso en la direcci�on u (que es la direcci�on de las l��neasepipolares).Si el incremento de la profundidad se calcula proporcional respecto a Fz,Zt+1 = Zt ��tFz (4.24)

Page 111: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��a 87se puede observar que cuanto mayor es z = Z(R), menor es el incremento del gradiente,mientras que cuanto menor es z, mayor es el incremento. Este comportamiento no esdeseable, debido al hecho de que el desplazamiento de un objeto de una imagen a otra(disparidad) es mayor cuanto m�as cerca est�a, y viceversa. Por tanto, lo m�as razonableser��a realizar incrementos m�as peque~nos de Z cuanto m�as cerca se encuentre el objeto.Por otro lado, hay que evitar que �Z produzca desplazamientos de m0i mayores que1 pixel, para evitar que la regi�on correspondiente, R0, se desplace mucho de una ite-raci�on a otra, ya que esto podr��a hacer que se sobrepase el paso por cero y se alcanceun paso por cero diferente. Dada la profundidad m��nima de los objetos de la escena,podr��amos calcular un factor �t de modo que el mayor valor de jFzj posible produzcaun incremento de 1 pixel como m�aximo. Sin embargo, esto prodr��a producir desplaza-mientos muy peque~nos cuando Z es grande, de modo que la convergencia en las regionescorrespondientes a objetos lejanos de la escena ser��a muy lenta.Debido a que la informaci�on de que partimos son las im�agenes, proponemos calcularlos incrementos de profundidad a partir del incremento de disparidad deseado. Es decir,obtener la magnitud de �Z a partir de un incremento de disparidad predeterminado, yla direcci�on del incremento (el signo de �Z) a partir de Fz. Por tanto, el factor @m0i@z sepuede simpli�car ya que la magnitud de Fz no determina la magnitud de �Z.Aunque en el caso de geometr��a no paralela no se puede sacar @m0i@z como factor com�un,ni tampoco simpli�carlo, s�� que se puede extender el resto del razonamiento en cuantoa la conveniencia de �jar el incremento de profundidad en funci�on del incremento dedisparidad deseado.4.4.4 El algoritmo de correspondenciaEl objetivo es calcular un incremento o decremento peque~no en la profundidad en cadapaso del algoritmo iterativo para acercar Z suavemente hacia la soluci�on. Para evitarobtener un m��nimo local en vez de la soluci�on global se aplica el algoritmo en un es-quema multiescala. El conjunto de los niveles de la escala para cada imagen forma unaestructura piramidal de modo que el nivel de menor resoluci�on est�a formado por unn�umero muy peque~no de pixeles (por ejemplo, 2� 2, 3� 5, etc, dependiendo del tama~noinicial de la imagen). El algoritmo converge a una soluci�on en cada nivel, que se utilizapara inicializar el siguiente nivel. De este modo, la soluci�on se gu��a desde los niveles demenor resoluci�on hacia un m��nimo global, que se va re�nando a medida que aumenta laresoluci�on.El algoritmo general multiescala se muestra en la �gura 4.5, donde se puede observarque hay tres operaciones principales:� Inicializar las profundidades del nivel de menor resoluci�on, que consiste en asignarun mismo valor de profundidad a todas las regiones de ese nivel.

Page 112: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

88 Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��a

Nivel 0

Nivel 1

Nivel 2

Nivel 3

(a) Estructura piramidal

Z init

Zk

Zk

¿ k = 0 ?Inicializarsiguiente nivel

k = k-1

Zsi

no

nivelk

CORRESPONDENCIA

Inicializarnivel menorresolucion’

(b) Algoritmo multinivelFigura 4.5: Esquema multiescala: algoritmo general.� Inicializar las profundidades de los dem�as niveles de resoluci�on, a partir de lasprofundidades del nivel anterior resultantes de la correspondencia. Por ejemplo, sepuede crear el mapa de disparidades del nivel k, escalarlo al siguiente nivel k � 1,y calcular la profundidad de cada regi�on haciendo una media de las profundidadesde cada pixel de la regi�on.� Establecer la correspondencia en cada nivel k, dada una inicializaci�on de Z y darcomo resultado la Z que minimice la funci�on de energ��a. Este proceso, que consisteen incrementar/decrementar la profundidad iterativamente hasta alcanzar un pasopor cero en Fz, se detalla en el algoritmo 4.1.Como ya se ha comentado, una cuesti�on importante del algoritmo es la cantidaddel incremento/decremento de profundidad, �Z. Por un lado, hay que evitar que �Zproduzca desplazamientos de m0i mayores que 1 pixel, para evitar que la regi�on co-rrespondiente, R0, se desplace mucho de una iteraci�on a otra ya que esto podr��a hacerque se sobrepase el paso por cero y se alcance un paso por cero diferente. Como cadam0i = (u0; v0) se calcula a partir de mi = (u; v) y la profundidad actual estimada, Zt,calculamos la nueva profundidad, Zt+1, a partir del incremento �u0 o �v0 deseado. Enlos algoritmos utilizaremos �d para representar este incremento de manera general.Cuando CH�H12 > 0 la profundidad debe decrementarse y viceversa. Si Z se hadecrementado iterativamente para hacer decrecer CH�H12 hacia 0 y obtenemos un valornegativo, el �ultimo decremento debe deshacerse y repetirlo con un �d m�as peque~no, paraobtener mayor precisi�on en la soluci�on. La idea es utilizar incrementos �jos de �d hastaacercarse al paso por cero, y a continuaci�on utilizar decrementos m�as peque~nos hastaque se obtiene la soluci�on con la precisi�on requerida. Por lo tanto, el algoritmo tiene dosetapas, que a partir de ahora llamaremos de acercamiento, y de re�namiento.

Page 113: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��a 89En el algoritmo 4.1, los nuevos incrementos de profundidad son calculados mediantela funci�on IncZ a partir del �d actual, que tambi�en controla que no se sobrepasen losl��mites de la profundidad, Zmin y Zmax. El algoritmo se detiene cuando ocurre algunade estas condiciones:� Fz = 0, que es la condici�on principal.� Z converge a un valor, es decir, despu�es de incrementar Z, su valor no ha cambiado.Esto quiere decir que se est�a intentando incrementar Z m�as all�a del valor m�aximo,o por debajo del valor m��nimo. Este es un caso que puede ocurrir, sobre todo enlos niveles altos de la estructura multiescala.� Durante la etapa de re�namiento, j�dj se ha reducido sucesivamente, pero no seobtiene Fz = 0. Esto quiere decir que se est�a muy cerca del paso por cero, peroes muy dif��cil obtenerlo con total precisi�on. En lugar de ponerle un l��mite en laprecisi�on a Fz, se lo ponemos a �d, y lo llamaremos �d�, de modo que cuandoj�dj < �d� se calcula una aproximaci�on a la soluci�on mediante interpolaci�on entrelas profundidades a ambos lados del paso por cero.Incremento de profundidadEn el ap�endice 4.B se desarrolla la relaci�on entre los incrementos de disparidad y los in-crementos de profundidad. Dado un incremento de profundidad, �Z, en el caso general,el incremento de u0 que se produce (para v0 es an�alogo) es:�u0 = �0u (at0z � bt0x)�Z(bZ + t0z) (a(Z +�Z) + t0z) (4.25)donde a = k11u+ k12v+ k13, b = k31u+ k32v+ k33 y Z es el valor de profundidad antesde realizar el incremento.Si �jamos �u0, entonces podemos calcular el �Z adecuado para cada caso,�Z = �u0 (bZ + t0z)2�0u (at0z � bt0x)��u0b (bZ + t0z) (4.26)An�alogamente, se podr��a �jar �v0, o seleccionar aqu�el de los dos cuyo incremento seamayor ante una geometr��a dada.La desventaja de calcular �Z bas�andonos en un �u0 pre�jado es que a y b dependendel pixel que se est�e procesando, (u; v), y por tanto, habr��a que determinar un pixel (u; v)de la regi�on sobre el que realizar el c�alculo. Este pixel podr��a ser aqu�el que proporcioneel incremento mayor para asegurarnos de que no se sobrepasa el �u0 �jado, o alg�unpunto signi�cativo, como por ejemplo, el centroide.

Page 114: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

90 Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��aAlgoritmo 4.1 CORRESPONDENCIA1, C�alculo de Z del nivel k, sin detecci�on deoclusiones.Entradas: Zmin; Zmax;�dini;�d�, nivel k de I1 e I2, y Z inicial del nivel k.Salidas: Z �nal del nivel k.Sea R el conjunto de regiones resultante de la segmentaci�on de I1.para cada regi�on R 2 R hacerZ0 Z(R)F 0z C (R;R0)H (R0)�H12 (R;R0), donde R0 = g12(R;Z0)�d sign(F 0z )�dinit 0mientras �F tz 6= 0� y (Z no converge) hacerZt+1 IncZ(Zt;�d, par�ametros de calibraci�on, Zmin; Zmax)si Zt+1 = Zt entoncesZ convergesinoF t+1z C (R;R0)H (R0)�H12 (R;R0) donde R0 = g12(R;Zt+1)si sign(F t+1z ) =sign(F 0z ) entonces f signos iguales ) continuar gt t+ 1sino f signos diferentes ) recalcular Zt+1 gsi j�dj � �d� entonces f re�namiento ) reducir incremento g�d �d=2sino f ultimo re�namiento ) interpolar gZt Interpolar(Zt; F tz ; Zt+1; F t+1z )Z converge�n si�n si�n si�n mientrasZ(R) = Zt�n para

Page 115: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��a 91En el caso particular de la geometr��a paralela, se simpli�ca enormemente esta ope-raci�on, �Z = � �u0Z2�0ut0x +�u0Z (4.27)de modo que el incremento de Z s�olo depende de la profundidad actual, del �u0 quese desea �jar, y de los par�ametros de calibraci�on. �u0 coincide en este caso con elincremento de disparidad.Para evaluar el m�etodo, realizaremos los experimentos sobre pares de im�agenes rec-ti�cadas, de modo que el c�alculo de los incrementos de profundidad sea lo m�as simpleposible. Que las im�agenes est�en recti�cadas no supone una p�erdida de generalidad, comose puede deducir del ap�endice A sobre geometr��a epipolar. Es m�as, en muchos de losm�etodos basados en correlaci�on, la recti�caci�on de las im�agenes es un requisito impres-cindible, mientras que son pocos los m�etodos que son aplicables directamente a cualquiertipo de geometr��a [Super y Klarquist, 1997] [Robert y Deriche, 1996].4.4.5 An�alisis de costeEl algoritmo 4.1 contiene dos bucles anidados:� El bucle exterior, que se ejecuta para cada regi�on del conjunto de regiones de laimagen de referencia, es decir, jRj veces.� El bucle interior, que se ejecuta hasta que se alcanza la convergencia de la profun-didad de la regi�on en curso, y que en el peor de los casos se realiza un n�umero deiteraciones n que calcularemos m�as adelante.La operaci�on m�as costosa de todas las que se realizan es el c�alculo de CH � H12,que requiere el c�alculo de la regi�on correspondiente R0, su media y desviaci�on t��pica, elgradiente de los pixeles de R0 en la direcci�on de la l��nea epipolar, la correlaci�on C y losgradientes medios ponderados H y H12. Todos estos c�alculos son de coste lineal respectoal n�umero de pixeles de la regi�on, N , y por tanto, el coste de la operaci�on es tambi�enlineal, O(N). Esta operaci�on se realiza una vez en cada iteraci�on del bucle interior m�asuna vez en cada iteraci�on del bucle exterior, esto es, jRj(n+ 1) veces.Por tanto, s�olo nos queda averiguar cu�al es el valor de n para obtener el coste com-putacional del algoritmo. Para ello, tenemos que considerar las dos etapas del algoritmo:acercamiento y re�namiento.El caso peor de la etapa de acercamiento, consiste en empezar con Z = Zmax ydecrementar Z sucesivamente hasta obtener Z = Zmin, o viceversa. Esto es equivalentea decir que empezamos con disparidad d = dmin y la incrementamos sucesivamente hastaobtener d = dmax, o viceversa. Como los incrementos de disparidad en esta etapa sonconstantes, d alcanza el valor dmax cuando:d = dmin + n1�dini � dmax

Page 116: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

92 Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��aEl n�umero de iteraciones n1 de la etapa de acercamiento ser��a entonces:n1 = dmax � dmin�dini = jDj�diniEl caso peor de la etapa de re�namiento, consiste en reducir �d sucesivas veces hastaobtener un valor menor que �d�. Suponiendo que la reducci�on sea una divisi�on por dos,el n�umero de divisiones, i, que habr��a que realizar ser��a tal que:�dini2i < �d�Por tanto, i = log2 �dini�d� + 1Hay que contar con el hecho de que cada vez que se realiza la reducci�on, sea �esta dela naturaleza que sea (divisi�on por 2, interpolaci�on, etc.), es porque se ha sobrepasado elpaso por cero y la reducci�on supone un reintento de la iteraci�on previa. Si el reintentoresulta ser un avance v�alido hacia la soluci�on, se pospone la siguiente reducci�on hastala iteraci�on siguiente. Asumiendo que la reducci�on sea una divisi�on por dos, en el peorcaso se realizar��an reducciones y avances sucesivos, esto es, dos iteraciones por reducci�onposible. Por tanto, el n�umero total de iteraciones de la etapa de re�namiento en el peorcaso ser��a n2 = 2i. Es decir: n2 = 2 log2 �dini�d� + 2La suma de las dos etapas proporciona un n�umero de iteraciones en el peor caso den = n1 + n2 = jDj�dini + 2 log2 �dini�d� + 2Por �ultimo queda se~nalar que, sabiendo que la suma de todos los pixeles de todas lasregiones es el total de pixeles de la imagen, la suma para todas las regiones del coste deuna operaci�on lineal respecto al n�umero de pixeles de cada regi�on, es lineal respecto aln�umero de pixeles total de la imagen. Por tanto, podemos decir que, para una imagende referencia de Nu �Nv pixeles, el coste total del algoritmo esO�NuNv � jDj�dini + log2 �dini�d� ��De los dos sumandos, el t�ermino que domina teniendo en cuenta los valores de jDj,�dini y �d� que se suelen dar en la pr�actica es el primero, de modo que el coste en elcaso peor es O�NuNvjDj�dini �

Page 117: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��a 93es decir, que en el caso peor, para cada pixel de la imagen, se explora todo el rango dedisparidades a intervalos de �dini pixeles.Este es el coste computacional del nivel de mayor resoluci�on de la escala (k = 0).Para calcular el coste computacional de cualquier nivel k > 0 de la escala hay que teneren cuenta que el n�umero de pixeles de la imagen se divide por dos tanto en el eje u comoen el eje v, y que el intervalo de disparidades a explorar tambi�en se reduce. Por tanto,para un nivel cualquiera k de la escala el coste esO� 1�dini Nu2k Nv2k jDj2k �Teniendo en cuenta que NXk=0 18k < 1Xk=0 18k = 87si sumamos los costes de todos los niveles obtenemosO�87NuNvjDj�dini �Este coste es comparable con el de los m�etodos basados en �areas, que se puede denotarO(NuNvjDjp), donde p es el n�umero de pixeles de la ventana sobre la que se aplica lacorrelaci�on. Tanto p como 1�dini no suelen ser n�umeros muy grandes. Por ejemploventana de 5� 5 ) p = 25�dini = 0:1 ) 1�dini = 10Cabe resaltar que el coste calculado para el caso peor est�a muy por encima del costereal en los experimentos realizados, gracias al acercamiento paulatino que se realizaen los distintos niveles de la escala hacia la soluci�on. Sin embargo, es dif��cil, si noimposible, de�nir un caso medio del comportamiento del algoritmo, y por lo tanto, s�olopodemos comprobar este funcionamiento a partir del n�umero de iteraciones que ejecutael algoritmo en los experimentos realizados.4.5 Resultados experimentalesSe han realizado experimentos con im�agenes sint�eticas y reales y con distintos tipos desegmentaci�on. Los algoritmos de segmentaci�on utilizados en los experimentos son losmismos que los descritos en la secci�on de resultados experimentales del cap��tulo 3, esdecir, segmentaci�on por uni�on de regiones [Rosenfeld y Kak, 1982] y segmentaci�on poragrupamiento [Badenas et al., 1997].En los primeros experimentos, el principal objetivo es evaluar el funcionamientodel m�etodo, es decir, comprobar si los c�alculos que se realizan para cada regi�on sonsigni�cativos o no. Para ello, se han realizado diversas pruebas acerca de la evoluci�onde Fz en funci�on de Z en los distintos niveles del esquema multiescala.

Page 118: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

94 Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��a4.5.1 Experimentos con im�agenes sint�eticasEn la �gura 4.6, se muestra un par sint�etico de im�agenes del que conocemos su profun-didad verdadera (de 82 a 117 cm.) y la segmentaci�on de la imagen izquierda mediantela t�ecnica de agrupamiento. El mapa de profundidades verdadero y el mapa resultantedel algoritmo propuesto con un rango de profundidades Zmin = 75 y Zmax = 130, semuestran en la �gura 4.7. Las �areas m�as claras corresponden a puntos m�as lejanos,mientras que las m�as oscuras corresponden a puntos m�as cercanos.

(a) Imagen izquierda (b) Imagen derecha (c) Segmentaci�on de laimagen izquierdaFigura 4.6: Par est�ereo de im�agenes sint�eticas pir�amide.Los resultados muestran que se han encontrado todas las profundidades, exceptopara la regi�on del fondo, que debido a estar limitada por los bordes de la imagen y tenerun nivel de gris casi constante, adquiere una profundidad similar a la de la �unica regi�onadyacente a ella. El mapa de profundidades que se obtiene 4.7(b) es bastante similar alesperado 4.7(a) excepto en la regi�on del fondo.Sean R0; R1; :::R5 las regiones que representan los planos del ejemplo pir�amide desdeel m�as cercano al m�as lejano. En la tabla 4.1 se detalla la profundidad verdadera y laobtenida para cada una de estas regiones, as�� como el n�umero de pixels de la regi�on.Exceptuando la regi�on del fondo, el error relativo medio resultante es del 3:78%.Regi�on R0 R1 R2 R3 R4 R5 fondoZ verdadera 82 89 96 103 110 117 -Z obtenida 81.5722 84.7316 90.5292 98.9442 105.386 113.892 116.994# pixels 4662 6977 6050 7634 7627 7622 24964Tabla 4.1: Resultados del ejemplo sint�etico pir�amide, �dini = 0:5, �d� = 0:00001.

Page 119: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��a 95

(a) Profundidad verdade-ra (b) Profundidad obtenida (c) Reconstrucci�on 3DFigura 4.7: Mapas de profundidades del ejemplo pir�amide: Las �areas m�as clarascorresponden a los puntos m�as lejanos.4.5.2 Selecci�on de �diniLa selecci�on del incremento de disparidad que determina cu�al es el incremento de profun-didad en cada paso, tiene que ver con la suposici�on que se ha realizado sobre la escena.Hasta este momento, debido a que la profundidad es constante dentro de las regiones yno se tienen en cuenta las oclusiones, la selecci�on de �dini no es muy cr��tica, siempreque al menos cumpla: 0 < �dini � 1Esto es debido a que la convergencia del algoritmo para cada regi�on de la imagen esindependiente del resto de regiones.En la �gura 4.8 se muestra c�omo var��a Fz (eje de ordenadas) dependiendo de Z (ejede abcisas) para la regi�on R1 del ejemplo. La l��nea vertical indica d�onde se encuentra elpaso por cero. Cada gr�a�ca de esta �gura se ha obtenido con un �d diferente, de modoque puede observarse que cuanto mayor es �d, la aproximaci�on al paso por cero es m�asburda.Sin embargo, el algoritmo 4.1 propuesto permite alcanzar el paso por cero con laprecisi�on que se desee, ya que al detectar que ha sido sobrepasado, se reduce el �dinicial hasta encontrar el paso por cero con la precisi�on requerida. Otra manera derealizar esta aproximaci�on �na es interpolar entre los dos valores de Z a ambos lados delpaso por cero, tantas veces como sea necesario hasta alcanzar la precisi�on requerida, enlugar de dividir �d por un valor pre�jado.La selecci�on de un �dini mayor tiene la ventaja de que el algoritmo converge m�asr�apidamente, ya que realiza menos iteraciones para llegar a los alrededores del pasopor cero. El nivel de precisi�on requerido (representado por �d�) tambi�en in uye en eln�umero total de iteraciones (a mayor precisi�on, m�as iteraciones).

Page 120: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

96 Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��a(a) Nivel 0 de la escala,�d = 1.

-0.1

-0.05

0

0.05

0.1

0.15

0.2

75 80 85 90 95 100 105 110 115 120 125 130

(b) Nivel 0 de la escala,�d = 0:5.-0.1

-0.05

0

0.05

0.1

0.15

0.2

75 80 85 90 95 100 105 110 115 120 125 130

(c) Nivel 0 de la escala,�d = 0:1.-0.1

-0.05

0

0.05

0.1

0.15

0.2

75 80 85 90 95 100 105 110 115 120 125 130Figura 4.8: Evoluci�on de Fz;8Z, de la regi�on R1 del ejemplo pir�amide. La l��neavertical indica el paso por cero.

Page 121: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��a 97Los resultados de la tabla 4.1 han sido obtenidos con �dini = 0:5 y �d� = 0:00001.El n�umero de iteraciones en cada nivel y para cada regi�on con estos par�ametros var��aentre 1 y 30, como se puede observar en la tabla 4.2 (un gui�on signi�ca que esa regi�onno existe en ese nivel). El n�umero de iteraciones medio (sin tener en cuenta los niveles7 y 6, dado que el n�umero de iteraciones es casi nulo) es de 25.N�umero de iteraciones(niveles 7 a 0, respectivamente)�dini = 0:5 �dini = 0:5Regi�on �d� = 0:00001 �d� = 0:001R0 0,0,25,26,28,25,22,25 0,0,15,17,16,14,14,16R1 -,0, 1,26,22,26,24,24 -,0,1,16,12,16,16,14R2 -,0,25,26,27,25,30,23 -,0,17,17,16,16,18,18R3 -,0, 2,24,24,23,25,22 -,0,2,15,15,15,14,14R4 -,-, 0,24,22,25,25,29 -,-,0,13,12,15,16,18R5 -,-,27,29,21,25,21,25 -,-,17,14,14,14,12,14fondo 0,1,25, 3,24,25,28,24 0,1,15,2,15,15,16,15Tabla 4.2: N�umero de iteraciones en el ejemplo sint�etico pir�amide, con�dini = 0:5, �d� = f0:00001; 0:001g.Cabe destacar que, en este ejemplo, la mayor parte de las iteraciones son debidasa la etapa de re�namiento. Generalmente no es necesaria tanta precisi�on, por lo quese puede aumentar �d�, y en consecuencia el n�umero de iteraciones se reducir�a. Porejemplo, con un �d� = 0:001, los resultados obtenidos para este ejemplo son id�enticos,mientras que el n�umero de iteraciones var��a entre 2 y 17, siendo la media 13:52, (vertabla 4.2).En la tabla 4.3 se muestra el n�umero de iteraciones para los casos �dini = f0:1; 0:01gy �d� = 0:001. Las profundidades obtenidas son las mismas que en el ejemplo anterior,debido a que la precisi�on con que se obtienen los resultados es la misma. Se puedeobservar que a medida que se reduce �dini aumenta el n�umero de iteraciones. Sinembargo, con �dini = 0:1 el n�umero de iteraciones medio es 12:26, ligeramente menorque con �dini = 0:5. Esto es debido a que dado un �d� constante, al reducir �d, laetapa de acercamiento es m�as larga, pero la etapa de re�namiento es m�as corta. Eneste ejemplo, en el caso �dini = 0:1, lo uno compensa lo otro, mientras que en el caso�dini = 0:01, el incremento de iteraciones en la etapa de acercamiento es mucho mayorque el decremento de iteraciones en la etapa de re�namiento.En la tabla 4.4 se muestran los resultados con �dini = 0:5 y �d� = 0:1. En este casolas profundidades obtenidas son ligeramente peores (error relativo medio 3.88 %) debidoal aumento en �d�, pero el n�umero de iteraciones se reduce considerablemente, respectoa los casos anteriores.

Page 122: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

98 Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��aN�umero de iteraciones(niveles 7 a 0, respectivamente)�dini = 0:1 �dini = 0:01Regi�on �d� = 0:001 �d� = 0:001R0 0,0,15,13,13,14,15,11 0,0,46,24,14,17,32,15R1 -,0,1,13,10,13,17,11 -,0,1,42,6,35,74,10R2 -,0,14,10,12,16,14,13 -,0,44,14,22,52,29,39R3 -,0,14,12,12,12,13,14 -,0,32,16,13,32,14,22R4 -,-,0,9,10,12,13,15 -,-,0,7,6,16,21,26R5 -,-,12,15,14,12,9,13 -,-,31,34,15,22,7,33fondo 0,1,15,8,15,12,18,11 0,1,46,62,18,10,72,8Tabla 4.3: N�umero de iteraciones en el ejemplo sint�etico pir�amide,�dini = f0:1; 0:01g, �d� = 0:001.Regi�on R0 R1 R2 R3 R4 R5 fondoZ obtenida 81.5707 84.7294 90.524 98.409 105.386 113.882 116.986# iteraciones 0,0,6,5, -,0,1,6, -,0,6,6, -,0,2,2, -,-,0,4, -,-,5,5, 0,1,6,6,(niveles 7 a 0) 5,5,5,5 4,5,6,4 5,7,6,6 5,5,5,5 4,5,5,5 5,5,4,5 5,4,6,4Tabla 4.4: Resultados del ejemplo sint�etico pir�amide, �dini = 0:5, �d� = 0:1.4.5.3 Evaluaci�on del esquema multiescalaEn las gr�a�cas de la �gura 4.9 se puede observar la funci�on Fz de la regi�on R0 delejemplo pir�amide. Obs�ervese que ya en el nivel 4, el paso por cero est�a muy cerca dela soluci�on, y que el paso por cero del nivel 0 est�a muy cerca de la soluci�on verdadera.En realidad, la profundidad obtenida para esta regi�on es la que m�as se parece a suprofundidad verdadera. Esto es debido a que esta regi�on es la m�as cercana y por tantono sufre el problema de las oclusiones.En la �gura 4.10 se muestran las gr�a�cas relativas a la regi�on R3. Como se puedeobservar, hay una diferencia mayor entre el paso por cero y la soluci�on verdadera, indi-cada con la l��nea vertical. Tambi�en se observa que hay desplazamientos similares en lascurvas que describen las funciones Fz de las dem�as regiones (�gura 4.11).En la �gura 4.10 se pueden observar dos pasos por cero en el nivel 0. En este caso,un �dini grande podr��a haber causado la obtenci�on de un paso por cero distinto. Sinembargo, debido a que el paso por cero del nivel 1 se encuentra en la zona positiva delpaso por cero de m�as a la izquierda (el m�as lejano a la soluci�on verdadera), es �este elque se obtiene sea cual sea el �dini que se utilice.Por �ultimo, la �gura 4.12 muestra con detalle la funci�on Fz de la regi�on R2. En estecaso, se puede observar que hay dos pasos por cero tambi�en, pero en este caso el paso

Page 123: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��a 99(a) Niveles 5 a 0 de la escala,�d = 0:2.

-1.2

-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

75 80 85 90 95 100 105 110 115 120 125 130

Nivel 5Nivel 4Nivel 3Nivel 2Nivel 1Nivel 0

(b) Niveles 3 a 0 de la escala,�d = 0:2.-1.2

-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

75 80 85 90 95 100 105 110 115 120 125 130

Nivel 3Nivel 2Nivel 1Nivel 0

(c) Nivel 0 de la escala,�d = 0:2.-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

75 80 85 90 95 100 105 110 115 120 125 130Figura 4.9: Evoluci�on de Fz ;8Z, de la regi�on R0 del ejemplo pir�amide. La l��neavertical indica la profundidad verdadera.

Page 124: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

100 Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��a(a) Niveles 3 a 0 de la escala,�d = 0:2.

-1.2

-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

75 80 85 90 95 100 105 110 115 120 125 130

Nivel 3Nivel 2Nivel 1Nivel 0

(b) Niveles 1 y 0 de la escala,�d = 0:2.-0.5

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

75 80 85 90 95 100 105 110 115 120 125 130

Nivel 1Nivel 0

(c) Nivel 0 de la escala,�d = 0:2.-0.1

-0.05

0

0.05

0.1

0.15

0.2

75 80 85 90 95 100 105 110 115 120 125 130Figura 4.10: Evoluci�on de Fz;8Z, de la regi�on R3 del ejemplo pir�amide. La l��neavertical indica la profundidad verdadera.

Page 125: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��a 101(a) Nivel 0, region R1,�d = 0:1.

-0.1

-0.05

0

0.05

0.1

0.15

0.2

75 80 85 90 95 100 105 110 115 120 125 130

(b) Nivel 0, region R4,�d = 0:1.-0.1

-0.05

0

0.05

0.1

0.15

0.2

75 80 85 90 95 100 105 110 115 120 125 130

(c) Nivel 0, region R5,�d = 0:1.-0.1

-0.05

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

75 80 85 90 95 100 105 110 115 120 125 130Figura 4.11: Evoluci�on de Fz ;8Z, de varias regiones del ejemplo pir�amide. Lal��nea vertical indica la profundidad verdadera.

Page 126: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

102 Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��apor cero del nivel 1 dirige la soluci�on hacia el paso por cero de m�as a la derecha (el m�ascercano a la soluci�on verdadera). N�otese tambi�en, que el paso por cero del nivel 3 seencuentra todav��a bastante lejos de la soluci�on. Sin embargo, el paso por cero del nivel2 se acerca ya lo su�ciente, de modo que llegar desde ah�� al paso por cero del nivel 1 ydel nivel 0 se realiza en muy pocas iteraciones.4.5.4 Otros ejemplos sint�eticosSe han realizado dos tipos de experimentos, respecto al modo en que se calculan lasregiones de los diferentes niveles de escala de la imagen de referencia.� segmentando la imagen de mayor resoluci�on y creando versiones escaladas del re-sultado, y� segmentando todos y cada uno de los niveles de la imagen de referencia.Los experimentos han mostrado que la segunda opci�on proporciona resultados muchomejores que la primera, tal como cab��a esperar, tanto en los experimentos con im�agenessint�eticas como con im�agenes reales. Por tanto, los resultados que se muestran en estecap��tulo corresponden al segundo caso.A continuaci�on se muestran algunos resultados con distintos m�etodos de segmenta-ci�on. En la �gura 4.13, se muestra la imagen que se ha tomado de referencia en el parsint�etico de im�agenes corridor [Froehlinghaus, 1997], segmentado mediante la t�ecnicade agrupamiento [Badenas et al., 1997]. En este ejemplo, la restricci�on de profundidadconstante en las regiones no es aplicable a la escena, puesto que se trata principalmentede planos inclinados y algunas super�cies curvas (esfera y cono).N�otese que las regiones de las paredes y el techo del pasillo son las que peor repre-sentan a las super�cies reales, debido a que la suposici�on de profundidad constante no esaplicable en estos casos. Aunque aparecen discontinuidades en la profundidad en todaslas fronteras de las regiones debido a la restricci�on impuesta, en general las profundida-des cambian poco de una regi�on a la siguiente, salvo en el caso de las discontinuidadesesperadas, como son el cono y la esfera, que claramente destacan respecto a sus regionesvecinas, y algunas regiones grandes que representan planos inclinados, como la regi�oncentral del techo. El nivel 0, que consta de 141 regiones, tarda en ejecutarse 32.86 segun-dos en un Pentium 100MHz con 64 Mbytes de memoria RAM. El n�umero de iteracionesm�aximo en cada nivel es: 0, 0, 3, 14, 17, 23, 30, 25. Para que se pueda apreciar mejor lasprofundidades de los objetos m�as cercanos, se muestra tambi�en el mapa de disparidadesextra��do a partir del mapa de profundidades.En la �gura 4.14, se muestra la misma imagen segmentada mediante la t�ecnica deuni�on de regiones [Rosenfeld y Kak, 1982], y el mapa de profundidades obtenido con�dini = 0:1 y �d� = 0:001. El n�umero de iteraciones medio del nivel 7 al 0, respecti-vamente, es: 0, 2, 1, 1, 5.4, 16.4, 12.8, 13.9. El n�umero de iteraciones m�aximo en cada

Page 127: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��a 103(a) Niveles 5 a 0,�d = 0:1.

-0.6

-0.5

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

75 80 85 90 95 100 105 110 115 120 125 130

Nivel 5Nivel 4Nivel 3Nivel 2Nivel 1Nivel 0

(b) Niveles 3 a 0,�d = 0:1.-0.6

-0.5

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

75 80 85 90 95 100 105 110 115 120 125 130

Nivel 3Nivel 2Nivel 1Nivel 0

(c) Nivel 0,�d = 0:1.-0.05

0

0.05

0.1

0.15

0.2

75 80 85 90 95 100 105 110 115 120 125 130Figura 4.12: Evoluci�on de Fz ;8Z, de la regi�on R2 del ejemplo pir�amide. La l��neavertical indica la profundidad verdadera.

Page 128: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

104 Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��a

(a) Imagen de referencia (b) Segmentaci�on por agrupamiento

(c) Mapa de profundidades (d) Mapa de disparidadesFigura 4.13: Resultados para el par de im�agenes sint�eticas corridor, segmentaci�onmediante la t�ecnica de agrupamiento, �dini = 0:1 y �d� = 0:001.

Page 129: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��a 105nivel es: 0, 2, 1, 1, 8, 24, 36, 37. Para que se pueda apreciar mejor las profundidades delos objetos m�as cercanos, se muestra tambi�en el mapa de disparidades extraido a partirdel mapa de profundidades, y el mapa de disparidades real, para poder comparar con �ellos resultados.Estos resultados, comparados con los obtenidos en el cap��tulo anterior, tienen lassiguientes ventajas:� Las disparidades obtenidas tienen precisi�on subpixel. Esto da lugar a que lasdisparidades var��en m�as suavemente entre regiones vecinas. Por ejemplo, a cadalado del pasillo, las disparidades de la regi�on m�as cercana a la m�as lejana.� Al no considerar la segmentaci�on de la segunda imagen, se evitan los problemasgenerados por las diferencias en la segmentaci�on de las regiones correspondientes.Esto da lugar a que haya menos imprecisi�on en las disparidades (v�ease la diferenciaen la esfera en los mapas de disparidades de las �guras 3.11 y 4.13).� El esquema multiescala, que propaga los resultados de un nivel a otro, permiteobtener la correspondencia de algunas regiones que en ocasiones son dif��ciles deemparejar. Por ejemplo, algunas regiones sin correspondencia (por su escaso ta-ma~no o por las di�cultades en la segmentaci�on) del mapa de disparidades de la�gura 3.9 obtienen una disparidad aceptable en el mapa de disparidades de la�gura 4.14.Estas diferencias tambi�en se pueden apreciar en los experimentos con pares deim�agenes reales, como se muestra a continuaci�on.4.5.5 Experimentos con escenas realesEn la �gura 4.15, se muestran los resultados para un par de im�agenes reales, de tama~no512x480, y cuya segmentaci�on por uni�on de regiones proporciona 267 regiones en el nivelde mayor resoluci�on. Aunque se ha aplicado la restricci�on de profundidad constante enlas regiones, el mapa de profundidades obtenido (�gura 4.15(c)) proporciona resultadossatisfactorios y da una aproximaci�on de la escena tridimensional.Cabe resaltar que el parqu��metro est�a ligeramente m�as cercano que el matorral quehay alrededor suyo y que el matorral de m�as a la izquierda est�a m�as cerca que el par-qu��metro. Aunque hay algunas regiones delgadas verticales que adquieren profundidadeserr�oneas, los resultados nos animan a generalizar el m�etodo a todo tipo de super�ciesplanas.En la �gura 4.15(d) se puede observar la reconstrucci�on tridimensional de la escena,donde se ha a~nadido la textura de las regiones en la imagen. Aunque algunas �areas noobtienen la profundidad esperada (algunas regiones negras y una regi�on blanca, que in-dican la profundidad m��nima y m�axima, respectivamente), el m�etodo obtiene resultados

Page 130: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

106 Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��a

(a) Segmentaci�on por uni�on de regiones (b) Mapa de profundidades obtenido ��������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

(c) Mapa de disparidades real (d) Mapa de disparidades obtenidoFigura 4.14: Resultados para el par de im�agenes sint�eticas corridor, segmentaci�onpor uni�on de regiones, con �dini = 0:1 y �d� = 0:001.

Page 131: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��a 107

(a) Imagen izquierda (512x480) (b) Imagen derecha

(c) Mapa de profundidades (d) Reconstrucci�on 3DFigura 4.15: Resultados para un par de im�agenes reales, parking meter.

Page 132: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

108 Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��asatisfactorios incluso en el caso de las discontinuidades de la profundidad, como se puedeobservar en las fronteras del parqu��metro y del coche.En la �gura 4.16 se muestran otros resultados con im�agenes del Calibrated ImagingLaboratory (CIL)2 de la Universidad Carnegie Mellon (CMU). En el ejemplo cil0002 lasdisparidades del azulejo var��an ligeramente de arriba a abajo, de m�as lejos a m�as cerca.Esta variaci�on es en global de aproximadamente un pixel. Cabe notar que se detectaesta variaci�on a nivel subpixel, como se puede observar tanto en el mapa de disparidadescomo en el mapa de profundidades.4.6 Escenas con super�cies planas4.6.1 Restricci�on de super�cies planasBajo esta restricci�on, la profundidad de cada regi�on R puede ser cualquier plano delespacio 3D (�gura 4.17), que puesto en coordenadas normalizadas de la imagen ser��aau+ bv + cz = d (4.28)de modo que, despejando z obtenemos que �esta depende de tres variables independientes,z = �u+ �v + (4.29)� = �ac (4.30)� = �bc (4.31) = +dc (4.32)La restricci�on de planos fronto-paralelos no es m�as que un caso particular de �esta, dondese ha �jado � = � = 0.Por tanto, la regi�on correspondiente a una regi�on cualquiera R es:R0 = g12(R;Z(R)) = fm0 = f12((u; v); �(R)u + �(R)v + (R));8(u; v) 2 Rg (4.33)donde �(R); �(R); (R) 2 R determinan la ecuaci�on del plano de la super�cie 3D cuyasproyecciones son R y R0.En la �gura 4.17 se muestra un ejemplo del planteamiento que se realiza. En elejemplo, los planos s�olo pueden estar inclinados en el eje X, que es paralelo a u. Portanto, la regi�on correspondiente R0b a una regi�on cualquiera Rb depende no s�olo de laprofundidad a la que se encuentra la regi�on, sino tambi�en a la inclinaci�on del plano.Si consideramos la inclinaci�on en Y el razonamiento es an�alogo, y considerar cualquierorientaci�on del plano Sb ser��a una combinaci�on de ambos.2http://www.cs.cmu.edu/�cil/cil-ster.html

Page 133: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��a 109

Figura 4.16: Resultados para un par de im�agenes reales, cil0001 y cil0002, delconjunto de im�agenes CIL. De arriba a abajo: im�agenes de referencia,mapas de profundidades y mapas de disparidades.

Page 134: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

110 Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��a

R’a

I

O O’

I

R

R

S

S

a

Z = pX + qb

b¿R’?b

a

b

1 2

¿p, q?

Figura 4.17: Planteamiento del problema: super�cies planas.4.6.2 C�alculo de la derivada de la funci�on de energ��aLa principal diferencia con la restricci�on anterior es que ahora tenemos que calculartres funciones �; �; en lugar de una, Z. As�� pues, la ecuaci�on de energ��a a minimizar(ecuaci�on 4.9) se puede reescribir como,E(�; �; ) = Zu Zv F (u; v; �; �; ; @�@u ; @�@v ; @�@u ; @�@v ; @ @u; @ @v ) du dv (4.34)Para obtener las condiciones necesarias de extremo de esta funci�on de energ��a quedepende de m�ultiples funciones de varias variables independientes, se var��a s�olo una delas funciones, dejando las dem�as invariables. Entonces, la funci�on E(�; �; ) se trans-forma en una funci�on que depende s�olo de una funci�on variable, por ejemplo �. Porconsiguiente, la funci�on � que realiza el extremo debe satisfacer la ecuaci�on de Euler[Elsgoltz, 1977], F� � @@ufF�ug � @@v fF�vg = 0 (4.35)donde �u = @�@u ; �v = @�@v . Como este razonamiento es aplicable a cualquier funci�on, seobtiene el sistema de ecuaciones diferenciales de segundo ordenF� � @@ufF�ug � @@v fF�vg = 0F� � @@ufF�ug � @@vfF�vg = 0

Page 135: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��a 111F � @@ufF ug � @@vfF vg = 0Sin embargo, la suposici�on de super�cies planas hace que @�@u ; @�@v ; @�@u ; @�@v ; @ @u ; @ @v seanconstantes dentro de la regi�on. Adem�as no imponemos ninguna restricci�on en las fron-teras entre regiones. Por tanto, los t�erminos F�u = F�v = F�u = F�v = F u = F v = 0,y el sistema de ecuaciones resultante es:F� = @F@� = 0 (4.36)F� = @F@� = 0 (4.37)F = @F@ = 0 (4.38)Hay que tener en cuenta que este sistema de ecuaciones se ha obtenido �jando dos delas funciones y variando una en cada caso, de modo que el funcionamiento del algoritmoque resuelva el sistema debe ser an�alogo. Por tanto, los incrementos/decrementos encada una de las funciones se realizar�an en iteraciones diferentes del algoritmo.El desarrollo de estas ecuaciones es an�alogo al realizado en la secci�on 4.4, salvo queen lugar de @m0i@z obtendremos @m0i@� ; @m0i@� y @m0i@ , respectivamente. Por tanto, �estas son las�unicas derivadas que quedan por realizar.Derivadas parciales del punto correspondientePara calcular la derivada parcial del punto correspondiente respecto a �; � y , tenemosen cuenta la ecuaci�on de c�alculo de m0i a partir del pixel de referencia mi (ver ecuaci�onA.33 y su forma desarrollada A.37 y A.38), y la ecuaci�on de z (4.29),@@z �m0i = @@z �u0; v0 = @@z �a1z + b1cz + tz + u00; a2z + b2cz + tz + v00� (4.39)z = �u+ �v + (4.40)por tanto@@� �m0i = �a1utz � b1uc(cz + tz)2 ; a2tz � b2c(cz + tz)2 � = �ua1tz � b1c(cz + tz)2 ; a2tz � b2c(cz + tz)2 � (4.41)An�alogamente @@� �m0i = �va1tz � b1c(cz + tz)2 ; a2tz � b2c(cz + tz)2 � (4.42)@@ �m0i = �a1tz � b1c(cz + tz)2 ; a2tz � b2c(cz + tz)2 � (4.43)

Page 136: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

112 Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��aFinalmente, obtenemos que @m0i@� = u@m0i@ y @m0i@� = v @m0i@ . El valor de @m0i@ indica ladirecci�on de la l��nea epipolar, mientras que @m0i@� ; @m0i@� est�an ponderados por el valor de uy v, respectivamente.De�nici�on de los gradientes medios ponderados respecto a �; � y Para cada derivada parcial necesitamos de�nir una funci�on an�aloga a H, tal que alsustituir los valores de @m0i@� ; @m0i@� queda,H�(R0) = 1N Xm0i2R0 I2(m0i)I 02(m0i)@m0i@� = 1N Xm0i2R0 I2(m0i)uI 02(m0i)@m0i@ (4.44)H�(R0) = 1N Xm0i2R0 I2(m0i)I 02(m0i)@m0i@� = 1N Xm0i2R0 I2(m0i)vI 02(m0i)@m0i@ (4.45)H (R0) = 1N Xm0i2R0 I2(m0i)I 02(m0i)@m0i@ (4.46)Hay que resaltar que los valores de u y v que aparecen en estas ecuaciones se re�eren alpunto mi de la imagen de referencia, mientras que los valores de intensidad se re�erenal punto m0i de la otra imagen.Derivadas parciales de la funci�on de energ��aSiguiendo el mismo razonamiento que en la secci�on 4.4, el sistema de ecuaciones resul-tante es el siguiente:1N Xmi2R I1 (mi)�I2 �m0i�H� �R0�� uI 02(m0i)@m0i@ � = 0 (4.47)1N Xmi2R I1 (mi)�I2 �m0i�H� �R0�� vI 02(m0i)@m0i@ � = 0 (4.48)1N Xmi2R I1 (mi)�I2 �m0i�H �R0�� I 02(m0i)@m0i@ � = 0 (4.49)El algoritmo de correspondencia debe buscar la soluci�on en un espacio tridimensionalformado por �, � y , donde � representa la inclinaci�on del plano en la direcci�on de u,� representa la inclinaci�on del plano en la direcci�on de v, y representa la profundidadglobal del plano. La soluci�on es un paso por (0, 0, 0) de (F�; F� ; F ) en dicho espacio.El algoritmo ha de detenerse cuando F�, F� y F alcanzan el valor 0 a la vez.

Page 137: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��a 1134.7 Discusi�on y conclusionesEn este cap��tulo se ha introducido un m�etodo de b�usqueda de la correspondencia de lasregiones de una imagen de un par estereosc�opico. Este m�etodo se basa en la minimizaci�onde una funci�on de energ��a que consiste en el error de correlaci�on de la intensidad de lospuntos de cada regi�on con la intensidad de los puntos de su regi�on correspondiente. Laregi�on correspondiente se calcula a cada paso, a partir de la profundidad de la regi�onestimada hasta ese momento. Por tanto, correspondencia y reconstrucci�on se realizanen un solo proceso, obteniendo una representaci�on poli�edrica de la escena, que se puedetraducir en un mapa de profundidades denso.Los resultados experimentales permiten validar los diferentes aspectos del m�etododesarrollado, como son el esquema multiescala y el algoritmo de correspondencia paracada nivel. Los resultados obtenidos con escenas reales muestran que la principal ventajade esta metodolog��a respecto a otros m�etodos de correspondencia de regiones consisteen que se evitan los problemas generados por las diferencias en la segmentaci�on de lasregiones correspondientes, y por tanto, las profundidades y disparidades obtenidas paracada regi�on son m�as precisas.El m�etodo se ha desarrollado e implementado bajo la suposici�on de que la escenaest�a formada por planos paralelos al plano imagen, con un coste computacional te�oricosimilar al de las t�ecnicas basadas en �areas. Sin embargo, es posible la generalizaci�on delm�etodo a la suposici�on de que la escena est�a formada por planos de cualquier orientaci�on,mediante una b�usqueda, en un espacio tridimensional, del plano que proporcione un errorm��nimo entre sus dos proyecciones. El desarrollo, implementaci�on y validaci�on de losalgoritmos referentes a este caso es la principal l��nea de trabajo futuro que parte de estatesis doctoral.La t�ecnica propuesta permite una ampliaci�on sencilla al uso de m�as de 2 im�agenes,a~nadiendo a la funci�on de energ��a los sumandos debidos a cada imagen. Otra extensi�oninmediata ser��a la utilizaci�on de pares est�ereo de im�agenes no recti�cados, por ejemplo,calculando los incrementos de Z a partir de un �u0 �jo y un centroide de cada regi�on.Por �ultimo, cabe incluir como trabajo futuro la extensi�on del m�etodo a otros tiposde super�cies como, por ejemplo, super�cies cuadr�aticas.4.A Ap�endice: Derivadas parciales4.A.1 Derivada parcial del punto correspondientePara calcular la derivada parcial del punto correspondiente respecto a z tenemos encuenta la ecuaci�on de c�alculo de m0i a partir del pixel de referencia mi (ver ecuaci�on

Page 138: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

114 Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��aA.33 y su forma desarrollada A.37 y A.38)@@z �m0i = @@z �u0; v0 = @@z �a1z + b1cz + t0z + u00; a2z + b2cz + t0z + v00� (4.50)donde a1 = �0u(k11u + k12v + k13), b1 = �0ut0x, a2 = �0v(k21u + k22v + k23), b2 = �0vt0yy c = k31u + k32v + k33, siendo los coe�cientes kij dependientes de los par�ametros decalibraci�on (ecuaciones A.34-A.36).Por tanto, @@z �m0i = �a1t0z � b1c(cz + t0z)2 ; a2t0z � b2c(cz + t0z)2 � (4.51)donde a1t0z � b1c = �0ut0z �r011�u (u� u0) + r012�v (v � v0) + r013�� �0ut0x �r031�u (u� u0) + r032�v (v � v0) + r033�= �0u h u�u0�u v�v0�v 1 i0B@t0z 264 r011r012r013 375� t0x 264 r031r032r033 3751CAa2t0z � b2c = �0vt0z �r021�u (u� u0) + r022�v (v � v0) + r023�� �0vt0y �r031�u (u� u0) + r032�v (v � v0) + r033�= �0v h u�u0�u v�v0�v 1 i0B@t0z 264 r021r022r023 375� t0y 264 r031r032r033 3751CAPor tanto @@z fm0ig es un vector ( @@z fu0g ; @@z fv0g) cuyas coordenadas dependen delpixel de referencia (u; v), su profundidad, z, y los par�ametros de calibraci�on. En elcaso particular de geometr��a paralela, donde s�olo hay una traslaci�on t0x = b en el eje deabscisas, a1t0z � b1c = ��0uba2t0z � b2c = 0cz + t0z = zde modo que @@z �m0i = ���0ubz2 ; 0� (4.52)El signi�cado de estas ecuaciones es el siguiente: el diferencial de u0 y v0 que seproduce cuando se modi�ca z es tal que m0 = (u0; v0) se mueve a lo largo de la l��nea

Page 139: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��a 115epipolar de m, l0m. En el caso de geometr��a paralela, s�olo se modi�ca u0 porque las l��neasepipolares son paralelas al eje de abscisas y por tanto el incremento en v0 es 0.El valor de z al cuadrado en el denominador indica que un mismo incremento �zproduce un incremento en m0, �m0, que es mayor cuanto menor es z. Es decir, cuantom�as cerca est�a un objeto de la c�amara, un �z �jo produce un �m0 mayor en la segundaimagen.4.A.2 Derivada parcial de la intensidadLa derivada parcial de la intensidad en un punto m0i es@@z �I2(m0i) = I 02(m0i) @@z �m0i (4.53)Como ya se ha visto, los incrementos en z producen que m0i se traslade a lo largo de lal��nea epipolar correspondiente a mi. Por tanto, esta ecuaci�on signi�ca que la primeraderivada de la intensidad (gradiente de la intensidad) debe calcularse en la direcci�on dela l��nea epipolar que pasa por m0i.4.A.3 Derivada parcial de la intensidad media de la regi�onLa derivada de la intensidad media de una regi�on se calcula a partir de la derivada dela intensidad en cada pixel de la regi�on�2(R0) = 1N Xm0i2R0 I2(m0i)Aplicando la derivada parcial de la intensidad (ecuaci�on 4.53) obtenemos@@z ��2(R0) = 1N Xm0i2R0 @@z �I2(m0i) = 1N Xm0i2R0 I 02(m0i) @@z �m0i (4.54)Finalmente, podemos reescribir esta expresi�on con la siguiente notaci�on, a �n desimpli�car las f�ormulas posteriores@@z ��2(R0) = �02(R0) (4.55)Se podr��a considerar que �02(R0) es la media del gradiente de intensidad en la regi�onR0, de tal modo que el gradiente es calculado en la direcci�on de la l��nea epipolar quecorresponde a cada pixel de la regi�on.

Page 140: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

116 Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��a4.A.4 Derivada parcial de la varianza de la intensidad de la regi�onPara obtener la derivada parcial de la desviaci�on t��pica, comenzamos con la derivadaparcial de la varianza respecto a z.@@z n�22(R0)o = 1N Xm0i2R0 @@z n�I2(m0i)� �2(R0)�2oCon las derivadas de los apartados anteriores (4.53, y 4.55), obtenemos@@z n�22(R0)o = 2N Xm0i2R0 �I2(m0i)� �2(R0)� �I 02(m0i)@m0i@z � �02(R0)�4.A.5 Derivada parcial de la desviaci�on t��pica de la intensidadLa desviaci�on t��pica es la ra��z cuadrada de la varianza,�2(R0) = q�22(R0) (4.56)y por tanto,@@z ��2(R0) = 12q�22(R0) @@z n�22(R0)o = 12�2(R0) @@z n�22(R0)oCon la derivada del apartado anterior obtenemos@@z ��2(R0) = 1N�2(R0) Xm0i2R0 �I2(m0i)� �2(R0)� �I 02(m0i)� �02(R0)� (4.57)Poniendo la desviaci�on t��pica, �2(R0), junto con la diferencia de intensidades, obte-nemos la intensidad normalizada de media cero@@z ��2(R0) = 1N Xm0i2R0 I2(m0i)�I 02(m0i)@m0i@z � �02(R0)�Esta ecuaci�on calcula la suma de intensidades normalizadas de media cero multipli-cadas por sus gradientes direccionales de media cero en los pixeles de R0. Puede dividirseen dos sumatorios@@z ��2(R0) = 1N Xm0i2R0 I2(m0i)I 02(m0i)@m0i@z � 1N Xm0j2R0 I2(m0j)�2(R0)

Page 141: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��a 117N�otese que �2(R0) no depende del pixel m0j del sumatorio, ya que es un c�alculo quese realiza sobre el total de la regi�on. Por tanto, se puede sacar del segundo sumatorio,quedando@@z ��2(R0) = 1N Xm0i2R0 I2(m0i)I 02(m0i)@m0i@z � 1N�2(R0) Xm0j2R0 I2(m0j) (4.58)La suma de todas las intensidades normalizadas de media cero del total de los pixelesde la regi�on es cero por de�nici�on,Xm0j2R0 I2(m0j) = 0 (4.59)de modo que el segundo t�ermino de la ecuaci�on 4.58 es tambi�en nulo. Por tanto, laderivada parcial de la desviaci�on t��pica es@@z ��2(R0) = 1N Xm0i2R0 I2(m0i)I 02(m0i)@m0i@z (4.60)4.A.6 De�nici�on del gradiente medio ponderadoLa ecuaci�on 4.60 es la suma de los productos de las intensidades de los pixeles de laregi�on por sus gradientes en la direcci�on de la l��nea epipolar. Las intensidades est�annormalizadas, de modo que sirven como peso que pondera cada uno de los gradientesdireccionales de los pixeles de la regi�on R0.Llamaremos a este t�ermino el gradiente medio ponderado, y lo denotaremos por H.H(R0) = 1N Xm0i2R0 I2(m0i)I 02(m0i)@m0i@z (4.61)Este t�ermino, que se calcula sobre la regi�on correspondiente R0, proporciona un valor degradiente normalizado por las intensidades relativas de los pixeles de R0.4.A.7 Derivada parcial de la funci�on de energ��aA partir de la de�nici�on anterior y de todas las derivadas parciales calculadas en losapartados previos, podemos obtener la derivada de I2(m0i),@@z �I2 �m0i� = @@z �I2(m0i)� �2(R0)�2(R0) � == @@z fI2(m0i)� �2(R0)g �2(R0)� @@z f�2(R0)g (I2(m0i)� �2(R0))�22(R0) == 1�2(R0) �I 02(m0i)@m0i@z � �02(R0)�H(R0)I2(m0i)�

Page 142: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

118 Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��aSustituyendo esta derivada en la ecuaci�on 4.17 obtenemosFz(R;Z(R)) = 1N�2(R0) Xmi2R I1 (mi)�I2 �m0i�H �R0�� I 02(m0i)@m0i@z + �02(R0)� = 0De nuevo, la de�nici�on de I1 (ver equaci�on 4.59) permite simpli�car esta ecuaci�on.El t�ermino �02(R0) no depende del pixelmi del sumatorio, de modo que puede eliminarsepor la propiedad de I1,Xmi2R I1 (mi)�02(R0) = �02(R0) Xmi2R I1 (mi) = 0por tantoFz(R;Z(R)) = 1N�2(R0) Xmi2R I1 (mi)�I2 �m0i�H �R0�� I 02(m0i)@m0i@z � = 0 (4.62)Finalmente, podemos simpli�car la divisi�on por �2(R0) (tambi�en la divisi�on por N ,pero no lo haremos de momento)1N Xmi2R I1 (mi)�I2 �m0i�H �R0�� I 02(m0i)@m0i@z � = 0 (4.63)donde H(R0) es el gradiente medio ponderado (ecuaci�on 4.61) de la regi�on R0.4.B Ap�endice: Relaci�on entre incrementos de profundidady de disparidadDado un valor de zc = z, y el valor siguiente zc = z + �z, obtenemos los puntoscorrespondientes m01 = (u01; v01) y m02 = (u02; v02) mediante la ecuaci�on A.333 tales queu01 = �0uk11uz + k12vz + k13z + t0xk31uz + k32vz + k33z + t0z + u00 (4.64)u02 = �0uk11u(z +�z) + k12v(z +�z) + k13(z +�z) + t0xk31u(z +�z) + k32v(z +�z) + k33(z +�z) + t0z + u00 (4.65)donde los valores kij dependen de los par�ametros de calibraci�on (ecuaciones A.34-A.35).El incremento de u0 producido por el incremento de z es,u02 � u01 = �0uk11u(z +�z) + k12v(z +�z) + k13(z +�z) + t0xk31u(z +�z) + k32v(z +�z) + k33(z +�z) + t0z ��0uk11uz + k12vz + k13z + t0xk31uz + k32vz + k33z + t0z (4.66)3La versi�on desarrollada para el caso general y para el caso de geometr��a paralela se puede encontraren las ecuaciones A.37 y A.48.

Page 143: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��a 119Llamando a = k11u+ k12v + k13 y c = k31u+ k32v + k33, obtenemos:�u0 = �0uaz + a�z + t0xcz + c�z + t0z � �0uaz + t0xcz + t0z= �0u (at0z � ct0x)�z(cz + t0z)2 + c (cz + t0z)�z (4.67)De esta ecuaci�on podemos despejar �z de modo que se puede calcular a partir de�u0. Fijar �u0 signi�ca que podemos calcular el incremento de z en cada iteraci�on delalgoritmo, de modo que �u0 sea constante,�z = �u0 (cz + t0z)2�0u (at0z � ct0x)��u0c (cz + t0z)Esto nos permitir�a imponer un l��mite a los incrementos, de modo que �u0 no puedaser mayor que un valor dado, por ejemplo, 1 pixel.En el caso particular de la geometr��a paralela, se simpli�ca enormemente esta ope-raci�on, ya que t0z = 0 y c = 1 �z = �u0z2��0ut0x ��u0z : (4.68)de modo que el incremento de z ya s�olo depende de la profundidad actual, del �u0 quese desea �jar (que coincide con el incremento de disparidad �d), y de los par�ametros decalibraci�on.4.C Ap�endice: L��mites de la profundidadSupongamos que el sistema de coordenadas del mundo coincide con el sistema de coorde-nadas de la c�amara de la imagen de referencia, de modo que ambos ejes X coinciden, y laescena se encuentra en el semiespacio de Z positiva. Si suponemos tambi�en que los ejesU y U 0 de ambas c�amaras son paralelos a ellos y en la misma direcci�on, entonces �u > 0.Supongamos que el sistema binocular es paralelo y que adem�as la imagen de referenciaes la imagen izquierda. En este caso, t0x < 0. Por tanto, la disparidad, d = u0 � u, esnegativa4, d = u0 � u = �ut0xZ < 0:N�otese que el incremento en la disparidad coincide con el incremento en u0,�d = d2 � d1 = (u02 � u)� (u01 � u) = u02 � u01 = �u0;4En la literatura a veces se de�ne d = u � u0, o se considera como imagen de referencia la imagenderecha, de modo que la disparidad es positiva.

Page 144: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

120 Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��ay que un incremento positivo en la disparidad supone que se est�a reduciendo su valorabsoluto, esto es: �d > 0! jd+�dj < jdj:Vamos a comprobar la relaci�on entre los incrementos de disparidad (o de u0) y los deprofundidad.Si �jamos �d < 0, de la ecuaci�on 4.68 se extrae que�Z < 0 $ � �d Z2�d Z + �0ut0x < 0$ 1�d Z + �0ut0x < 0$ �d Z + �0ut0x < 0$ �d < ��0ut0xZ :Como ��0ut0x > 0, esta condici�on se cumple siempre, ya que,�d < 0 < ��0ut0xZ :Por tanto, resumimos que, todo incremento negativo de disparidad produce un decre-mento de profundidad, �d < 0 �! �Z < 0Si �jamos �d > 0, de la ecuaci�on 4.68 se extrae que�Z > 0 $ � �d Z2�d Z + �0ut0x > 0$ 1�d Z + �0ut0x < 0$ �d < ��0ut0xZ :En este caso, como ��0ut0x > 0, esta condici�on se puede incumplir cuando�d > ��0ut0xZ > 0:La cuesti�on entonces es saber cu�ando se puede dar este caso. Incluso con �d < 1, puedeocurrir que haya una Z lo su�cientemente grande Z > ��0ut0x tal que1 > �d > ��0ut0xZ > 0;y por tanto, no proporciona un �Z positivo, tal como se desea.N�otese que a medida que Z aumenta, d tiende a 0, y viceversa, a medida que dismi-nuye d, Z tiende al in�nito. La cuesti�on es que cuando Z sea muy grande, el �d que seha �jado puede ser mayor que ��0ut0xZ y podemos obtener una profundidad negativa.Como Z no se puede incrementar hasta el in�nito, una soluci�on pr�actica es imponerel l��mite en el rango de profundidades. Por tanto, cuando �d Z > ��0ut0x, la soluci�onsiempre ser�a el valor m�aximo de profundidad, Zmax.De las ecuaciones anteriores se extrae que dado un �d < 0 se obtiene un �Z < 0,siempre. Sin embargo, dado un �d > 0, s�olo se obtiene �Z > 0 si �d Z > ��0ut0x.De manera an�aloga, se puede comprobar el razonamiento es v�alido tambi�en pa-ra el caso en el que se tome la imagen derecha como imagen de referencia (t0x > 0,d = u0 � u > 0).

Page 145: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��a 1214.C.1 Incremento de profundidadPara obtener Zt+1 a partir de Zt dado un �d cualquiera,si �d Zt > ��0ut0x entoncesZt+1 max �Zt +�Z;Zmin�sinoZt+1 Zmax�n sidonde Zt +�Z puede calcularse directamente,Zt +�Z = Zt + ��d �Zt�2�0ut0x +�d Zt = �0ut0xZt�0ut0x +�d Zttanto si �d es positivo como negativo.

Page 146: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

122 Cap��tulo 4. Correspondencia de regiones basada en minimizaci�on de energ��a

Page 147: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 5Detecci�on de oclusionesEn el cap��tulo anterior se introdujo un nuevo m�etodo de correspondencia de regionesbasado en la minimizaci�on de una funci�on de energ��a, que permite la presencia de dis-continuidades en la profundidad. Tal como se coment�o en la introducci�on, uno de losobjetivos de esta tesis es detectar tambi�en las oclusiones, y es deseable que esta detecci�onsea parte integrante del proceso de correspondencia. Por tanto, aunque la suposici�onsobre la forma de la profundidad en cada regi�on de la imagen es muy restrictiva todav��a,es preciso realizar un estudio de c�omo se puede detectar la presencia de oclusiones eneste m�etodo, antes incluso de considerar otras extensiones posibles del mismo.5.1 Introducci�onLa necesidad de la detecci�on de las oclusiones queda de mani�esto en los resultados ex-perimentales del cap��tulo anterior. En los resultados obtenidos para el ejemplo sint�eticopir�amide, podemos observar que la profundidad m�as parecida a la profundidad verdade-ra es la de la regi�on R0 (v�ease la tabla 4.1). Esto es debido a que el resto de las regionescontienen pixeles que en la otra imagen est�an ocultos. Estos pixeles se est�an empare-jando con pixeles en la otra imagen que no son sus correspondientes, de modo que seintroduce cierto error en la ecuaci�on de c�alculo de Fz y el resultado es un desplazamientodel paso por cero respecto a la soluci�on real. En este cap��tulo vamos a comprobar estain uencia de las oclusiones y vamos a proponer un modo de detectarlas, de modo quese obtengan mejores correspondencias.El m�etodo obtiene la profundidad de las regiones de una imagen para cada nivelde la escala, donde la profundidad de cada regi�on se calcula independientemente. Laconsideraci�on de las oclusiones durante el proceso la correspondencia incluye un factorimportante en el c�alculo de la profundidad de las regiones, ya que un pixel de una regi�onestar�a oculto o no dependiendo de la profundidad de la regi�on o regiones vecinas. Esto123

Page 148: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

124 Cap��tulo 5. Detecci�on de oclusionessigni�ca que la profundidad de unas regiones in uye en el la profundidad de las regionespr�oximas y por tanto, el proceso de c�alculo de la profundidad de cada regi�on ya no esun proceso independiente del de las dem�as regiones.En la secci�on 5.2 se muestra el planteamiento del problema, as�� como la soluci�onque se propone. En la secci�on 5.3 se detalla el nuevo algoritmo de correspondencia queincluye la consideraci�on de las oclusiones. En la secci�on 5.4 se muestran los resultadosexperimentales del algoritmo propuesto. Finalmente, en la secci�on 5.5 se resumen lasconclusiones que se obtienen del trabajo expuesto en las secciones anteriores.5.2 Planteamiento del problemaEn el algoritmo que se ha descrito en el cap��tulo anterior, la profundidad de cada regi�onse calcula independientemente, de modo que las regiones correspondientes intersectanen las �areas de oclusi�on. En esta secci�on vamos a abordar el problema de detectarestas intersecciones entre regiones correspondientes y asignar cada pixel a la regi�on m�asadecuada. Para ilustrar el problema que se plantea, la �gura 5.1 muestra un ejemplodonde dos regiones correspondientes, R0a y R0b, intersectan en un �area com�un.R’

Za Z

?Ra

R

R’a

b b

b

Figura 5.1: Planteamiento del problema de la detecci�on de oclusiones.Por la restricci�on de unicidad, los pixeles del �area de intersecci�on s�olo pueden corres-ponderse con una de las dos regiones, mientras que la otra regi�on tendr�a una zona sincorrespondencia. La informaci�on de profundidad de que disponemos en todo momento,es decir, Za y Zb, nos puede ayudar a decidir cu�al de las dos regiones contiene un �areasin correspondencia.El algoritmo que se propone en esta secci�on consiste en establecer la correspondenciade estas �areas con la regi�on m�as cercana (Z menor), e indicar que los pixeles correspon-dientes de las otras regiones est�an ocultos en la segunda imagen.El algoritmo de correspondencia que adem�as detecte las oclusiones deber�a tener encuenta las siguientes caracter��sticas:� Cuando dos regiones tienen correspondencias cuya intersecci�on no es vac��a, el �areade intersecci�on corresponde a la regi�on m�as cercana, mientras que los pixeles de la

Page 149: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 5. Detecci�on de oclusiones 125regi�on m�as lejana no tienen correspondencia, porque el �area correspondiente est�aoculta.� Aunque no es habitual, puede haber m�as de dos regiones cuyas regiones correspon-dientes intersecten en un mismo pixel1 de I2. A menudo las regiones que ocultana otras son adyacentes a ellas, pero no es as�� necesariamente. Por lo tanto, noimpondremos ninguna restricci�on en estos dos sentidos.� La comparaci�on entre regiones no deber��a tener en cuenta los pixeles de R quese corresponden con pixeles ocultos en R0. A estos pixeles los marcaremos con laetiqueta oculto.� La comparaci�on entre regiones no deber��a tener en cuenta los pixeles de R que secorrespondan con puntos fuera de los l��mites de I2. A estos pixeles los marcaremoscon la etiqueta fuera-de-l��mites.� Los pixeles etiquetados como ocultos y fuera-de-l��mites pueden variar de una ite-raci�on a otra.Para poder manejar todos los casos, de�nimos un estado del pixel tal que en cadaiteraci�on del algoritmo todos los pixeles de la imagen de referencia se marcan comoactivo, oculto o fuera-de-l��mites. Solamente los pixeles activos ser�an considerados en losc�alculos estad��sticos de la regi�on (intensidades normalizadas de media cero, gradientemedio ponderado, etc.) y por tanto, en el c�alculo de los incrementos/decrementos deprofundidad.Por lo tanto, el nuevo algoritmo de correspondencia ya no puede calcular las profun-didades de las regiones independientemente, puesto que las profundidades de las regionesdependen de las posibles oclusiones que puedan ejercer sobre ellas las regiones vecinas.Las posibles oclusiones dependen a su vez de las profundidades estimadas, y por lotanto, el algoritmo que detecte correspondencias y oclusiones ha de ser un algoritmocooperativo que modi�que las profundidades lentamente para converger al conjunto deprofundidades y oclusiones de m��nima energ��a.5.3 Algoritmo de correspondenciaEl objetivo del algoritmo sigue siendo buscar el paso por cero de la funci�on Fz paracada regi�on R de la imagen I1, de modo que se detenga cuando Fz(R) = 0;8R � I1.El esquema multiescala se mantiene igual, pero el algoritmo de correspondencia de cadanivel ha de tener en cuenta las oclusiones para mejorar en lo posible la correspondencia.Este algoritmo se podr��a dividir en dos pasos principales, como se muestra en la �gura 5.2:1Por ejemplo, podemos pensar en una escena con tres columnas en l��nea a distintas distancias, dosde las cuales se ocultan tras la columna m�as cercana en una de las im�agenes.

Page 150: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

126 Cap��tulo 5. Detecci�on de oclusiones� Transformar la segunda imagen en una r�eplica T de la imagen de referencia, dadauna profundidad Z.� Incrementar (o decrementar) Z a partir de la comparaci�on de las im�agenes I1 y T .I2

I1

������

������

������

������

������

������

������

������

������

������

������

������

R Z

T S

INCREMENTAR

TRANSFORMAR

Figura 5.2: Proceso de correspondencia en cada nivel.Los pixeles de I1 cuyo pixel correspondiente est�a oculto en I2, introducen impreci-siones en el c�alculo del error de similitud entre regiones. Por tanto, los pixeles de unaregi�on que hayan sido marcados como ocultos, no se tienen en cuenta en los c�alculos,para mejorar los resultados. Debido a esto, la posici�on del paso por cero puede variarligeramente de una iteraci�on a otra.Mediante este procedimiento, la profundidad de una regi�on s�� que in uye en lasprofundidades de otras regiones, a trav�es de las oclusiones. Por tanto, todas las profun-didades deben calcularse al mismo tiempo, en lugar de secuencialmente, y deben incre-mentarse o decrementarse muy poco en cada iteraci�on para que el algoritmo converja auna soluci�on global. El proceso, que se detalla en el algoritmo 5.1, se detendr�a cuandoninguna profundidad sea incrementada o decrementada, es decir, cuando Z converja.Sea S el mapa de estados de los pixeles de la imagen de referencia. El estado puedecalcularse mientras se transforma la imagen I2 en T de acuerdo con la profundidad actual.El m�etodo para reconocer los pixeles cuyos puntos correspondientes est�an ocultos dadoun mapa de profundidades se lleva a cabo manteniendo una tabla de pixeles visitados.El pixel correspondiente (en I2) de cada pixel de una regi�on se marca como visitadomientras que se realiza la operaci�on transformar. Si un pixel es visitado varias veces,todos los pixeles \visitantes" excepto uno deben marcarse como ocultos.La operaci�on transformar se muestra en el algoritmo 5.2, aunque no se incluyen losdetalles de control de los pixeles visitados, para mayor claridad. En el siguiente apartado

Page 151: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 5. Detecci�on de oclusiones 127Algoritmo 5.1 CORRESPONDENCIA2. C�alculo de Z del nivel k, con detecci�onde oclusiones.Entradas: Zmin; Zmax;�dini;�d�, nivel k de I1 e I2, y Z inicial del nivel k.Salidas: Z �nal del nivel k.Sea R el conjunto de regiones resultante de la segmentaci�on de I1.TRANSFORMAR I2 en T y S, de acuerdo con Zpara cada regi�on Ri 2 R hacerCalcular F 1z (Ri) a partir de I1; T , usando los pixeles de Ri activos en SDeterminar la direcci�on y magnitud de �diZ1i IncZ(Z0;�di; par�ametros de calibraci�on, Zmin; Zmax)�n paramientras Zt no converja hacerTRANSFORMAR I2 en T y S, de acuerdo con ZtZt+1 INCREMENTARt Zt de acuerdo con I1; T; S�n mientrasAlgoritmo 5.2 TRANSFORMAR. Obtener T; S a partir de I2, dada Z.Entradas: nivel k de la pir�amide de I2, Z actual, lista de regiones R.Salidas: r�eplica T , y mapa de estados S.Ordenar la lista de regiones R en orden creciente de Zpara cada regi�on Ri 2 R hacerpara cada pixel m 2 Ri hacerm0 f12 (m;Z(m))S(m) estado de m0si S(m) = ACTIVO entoncesT (m) I2(m0)�n si�n para�n parase detalla el control de los pixeles visitados, as�� como la obtenci�on del estado de los pixeles\visitantes".Por otro lado, la operaci�on incrementar se detalla en el algoritmo 5.3. Esta operaci�onconsiste en recalcular Fz en cada iteraci�on (como se explic�o en la secci�on 4.4), y aplicarlos nuevos incrementos de profundidad mediante la funci�on IncZ, que tambi�en controlaque no se sobrepasen los l��mites de la profundidad, Zmin y Zmax.La operaci�on incrementar adem�as, determina cu�ando converge la profundidad decada regi�on. El algoritmo 5.1 se detiene cuando todas las profundidades convergen a lavez, pero hay dos alternativas para establecer esta convergencia global:� Cuando la Z de una regi�on converge, no se vuelve a procesar.

Page 152: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

128 Cap��tulo 5. Detecci�on de oclusiones

Algoritmo 5.3 INCREMENTAR. Calcular nueva Z dados I1; T; S (iteraci�on t)Entradas: Zmin; Zmax;�d�, niveles k de I1, T y S, y Zt�1i ; Zt�2i ;�dt�1i ;8Ri 2 R.Salidas: Z de la iteraci�on t.para cada regi�on Ri 2 R hacerRecalcular F tz(Ri) a partir de los pixeles activos de Risi F tz(Ri) = 0 entoncesRi convergesino si sign(F tz(Ri)) 6= sign (F t�1z (Ri)) entonces f Etapa de re�namiento gsi �d � �d� entonces�dti �dt�1i =2Zti IncZ(Zt�2i ;�dti; par�ametros de calibraci�on, Zmin; Zmax)si Zti = Zt�2i entoncesRi converge�n sisinoZti Interpolar(Zt�1; F t�1z ; Zt; F tz)Ri converge�n sisino f Etapa de acercamiento g�dti �dt�1iZti IncZ(Zt�1i ;�dti; par�ametros de calibraci�on, Zmin; Zmax)si Zti = Zt�1i entoncesRi converge�n si�n si�n para

Page 153: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 5. Detecci�on de oclusiones 129� Cuando la Z de una regi�on converge, si en alguna de las siguientes iteracionesocurre que Fz(Ri) 6= 0, se vuelve a recalcular �di y Z(Ri), y se continua suprocesamiento.Ambas opciones tienen inconvenientes. Supongamos que una regi�on Ri converge muyr�apido y sus regiones adyacentes tardan m�as iteraciones que ella. Con la primera opci�on,las profundidades obtenidas de sus regiones adyacentes puede producir oclusiones en Rique probablemente no se hayan tenido en cuenta. Para evitar esto se puede reducir �d,pero entonces crece demasiado el n�umero de iteraciones.La segunda opci�on, adem�as de que genera un n�umero de iteraciones mucho mayor,tiene el inconveniente de que se pueden producir ciclos debido a la in uencia de unasregiones sobre otras, y por tanto no se puede asegurar su convergencia. Aunque se hanprobado soluciones a este problema, como es parar cuando el error global2 de Fz seamenor que un valor dado, con resultados bastante satisfactorios en cuanto a la conver-gencia, ser��a preferible poder controlar el nivel de precisi�on en todas las profundidadesde todas las regiones.Por tanto, queremos modi�car el algoritmo de manera que la convergencia se garan-tice y que podamos obtener la soluci�on con la precisi�on que se requiera, de modo que eln�umero de iteraciones no sea demasiado grande.El algoritmo que se propone consiste en repetir el bucle mientras del algoritmo5.1 varias veces, aplicando la primera opci�on de la lista en cada iteraci�on. Por tanto,tenemos dos bucles anidados: el m�as exterior se repite un n�umero determinado de veces,y el m�as interior converge cuando todas las Z de todas las regiones hayan convergido, demodo que cuando la Z de una regi�on converge, ya no se sigue procesando dicha regi�on.Este algoritmo tiene la ventaja de que se pueden aplicar �d� diferentes en cada itera-ci�on del bucle exterior, realizando as�� una aproximaci�on coarse-to-�ne a la convergenciaglobal. En este caso, el bucle exterior debe ejecutarse tantas veces como valores de �dqueramos hasta obtener la soluci�on con la precisi�on requerida, �d�. Nuestra propues-ta es empezar con el �d inicial, y reducirlo en cada iteraci�on hasta llegar a un valormenor que �d� (algoritmo 5.4). De este modo tendremos que la primera iteraci�on esuna etapa de acercamiento, mientras que las dem�as iteraciones son sucesivas etapas dere�namiento.Por tanto, al trasladar el control de la precisi�on al algoritmo principal de correspon-dencia de cada nivel, la operaci�on incrementar se simpli�ca, tal como se muestra en elalgoritmo 5.5.2El error global puede ser calculado como suma de valores absolutos de Fz siempre y cuando el valorde Z de todas las regiones se encuentre en las inmediaciones del paso por cero, es decir, que al menos sehaya iniciado la etapa de re�namiento.

Page 154: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

130 Cap��tulo 5. Detecci�on de oclusionesAlgoritmo 5.4 CORRESPONDENCIA3. C�alculo de Z del nivel k, con detecci�onde oclusiones.Entradas: Zmin; Zmax;�dini;�d�, nivel k de I1 e I2, y Z inicial del nivel k.Salidas: Z �nal del nivel k.Sea R el conjunto de regiones resultante de la segmentaci�on de I1.Sea �d �dinimientras �d � �d� hacerTRANSFORMAR I2 en T y S, de acuerdo con Zpara cada regi�on Ri 2 R hacerCalcular F 1z (Ri) a partir de I1; T , usando los pixeles de Ri activos en SDeterminar la direcci�on y magnitud de �di a partir de �d y F 1z (Ri)Z1i IncZ(Z0;�di; par�ametros de calibraci�on, Zmin; Zmax)�n paramientras Zt no converja hacerTRANSFORMAR I2 en T y S, de acuerdo con ZtZt+1 INCREMENTAR2t Zt de acuerdo con I1; T; S�n mientras�d �d=2�n mientrasAlgoritmo 5.5 INCREMENTAR2. Calcular nueva Z dados I1; T; S (iteraci�on t)Entradas: Zmin; Zmax;�d�, niveles k de I1, T y S, y Zt�1i ; Zt�2i ;�dt�1i ;8Ri 2 R.Salidas: Z de la iteraci�on t.para cada regi�on Ri 2 R hacerRecalcular F tz(Ri) a partir de los pixeles activos de Risi F tz(Ri) = 0 entoncesRi convergesino si sign(F tz(Ri)) 6= sign (F t�1z (Ri)) entonces f Paso por cero alcanzado gZti Interpolar(Zt�1; F t�1z ; Zt; F tz)Ri convergesino f Etapa de acercamiento g�dti �dt�1iZti IncZ(Zt�1i ;�dti; par�ametros de calibraci�on, Zmin; Zmax)si Zti = Zt�1i entoncesRi converge�n si�n si�n para

Page 155: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 5. Detecci�on de oclusiones 1315.3.1 La tabla de pixeles visitadosNecesitamos una tabla de pixeles visitados para controlar si un pixel es visitado variasveces. El pixel \visitante" de Z menor es el que establece la correspondencia (estadoactivo) y el resto de \visitantes" ser�an etiquetados con el estado oculto.Una forma f�acil de resolver este problema sin tener que registrar todos los pixelesvisitantes es ordenar las regiones por orden creciente de Z, de modo que se procesenprimero las regiones m�as cercanas. De este modo, el primer pixel de I1 que marca cadapixel de I2 como visitado establece la correspondencia y consigue un estado activo enS. A continuaci�on, los estados de los pixeles de otras regiones que intenten emparejarsecon el mismo pixel, se marcan como pixeles ocultos en S.Dado que los pixeles correspondientes en I2 se obtienen en coordenadas no enteras,la resoluci�on de la tabla de pixeles visitados in uye en la precisi�on del m�etodo. Laresoluci�on m�as burda es mantener un elemento de la tabla por cada pixel de la imagenI2. La marcaci�on de un pixel como \visitado" se realiza por redondeo de las coordenadasreales de m0 a enteras, e igualmente la obtenci�on del estado de un pixel.La resoluci�on se puede re�nar tanto como se quiera, manteniendo un array de n�melementos por pixel. La marcaci�on como \visitado" y la obtenci�on del estado de un pixelen este caso, se realiza considerando los n�m elementos del array alrededor del elementom�as cercano al punto real. En la �gura 5.3 se muestra un ejemplo de c�omo se marcar��an5� 5 secciones por pixel.��������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

��������������������������������

��������

��������

Figura 5.3: Resoluci�on de la tabla de pixeles visitados.En los experimentos se han probado varios m�etodos para determinar si un pixel est�aoculto o no a partir de la tabla de pixeles visitados, cuando la resoluci�on de la tabla esde n�m secciones por pixel.Condici�on 1: Un pixel se considera oculto si al menos el 50% de las n �m seccioneshan sido visitadas.Condici�on 2: Un pixel se considera oculto si al menos 1 de las n �m secciones hansido visitadas.Los numerosos experimentos realizados mostraron que la segunda condici�on es m�asefectiva y proporciona profundidades m�as cercanas a las reales, mientras que la primera

Page 156: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

132 Cap��tulo 5. Detecci�on de oclusionescondici�on proporcionaba resultados que, aunque con alguna mejor��a, se parec��an m�as alos resultados sin detecci�on de oclusiones.Sin embargo, al t�ermino del proceso de correspondencia, muchos de los pixeles mar-cados como ocultos lo son en un porcentaje muy peque~no y, como tambi�en es deseableobtener un mapa de oclusiones de la imagen, este hecho proporciona muchas falsas oclu-siones. Por tanto, para construir el mapa de oclusiones �nal se puede utilizar la primeracondici�on.5.3.2 An�alisis del costeEmpezaremos por calcular el coste de las dos operaciones principales del algoritmo queson la operaci�on transformar (algoritmo 5.2) y la operaci�on incrementar (algoritmo 5.5).La operaci�on transformar es lineal respecto al n�umero de pixeles de la imagen, esdecir, que dada una imagen de Nu �Nv pixeles, es O(NuNv). La marcaci�on del estadode cada pixel depende, no obstante, del n�umero de secciones por pixel (n �m) que seutilicen en la representaci�on de la tabla de pixeles visitados. Por tanto, el coste total dela operaci�on es, O(NuNvnm).El c�alculo m�as costoso de la operaci�on incrementar es recalcular para cada regi�on suFz a partir de los pixeles activos de la regi�on, que en el peor caso ser�an todo los pixelesde la regi�on. Por tanto, la �unica diferencia de este c�alculo con el c�alculo de Fz que sehac��a en el cap��tulo anterior, es el chequeo del estado de cada pixel, que es O(nm) en elpeor caso. Por tanto, el c�alculo de Fz de una regi�on es O(Nnm), donde N es el n�umerode pixeles de la regi�on.Dado que las regiones forman una partici�on de la imagen de referencia y el c�alculode Fz se realiza en el peor caso para todas las regiones, el coste en el peor caso de losc�alculos del valor de Fz depende de la suma del n�umero de pixeles de todas las regiones(NuNv), y del n�umero de secciones por pixel nm, es decir, O(NuNvnm).Estas dos operaciones son las que se repiten sucesivamente en el algoritmo 5.4 hastaalcanzar la convergencia. El bucle m�as exterior de este algoritmo se repite tantas vecescomo veces se puede reducir �dini hasta alcanzar un valor menor que �d�. Si asumimosque la reducci�on consiste en dividir �dini por dos, el n�umero de iteraciones esn1 = log2 �dini�d� + 1De los dos bucles interiores, el bucle para tiene un coste del mismo orden que laoperaci�on incrementar. El bucle mientras, sin embargo, no se detiene hasta que con-vergen todas las profundidades de todas las regiones. Como el incremento de disparidades id�entico para todas, el bucle tendr�a tantas iteraciones como incrementos necesite la

Page 157: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 5. Detecci�on de oclusiones 133regi�on que m�as tarde en converger. En el caso peor, existir�a alguna regi�on que comienzacon un valor de Z extremo, por ejemplo Z = Zmin (y equivalentemente d = dmax), yllega al otro extremo, Z = Zmax (y d = dmin), a intervalos regulares de j�dj. Es decir,que el n�umero de iteraciones que precisa esa regi�on esn2 = dmax � dminj�dj = jDjj�djEl valor absoluto de �d depende de la iteraci�on i del bucle m�as exterior en que nosencontremos. Es decir, que en cada iteraci�on ij�dj = �dini2idonde i var��a entre 0 y n1, calculado previamente.Por tanto, el n�umero total de veces que se ejecutan las operaciones transformar eincrementar del bucle m�as interior esnT = n1Xi=1(n2 + 1) = n1 + n1Xi=1 jDj2i�diniLa suma de los n primeros t�erminos de una serie geom�etricaa1 + a1r + a1r2 + :::+ a1rn�1 + :::es (a1 � a1rn)=(1 � r) [D��az Hernando, 1991]. Por tanto,nT = n1 + jDj�dini (2n1 � 1)donde 2n1 = 2log2 �dini�d� +1 = 2 2log2 �dini�d� = 2�dini�d�Dados los valores habituales de las variables de que depende nT , el t�ermino dominantees el que tiene 2n1 . Por tanto, despreciando los t�erminos de menor orden, obtenemosnT � 2 jDj�d�Sabiendo que las operaciones transformar e incrementar se repiten nT veces, el costetotal del algoritmo en el caso peor ser��aO�2 jDj�d�NuNvnm�Este es el coste para el nivel de mayor resoluci�on del esquema multiescala. Paracalcular el coste de los dem�as niveles se pueden hacer las mismas consideraciones que sehicieron en el an�alisis del coste en el cap��tulo anterior respecto a jDj, Nu y Nv.

Page 158: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

134 Cap��tulo 5. Detecci�on de oclusionesPor �ultimo, queda se~nalar que para calcular este coste te�orico se est�a considerandoel peor caso que consistir��a que en cada iteraci�on del bucle exterior del algoritmo hayalguna regi�on que recorre todo el intervalo de profundidades de un extremo a otro. Seg�unesto, la iteraci�on m�as costosa del bucle exterior ser��a la �ultima, donde los incrementosson m�as peque~nos. Esto no ocurre as�� en la pr�actica, donde la primera iteraci�on sueleser la m�as costosa (m�as iteraciones del bucle interior) ya que corresponde a la etapade acercamiento, mientras que las dem�as iteraciones suelen ser menos costosas (pocasiteraciones del bucle interior) por tratarse de la etapa de re�namiento. Se podr�a observareste comportamiento del algoritmo en los experimentos que se muestran a continuaci�on.5.4 Resultados experimentales5.4.1 Resultados con im�agenes sint�eticasDe nuevo nos centramos en el ejemplo sint�etico pir�amide, para comparar los resultadosde este nuevo m�etodo con los resultados del algoritmo anterior. En la tabla 5.1 se puedenobservar los resultados obtenidos utilizando distintas resoluciones en la tabla de pixelesvisitados. N�otese que ya en la columna relativa a 1� 1 secciones por pixel en la tabla depixeles visitados, los resultados mejoran en casi todas las regiones respecto al algoritmoque no tiene en cuenta las oclusiones, salvo la regi�on R0 (que por no tener oclusiones yadaba un buen resultado) y las regiones R1 y R2. Gracias a esta mejora el error relativomedio (er) obtenido es del 2.97%. En las columnas de mayor resoluci�on se mejoran losresultados de las regiones R1 y R2 de modo que el error relativo medio disminuye hastael 0.62%. Z Profundidades (Z) y oclusiones (O)Regiones real Sin ocl. 1� 1 3� 1 5� 1Z Z O Z O Z OR0 82 81.5722 81.5722 0 81.5722 0 81.5722 0R1 89 84.7316 84.4689 69 86.4655 0 88.2683 138R2 96 90.5292 86.4655 0 88.2682 242 96.3125 208R3 103 98.9442 103.938 665 103.938 665 103.604 266R4 110 105.386 111.203 324 111.203 324 111.203 324R5 117 113.892 116.579 182 116.579 182 116.579 182fondo 116.994 116.995 0 116.994 0 116.894 0er (%) 3.78 2.97 2.31 0.62Tabla 5.1: Resultados del ejemplo sint�etico pir�amide: comparaci�on del algoritmocon oclusiones con el algoritmo sin oclusiones, �d = 0:5, �d� = 0:001.Z indica profundidad y O indica n�umero de pixeles ocultos.Los resultados con �d = 0:5, �d� = 0:001 y 5� 1 secciones por pixel en la tabla depixeles visitados se muestran en la �gura 5.4. Las disparidades resultantes var��an entre

Page 159: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 5. Detecci�on de oclusiones 13521.9 y 31.4 pixeles. En los mapas de oclusiones se puede observar el estado �nal de lospixeles de la imagen izquierda: activo (blanco), oculto (negro) y fuera-de-l��mites (gris).

(a) Mapa de profundida-des (b) Mapa de disparidades (c) Mapa de oclusionesFigura 5.4: Mapas de profundidades, disparidades y oclusiones del par deim�agenes pir�amide. El mapa de oclusiones indica el estado �nal decada pixel: activo (blanco), oculto (negro) y fuera-de-l��mites (gris).En la �gura 5.5 se pueden comparar las gr�a�cas con y sin oclusiones de una de lasregiones del ejemplo pir�amide. Los pasos por cero est�an m�as cerca de la soluci�on realcuando se incorpora la detecci�on de oclusiones.Dada una regi�on, para poder calcular las gr�a�cas de Fz considerando las oclusiones,hay que asignar profundidades a las otras regiones para poder calcular en cada caso lasoclusiones pertinentes. Para ello, hemos considerado dos casos:� las profundidades de las otras regiones han sido �jadas a su profundidad real, quellamaremos caso ideal.� las profundidades de las otras regiones han sido �jadas a la profundidad obtenidapor el algoritmo, que llamaremos caso real.En las gr�a�cas con detecci�on de oclusiones se puede observar que hay un patr�onrepetitivo m�as marcado, que es debido a la utilizaci�on de redondeo de las coordenadasreales de m0 a enteras en la tabla de pixeles visitados. En la �gura 5.6 se muestra laforma de la funci�on Fz de otras dos regiones en el caso ideal.Los resultados mejoran mucho, cuando se aumenta la resoluci�on de la tabla de pixelesvisitados. Esto es debido principalmente a dos regiones, R1 y R2, que obtienen un pasopor cero diferente de la soluci�on. En las �guras 5.7 y 5.8 se pueden ver las gr�a�casrelativas a la regi�on R2, con y sin detecci�on de oclusiones, y con distintas resoluciones.Como se puede observar, hay m�as de un paso por cero en el nivel 0 de la Fz de laregi�on R2, uno de los cuales se ajusta bastante a la soluci�on real (l��nea vertical). El

Page 160: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

136 Cap��tulo 5. Detecci�on de oclusiones(a) Sin detectar oclusiones,�d = 0:1.

-0.5

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

75 80 85 90 95 100 105 110 115 120 125 130

Nivel 2Nivel 1Nivel 0

(b) Detectando oclusiones,�d = 0:1. Caso ideal.-0.6

-0.5

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

75 80 85 90 95 100 105 110 115 120 125 130

Nivel 2Nivel 1Nivel 0

(c) Detectando oclusiones,�d = 0:1. Caso real.-0.6

-0.5

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

75 80 85 90 95 100 105 110 115 120 125 130

Nivel 2Nivel 1Nivel 0

Figura 5.5: Evoluci�on de Fz ;8Z, de la regi�on R3 del ejemplo pir�amide: Compara-ci�on de resultados con y sin detecci�on de oclusiones (1� 1 secciones).

Page 161: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 5. Detecci�on de oclusiones 137

(a) R4, 1� 1 secciones/pixel,�d = 0:1. Caso ideal.-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

75 80 85 90 95 100 105 110 115 120 125 130

Nivel 2Nivel 1Nivel 0

(b) R5, 1� 1 secciones/pixel,�d = 0:1. Caso ideal.-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

75 80 85 90 95 100 105 110 115 120 125 130

Nivel 2Nivel 1Nivel 0

Figura 5.6: Evoluci�on de Fz;8Z, de las regiones R4 y R5 del ejemplo pir�amidecon detecci�on de oclusiones.

Page 162: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

138 Cap��tulo 5. Detecci�on de oclusiones(a) Sin detectar oclusiones,�d = 0:1.

-0.6

-0.5

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

75 80 85 90 95 100 105 110 115 120 125 130

Nivel 2Nivel 1Nivel 0

(b) Detectando oclusiones,1� 1 secciones/pixel,�d = 0:1. Caso ideal.-0.6

-0.4

-0.2

0

0.2

0.4

0.6

75 80 85 90 95 100 105 110 115 120 125 130

Nivel 2Nivel 1Nivel 0

(c) Detectando oclusiones,3� 1 secciones/pixel,�d = 0:1. Caso ideal.-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

75 80 85 90 95 100 105 110 115 120 125 130

Nivel 2Nivel 1Nivel 0

Figura 5.7: Evoluci�on de Fz ;8Z, de la regi�on R2 del ejemplo pir�amide, con y sindetecci�on de oclusiones.

Page 163: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 5. Detecci�on de oclusiones 139problema estriba en que, con 1 � 1 secciones por pixel, el paso por cero en el nivel 1dirige la soluci�on hacia el paso por 0 de m�as a la izquierda. Sin embargo, a medida quese aumenta la resoluci�on en la tabla de pixeles visitados, el paso por cero del nivel 1 semueve ligeramente hacia la derecha.En cuanto a la convergencia del algoritmo se puede apreciar un aumento considerablede iteraciones con respecto al algoritmo sin oclusiones, como ya se esperaba. En la tabla5.2 se muestra el n�umero de iteraciones de cada nivel para los casos �d = f0:5; 0:1g.Cada valor representa el n�umero total de iteraciones del bucle m�as interior. Por ejemplo,en el nivel 7 del caso �d = 0:5 hay 9 iteraciones del bucle exterior y 1 iteraci�on del bucleinterior en cada una, lo que suma un m��nimo de 9 iteraciones por nivel.Aunque el n�umero de iteraciones total es similar en todos los casos, se puede apreciarque con �d = 0:5 hay menos iteraciones en el nivel 0, por lo que el tiempo de ejecuci�ontotal es menor. N�umero de iteraciones (�d� = 0:001)(niveles 7 a 0, respectivamente)secciones/pixel �d = 0:5 �d = 0:11� 1 9, 10, 19, 34, 18, 18, 19, 24 7, 8, 17, 38, 15, 18, 24, 333� 1 9, 10, 19, 34, 26, 18, 20, 25 7, 8, 17, 39, 15, 20, 25, 335� 1 9, 10, 18, 33, 18, 19, 19, 22 7, 8, 17, 39, 15, 19, 24, 32Tabla 5.2: N�umero de iteraciones en el ejemplo sint�etico pir�amide con detecci�onde oclusiones, �d = f0:5; 0:1g, �d� = 0:001.La tabla 5.3 muestra los tiempos relativos de ejecuci�on de todos los casos mostradosen la tabla 5.2. Debido a que la implementaci�on del m�etodo no se ha dirigido hacia unaimplementaci�on e�ciente, sino hacia una evaluaci�on de la validez del mismo, los valoresque se muestran en la tabla se han calculado dividiendo todos los tiempos por el m�aspeque~no. Tiempos relativos (�d� = 0:001)secciones/pixel �d = 0:5 �d = 0:11� 1 1.000756 1.19345873� 1 1.03206 1.21323775� 1 1 1.1878999Tabla 5.3: Tiempos relativos del ejemplo pir�amide con detecci�on de oclusiones, ypar�ametros �d = f0:5; 0:1g, �d� = 0:001.Los resultados para el ejemplo corridor son muy similares a los obtenidos sin detecci�onde oclusiones, como se puede observar en la �gura 5.9. El mapa de disparidades condetecci�on de oclusiones ha sido obtenido con �d = 0:5, �d� = 0:001 y 11 � 1 secciones

Page 164: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

140 Cap��tulo 5. Detecci�on de oclusiones(a) Detectando oclusiones,5� 1 secciones/pixel,�d = 0:1. Caso ideal.

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

75 80 85 90 95 100 105 110 115 120 125 130

Nivel 2Nivel 1Nivel 0

(b) Detectando oclusiones,9� 1 secciones/pixel,�d = 0:1. Caso ideal.-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

75 80 85 90 95 100 105 110 115 120 125 130

Nivel 2Nivel 1Nivel 0

(c) Detectando oclusiones,15� 1 secciones/pixel,�d = 0:1. Caso ideal.-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

75 80 85 90 95 100 105 110 115 120 125 130

Nivel 2Nivel 1Nivel 0

Figura 5.8: Evoluci�on de Fz ;8Z, de la regi�on R2 del ejemplo pir�amide, con detec-ci�on de oclusiones.

Page 165: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 5. Detecci�on de oclusiones 141por pixel. Cabe destacar la mejora de la profundidad de la regi�on alrededor del v�erticedel cono, gracias a la detecci�on de la oclusi�on que ejerce el cono sobre ella.

(a) Sin detecci�on de oclusiones (b) Con detecci�on de oclusionesFigura 5.9: Mapas de disparidades del ejemplo corridor, con y sin detecci�on deoclusiones.Aunque el n�umero total de iteraciones es elevado (9, 9, 10, 21, 269, 69, 63, 34) lamayor parte de las iteraciones se realizan en los niveles intermedios (nivel 3), de modoque en los niveles de mayor resoluci�on (nivel 0), que son los m�as costosos, se realiza unn�umero de iteraciones menor. El rango de disparidades obtenido es [1:28; 7:11111] y eltiempo de ejecuci�on es de 1.5234309, seg�un las unidades empleadas en la tabla 5.3.5.4.2 Resultados con im�agenes realesLa �gura 5.10 muestra los resultados del par de im�agenes parking meter, del conjunto depruebas JISCT [Bolles et al., 1993], obtenidos con �d = 0:5 y �d� = 0:001. Las dispari-dades resultantes var��an en el rango [2:56; 14:2222]. En este caso, s�olo se han considerado5 niveles, desde 32� 30 hasta 512� 480 pixeles. El n�umero de iteraciones de cada nivelcon estos par�ametros es: 28, 31, 39, 52, 76.Los mapas de profundidades y disparidades se pueden comparar con otros obtenidosen los cap��tulos anteriores. Comparado con el cap��tulo 3 tiene una ventaja importante:las disparidades obtenidas tienen precisi�on subpixel. Esto da lugar a que se puedaobservar claramente la diferencia entre la profundidad del parqu��metro y del seto a laizquierda del mismo.

Page 166: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

142 Cap��tulo 5. Detecci�on de oclusiones

(a) Imagen de referencia (b) Mapa de profundidades

(c) Mapa de disparidades (d) Mapa de oclusionesFigura 5.10: Mapas de profundidades, disparidades y oclusiones del parking me-ter.

Page 167: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 5. Detecci�on de oclusiones 143Comparado con el cap��tulo 4 podemos observar que, aunque sigue habiendo algunoserrores en ciertas regiones de la pared, en general, el resultado obtenido teniendo encuenta la detecci�on de oclusiones es mejor. Por ejemplo, el degradado de la profundidadentre regiones vecinas es m�as suave, los errores de la pared, aunque los hay, son menosnumerosos, etc.En cuanto al mapa de oclusiones, se puede observar que aparecen algunas oclusionesfalsas en el seto y la pared, debido a la suposici�on de planos fronto-paralelos que se haaplicado. Sin embargo, las oclusiones importantes se han obtenido bien, como son lasdel parqu��metro y el coche.La �gura 5.11 muestra algunos resultados con im�agenes del Calibrated Imaging La-boratory (CIL) de la Universidad Carnegie Mellon (CMU). Los par�ametros empleadospara obtener estos resultados se detallan en la tabla 5.4. Los resultados de profundidad,disparidad y oclusiones son similares en los dos casos que se detallan en la tabla, quesolo se diferencian en el rango de profundidades que se proporciona al algoritmo.Para ilustrar el comportamiento convergente del algoritmo en el bucle m�as exteriorpodemos tomar como ejemplo el par de im�agenes cil0001, donde el nivel 0 ejecuta 158iteraciones del bucle m�as interior, repartidas en 7 iteraciones del bucle m�as exteriorcomo sigue: 89, 28, 12, 15, 5, 6, 3. Dado que �d se ha �jado inicialmente a un valor de0.1, 89 iteraciones es un incremento de casi 9 pixeles, las 28 siguientes consisten en unincremento de 2:82 pixeles, las 12 siguientes representan 1:24 pixeles, etc.Im�agenes CIL (512 � 384)Imagen Zmin �d �d� sec./pixel # iteraciones Tiempo rel.cil0001 140 0.1 0.001 3� 1 7, 7, 14, 20, 53, 62, 158 12.7cil0001 160 0.1 0.001 3� 1 7, 7, 14, 20, 42, 52, 133 10.6cil0002 140 0.1 0.001 3� 1 14, 13, 15, 18, 31, 147, 141 12.6cil0002 180 0.1 0.001 3� 1 8, 8, 15, 16, 20, 43, 51 4.98Tabla 5.4: Par�ametros y resultados de correspondencia de los pares deim�agenes CIL.Si comparamos los resultados con los obtenidos en el cap��tulo anterior podemosobservar que son muy similares. Sin embargo, se pueden apreciar algunas peque~nasmejoras debidas a la detecci�on de oclusiones. Por ejemplo, en la torre de m�as a laizquierda del ejemplo cil0001 parcialmente oculta por una casita, cabe notar una mejoraen la profundidad de la regi�on m�as pr�oxima a dicha oclusi�on.Por �ultimo, vamos a ver algunos resultados con im�agenes adquiridas en el laboratoriode Visi�on por Ordenador con una c�amara triest�ereo Triclops. Este dispositivo dispone detres c�amaras dispuestas en L. A continuaci�on se muestran los resultados de dos escenasque podr��an constituir el entorno en el que trabaje un brazo robot o se desplace un robotm�ovil. La correspondencia se ha realizado sobre las im�agenes recti�cadas izquierda yderecha y utilizando la segmentaci�on por uni�on de regiones.

Page 168: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

144 Cap��tulo 5. Detecci�on de oclusiones

Figura 5.11: De izquierda a derecha: cil0001 y cil0002 del conjunto de im�agenesCIL. De arriba a abajo: imagen de referencia, mapa de profundida-des, mapa de disparidades y mapa de oclusiones.

Page 169: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 5. Detecci�on de oclusiones 145En primer lugar, la �gura 5.12 muestra los resultados para el par est�ereo despachodonde se muestran el mapa de profundidades, el mapa de disparidades y el mapa deoclusiones obtenidos por el proceso de correspondencia. En este ejemplo hay pocas�areas en la izquierda que est�en ocultas en la derecha. Entre las oclusiones resultantes,hay algunas correctas (la cajonera oculta un poco al armario) y otras falsas debidas aerrores en la profundidad, como es la oclusi�on que aparece por encima de la cajonera.Esta oclusi�on es debida a la regi�on que corresponde a un eje vertical que aparece conuna profundidad m�as cercana de la esperada. Cabe resaltar que esto es debido a quela regi�on que incluye dicho eje vertical, contin�ua por los bordes de los objetos situadosencima de la cajonera y por el borde del armario, de modo que contiene pixeles de �areasde distinta profundidad.Una posible soluci�on a este problema podr��a ser la aplicaci�on de la restricci�on deconsistencia izquierda-derecha a este m�etodo, que consistiria en realizar no una sino dosveces la correspondencia, tomando cada vez una imagen del par est�ereo como referencia.Esto permitir��a integrar los resultados de ambos procesos, y modi�car la segmentaci�oninicial con el objetivo de evitar este tipo de errores. Esto signi�car��a integrar un re�na-miento de la segmentaci�on en el proceso de correspondencia.En la �gura 5.13 se muestran varias vistas de la reconstrucci�on tridimensional dela escena despacho, donde se puede observar que los resultados son satisfactorios yaque proporcionan una representaci�on poli�edrica de la escena. Debido a la restricci�onimpuesta, la representaci�on del suelo de la escena es de�ciente, ya que se muestra comoun plano vertical. Aunque se podr��a estudiar el tratar el suelo, techo y paredes de unaescena de manera especial, ser��a m�as interesante realizar la generalizaci�on del m�etodoa cualquier tipo de planos, de modo que el proceso de correspondencia por s�� solo seacapaz de reconocer la geometr��a de estos elementos.En la �gura 5.14 se muestran los resultados para el par est�ereo libros, donde sepuede observar que en la imagen izquierda hay zonas de tama~no considerable que est�anocultas en la imagen derecha. Tanto el mapa de profundidades como el de disparidadesmuestran buenos resultados debido a la existencia de menos errores de segmentaci�on queen el ejemplo anterior. El mapa de oclusiones muestra todas las oclusiones importantes.La profundidad de la mesa, sin embargo, es un problema similar al del suelo en el ejemploanterior. En la reconstrucci�on tridimensional de la escena (�gura 5.15) se puede observarque se recupera satisfactoriamente la estructura tridimensional de todos los objetos dela escena, salvo la mesa, que aparece como un plano vertical por detr�as de los libros.5.5 Discusi�on y conclusionesEn este cap��tulo se ha mostrado un algoritmo cooperativo que encuentra las correspon-dencias y las oclusiones al mismo tiempo. Los experimentos con escenas sint�eticas yreales muestran la mejora de los resultados gracias a la detecci�on de las oclusiones. Losexperimentos con escenas reales muestran que el m�etodo obtiene resultados razonables.

Page 170: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

146 Cap��tulo 5. Detecci�on de oclusiones

Figura 5.12: Resultados del par est�ereo despacho. De izquierda a derecha y de arri-ba a abajo: im�agenes izquierda y derecha, segmentaci�on por uni�onde regiones, y mapas de profundidades, disparidades y oclusiones.

Page 171: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 5. Detecci�on de oclusiones 147

Figura 5.13: Cinco vistas en 3D del resultado de la reconstrucci�on de la escenadespacho.

Page 172: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

148 Cap��tulo 5. Detecci�on de oclusiones

Figura 5.14: Resultados del par est�ereo libros. De izquierda a derecha y de arribaa abajo: im�agenes izquierda y derecha, segmentaci�on por uni�on deregiones, y mapas de profundidades, disparidades y oclusiones.

Page 173: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 5. Detecci�on de oclusiones 149

Figura 5.15: Tres vistas en 3D del resultado de la reconstrucci�on de la escenalibros.

Page 174: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

150 Cap��tulo 5. Detecci�on de oclusionesEl m�etodo es aplicable a escenas donde la mayor parte de las super�cies son planas,como son las escenas de interiores, y en las que la falta de textura y la presencia dediscontinuidades en las profundidades y oclusiones son di�cultades importantes. Otrotipo de escenas que encajan dentro de esta categor��a son las escenas urbanas.Las oclusiones forman parte de la informaci�on que se mantiene sobre la escena yayudan a encontrar las correspondencias. La detecci�on de oclusiones en el algoritmocooperativo hace que la correspondencia sea m�as exacta.Un posible trabajo futuro podr��a consistir en mejorar la detecci�on de oclusiones, porejemplo, mediante la de�nici�on de un porcentaje de oclusi�on para cada pixel, de modoque se pueda considerar este porcentaje en los c�alculos estad��sticos.Tambi�en se puede mejorar la e�ciencia en el procesamiento de la tabla de pixelesvisitados, realizando en cada iteraci�on del algoritmo solamente las modi�caciones nece-sarias debidas a aquellas profundidades de las regiones que hayan cambiado respecto ala iteraci�on anterior.

Page 175: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 6Conclusiones y l��neas de trabajofuturoEl objetivo principal de esta tesis ha sido contribuir al estudio y al desarrollo de t�ecnicasque permitan conocer la estructura tridimensional de una escena observada por un siste-ma de c�amaras binocular. Principalmente se ha estudiado el problema de la correspon-dencia, y con el objetivo de desarrollar una t�ecnica de reconstrucci�on que sea aplicable aescenas poco texturadas que son las que generalmente corresponden al entorno de traba-jo de un robot, se ha estudiado la correspondencia basada en regiones. A continuaci�onenumeramos las contribuciones que aporta esta tesis doctoral a este problema, as�� comolos proyectos futuros de investigaci�on a los que ha dado lugar el trabajo realizado.6.1 ConclusionesEn esta tesis se han abordado dos tipos de t�ecnicas: la correspondencia basada en grafos,que ha sido ampliamente estudiada en la literatura, y la correspondencia basada en laminimizaci�on de una funci�on de energ��a.En primer lugar, se han estudiado las t�ecnicas basada en grafos, donde se representantodas las posibles correspondencias y las compatibilidades entre ellas. Se han realizadoaportaciones para la resoluci�on de los problemas generados por las diferencias en lasegmentaci�on de las dos im�agenes del par estereosc�opico. Este trabajo est�a recopiladoen el cap��tulo 3.En segundo lugar, se ha desarrollado una t�ecnica nueva, que obtiene directamenteel mapa de profundidades de la escena. Esta t�ecnica, basada en la minimizaci�on deuna funci�on de energ��a, ha sido evaluada bajo diferentes hip�otesis. Se ha hecho especialincapi�e en la detecci�on de oclusiones y discontinuidades en la profundidad, y se ha151

Page 176: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

152 Cap��tulo 6. Conclusiones y l��neas de trabajo futurodemostrado que tener en cuenta las oclusiones durante el proceso de correspondenciamejora los resultados.Aunque este m�etodo se ha desarrollado y validado solamente bajo la restricci�on deuna escena formada por planos paralelos al plano imagen, los resultados obtenidos nosaniman a continuar el trabajo comenzado en esta tesis, generalizando a otras restriccionesm�as laxas.6.1.1 AportacionesA continuaci�on se resumen las principales aportaciones del trabajo presentado en estatesis. Parte de estas aportaciones han sido ya publicadas en diferentes foros (ver listade publicaciones en la secci�on 6.1.2).Manejo de los errores en la segmentaci�on. En el cap��tulo 3 se propone un m�etodopara la resoluci�on de los problemas generados por las diferencias en la segmentaci�onde un par est�ereo de im�agenes. Se dan soluciones a los problemas no resueltos porla correspondencia basada en regiones cl�asica:� Preproceso de uni�on de regiones: para la resoluci�on de la sobresegmentaci�one infrasegmentaci�on. El m�etodo que se propone est�a basado en grafos, y esde bajo coste adicional al m�etodo cl�asico. Se consideran pares de regionessusceptibles de emparejarse con la misma regi�on en la otra imagen y si launi�on de ambas se empareja mejor con ella que las regiones por separado, seestablece un arco entre los dos nodos que representan a esos emparejamientosen el grafo de asociaci�on de incompatibilidades. El conjunto de todos loscliques m�aximos de dicho grafo constituye el conjunto de uniones de regionesa realizar para mejorar la correspondencia entre las dos im�agenes. El m�etodoconsigue resolver satisfactoriamente la mayor��a de los errores de segmentaci�on.� Criterio de similitud basado en correlaci�on: El �area de intersecci�on entre dosregiones a distintas disparidades es variable, y por tanto, se precisa de doscriterios de similitud diferentes para cada fase de la correspondencia: unopara la creaci�on de los nodos del grafo de asociaci�on y otro para la asignaci�onde los pesos de dichos nodos. La ventaja respecto a los criterios basados en laspropiedades geom�etricas de las regiones reside en que la correlaci�on permitemanejar los casos en los que la segmentaci�on proporciona regiones de formadiferente en cada imagen, y por lo tanto permite mejorar los resultados dela correspondencia. Basar el criterio de similitud entre regiones en t�ecnicasde correlaci�on supone una combinaci�on de las t�ecnicas de correspondenciabasadas en �areas y basadas en caracter��sticas.Algoritmo alternativo a la b�usqueda del mejor clique m�aximo. La b�usquedadel mejor clique m�aximo proporciona la mejor correspondencia en los m�etodosbasados en grafos, pero es un problema NP-completo. Bas�andonos en que los

Page 177: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 6. Conclusiones y l��neas de trabajo futuro 153nodos del grafo de asociaci�on incluyen un peso que indica la similitud entre las dosregiones del nodo, y que este peso se modi�ca mediante un proceso de relajaci�onque incorpora informaci�on estructural del grafo, proponemos una alternativa aeste algoritmo que no garantiza la soluci�on �optima, pero obtiene una soluci�onmuy cercana a ella con un coste cuadr�atico, lo que permite su aplicaci�on pr�actica.Correspondencia basada en minimizaci�on del error de correlaci�on entre regiones:Se ha presentado un nuevo m�etodo de correspondencia que pretende encontrar laregi�on correspondiente que m�as se parece a la regi�on de referencia, sin tener quesegmentar la otra imagen. Se basa en la minimizaci�on de una funci�on de energ��aque consiste en el error de correlaci�on de la intensidad de los puntos de cada regi�oncon la intensidad de los puntos de su regi�on correspondiente, calculada a partir dela profundidad estimada hasta el momento.Este es un problema mal planteado (ill-posed) que requiere de alguna restricci�onpara poder abordar su resoluci�on. El m�etodo se ha desarrollado bajo la suposici�onde super�cies planas paralelas al plano imagen. Aunque esta restricci�on puedeparecer de poca aplicabilidad, los experimentos realizados para este caso sencillomuestran su efectividad y han permitido hacer un estudio y una evaluaci�on exhaus-tivos de aspectos num�ericos y algor��tmicos del m�etodo que permitan una extensi�onsencilla a casos m�as generales.Correspondencia y reconstrucci�on se realizan en un s�olo proceso, obteniendo unarepresentaci�on poli�edrica de la escena, que a su vez se puede traducir en un mapa deprofundidades denso. Por tanto, no es necesaria la segmentaci�on de la informaci�onde rango, puesto que ya tenemos una representaci�on tridimensional de la escenautilizable.Este proceso permite la aparici�on de discontinuidades de la profundidad en las fron-teras entre regiones, es decir, los lugares donde hay cambios bruscos de intensidad,que es precisamente donde pueden haber discontinuidades en la profundidad. Laprofundidad de las zonas homog�eneas de la imagen, que est�an representadas en elinterior de las regiones, est�a restringida seg�un la suposici�on que se haga sobre laforma de las super�cies de la escena. El m�etodo halla la correspondencia satisfac-toriamente, con precisi�on subpixel, y con un coste te�orico en el peor caso similaral de las t�ecnicas basadas en �areas.Detecci�on de oclusiones. El m�etodo de minimizaci�on propuesto permite integrar ladetecci�on de las oclusiones en el proceso de correspondencia, de modo que lasprofundidades y las oclusiones se obtienen mediante un proceso cooperativo quepermite mejorar la precisi�on de las correspondencias obtenidas. Como resultadoadicional, se obtiene un mapa de oclusiones junto con el mapa de profundidades.Esta mejora debida a la consideraci�on de las oclusiones durante la correspondenciaes m�as importante si cabe de cara a la generalizaci�on del m�etodo a cualquier tipode super�cies planas o de orden superior.

Page 178: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

154 Cap��tulo 6. Conclusiones y l��neas de trabajo futuro6.1.2 PublicacionesLas publicaciones originadas hasta el momento por el trabajo que se ha presentado enesta tesis doctoral son las siguientes:\Solving Oversegmentation Errors in Graph-Based Region Matching"Angeles L�opez y Filiberto Pla.Proc. of the 8th. Portuguese Conference on Pattern Recognition, 387-394.Guimaraes (Portugal), Marzo 1996.\Dealing with Segmentation Errors in Region-Based Stereo Vision"Angeles L�opez y Filiberto Pla.Proc. of the 7th. Conferencia de la Asociaci�on Espa~nola Para la InteligenciaArti�cial, 317{326. Torremolinos (Malaga), Noviembre 1997.\Robust Region-Based Stereo Vision to Build Environment Maps for Robo-tics Applications"Angeles L�opez y Filiberto Pla.Engineering Applications of Arti�cial Intelligence and Expert Systems, 365-374. Benicssim, Spain, Julio 1998.Lecture Notes in Arti�cial Intelligence 1416. Tasks and Methods in AppliedArti�cial Intelligence.Ed. A.P. del Pobil et al. Springer-Verlag, Vol. II. ISBN 3-540-64574-8.\Dealing with Segmentation Errors in Region-based Stereo Matching"Angeles L�opez y Filiberto Pla.Pattern Recognition,aceptado en Mayo 1999.\Region-based Stereo Vision using a Minimization Approach"Angeles L�opez y Filiberto Pla.VIII Simposio Nacional de Reconocimiento de Formas y An�alisis de Imagen,11-18. Bilbao, Mayo 1999.ISBN 84-95120-81-X.\A Minimization Approach for 3D Recovery in Region-based Stereo Vision"Angeles L�opez y Filiberto Pla.Proc. of the IEE Conf. on Image Processing and its Applications,Manchester, Julio 1999.aceptado en Marzo 1999.

Page 179: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Cap��tulo 6. Conclusiones y l��neas de trabajo futuro 1556.2 L��neas de trabajo futuroHay varias extensiones posibles de este trabajo, sobre todo en relaci�on con la t�ecnicapresentada en el cap��tulo 4, aunque algunas de ellas son aplicables tambi�en a la corres-pondencia de regiones basada en grafos.� La l��nea de trabajo futuro m�as importante que parte del trabajo mostrado en estatesis doctoral es la generalizaci�on del m�etodo de minimizaci�on a super�ciesplanas de cualquier orientaci�on y a super�cies de otros tipos como son las super�ciescuadr�aticas.La generalizaci�on a super�cies planas cualesquiera nos parece que es crucial parauna aplicabilidad completa del m�etodo y por tanto, constituye el objetivo inme-diato. El inter�es de esta generalizaci�on reside sobre todo en su utilidad pr�acticaen multitud de aplicaciones en escenarios de interiores y urbanos.� Otra posibilidad de continuaci�on de este trabajo est�a relacionada con la segmen-taci�on de la imagen de referencia. Hay varios aspectos que quedan pendientes deser estudiados:{ Incluir la segmentaci�on de la imagen de referencia en el proceso de correspon-dencia, o un re�namiento de la segmentaci�on inicial. Por ejemplo, se podr��aadaptar el principio de la consistencia izquierda-derecha a esta t�ecnica, reali-zando dos c�alculos de la correspondencia con diferentes im�agenes de referencia,de modo que sirva para re�nar la segmentaci�on.{ Utilizar no una, sino varias segmentaciones de la imagen de referencia en ca-da nivel del esquema multiescala, quiz�a un sistema jer�arquico de regiones, demodo que buscando la correspondencia de las regiones desde las que pertene-cen al nivel m�as alto en la jerarqu��a, se va re�nando hasta las regiones m�aspeque~nas.Ambas posibilidades se pueden considerar conjuntamente, de modo que se mejorelo m�aximo posible la representaci�on tridimensional �nal de la escena.� En cuanto a la detecci�on de oclusiones durante la correspondencia, se puedeprofundizar en el estudio del papel de los pixeles ocultos en la validaci�on de lascorrespondencias obtenidas.{ Incluir un porcentaje de oclusi�on que re eje para cada pixel la probabilidadde que est�e oculto, de modo que un pixel semi-oculto no sea eliminado com-pletamente de los c�alculos relativos a su regi�on, sino que sea considerado enla porci�on no oculta.{ Mejorar la e�ciencia en el procesamiento de la tabla de pixeles visitados,realizando, en cada iteraci�on del algoritmo, solamente las modi�caciones ne-cesarias debidas a aquellas profundidades de las regiones que hayan cambiadorespecto a la iteraci�on anterior.{ Valorar la bondad de la oclusi�on de cada pixel marcado como oculto, esto es,el error de similitud del pixel con su hipot�etico correspondiente (si no hubierauna regi�on ocult�andole). Esta informaci�on se podr��a utilizar al nivel de laregi�on para valorar la bondad del �area oculta de la regi�on.

Page 180: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

156 Cap��tulo 6. Conclusiones y l��neas de trabajo futuroEste �ultimo punto puede ser interesante sobre todo de cara a las distintas genera-lizaciones que se puedan realizar en el futuro, ya que ante la posibilidad de dirigirla b�usqueda en varias direcciones diferentes puede ayudar a decidir empezar porla direcci�on que, por ejemplo, deshaga la oclusi�on menos \buena" o favorezca laoclusi�on de mayor ��ndice de bondad.� Otra l��nea de futura investigaci�on podr��a consistir en explorar alternativas a lacorrelaci�on como medida de similitud entre regiones, como pueden ser las t�ecnicasbasadas en informaci�on mutua [Viola, 1997], con el objetivo de obtener informaci�onde las regiones, incluso cuando la variaci�on de la intensidad es peque~na.� Por �ultimo, cabe nombrar la extensi�on del m�etodo de minimizaci�on a sistemastrinoculares o de m�ultiples im�agenes.

Page 181: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Ap�endice AGeometr��a de un sistema devisi�on estereosc�opicoPara una mejor comprensi�on de este ap�endice es necesario tener algunas nociones b�asicasde geometr��a proyectiva. Puede encontrarse una buena introducci�on a la geometr��aproyectiva aplicada a la visi�on por computador en el libro de Faugeras [1993] y el deMundy y Zisserman [1992].A.1 La proyecci�on en perspectivaEn este ap�endice se describen las nociones geom�etricas fundamentales de la visi�on este-reosc�opica, bas�andonos en el modelo de c�amara pinhole, que es el m�as utilizado en lossistemas de visi�on por computador (�gura A.1).A.1.1 La matriz de proyecci�onLa calibraci�on consiste en obtener la relaci�on entre un punto del mundo, M , y su pro-yecci�on normalizada en el plano imagen, m. Podemos dividir esta relaci�on en dos pasosprincipales.El primer paso es un simple cambio del sistema de coordenadas: Ponemos M encoordenadas de la c�amara mediante una rotaci�on R y una traslaci�on t.264 xcyczc 375 = R264 xyz 375+ t (A.1)157

Page 182: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

158 Ap�endice A. Geometr��a de un sistema de visi�on estereosc�opicoc

M

m

Z

Y

X

V

U

C

Z

Yw

Xw

c

c

c

w

v

u

O

Figura A.1: El modelo de proyecci�on en perspectiva pinholeEsta ecuaci�on puede reescribirse en coordenadas homog�eneas como~Mc = " R t0T3 1 # ~M (A.2)donde 03 es el vector cero de tama~no 3. La rotaci�on R y la traslaci�on t son los par�ametrosextr��nsecos de la calibraci�on. Hay 6 par�ametros, 3 �angulos de rotaci�on para R y 3 valoresde traslaci�on para t.El segundo paso consiste en calcularm en el sistema de coordenadas del plano imagen,y cambiar las coordenadas dem al sistema de coordenadas normalizado. Las coordenadasen el plano imagen de m son f�aciles de calcular,us = xcfzc y vs = ycfzcdonde f es la longitud focal, esto es, la distancia entre el centro �optico y el plano imagen.Este c�alculo no es lineal, pero se puede hacer que lo sea utilizando �algebra proyectiva:s264 usvs1 375 = 264 f 0 0 00 f 0 00 0 1 0 37526664 xcyczc1 37775 (A.3)donde s es un factor de escala.

Page 183: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Ap�endice A. Geometr��a de un sistema de visi�on estereosc�opico 159Para cambiar m de coordenadas del plano imagen a coordenadas normalizadas, te-nemos que considerar las coordenadas normalizadas del origen de la imagen c, (u0; v0), ylas unidades de los ejes u y v, (ku; kv), que pueden ser diferentes debido a la electr�onicade la adquisici�on. Esto es, deben a~nadirse una traslaci�on y un escalado a la ecuaci�onanterior, obteniendo: s264 uv1 375 = 264 fku 0 u0 00 fkv v0 00 0 1 0 37526664 xcyczc1 37775 (A.4)Por tanto, hay cuatro par�ametros que calibrar, �u = fku, �v = fkv, u0 y v0. Estosson los par�ametros intr��nsecos de la calibraci�on.Finalmente, consideramos tanto los par�ametros intr��nsecos como los extr��nsecos paraobtener la relaci�on global,s264 uv1 375 = 264 �u 0 u0 00 �v v0 00 0 1 0 375 " R t0T3 1 # 26664 xyz1 37775 (A.5)esto es, s ~m = P ~M (A.6)donde P es una matriz 3�4 llamada la matriz de proyecci�on:P = h A 03 i " R t0T3 1 # (A.7)La matriz P tiene 10 grados de libertad: 4 par�ametros intr��nsecos y 6 par�ametrosextr��nsecos, que pueden representarse como dos matrices separadas o como la matriz deproyecci�on completa.Dado que la matriz A tiene caracter��sticas especiales, la matriz P puede descom-ponerse f�acilmente en sus par�ametros intr��nsecos y extr��nsecos. En la secci�on A.1.2 semuestra el c�alculo de esta descomposici�on.Finalmente, cuando es posible que haya una desviaci�on del eje �optico, puede intro-ducirse un nuevo par�ametro, �, que represente el �angulo entre los ejes U y V .A = 264 �u ��u cot � u00 �v= sin � v00 0 1 375 (A.8)En este caso, la matriz de proyecci�on tiene 11 grados de libertad.

Page 184: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

160 Ap�endice A. Geometr��a de un sistema de visi�on estereosc�opicoA.1.2 Par�ametros de calibraci�onLa matriz de proyecci�on relaciona cualquier punto del mundo 3D con su punto corres-pondiente en el plano imagen, esto es, su proyecci�on en el plano ret��nico de la c�amara.Dado que relaciona un punto en coordenadas 3D (coordenadas del mundo) con su puntoproyectado en coordenadas 2D (coordenadas normalizadas), es una matriz 3�4.P = 264 p11 p12 p13 p14p21 p22 p23 p24p31 p32 p33 p34 375Contiene todos los par�ametros involucrados en la proyecci�on:� Par�ametros intr��nsecos: caracter��sticas internas de la c�amara.� Par�ametros extr��nsecos: posici�on y orientaci�on de la c�amara.La matriz de proyecci�on puede reescribirse como dos matrices separadas, una paracada tipo de par�ametros, como se muestra en la ecuaci�on A.5. Es decir,P = h A 03 iD (A.9)donde A es una matriz 3�3 que contiene los par�ametros intr��nsecos (ecuaci�on A.8) yD es una matriz 4�4 que de�ne la rotaci�on y la traslaci�on de la c�amara respecto a lascoordenadas del mundo:D = " R t0T3 1 # = 26664 r11 r12 r13 txr21 r22 r23 tyr31 r32 r33 tz0 0 0 1 37775Las t�ecnicas de calibraci�on conocidas proporcionan los par�ametros separadamente,o la matriz de proyecci�on como un conjunto. Podemos necesitar descomponer la matrizde proyecci�on en par�ametros intr��nsecos y extr��nsecos para algunos usos.C�alculo de los par�ametros intr��nsecosEn el cap��tulo 3 de [Faugeras, 1993], se muestran las restricciones sobre la matriz P yse demuestra que existen 4 conjuntos de par�ametros intr��nsecos y extr��nsecos tales queP puede escribirse como A.6. Suponiendo que el origen de coordenadas est�a delante dela c�amara (tz > 0), s�olo hay dos soluciones que corresponden a invertir los ejes u y v.

Page 185: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Ap�endice A. Geometr��a de un sistema de visi�on estereosc�opico 161El par�ametro � de la ecuaci�on A.8 modela una posible imprecisi�on en la orientaci�onde los ejes. Si asumimos que la orientaci�on de los ejes es perfecta1, los par�ametrosintr��nsecos se reducen a 4 y su matriz es m�as simple.A = 264 �u 0 u00 �v v00 0 1 375 (A.10)Los par�ametros intr��nsecos pueden calcularse directamente a partir de los elementosde la matriz de proyecci�on, u0 = qT1 q3 (A.11)v0 = qT2 q3 (A.12)�u = "qqT1 q1 � u20 (A.13)�v = "qqT2 q2 � v20 (A.14)donde " representa el signo (por tanto, hay dos soluciones posibles para �u y �v), y q1,q2 y q3 son vectores extraidos de P como sigue:P = 264 p1p2p3 375 = 264 q1 p14q2 p24q3 p34 375C�alculo de los par�ametros extr��nsecosPodemos reescribir la ecuaci�on A.9 comoP = A h R t idonde h R t i es una matriz 3�4 que puede denotarse con tres vectores r1, r2 y r3,como sigue h R t i = 264 r1r2r3 375Una vez que se conocen los par�ametros intr��nsecos, podemos calcular el resto depar�ametros multiplicando la inversa de la matriz A en ambos lados, esto es,h R t i = A�1P1Es decir, que el eje de vista es ortogonal a los ejes de coordenadas del plano imagen, � = �2 .

Page 186: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

162 Ap�endice A. Geometr��a de un sistema de visi�on estereosc�opicoLa inversa de la matriz A esA�1 = 264 1�u 0 � u0�u0 1�v � v0�v0 0 1 375 (A.15)Por tanto, podemos calcular los elementos de h R t i comor1 = (p1 � u0p3)=�u (A.16)r2 = (p2 � v0p3)=�v (A.17)r3 = p3 (A.18)La condici�on para seleccionar el signo en las ecuaciones A.13 y A.14 (que in uir�a enlas ecuaciones A.16 y A.17) es que det(R) debe ser 1, para que sea una matriz ortogonalque conserva la orientaci�on.A.2 Geometr��a epipolarEn esta secci�on se estudia la geometr��a de la adquisici�on de un par estereosc�opico deim�agenes. En el libro [Xu y Zhang, 1996] se puede encontrar una revisi�on m�as detalladasobre la geometr��a epipolar.Consideremos dos c�amaras que toman vistas diferentes de la misma escena (�guraA.2). >Cu�al es la relaci�on entre dos proyecciones, m y m0, de un punto del mundo, M?N�otese que todos los puntos de la l��nea recta entre M y C se proyectan sobre elmismo punto m. Todos estos puntos se proyectan en la segunda c�amara en una l��neallamada la l��nea epipolar de m. Esta l��nea es la intersecci�on entre dos planos: el planode�nido por m, C y C 0, llamado el plano epipolar, y el plano imagen I 0.De manera similar, todos los puntos de la l��nea entre M y C 0 se proyectan sobre elmismo punto m0 en la segunda c�amara, y sobre la l��nea epipolar de m0 en la primerac�amara. Por tanto, si m y m0 corresponden al mismo punto de la escena, entonces m,m0, C y C 0 deben estar sobre el mismo plano. Esta restricci�on se le llama la restricci�onde coplanaridad.La �gura A.3 muestra los planos imagen y el plano epipolar de m y m0. Todos losplanos epipolares de una imagen forman un haz de planos que contiene la l��nea CC 0.M�as a�un, todas las l��neas epipolares de la primera imagen pasan sobre el mismopunto, llamado el epipolo. Cada epipolo, e y e0, es la intersecci�on entre la l��nea CC 0y cada plano imagen, I e I 0, respectivamente. Todas las l��neas epipolares de un planoimagen forman un haz de l��neas que contienen el epipolo.

Page 187: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Ap�endice A. Geometr��a de un sistema de visi�on estereosc�opico 163c

M

m

Z

Y

X

V

U

U’

V’

X’Y’

Z’

C

C’

I

I’

m’

Figura A.2: Geometr��a de dos vistas de la escena.Llamemos l0m a la l��nea epipolar de m en la segunda imagen y lm0 a la l��nea epipolarde m0 en la primera imagen. Para un punto m de la primera imagen, su punto corres-pondiente debe estar en l0m (y sim�etricamente, el punto correspondiente de m0 debe estaren lm0). Esta es una restricci�on muy importante en la b�usqueda de las correspondenciasen la visi�on estereosc�opica, y se llama la restricci�on epipolar: el espacio de b�usqueda delpunto correspondiente se reduce de 2D (el plano imagen) a 1D (la l��nea epipolar).lm’

l’m

II’

M

m’

C’

C

m

ee’

Figura A.3: Geometr��a epipolar.La relaci�on entre un punto y su l��nea epipolar es proyectiva lineal, y puede escribirsecomo F ~m = l0m (A.19)donde F es una matriz 3�3 llamada la matriz fundamental [Luong y Faugeras, 1996].Esta matriz contiene informaci�on sobre los par�ametros intr��nsecos y la posici�on relativaentre las c�amaras.

Page 188: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

164 Ap�endice A. Geometr��a de un sistema de visi�on estereosc�opicoDado que m0 est�a en l0m por de�nici�on, se puede deducir que:~m0TF ~m = 0 (A.20)y sim�etricamente, ~mTF T ~m0 = 0 (A.21)Si conocemos los par�ametros de calibraci�on de cada imagen, esto es, las matrices deproyecci�on, s ~m = P ~M (A.22)s0 ~m0 = P 0 ~M (A.23)entonces F puede calcularse f�acilmente a partir de P y P 0 como se muestra en la sub-secci�on A.2.2 (v�ease [Luong y Faugeras, 1996] para m�as detalles).Por otro lado, F puede calcularse directamente a partir de las dos vistas medianteuna serie de m�etodos [Zhang, 1996b] sin una calibraci�on previa. Este tipo decalibraci�on se llama calibraci�on d�ebil [Robert y Faugeras, 1995, Robert et al., 1995,Zhang et al., 1995].A.2.1 Geometr��a epipolar paralelaUn caso particular de la geometr��a epipolar es el caso en el que los ejes �opticos de ambasc�amaras son paralelos. En este caso se dice que el sistema estereosc�opico tiene geometr��aparalela.Con este tipo de geometr��a, todas las l��neas epipolares son paralelas entre s�� y losepipolos se encuentran en el in�nito. Si adem�as la posici�on relativa entre las c�amarass�olo di�ere en el eje Xc, las l��neas epipolares son paralelas a las �las de la imagen (�guraA.4) y por tanto los puntos correspondientes se encuentran en la misma �la.Con esta con�guraci�on de las c�amaras, la disparidad se calcula como la diferenciaentre los valores de la coordenada horizontal de cada punto m = (u; v) y su puntocorrespondiente, m0 = (u0; v). Es decir, d = u0 � u.La disparidad de un par de puntos correspondientes en un sistema de c�amaras para-lelas es inversamente proporcional a la profundidad del punto 3D proyectado,d = bfzc (A.24)donde f es la longitud focal y b es la distancia entre las c�amaras (baseline).

Page 189: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Ap�endice A. Geometr��a de un sistema de visi�on estereosc�opico 165

ZC

Z’

C’

U’

Y’

X’X

Y

I I’

V’V

M

cc’U

m’m

Figura A.4: Geometr��a epipolar paralela.A.2.2 De las matrices de proyecci�on a la matriz fundamentalLa matriz de proyecci�on de cada imagen puede reescribirse como:P = h Q q idonde Q es una matriz 3�3 de rango 3 y q es un vector 3�1. El centro �optico de cadac�amara satisface la ecuaci�on P ~C = 0 de lo que podemos concluirC = �Q�1qPodemos asumir sin p�erdida de generalidad que C no est�a en el in�nito,~C = " �Q�1q1 #Dado un par est�ereo, el epipolo de la segunda imagen es la proyecci�on del centro�optico de la primera c�amara en la segunda c�amara, esto es:e0 = P 0 ~C = P 0 " �Q�1q1 # = h Q0 q0 i " �Q�1q1 # = q0 �Q0Q�1qLa l��nea epipolar l0m de un punto m en la primera imagen es la proyecci�on del rayo�optico CM en la segunda c�amara. El rayo �optico puede de�nirse mediante el centro

Page 190: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

166 Ap�endice A. Geometr��a de un sistema de visi�on estereosc�opico�optico ~C (que se proyecta en el epipolo e0) y el punto en el in�nito de CM que es[M 0]T = [Q�1m 0]T . Este punto se proyecta a:P 0 " Q�1m0 # = Q0Q�1mLa representaci�on proyectiva de la l��nea epipolar l0m se obtiene tomando el productovectorial de estos dos puntos,l0m = e0 �Q0Q�1m = [e0]�Q0Q�1m = Fmresultando F = [e0]�Q0Q�1 = [q0 �Q0Q�1q]�Q0Q�1A.3 Recti�caci�on de im�agenesLa recti�caci�on de un par de im�agenes est�ereo permite simpli�car la b�usqueda de lacorrespondencia a lo largo de la l��nea epipolar. Esta simpli�caci�on consiste en cambiarla geometr��a epipolar a geometr��a epipolar paralela, de modo que el recorrido de lasl��neas epipolares se reduce a recorrer las �las de la imagen. Los epipolos se env��an alin�nito, de modo que las l��neas epipolares se hacen paralelas y horizontales.Esta simpli�caci�on se consigue mediante una simple transformaci�on geom�etrica.� Si asumimos c�amaras en perspectiva lineales, la transformaci�on consiste en la pro-yecci�on de ambas im�agenes en el mismo plano, llamado plano de recti�caci�on[Faugeras, 1993], que es un plano paralelo a la l��nea recta entre los dos centros�opticos de las c�amaras, CC 0;� si las c�amaras son en perspectiva pero no lineales, ha de tenerse en cuenta ladistorsi�on de la c�amara antes de realizar la proyecci�on en el plano de recti�caci�on;� en cualquier otro caso, los m�etodos para recti�car el par de im�agenes est�ereo soncompletamente diferentes, dependiendo del modelo de c�amara.Asumimos que utilizamos c�amaras en perspectiva lineal. Proyectar ambas im�agenesal plano de recti�caci�on hace que los epipolos sean proyectados al in�nito. La matrizfundamental recti�cada tiene la formaF = 264 0 0 00 0 �10 1 0 375 (A.25)Dado un par de im�agenes est�ereo, hay un conjunto de transformaciones posiblespara obtener el par de im�agenes recti�cado. Este conjunto es una familia de matricesde recti�caci�on, con 9 grados de libertad. El lector podr�a encontrar un estudio de estafamilia en [Devernay, 1996], as�� como algunos m�etodos para calcular el mejor par dematrices de recti�caci�on.

Page 191: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Ap�endice A. Geometr��a de un sistema de visi�on estereosc�opico 167A.4 Correspondencia sin recti�caci�onAunque la recti�caci�on permite reducir las l��neas epipolares a �las de la imagen, hay unaserie de m�etodos que permiten establecer correspondencias sin necesidad de recti�car. Enlas t�ecnicas que calculan las disparidades intermedias, basta con guardar la disparidaden los dos ejes del sistema de coordenadas normalizado. En las t�ecnicas que calculandirectamente la profundidad, como es el m�etodo desarrollado en el cap��tulo 4 de estatesis, el objetivo es encontrar una funci�on que, dada una proyecci�on de un punto de laescena y dada su profundidad, determine el punto correspondiente en la otra imagen.Sean I1 e I2 dos vistas diferentes de la misma imagen, siendo I1 la imagen de referen-cia, y sea Z el mapa de profundidades de todos los pixeles de I1. El objetivo es calcularel punto correspondiente m0 en la imagen I2 de un punto dado m en la imagen I1 dadasu profundidad, Z(m). m0 = f12(m;Z(m)) (A.26)Sea M = (xm; ym; zm) el punto en coordenadas del mundo que se proyecta en elpunto m = (u; v) de la imagen de referencia y en el punto m0 = (u0; v0) de la segundavista. Si conocemos las matrices de ambas proyecciones P y P 0, conocemos la relaci�onentre estos tres puntos (ecuaciones A.22 y A.23), de modo que si descomponemos lasmatrices de proyecci�on en sus par�ametros intr��nsecos y extr��nsecos tenemoss ~m = h A 03 iD ~M (A.27)s0 ~m0 = h A0 03 iD0 ~M (A.28)donde A;A0;D;D0 contienen los par�ametros de calibraci�on intr��nsecos y extr��nsecos deambas proyecciones, respectivamente,s ~m = 264 �u 0 u0 00 �v v0 00 0 1 0 375 " R t0T3 1 # ~M (A.29)s0 ~m0 = 264 �0u 0 u00 00 �0v v00 00 0 1 0 375 " R0 t00T3 1 # ~M (A.30)N�otese que multiplicar D y D0 por ~M no es m�as que un cambio de coordenadas de~M : de las coordenadas del mundo a las coordenadas de cada una de las c�amaras (verecuaciones A.1 y A.2). El punto ~M reescrito en coordenadas de cada una de las c�amaraslo denotamos en coordenadas proyectivas,26664 xcyczc1 37775 = D ~M y 26664 x0cy0cz0c1 37775 = D0 ~M (A.31)

Page 192: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

168 Ap�endice A. Geometr��a de un sistema de visi�on estereosc�opicoLos escalares s y s0 de las ecuaciones A.27 y A.28 coinciden con la profundidad delpunto de la escena en coordenadas de la c�amara respectiva, s = zc y s0 = z0c (ver ec.A.3).Despejando ~M en la ecuaci�on A.27 obtenemos~M = D�1 " zcA�1 ~m1 # (A.32)y sustituyendo en la ecuaci�on A.28 obtenemoss0 ~m0 = h A0 03 iD0D�1 " zcA�1 ~m1 # (A.33)donde zc es la profundidad estimada del pixel m en coordenadas de la c�amara de laimagen de referencia.A.4.1 Caso generalVamos a desarrollar la ecuaci�on A.33 para el caso general de dos c�amaras situadas encualquier posici�on. Podemos asumir sin falta de generalidad que el sistema de coorde-nadas del mundo coincide con el sistema de coordenadas de la c�amara de referencia. Deeste modo, D = I, y en consecuencia D�1 = I.s0 ~m0 = h A0 03 iD0 26664 (u� u0)zc=�u(v � v0)zc=�vzc1 37775 == h A0 03 i 266664 r011�u (u� u0)zc + r012�v (v � v0)zc + r13zc + t0xr021�u (u� u0)zc + r022�v (v � v0)zc + r23zc + t0yr031�u (u� u0)zc + r032�v (v � v0)zc + r33zc + t0z1 377775Llamando ki1; ki2; ki3 a los coe�cientes de uzc, vzc y zc, respectivamente,ki1 = r0i1�u (A.34)ki2 = r0i2�v (A.35)ki3 = r0i3 � r0i1�uu0 � r0i2�v v0 (A.36)y llamando w1 = k11uzc + k12vzc + k13zc + t0xw2 = k21uzc + k22vzc + k23zc + t0yw3 = k31uzc + k32vzc + k33zc + t0z

Page 193: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Ap�endice A. Geometr��a de un sistema de visi�on estereosc�opico 169tenemos que s0 264 u0v01 375 = h A0 03 i 26664 w1w2w31 37775 = 264 �uw1 + u0w3�vw2 + v0w3w3 375de modo que u0 = �0uw1 + u00w3w3 = �0uw1w3 + u00v0 = �0vw2 + v00w3w3 = �0vw1w3 + v00Finalmente, (u0; v0) depende de (u; v) y de zc de la siguiente manera:u0 = �0uk11uzc + k12vzc + k13zc + t0xk31uzc + k32vzc + k33zc + t0z + u00 (A.37)v0 = �0v k21uzc + k22vzc + k23zc + t0yk31uzc + k32vzc + k33zc + t0z + v00 (A.38)donde los valores kij dependen �unicamente de los par�ametros de calibraci�on (ecuacionesA.34, A.35 y A.36).A.4.2 Caso particular de geometr��a paralelaEn el caso particular de la geometr��a epipolar paralela ocurre que las dos c�amaras tienenuna matriz de rotaci�on id�entica respecto a las coordenadas del mundo y s�olo di�eren enla traslaci�on. El caso m�as habitual consiste en una diferencia en la traslaci�on respectoal eje Xc, que llamaremos b. De nuevo, se puede asumir sin falta de generalidad quelas coordenadas del mundo se encuentran en el sistema de coordenadas de la c�amara dereferencia, y por tanto, D coincide con la matriz identidad, mientras que D0 consiste enuna traslaci�on b en el eje de abscisas. r0ii = 1;8i = 1::3 (A.39)r0ij = 0;8i 6= j (A.40)t0x = b (A.41)t0y = t0z = 0 (A.42)De la ecuaci�on A.33 obtenemoss0 ~m0 = h A0 03 i 26664 zcA�1 ~m+ 264 b00 3751 37775 (A.43)

Page 194: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

170 Ap�endice A. Geometr��a de un sistema de visi�on estereosc�opicoSustituyendo el valor de la matriz A y su inversa (ecuaciones A.10 y A.15), obtenemoss0 264 u0v01 375 = 264 �0u 0 u00 00 �0v v00 00 0 1 0 37526664 zc 264 u�u0�uv�v0�v1 375+ 264 b00 3751 37775 (A.44)de modo que �nalmente se obtiene,s0 264 u0v01 375 = 264 �0u�u zc(u� u0) + zcu00 + �0ub�0v�v zc(v � v0) + zcv00zc 375 (A.45)de modo que, s0 = zc, y los valores de u0 y v0 sonu0 = �0u�u (u� u0) + u00 + �0ubzc (A.46)v0 = �0v�v (v � v0) + v00 (A.47)Este resultado se puede obtener tambi�en de las ecuaciones A.37 y A.38 sabiendo quelos valores de la matriz de rotaci�on de D0 son r11 = r22 = r33 = 1; rij = 08i 6= j, y elvector de traslaci�on es tx = b; ty = tz = 0.Si asumimos que ambas im�agenes se han obtenido con la misma c�amara o que lasc�amaras son id�enticas, entonces �u = �0u, �v = �0v , u0 = u00 y v0 = v00, quedandou0 = u+ �0ubzc (A.48)v0 = v (A.49)La diferencia entre las abscisas de los puntos correspondientes, u0 � u = �0ubzc , es ladisparidad, que es inversamente proporcional a la distancia del punto tridimensional alplano imagen.

Page 195: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

Bibliograf��a[Ayache y Faverjon, 1987] N. Ayache y B. Faverjon. E�cient registration of stereo ima-ges by matching graph descriptions of edge segments. Int. J. of Computer Vision,1(2):107{131, Abril 1987.[Ayache y Lustman, 1987] N. Ayache y F. Lustman. Fast and reliable passive trinocularstereovision. En Proc. of the 1st Int. Conf. on Computer Vision, p�aginas 422{427,1987.[Ayache, 1991] Nicholas Ayache. Arti�cial Vision for Mobile Robots. MIT Press, 1991.[Badenas et al., 1997] J. Badenas, M. Bober, y F. Pla. Motion and intensity-basedsegmentation and its applications to tra�c monitoring. En del Bimbo [1997], p�aginas502{509.[Baker y Binford, 1981] H.H. Baker y T.O. Binford. Depth from edge- and intensity-based stereo. En Proceedings 7th Joint Conference on Arti�cial Intelligence, Vancou-ver, Canada, p�aginas 631{636, Agosto 1981.[Balas y Yu, 1986] Egon Balas y Chang Sung Yu. Finding a maximum clique in anarbitrary graph. SIAM J. Appl. Math., 15(4):126{135, Noviembre 1986.[Barnard y Fishler, 1982] S. T. Barnard y M. A. Fishler. Computational stereo. ACMComputing Surveys, 14(4):553{572, Diciembre 1982.[Barnard y Thompson, 1980] Stephen T. Barnard y William B. Thompson. Disparityanalysis of images. IEEE Trans. on Pattern Analysis and Machine Intelligence,2(4):333{340, Julio 1980.[Beardsley et al., 1994] Paul Beardsley, Andrew Zisserman, y David Murray. Navigationusing a�ne structure from motion. En Eklundh [1994], p�aginas 85{96.[Belhumeur y Mumford, 1992] Peter N. Belhumeur y David Mumford. A bayesian treat-ment of the stereo correspondence problem using half-occluded regions. En CVPR'92[1992].[Belhumeur, 1993a] Peter N. Belhumeur. A binocular stereo algorithm for reconstructingsloping, creased, and broken surfaces in the presence of half-occlusion. En Proc. of the171

Page 196: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

172 BIBLIOGRAF�IA4th Int. Conf. on Computer Vision, Berlin, Germany, Mayo 1993. IEEE ComputerSociety Press.[Belhumeur, 1993b] Peter Neil Belhumeur. A Bayesian Approach to the Stereo Corres-pondence Problem. PhD thesis, Electrical Engineering, Yale University, Mayo 1993.[Bensrhair et al., 1996] A. Bensrhair, P. Miche, y R. Debrie. Fast and automatic stereovision matching algorithm based on dynamic programming method. Pattern Recog-nition Letters, 17(5):457{466, 1996.[Besl y Jain, 1988] P. J. Besl y R. C. Jain. Segmentation through variable-order surface�tting. IEEE Trans. on Pattern Analysis and Machine Intelligence, 10(2):167{192,Marzo 1988.[Birch�eld y Tomasi, 1998] Stan Birch�eld y Carlo Tomasi. Depth Discontinuities byPixel-to-Pixel Stereo. En Proceedings of the IEEE International Conference on Com-puter Vision, Bombay, India, 1998.[Bolles et al., 1993] R.C. Bolles, H.H. Baker, y M.J. Hannah. The JISCT stereo eva-luation. En Proc. of the ARPA Image Understanding Workshop, p�aginas 263{274,Washington, DC, Abril 18-21 1993. Morgan Kaufmann.[Bolles y Cain, 1982] Robert C. Bolles y Ronald A. Cain. Recognizing and locatingpartially visible objects: The local-feature-focus method. Int. J. of Robotics Research,1(3):57{82, 1982.[Bolles y Haraud, 1986] Robert C. Bolles y P. Haraud. 3DPO: A three dimensional partorientation system. Int. J. of Robotics Research, 5(3):3{26, 1986.[Bolles, 1979] Robert C. Bolles. Robust feature matching through maximal cliques.Imaging Applications for Automated Industrial Inspection and Assembly, 182:140{149,1979.[Burt y Julesz, 1980] P. Burt y B. Julesz. Disparity gradient limit for binocular fusion.Science, 208:615{617, 1980.[Castan y Shen, 1984] S. Castan y J. Shen. A stereo vision algorithm taking into accountthe perspective distortions. En Proc. of the 7th Int. Conf. on Pattern Recognition,volumen 1, p�aginas 444{446, Montreal, Canada, Julio 1984.[Chabbi y Berger, 1996] Houda Chabbi y Marie Odile Berger. Using projective geometryto recover planar surfaces in stereovision. Pattern Recognition, 29(4):533{548, 1996.[Chang et al., 1993] Yuh-Lin Chang, Xavier Lebegue, y J. K. Aggarwal. Calibrating amobile camera's parameters. Pattern Recognition, 26(1):75{88, 1993.[Chen y Lin, 1997] Liang-Hua Chen y Wei-Chung Lin. Visual surface segmentation fromstereo. Image and Vision Computing, 15:95{106, 1997.

Page 197: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

BIBLIOGRAF�IA 173[Christmas et al., 1995] William J. Christmas, Josef Kittler, y Maria Petrou. Structuralmatching in computer vision using probabilistic relaxation. IEEE Trans. on PatternAnalysis and Machine Intelligence, 17(8):749{764, Agosto 1995.[Christmas, 1995] William J. Christmas. Structural matching in computer vision usingprobabilistic reasoning. PhD thesis, University of Surrey, Septiembre 1995.[Cohen et al., 1989a] L. Cohen, A. Gagalowicz, P. T. Sander, y L. Vinet. Cooperativesegmentation and region matching. En Topical Meeting on Image Understanding andMachine Vision, p�aginas North Falmouth, Massachussets, Junio 1989.[Cohen et al., 1989b] L. Cohen, L. Vinet, P.T. Sander, y A. Gagalowicz. Hierarchicalregion based stereo matching. En Proc. of the IEEE Conf. Computer Vision andPattern Recognition, p�aginas 416{421, San Diego, CA, Junio 1989. IEEE ComputerSociety Press.[Cox et al., 1992] Ingemar J. Cox, Sunita L. Hingorani, Satish B. Rao, y Bruce M.Maggs. Stereo without disparity gradient smoothing: A bayesian sensor fusion so-lution. En Proc. of the 3th British Machine Vision Conference, p�aginas 337{346,1992.[Cox et al., 1996] Ingemar J. Cox, Sunita L. Hingorani, Satish B. Rao, y Bruce M.Maggs. A maximum likelihood stereo algorithm. Computer Vision and Image Un-derstanding, 63(3):542{567, 1996.[CVPR'91, 1991] Lahaina, Hawai, Junio 1991. IEEE Computer Society Press.[CVPR'92, 1992] Urbana Champaign, IL, Junio 1992. IEEE Computer Society Press.[Davies, 1991] E. R. Davies. The minimal match graph and its use to speed identi�cationof maximal cliques. Signal Processing, 22(3):329{343, Marzo 1991.[de Agapito, 1996] L. de Agapito. Estrategias de correspondencia jer�arquica y m�etodosdirectos de autocalibraci�on para un sistema estereosc�opico binocular. PhD thesis, Ins-tituto de Autom�atica Industrial, Octubre 1996.[del Bimbo, 1997] A. del Bimbo, editor. volumen 1310 de Lecture Notes in ComputerScience, Florence, Italy, Mayo 1997. Springer Verlag.[Deriche et al., 1994] R. Deriche, Z. Zhang, Q.-T. Luong, y O. Faugeras. Robust recoveryof the epipolar geometry for an uncalibrated stereo rig. En Eklundh [1994], p�aginas567{576, Vol. 1.[Deriche, 1987] Rachid Deriche. Using canny's criteria to derive a recursively implemen-ted optimal edge detector. Int. J. of Computer Vision, 1(2):167{187, Mayo 1987.[Devernay y Faugeras, 1994] Fr�ed�eric Devernay y Olivier Faugeras. Computing di�e-rential properties of 3-D shapes from stereoscopic images without 3-D models. EnProc. of the IEEE Conf. Computer Vision and Pattern Recognition, p�aginas 208{213,Seattle, WA, Junio 1994. IEEE Computer Society Press. Also Research Report 2304,INRIA Sophia-Antipolis.

Page 198: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

174 BIBLIOGRAF�IA[Devernay y Faugeras, 1995] Fr�ed�eric Devernay y Olivier Faugeras. Automatic calibra-tion and removal of distortion from scenes of structured environments. En Leonid I.Rudin y Simon K. Bramble, editores, Investigative and Trial Image Processing, volu-men 2567 de Proc. SPIE, San Diego, CA, Julio 1995. SPIE.[Devernay y Faugeras, 1996] Fr�ed�eric Devernay y Olivier Faugeras. From projective toeuclidean reconstruction. En Proc. of the IEEE Conf. Computer Vision and PatternRecognition, p�aginas 264{269, San Francisco, CA, Junio 1996. IEEE Computer SocietyPress.[Devernay, 1996] Fr�ed�eric Devernay. Vision st�er�eoscopique et propri�et�es di��erentiellesdes surfaces. PhD thesis, �Ecole Polytechnique, Octubre 1996.[Dhond y Aggarwal, 1989] Umesh R. Dhond y J.K. Aggarwal. Structure from stereo -a review. IEEE Trans. on Systems, Man, and Cybernetics, 19(6):1489{1510, 1989.[D��az Hernando, 1991] J. A. D��az Hernando. C�alculo Integral. Integrales y Series. Edi-torial Tebar Flores, 1991.[Eklundh, 1994] J-O. Eklundh, editor. volumen 800-801 de Lecture Notes in ComputerScience, Stockholm, Sweden, Mayo 1994. Springer Verlag.[El-Sonbaty y Ismail, 1998] Yasses El-Sonbaty y M. A. Ismail. A new algorithm forsubgraph optimal isomorphism. Pattern Recognition, 31(2):205{218, Febrero 1998.[Elsgoltz, 1977] L. Elsgoltz. Ecuaciones diferenciales y c�alculo variacional. EditorialMIR, Moscu, 1977.[Faugeras et al., 1992] Olivier Faugeras, Pascal Fua, Bernard Hotz, Ruihua Ma, Luc Ro-bert, Monique Thonnat, y Zhengyou Zhang. Quantitative and qualitative comparisonof some area and feature-based stereo algorithms. En Wolfgang F�orstner y StephanRuwiedel, editores, Robust Computer Vision: Quality of Vision Algorithms, p�aginas1{26. Wichmann, Karlsruhe, Germany, 1992.[Faugeras et al., 1993] Olivier Faugeras, Bernard Hotz, Herv�e Mathieu, Thierry Vi�eville,Zhengyou Zhang, Pascal Fua, Eric Th�eron, Laurent Moll, G�erard Berry, Jean Vuille-min, Patrice Bertin, y Catherine Proy. Real time correlation based stereo: algorithmimplementations and applications. Int. J. of Computer Vision, 1993. also INRIATechnical Report 2013.[Faugeras, 1993] Olivier Faugeras. Three-Dimensional Computer Vision: a GeometricViewpoint. MIT Press, 1993.[Faugeras, 1995] Olivier Faugeras. Strati�cation of 3-D vision: projective, a�ne, andmetric representations. J. of the Optical Society of America, 12(3):465{484, Marzo1995.[Froehlinghaus, 1997] Thorsten Froehlinghaus. Stereo images with ground truth dis-parity and occlusion. http://www-dbv.cs.uni-bonn.de/�ft/stereo.html, Agosto1997.

Page 199: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

BIBLIOGRAF�IA 175[Fua, 1991] Pascal Fua. Combining stereo and monocular information to compute densedepth maps that preserve depth discontinuities. En Int. Joint Conf. on Arti�cialIntelligence, Sydney, Australia, Agosto 1991.[Fua, 1993] Pascal Fua. A parallel stereo algorithm that produces dense depth mapsand preserves image features. Machine Vision and Applications, 6(1), 1993. Availableas INRIA research report 1369.[Fusiello et al., 1997a] A. Fusiello, V. Roberto, y E. Trucco. E�cient stereo with multi-ple windowing. En Proc. of the IEEE Conf. Computer Vision and Pattern Recognition,p�aginas 858{863, Puerto Rico, Junio 1997. IEEE Computer Society Press.[Fusiello et al., 1997b] A. Fusiello, V. Roberto, y E. Trucco. Experiments with a newarea-based stereo algorithm. En del Bimbo [1997], p�aginas 669{676.[Gamble y Poggio, 1987] E. Gamble y T. Poggio. Visual integration and detection ofdiscontinuities: The key role of intensity edges. A.I.Memo 970, MIT Arti�cial Intelli-gence Laboratory, 1987.[Geiger et al., 1992] Davi Geiger, Bruce Ladendorf, y Alan Yuile. Occlusions and bi-nocular stereo. En G. Sandini, editor, Proc. of the 2nd European Conf. on ComputerVision, volumen 588 de Lecture Notes in Computer Science, p�aginas 425{433, SantaMargherita Ligure, Italy, Mayo 1992. Springer Verlag.[Geiger et al., 1995] Davi Geiger, Bruce Ladendorf, y Alan Yuile. Occlusions and bi-nocular stereo. Int. J. of Computer Vision, p�aginas 221{226, 1995.[Gennery, 1980] D.B. Gennery. Modelling the Environment of an Exploring Vehicle bymeans of Stereo Vision. PhD thesis, Stanford University, Junio 1980.[Grimson, 1981] W.E.L. Grimson. A computer implementation of a theory of humanstereo vision. Philosophical Trans. of the Royal Society of London, B., 292(1058):217{253, 1981.[Grimson, 1985] W.E.L. Grimson. Computational experiments with a feature basedstereo algorithm. IEEE Trans. on Pattern Analysis and Machine Intelligence, 7(1):17{34, 1985.[Hartley et al., 1992] Richard Hartley, Rajiv Gupta, y Tom Chang. Stereo from uncali-brated cameras. En CVPR'92 [1992], p�aginas 761{764.[Herault et al., 1990] Laurent Herault, Radu Horaud, Francoise Veillon, y Jean-JacquesNiez. Symbolic image matching by simulated annealing. En Proc. of the 1st BritishMachine Vision Conference, p�aginas 319{324, Oxford, England, 1990.[Hollinghurst y Cipolla, 1994] Nicholas Hollinghurst y Roberto Cipolla. Uncalibratedstereo hand-eye coordination. Image and Vision Computing, 12(3):187{192, Abril1994.

Page 200: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

176 BIBLIOGRAF�IA[Horaud y Skordas, 1989] R. Horaud y Th. Skordas. Stereo correspondence throughfeature grouping and maximal cliques. IEEE Trans. on Pattern Analysis and MachineIntelligence, 11(11):1168{1180, 1989.[Intille y Bobick, 1994a] Stephen S. Intille y Aaron F. Bobick. Disparity-space imagesand large occlusion stereo. En Eklundh [1994], p�aginas 674{677. Extended version inM.I.T Media Lab Computing Group Technical Report No. 220.[Intille y Bobick, 1994b] Stephen S. Intille y Aaron F. Bobick. Incorporating intensityedges in the recovery of occlusion regions. En Int. Conf. on Pattern Recognition,volumen A, p�aginas 674{677, Octubre 1994. Also M.I.T Media Lab Computing GroupTechnical Report No. 246.[Jones, 1997] Graeme A. Jones. Constraint, optimization, and hierarchy: Reviewingstereoscopic correspondence of complex features. Computer Vision and Image Un-derstanding, 65(1):57{78, Enero 1997.[Kanade y Okutomi, 1990] Takeo Kanade y Masatoshi Okutomi. A stereo matchingalgorithm with an adaptive window: Theory and experiments. En Proc. of the ImageUnderstanding Workshop, p�aginas 383{398, PA, Septiembre 1990. DARPA, ScienceApp. Int. Corp.[Kanade y Okutomi, 1994] Takeo Kanade y Masatoshi Okutomi. A stereo matchingalgorithm with an adaptive window: Theory and experiment. IEEE Trans. on PatternAnalysis and Machine Intelligence, 16(9):920{932, Septiembre 1994.[Kitamura y Yachida, 1990] Yoshifumi Kitamura y Masahiko Yachida. Three-dimensional data acquisition by trinocular vision. Advanced Robotics, 4(1):29{42,1990. Robotics Society of Japan.[Lacey et al., 1998] A. J. Lacey, N. A. Thacker, S. Crossley, y R. B. Yates. A multi-stage approach to the dense estimation of disparity from stereo sem images. Imageand Vision Computing, 16:373{383, 1998.[Lane y Thacker, 1994] R. A. Lane y N. A. Thacker. Stereo vision research: An al-gorithm survey. Technical Report 94/16, University of She�eld, Electronic SystemsGroup, 1994.[Lee et al., 1993] C.-Y. Lee, D.B. Cooper, y D. Keren. Computing correspondence basedon region and invariants without feature extraction and segmentation. En Proc. ofthe IEEE Conf. Computer Vision and Pattern Recognition, p�aginas 655{656. IEEEComputer Society Press, Junio 1993.[Li, 1994] Ze-Nian Li. Stereo correspondence based on line matching in hough spa-ce using dynamic programming. IEEE Trans. on Systems, Man, and Cybernetics,24(1):144{152, jan 1994.[Lotti, 1996] Jean-Luc Lotti. Mise en correspondance st�er�eo par fenetres adaptatives enimagerie haute r�esolution. PhD thesis, Universite de Nice-Sophia Antipolis, France,Febrero 1996.

Page 201: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

BIBLIOGRAF�IA 177[Luong y Faugeras, 1996] Quang-Tuan Luong y Olivier Faugeras. The fundamental ma-trix: theory, algorithms, and stability analysis. Int. J. of Computer Vision, 17(1):43{76, Enero 1996.[Marapane y Trivedi, 1989] Suresh B. Marapane y Mohan M. Trivedi. Region-based ste-reo analysis for robotics applications. IEEE Trans. on Systems, Man, and Cybernetics,19(6):1447{1464, Noviembre 1989.[Marapane y Trivedi, 1992] Suresh B. Marapane y Mohan M. Trivedi. Multi-primitivehierarchical (mph) stereo analysis. En CVPR'92 [1992], p�aginas 499{505.[Marapane y Trivedi, 1994] Suresh B. Marapane y Mohan M. Trivedi. Multi-primitivehierarchical (mph) stereo analysis. IEEE Trans. on Pattern Analysis and MachineIntelligence, 16(3):227{240, 1994.[Marr y Poggio, 1976] D. Marr y T. Poggio. Cooperative computation of stereo disparity.Science, 194:283{287, 1976. introduccion muy interesante.[Marr y Poggio, 1977] D. Marr y T. Poggio. A theory of human stereo vision. A.I.Memo451, MIT Arti�cial Intelligence Laboratory, 1977.[Marr y Poggio, 1979] D. Marr y T. Poggio. A computational theory of human stereovision. Proc. R. Soc., B-204:301{328, 1979.[Mayhew y Frisby, 1981] J.E.W. Mayhew y J.P. Frisby. Psychophysical and computatio-nal studies towards a theory of human stereopsis. Arti�cial Intelligence, 17:349{386,1981.[Menard y Kropatsch, 1997] Christian Menard y Walter G. Kropatsch. Adaptive stereomatching in correlation scale-space. En del Bimbo [1997], p�aginas 677{684.[Mohr et al., 1993] Roger Mohr, Boubakeur Boufama, y Pascal Brand. Accurate projec-tive reconstruction. En Joseph Mundy y Andrew Zisserman, editores, Applications ofInvariance in Computer Vision, volumen 825 de Lecture Notes in Computer Science,p�aginas 257{276, Berlin, 1993. Springer Verlag.[Moravec, 1977] H. P. Moravec. Towards automatic visual obstacle avoidance. En Proc.of the 5th Int. Joint Conf. on Arti�cial Intelligence, p�agina 584, 1977.[Mundy y Zisserman, 1992] Joseph L. Mundy y Andrew Zisserman, editores. GeometricInvariance in Computer Vision. MIT Press, 1992.[Nasrabadi y Liu, 1989] N. M. Nasrabadi y Y. Liu. Stereo vision correspondence using amultichannel graph matching technique. Image and Vision Computing, 7(4):237{245,Noviembre 1989.[Nasrabadi, 1992] N. M. Nasrabadi. A stereo vision technique using curve segments andrelaxation matching. IEEE Trans. on Pattern Analysis and Machine Intelligence,14(5):566{572, Mayo 1992.

Page 202: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

178 BIBLIOGRAF�IA[Nishihara, 1984a] Keith Nishihara. Practical real-time imaging stereo matcher. OpticalEngineering, 23(5), 1984.[Nishihara, 1984b] Keith Nishihara. PRISM: A practical real-time imaging stereo mat-cher. A.I.Memo 773, MIT, 1984.[Nomura et al., 1992] Yoshihiko Nomura, Michihiro Sagara, Hiroshi Naruse, y AtsushiIde. Simple calibration algorithm for high-distortion-lens camera. IEEE Trans. onPattern Analysis and Machine Intelligence, 14(11):1095{1099, Noviembre 1992.[Ohta y Kanade, 1985] Y. Ohta y T. Kanade. Stereo by intra- and inter-scanline search.IEEE Trans. on Pattern Analysis and Machine Intelligence, 7:139{154, 1985.[Okutomi y Kanade, 1992] Masatoshi Okutomi y Takeo Kanade. A locally adaptivewindow for signal matching. Int. J. of Computer Vision, 7(2):143{162, 1992.[Okutomi y Kanade, 1993] Masathoshi Okutomi y Takeo Kanade. A multiple-baselinestereo. IEEE Trans. on Pattern Analysis and Machine Intelligence, 15(4):353{363,Abril 1993.[Oren y Nayar, 1994] Michael Oren y Shree K. Nayar. Generalization of lambert's re ec-tance model. En Andrew Glassner, editor, Proc. of the SIGGRAPH, p�aginas 239{246,Orlando, Florida, Julio 1994.[Pajares et al., 1998] G. Pajares, J. M. Cruz, y J. Aranda. Relaxation by hop�eld net-work in stereo image matching. Pattern Recognition, 31(5):561{574, 1998.[Papadimitriou y Dennis, 1995] D. V. Papadimitriou y T. J. Dennis. A stereo dispa-rity algorithm for 3d model construction. En Proc. of the Image Processing and itsApplications, p�aginas 178{182, Julio 1995.[Pollard et al., 1985] S.B. Pollard, J.E.W. Mayhew, y J.P. Frisby. PMF : a stereo co-rrespondence algorithm using a disparity gradient constraint. Perception, 14:449{470,1985.[Prazdny, 1985] K. Prazdny. Detection of binocular disparities. Biological Cybernetics,52:93{99, 1985.[Quan, 1993] Long Quan. A�ne stereo calibration for relative a�ne shape reconstruc-tion. En Proc. of the 4th British Machine Vision Conference, p�aginas 659{668, Surrey,England, 1993.[Randriamasy y Gagalowicz, 1991] S. Randriamasy y A. Gagalowicz. Region based ste-reo matching oriented image processing. En CVPR'91 [1991], p�aginas 736{737.[Ranganath y Chipman, 1992] Heggere S. Ranganath y Laure J. Chipman. Fuzzy rela-xation approach for inexact scene matching. Image and Vision Computing, 10(9):631{640, Noviembre 1992.

Page 203: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

BIBLIOGRAF�IA 179[Robert et al., 1995] L. Robert, M. Bu�a, y M. Hebert. Weakly-calibrated stereo per-ception for rover navigation. En Proc. of the 5th Int. Conf. on Computer Vision,p�aginas 46{51, Boston, MA, Junio 1995. IEEE Computer Society Press.[Robert et al., 1997] L. Robert, C. Zeller, O. Faugeras, y M. H�ebert. Applications ofnon-metric vision to some visually-guided robotics tasks. En Y. Aloimonos, editor, Vi-sual Navigation: From Biological Systems to Unmanned Ground Vehicles, cap��tulo 5,p�aginas 89{134. Lawrence Erlbaum Associates, 1997. also INRIA Technical Report2584.[Robert y Deriche, 1996] L. Robert y R. Deriche. Dense depth map reconstruction: Aminimization and regularization approach which preserves discontinuities. En BernardBuxton, editor, Proc. of the 4th European Conf. on Computer Vision, Cambridge, UK,Abril 1996.[Robert y Faugeras, 1991] Luc Robert y Olivier Faugeras. Curve-based stereo: Figuralcontinuity and curvature. En CVPR'91 [1991], p�aginas 57{62.[Robert y Faugeras, 1995] Luc Robert y Olivier Faugeras. Relative 3-D positioning and3-D convex hull computation from a weakly calibrated stereo pair. Image and VisionComputing, 13(3):189{197, 1995. also INRIA Technical Report 2349.[Robert, 1995] Luc Robert. Camera calibration without feature extraction. ComputerVision and Image Understanding, 63(2):314{325, Marzo 1995. also INRIA TechnicalReport 2204.[Rojas et al., 1997] Angela Rojas, Antonio Calvo, y Jose Mu noz. A dense disparitymap of stereo images. Pattern Recognition Letters, 18:385{393, 1997.[Rosenfeld y Kak, 1982] A. Rosenfeld y A.C. Kak. Digital Picture Processing, volu-men 1. Academic Press, New York, 1982. Second Edition.[Rothwell et al., 1995] C. A. Rothwell, A. Zisserman, D. A. Forsyth, y J. L. Mundy.Planar object recognition using projective shape representation. Int. J. of ComputerVision, 16(1):57{99, Septiembre 1995.[Sakamoto et al., 1997] Shizuo Sakamoto, Ingemar J. Cox, y Johji Tajima. A multiple-baseline stereo for precise human face acquisition. Pattern Recognition Letters,18(9):923{931, Septiembre 1997.[Sander et al., 1989] Peter T. Sander, Laurent Vinet, Laurent Cohen, y A. Gagalowicz.Hierarchical region based stereo matching. En Proc. of the 6th Scandinavian Conf. onImage Analysis, p�aginas 71{78, Oulu, Finland, Junio 1989.[Satoh et al., 1996] Kiyohide Satoh, Itaru Kitahara, y Yuichi Ohta. 3D image displaywith motion parallax by camera matrix stereo. 1996.[Satoh y Ohta, 1994] Kiyohide Satoh y Yuichi Ohta. Passive depth adquisition for 3dimage displays. IEEE Trans. on Information and Systems, (9):949{957, 1994.

Page 204: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

180 BIBLIOGRAF�IA[Satoh y Ohta, 1995] Kiyohide Satoh y Yuichi Ohta. Occlusion detectable stereo usinga camera matrix. En Proc. of the 2nd Asian Conf. on Computer Vision, volumen 2,p�aginas 331{335, 1995.[Satoh y Ohta, 1996] Kiyohide Satoh y Yuichi Ohta. Occlusion detectable stereo |systematic comparison of detection algorithms|. En Proc. of the 13th Int. Conf. onPattern Recognition, Vienna, Austria, Agosto 1996.[Sonka et al., 1993] Milan Sonka, Vaclav Hlavac, y Roger Boyle, editores. Image Pro-cessing, Analysis and Machine Vision. Chapman & Hall, 1993.[Suganthan et al., 1998] P. N. Suganthan, H. Yan, E. K. Teoh, y D. P. Mital. Opti-mal encoding of graph homomorphism energy using fuzzy information aggregationoperators. Pattern Recognition, 31(5):623{639, 1998.[Super y Klarquist, 1997] Boaz J. Super y William N. Klarquist. Patch-based stereoin a general binocular geometry. IEEE Trans. on Pattern Analysis and MachineIntelligence, 19(3):247{253, 1997.[Tarel y V�ezien, 1995] Jean-Philippe Tarel y Jean-Marc V�ezien. A generic approach forplanar patches stereo reconstruction. En Proc. of the 11th Scandinavian Conf. onImage Analysis, p�aginas 1061{1070, Norway, Junio 1995.[Tarel, 1996] Jean-Philippe Tarel. Reconstruction globale et robuste de facettes 3D.Rapport de recherche 2813, INRIA, Febrero 1996.[Terzopoulos, 1986] Demetri Terzopoulos. Regularization of inverse visual problems in-volving discontinuities. p�aginas 183{194. 1986.[Tsai, 1987] Roger Y. Tsai. A versatile camera calibration technique for high-accuracy3D machine vision metrology using o�-the-shelf tv cameras and lenses. IEEE J. ofRobotics and Automation, 3(4):323{344, Agosto 1987.[V�ezien y Gagalowicz, 1991] Jean-Marc V�ezien y Andr�e Gagalowicz. Reconstruction 3-D bas�ee sur une analyse en r�egions d'une paire d'images st�er�eoscopique. En Actes deAFCET-RFIA, Lyon, France, 1991.[Viola, 1997] Paul Viola. Alignment by maximization of mutual information. Int. J. ofComputer Vision, 1997.[Wildes, 1991] Richard P. Wildes. Direct recovery of three-dimensional scene geometryfrom binocular stereo disparity. IEEE Trans. on Pattern Analysis and Machine Inte-lligence, 13(8):761{774, Agosto 1991.[Wilson y Hancock, 1997] Richard C. Wilson y Edwin R. Hancock. Structural matchingby discrete relaxation. IEEE Trans. on Pattern Analysis and Machine Intelligence,19:634{648, Junio 1997.[Xu y Zhang, 1996] Gang Xu y Zhengyou Zhang. Epipolar Geometry in Stereo, Motionand Object Recognition. Kluwer Academic Publishers, 1996.

Page 205: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

BIBLIOGRAF�IA 181[Yang et al., 1989] B. Yang, W. E. Snyder, y G. L. Bilbro. Matching oversegmented 3dimages to models using association graphs. Image and Vision Computing, 7(2):140{149, Mayo 1989.[Zhang et al., 1995] Zhengyou Zhang, Rachid Deriche, Olivier Faugeras, y Quang-TuanLuong. A robust technique for matching two uncalibrated images through the recoveryof the unknown epipolar geometry. Arti�cial Intelligence Journal, 78(1-2):87{119,Octubre 1995. Also INRIA Research Report No.2273, May 1994.[Zhang y Faugeras, 1992] Zhengyou Zhang y Olivier D. Faugeras. 3D Dynamic SceneAnalysis: A Stereo Based Approach. Springer, Berlin, Heidelberg, 1992.[Zhang, 1993] Zhengyou Zhang. Le probl�eme de la mise en correspondance: L'�etat del'art. Technical Report RR 2146, INRIA, Diciembre 1993.[Zhang, 1996a] Z. Zhang. A stereovision system for a planetary rover: Calibration,correlation, registration, and fusion. En Proceedings IEEE Workshop on PlanetaryRover Technology and Systems, Minneapolis, Minnesota, USA, Abril 1996.[Zhang, 1996b] Zhengyou Zhang. Determining the epipolar geometry and its uncer-tainty: A review. Technical Report 2927, INRIA Sophia-Antipolis, France, Julio1996.[Zhang, 1996c] Zhengyou Zhang. On the epipolar geometry between two images withlens distortion. En Int. Conf. on Pattern Recognition, volumen I, p�aginas 407{411,Vienna, Austria, Agosto 1996.

Page 206: Escuela - uji.eslopeza/papers/1999-PHD/tesislopeza99.pdf · Escuela Sup erior de T ecnolog a y Ciencias Exp erimen tales Departamen to de Inform atica T ecnicas de Visi on Estereosc

182 BIBLIOGRAF�IA