Download Técnicas de Calibración de Cámaras para visión estéreo y
Document related concepts
no text concepts found
Transcript
XV SIMPOSIO DE TRATAMIENTO DE SEÑALES, IMÁGENES Y VISIÓN ARTIFICIAL – STSIVA 2010 Técnicas de Calibración de Cámaras para visión estéreo y reconstrucción José Gabriel Hoyos Gutiérrez, Jaiber Evelio Cardona Aristizábal, Luís Miguel Capacho Valbuena, Luis Felipe Orozco II. TEORÍA GENERAL DE CALIBRACIÓN Resumen—Categoría 4 Se presenta una revisión de dos técnicas utilizadas en la calibración de cámaras con miras a tener visión estéreo, en general se pueden dividir en técnicas coplanares y no co-planares. Después de realizada una calibración, esta entrega los parámetros de la cámara, los cuales permiten tener un modelo de la interpretación de la cámara de un espacio real. Estos parámetros, permiten luego calcular un punto en el espacio, este proceso es conocido como reconstrucción. Este estudio hace parte de un proyecto de investigación que busca realizar el control por imágenes de un brazo manipulador, por último se presentan algunos resultados. Palabras Claves— Reconstrucción. Visión Estéreo, A. Problema de Calibración El problema consiste en hallar y resolver un modelo matemático de cómo ve la cámara la escena, por resolver entiéndase el proceso de encontrar un conjunto de valores llamados parámetros, de tal manera que luego permitan obtener información tridimensional a partir de las imágenes.[1] [2]. Gracias a la calibración se obtienen los parámetros que intervienen en el proceso de formación de imágenes, la calibración es entonces el proceso mediante el cual se establece la relación entre coordenadas tridimensionales de los objetos en el entorno con sus correspondientes proyecciones bidimensionales en la imagen [1]. Calibración, I. INTRODUCCIÓN E n el contexto de visión por ordenador, calibración de la cámara es el proceso de determinar las características internas, geométricas y ópticas de la cámara (Parámetros intrínsecos) y la posición en 3-D del marco de la cámara respecto a un cierto Sistema de Coordenadas (Parámetros extrínsecos). En muchos casos, el rendimiento del sistema de visión depende de la exactitud de la calibración de la cámara. Existen varios métodos de calibración de la cámara presentes en la literatura, los cuales generalmente se dividen según el patrón a utilizar ( coplanar o no coplanar), o también según la técnica matemática usada para encontrar los parámetros ( lineal o algoritmos de optimización ). Por reconstrucción se que permiten calcular X,Y,Z ) a partir de izquierda y derecha calibración. B. Parámetros Intrínsecos y extrínsecos Parámetros Intrínsecos Describen la geometría y óptica del conjunto cámara y tarjeta de adquisición de imágenes. Extrínsecos Definen la orientación y posición de la cámara respecto a un sistema de coordenadas conocido al que se llama sistema del mundo. Tres grados de libertad para la orientación y tres grados de libertad definen el desplazamiento [1] [4] [6]. C. Modelo Pinhole Modelo de una cámara El modelo de una cámara es una representación geométrica de cómo se proyectan objetos tridimensionales en imágenes. En todos los modelos aparecen distintos sistemas de coordenadas, como: coordenadas del mundo (Xm,Ym,Zm), de la cámara (Xc,Yc,Zc), del sensor (Xs,Ys) y de la imagen (Xi,Yi). entienden los algoritmos matemáticos puntos en el espacio tridimensional P( la información de las dos imágenes y de los datos resultado de una Primero se presenta una fundamentación matemática, luego detalles de las pruebas de calibración y por ultimo algunos resultados y las conclusiones. Modelo Pinhole Es un modelo proyectivo y finito (con centro óptico a una distancia finita), en este modelo cada punto de un objeto situado en el espacio de trabajo 3D se proyecta en un punto de un plano denominado plano imagen. J.G.H.G Universidad del Quindío, Programa de Tecnología Electrónica. J.E.C.A , L.M.C.V, L.F.O. Universidad del Quindío, Grupo de Investigación GAMA, Programa de Ingeniería Electrónica. Avenida Bolívar Calle 12 Norte Armenia Quindío. Colombia Tel: 57+6+7460175; e-mail: josegabrielh@uniquindio.edu.co, jaibercardona@uniquindio.edu.co, lmcapacho@uniquindio.edu.co, orozcocortes_lf@hotmail.com El inconveniente de este modelo es que sólo es útil para modelar algunos parámetros, pero no tiene en cuenta otras características ópticas de las cámaras, como por ejemplo el zoom óptico [3] [9]. 76 76-81 XV SIMPOSIO DE TRATAMIENTO DE SEÑALES, IMÁGENES Y VISIÓN ARTIFICIAL – STSIVA 2010 D. Clasificación de las técnicas según el objetivo de calibración. Dependiendo del objeto utilizado para calibrar, se pueden destacar dos tipos de calibración, coplanar y no coplanar. Coplanar El objeto utilizado es plano, con un patrón impreso al que se le llama rejilla de calibración, por ejemplo el mostrado en la figura 2. Fig. 1. Proyección de un punto del espacio en la imagen con el modelo pinhole. En condiciones no ideales, el origen del sistema de coordenadas de la imagen no es el punto principal, y el escalado para cada imagen es diferente, por lo que el modelo ideal varía entonces respecto al real: Los parámetros intrínsecos se agrupan en la matriz de calibración, propuesta por el modelo de cámara, que se ve modificada por la variación, en condiciones reales, de los siguientes parámetros. ‐ Desplazamiento del punto principal ‐ Escalado ‐ Distorsión óptica ‐ Distancia focal Fig. 2. Ejemplo de objetivo coplanar. No coplanar El objeto utilizado suele ser un cubo, en el que las distintas caras tienen el mismo patrón impreso, o bien una rejilla que consta de dos planos, ambos con el mismo patrón. (Figura 3.) A los puntos del objeto de posiciones tridimensionales conocidas se les conoce como puntos de calibración [2] [6]. Los parámetros extrínsecos se agrupan en la matriz de rotación y el vector de traslación que relacionan las coordenadas tridimensionales del objeto con las coordenadas tridimensionales de la cámara [1] [2] [4] [6]. Modelo de dos Cámaras Es una extensión del modelo de una cámara que se utiliza para modelar lo que se conoce por par estéreo. Se proporciona un modelo pinhole para cada cámara, por lo tanto existe la necesidad de conocer una serie de datos que permitan entender cómo se produce el registro de la información en la imagen, estos datos son los parámetros intrínsecos y extrínsecos de las cámaras [1] [5]. El procedimiento que se sigue para calcular los parámetros intrínsecos y extrínsecos consiste en: 1. Determinar posiciones tridimensionales de puntos de un objeto conocido (puntos de referencia). 2. Determinar el valor de sus proyecciones sobre la imagen. 3. Buscar la correspondencia entre los puntos tridimensionales y sus proyecciones en la imagen, evaluando la correspondencia mediante una función error. 4. Aplicar un algoritmo matemático que encuentre los valores de las matrices implicadas en el modelo. Fig. 3. Ejemplo de objetivo no co-planar. Otra técnica no coplanar consiste en un campo donde se distribuyen varios puntos de calibración y sobre el plano se elevan un conjunto de puntos para tener información espacial [11] (Figura 4). 77 XV SIMPOSIO DE TRATAMIENTO DE SEÑALES, IMÁGENES Y VISIÓN ARTIFICIAL – STSIVA 2010 Para corregir el efecto de la distorsión, se debe introducir un ecuación con términos no lineales, un ejemplo de ecuación es [1]: x xd 2 4 6 b 1 kc1r kc2 r kc5 r yd yb (3) Donde, r 2 xb2 yb2 (4) Fig. 4. Ejemplo de objetivo no coplanar con puntos de calibración fuera del plano, los cuales están montados sobre un listón de madera (figura tomada de [11]). III. MATEMÁTICA DE LA CALIBRACIÓN A. Modelo matemático. Cualquier punto tridimensional (XW, YW, ZW) en la escena puede llevarse a un sistema de coordenadas de la cámara (XC, YC, ZC), esto se logra con una matriz de rotación R y otra de translación T: XC XW YC R YW Z Z C W r1 T r4 r 7 r2 r5 r8 r3 X W r6 YW r9 ZW Tx Ty T z Fig. 5. Efectos de la distorsión radial (a) y tangencial (b) línea solida: sin distorsión, líneas punteadas: efectos de distorsión de la línea solida (figura tomada de [15]). (1) B. Obtención de los valores de los parámetros Los valores de la matriz de rotación se pueden calcular con tres ángulos, mas los tres de translación serian seis valores desconocidos para los parámetros extrínsecos. Por otro lado para los parámetros intrínsecos quitando s y k ya que uno es cero y el otro se puede integrar en los otros, quedarían 4 valores desconocidos, por lo que en total se tendrían 10 valores desconocidos mínimo para el modelo más simple, el cual no tiene en cuenta los factores de distorsión. Los valores de R y T son conocidos como parámetros extrínsecos. Luego este sistema coordenado en el espacio tridimensional, se debe llevar al espacio bidimensional de las imágenes, sin tener en cuenta las distorsiones radial y tangencial, las coordenadas de la imagen (xb, yb) se hallan [1]: xb f cx y k b 0 1 0 s f cy 0 Cx X c C y Yc 1 Z c Generalmente para encontrar los valores desconocidos, se toman muchos puntos correspondiente de la imagen con el patrón de calibración, estos puntos se detectan en la imagen usando alguna técnica de detección de esquinas (figura 6). (2) Donde: fcx y fcy son las distancias focales expresadas en pixeles e incluyen la distancia focal de la cámara y el tamaño en milímetros del sensor (Sx, Sy), Cx y Cx son los valores del centro óptico de la imagen ( ver figura 1). El valor s se denomina encuadre y la mayoría de las veces corresponde con un ángulo de 90º y por lo tanto su valor es de cero, el valor k, es un factor de escalado. Los valores fcx, fcy, Cx, Cx, s, k son conocidos como los parámetros intrínsecos. Fig. 6 Extracción de esquinas del patrón de calibración. Se asume un punto 3D como origen en la escena y eje Z se ubica orientado hacia la cámara, para facilitar el cálculo de los puntos 3D (figura 6), en el caso de Heikkilä, el origen del sistema coordenado cambia y se define como en la figura 7. Básicamente existen dos efectos que distorsionan la imagen, conocidos como radial y tangencial (figura 5). Estos efectos generalmente son modelados con 5 coeficientes 3 para la radial kc1, kc2 , kc5 y 2 para la tangencial kc3, kc14. 78 XV SIMPOSIO DE TRATAMIENTO DE SEÑALES, IMÁGENES Y VISIÓN ARTIFICIAL – STSIVA 2010 D. Procedimiento de re-calibración estéreo. Una vez obtenido los parámetros de calibración de cada cámara por separado, existen procedimientos para aunar los resultados [18], estos corrigen los parámetros obtenidos por separado a partir de: 1. Un apareamiento “matching” de los puntos característicos de ambas imágenes. 2. las matrices de rotación y translación que se obtienen de cada elemento patrón y de ambas cámaras se unifica en una sola matriz de rotación y otra de translación. Una vez obtenidos los puntos de varias imágenes (mínimo 4 para el caso coplanar y 1 para el caso no coplanar), se arma un sistema de ecuaciones usando (1) y (2) pero con los valores conocidos de la cámara ( , ) y de la escena o mundo calculados anteriormente, este sistema se ( , , resuelve usando técnicas de pseudoinversa [10], o por planteamiento de las ecuaciones como en el método de Tsai explicado en [1]. C. Procedimiento de calibración de Heikkilä Esta técnica de calibración utiliza un modelo de cámara propio para una calibración exacta derivado del modelo pin-hole con las correcciones de las componentes de distorsión radial y tangencial, este modelo hace una estimación de los parámetros del sistema de visión utilizando un objetivo conocido de calibración. IV. RECONSTRUCCIÓN Por reconstrucción se que permiten calcular X,Y,Z ) a partir de izquierda y derecha calibración. Los pasos adicionales que usa este método son: 1. La estimación de los parámetros lineales 2. Estimación no lineal 3. La corrección de la imagen. Estimación de los parámetros lineal. Se hace una transformación lineal directa (DLT) para la transformación de coordenadas de objeto a coordenadas en la imagen, este método se basa en el modelo pinhole, ignorando las componentes no lineales de distorsión tangencial y radial. El objetivo entonces es resolver los parámetros de la matriz DLT, primero normalizando para evitar una solución trivial y resolver la ecuación con una técnica pseudoinversa, por ejemplo la SVD. Los valores de la matriz resultado de la DLT, en si no tienen ningún significado, pero es posible extraer los parámetros de calibración haciendo una descomposición lineal [10]. entienden los algoritmos matemáticos puntos en el espacio tridimensional P( la información de las dos imágenes y de los datos resultado de una Fig. 8. Proceso de reconstrucción. Como este proceso depende de las imágenes y de la calibración realizada, los errores que se pueden presentar al intentar reconstruir son: estimación no lineal. Al incorporar los valores de distorsión, ya no es posible usar la DLT, por lo que se debe usar mínimos cuadrados. Errores debido a la digitalización: “Esto significa que, por el hecho de discretizar las imágenes tomadas por las cámaras con un tamaño de píxel determinado, también se está discretizando la imagen tridimensional en celdas de tamaño finito en las tres direcciones del espacio”. [12] Corrección de la imagen Se corrige la imagen con un algoritmo matemático el cual usa los valores de distorsión radial y tangencial. Errores debido a los resultados de la calibración: Como el espacio del robot es mayor al tablero de calibración, entre mas se aleje el punto a reconstruir de los puntos originales usados en la calibración (tablero), mas error se tiene [13] Errores de correspondencia de los puntos de las imágenes: También influye en el error la ubicación de las cámaras, por ejemplo en López [12] se muestra que la disparidad, la cual es función tanto de la distancia entre ellas, como la distancia de la escena, influye en el error del cálculo de las posiciones x,y,z en cámaras paralelas. Fig. 7. Sistema coordenado del mundo definido para la calibración con esta técnica. 79 XV SIMPOSIO DE TRATAMIENTO DE SEÑALES, IMÁGENES Y VISIÓN ARTIFICIAL – STSIVA 2010 Cabe anotar que los resultados con la técnica de Heikkilä se obtuvieron primero armando la matriz manualmente y luego corriendo un “script” del toolbox de Bouget, esto con el fin de poder comparar los resultados de ambas técnicas. A partir de la calibración se tiene las matrices de rotación y translación R y T , y de las imágenes los puntos p R ( x R , y R ) y p L ( x L , y L ) , cada uno corresponde con el (xb, yb) de la ecuación 2. Con los cuales se realiza el cálculo de la posición en el mundo tridimensional utilizando las ecuaciones 5 y 6 [14], en las cuales primero se calcula el valor de la coordenada Z derecha y luego el punto 3D: p L p R T u p R u T 2 2 2 p L p R u p R Parámetro 2 ZR , (5) X R xR Z R PR YR y R Z R Z R Z R técnica coplanar 2231.96 2028.24 378.42 327.72 0.07995 -1.24219 0.01331 0.00254 0.00000 Dif. Unidad 68.02 49.08 -2.72 -117.7 -5.2 33.5 pixeles pixeles mm Sin unidad Tabla 2. Resultados de la técnica no coplanar y comparación. (6) Donde u RpL y PR es el punto en el espacio tridimensional visto desde la cámara derecha. V. técnica no coplanar 2299.98 2077.32 375.7 210.0 -5.10275 32.25218 0.00298 0.01356 0.00000 B. Aplicación de la calibración y reconstrucción - medida de las dimensiones de un objeto. Se utilizo como objeto de prueba una caja a la cual se le midieron sus dimensiones a partir de obtener los valores 3D de las esquinas 1, 2, 3 y 4 (reconstrucción) y el cálculo de la distancia entre ellos ( figura 9 ) así: PRUEBAS Y RESULTADOS A. Sistema de visión estéreo utilizado. Para las pruebas de calibración y reconstrucción, se utilizaron dos cámaras Axis 214 PTZ, a una resolución de 704 x 480 pixeles, instaladas a 10 cm entre ellas y a 2.5 metros de la escena ( brazo manipulador ), estas cámaras tienen un zoom variable entre 1 y 9999 pasos. Lado A (valor real 200 mm ): distancia entre puntos 1 y 2 Lado B (valor real 195 mm ): distancia entre puntos 2 y 4 Lado C (valor real 50 mm ) : distancia entre puntos 2 y 3 Estas distancias se calcularon usando las ecuaciones 5 y 6, y sus valores se muestran en la tabla 3, medidas mediante las dos cámaras y con los parámetros presentados en la tabla 1. A.1 Resultados usando el objetivo coplanar Se utilizo el “toolbox” desarrollado por Bouget [16], para cada cámara se ejecuto una calibración con 14 posiciones distintas del objetivo coplanar (tablero) y luego se ejecuto la función stereo_gui que fusiona los resultados independientes de cada cámara (sección III.D). Para un valor de zoom de 3000 (pasos) se muestran algunos de los parámetros intrínsecos en la tabla 1. Parámetro , valor 1419.266 1285.511 412.98 255.37 -0.14716 1.41537 0.00219 0.00821 0.00000 Unidad pixeles pixeles mm Sin unidad Fig. 9 Imagen de la caja para la medida de distancias en la reconstrucción. Distancia Real (mm) Tabla 1. Resultados calibración técnica coplanar ( zoom = 3000 pasos). A.2 Resultados objeto no coplanar ( Heikkilä ) y Comparación con el objeto coplanar. En esta técnica es necesario primero editar manualmente la matriz que contiene la información de las coordenadas tridimensionales y los puntos de la imagen, aunque esto se debe hacer para una única imagen o posición del patrón 3D. A= 200 B= 195 C= 50 Valor calculado con la reconstrucción estéreo (mm) 198.52 195.30 53.24 error (mm) 1.48 -0.30 3.24 Tabla 3. Resultados reconstrucción del objeto de prueba de la figura 9. Aunque al observar los errores en las medidas (tabla 3) y compararlos con [17] estos son mayores, hay que tener en cuenta que aquí se manejo un mayor volumen de escena para Para esto se hicieron varias pruebas con algunos valores de zoom, pero solo se obtuvo algún resultado para un zoom de 5000 pasos, el cual se muestra en la tabla 2. 80 XV SIMPOSIO DE TRATAMIENTO DE SEÑALES, IMÁGENES Y VISIÓN ARTIFICIAL – STSIVA 2010 [4] Cyganek B. y Siebert J. P., An Introduction to 3D Computer Vision Techniques and Algorithms. Chichester, West SussexJohn. Wiley & Sons, Ltd., 2009. [5] Martínez L.A., Control de robots manipuladores utilizando retroalimentación visual. Ensenada, Baja California, 1994. [6] Vega Pérez J. M., Reconstrucción de escenas en 3D. Madrid., 2008. [7] González J.I. ,Estudio experimental de métodos de calibración y autocalibración de cámaras, 2003. [8] Tapper M., McKerrow P. J. y Abrantes J., Problems Encountered in the implmentation of Tsais´s Algorithm for Camera Calibration. North Wollongong, 2002. [9] Tsai R. Y. A Versatile Camera Calibration Techniaue for High-Accuracy 3D Machine Vision Metrology Using Off-the-shelf TV Cameras and Lenses. IEEE Journal of Robotics and Automation, VOL. RA-3, NO. 4, August 1987. [10] Heikkilä J. y Silvén O., A Four-step Camera Calibration Procedure with Implicit Image Correction. Oulu, 1987. [11] Abraham S. y Haua T. ,Towards Autonomous High Precision Calibration of Digital Cameras, Bonn, Germany, 1997. [12] Lopez, Jose M.,Valles, Antonio y otros, Conceptos y Técnicas de Estereovisión por Computador, Inteligencia Artificial, Revista Iberoamericana de Inteligencia Artificial. , p. 39, Vol. 9. No.27,2005 [13] Zhang, Zhengyou, Faugeras , Olivier, Deriche, Rachid, Calibrating A Binocular Stereo Through Projective Reconstruction Using Both A Calibration Object And The Environment ,Proceedings of Europe-china workshop on geometrical modelling and invariants for computer vision, China, april 1995. [14] Bouget, Jean Yves, Stereo Triangulation in Matlab, Dept. of Electrical Engineering California Institute of Technology , 1998. [15] Heikkilä, Janne , Accurate camera calibration and feature based 3-D reconstruction from monocular image sequences, PhD Tesis, University of Oulu, 1997. [16] Bouget, Jean Yves, toolbox matlab, http://www.vision.caltech.edu/bouguetj/calib_doc/, consultado el 18/junio/2010. [17] Valera O., Benjamín y José Sánchez V., SISTEMA PARA LA MEDICIÓN DIMENSIONAL 3D POR VISIÓN, simposio de instrumentación, mejico, 2002. [18] Cuevas J., Erik Valdemar, Intelligent Robotic Vision, Freien Universität Berlin, cap. 10, p. 228-230, 2006. medir y además se espera que el controlador del brazo robótico corrija estas imprecisiones en la medición estéreo. C. Resultados zoom variable técnica coplanar. Se deseaba conocer el efecto del zoom en los resultados de la reconstrucción, así que se realizaron múltiples calibraciones para valores de zoom desde 500 a 3500 pasos con cambios de 500 pasos, es de aclarar que el zoom en este rango es óptico y no digital, igualmente se tomaron manualmente los puntos de las dos imágenes (cámara 1, cámara 2), para esta prueba se usaron 6 posiciones del patrón por cámara. Fig. 10 Valores del error de cada distancia al variar el zoom. VI. CONCLUSIONES Jaiber Evelio Cardona Aristizábal, Colombia 17 de febrero de 1976, Ingeniero Electrónico de la Universidad del Valle, Magister en Automática de la misma Universidad, , Docente de Ingeniería Electrónica de la Universidad del Quindío desde 2005, Áreas de interés: Automatización industrial, control de procesos, inteligencia artificial y procesamiento de imágenes. La variación del zoom no incide demasiado en los resultados de la reconstrucción, aunque un zoom muy pequeño (espacio amplio) daría valores menos precisos en la detección de los objetos en la imagen y un zoom grande (espacio reducido) cerraría el espacio visible de movilidad del robot. El “toolbox” para Matlab desarrollado por Bouget es simple de utilizar, ya que la extracción de puntos característicos se realiza de manera automática y no manualmente como en el caso de Heikkilä, aunque este último solo requiere una sola posición del objetivo patrón y por ende tomar solo 2 imágenes. Luís Miguel Capacho Valbuena, Colombia 6 de mayo de 1982, Ingeniero Electrónico de la Universidad del Quindío, Docente de Ingeniería Electrónica de la Universidad del Quindío desde 2008, Áreas de interés: Sistemas embebidos, Programación y procesamiento de señales e imágenes. Como la idea es luego usar la medición por visión estéreo para hacer control, se tiene la limitante de que el tamaño de memoria de las imágenes no pueden ser muy grande por cuestiones de tiempo de muestreo, lo cual implica trabajar a baja resolución y por ende tener errores altos en las medidas, por lo cual la idea es buscar un punto medio entre tamaño de la imagen y error obtenido. José Gabriel Hoyos Gutiérrez, Colombia 26 de julio de 1967, Ingeniero Electricista Universidad Nacional sede Manizales, Especialista en Automatización Industrial Universidad del Valle, Maestría Ingeniería Eléctrica, UTP, Estudiante doctorado en Automática Universidad Nacional, Docente Tecnología Electrónica Universidad del Quindío desde 1994, Áreas de interés: Automatización industrial, procesamiento de imágenes. REFERENCIAS Luis Felipe Orozco Cortés miembro IEEE desde junio de 2010, nació en Armenia, Quindío, el 3 de julio de 1988, se encuentra terminando estudios de Ing. Electrónica en la Universidad del Quindío. Ha trabajado en la empresa Cine Colombia, en el instituto interdisciplinario de las Ciencias y como asistente a la investigación en el programa donde estudia. Áreas de interés la electro-medicina, prótesis electrónicas, la ingeniería de sonido y la ciencia de los materiales. [1] Pomares J. y Torres F., Robots y sistemas sensoriales. Editorial Pearson. 2002. [2] Gardel Vicente A. Calibración de cámaras con objetivos de distancia focal fija. Alcalá de Henares, Madrid, 2004. [3] Moreno Armendariz, M. A. Visión artificial estero con aplicación al control de un brazo de robot. México, D.F., 2003. 81