Download reconocimiento del lenguaje de gestos manuales alfabéticos

Document related concepts

Segmentación (procesamiento de imágenes) wikipedia , lookup

Deep Dream wikipedia , lookup

Redes neuronales convolucionales wikipedia , lookup

Red neuronal artificial wikipedia , lookup

Reconocimiento de señales de tráfico wikipedia , lookup

Transcript
RECONOCIMIENTO DEL LENGUAJE DE GESTOS MANUALES
ALFABÉTICOS MEDIANTE VISIÓN ARTIFICIAL
Beatriz Nathalia Serrato Panqueba, E. Ingenieria en Control
nathaliaserrato@yahoo.com
Frank Nixon Giraldo Ramos, Ingeniero en Control
frank_correo@hotmail.com
UNIVERSIDAD DISTRITAL FRANCISCO JOSE DE CALDAS, BOGOTA 2009
RESUMEN: La forma de comunicación más
comúnmente empleada por los seres humanos es la
expresión oral, que se efectúa mediante la transmisión y
recepción de mensajes en forma hablada. En su forma
básica, este método de comunicación es acústico, por
esta razón, cuando se carece de este medio, se hace
necesario buscar alternativas que permitan interactuar
con otras personas a través de sistemas o códigos de
comunicación opcionales. Con el fin de brindar una
solución a este problema, se diseñó e implementó un
sistema con la capacidad de interpretar los signos
alfabéticos manuales haciendo uso de herramientas
como visión artificial y redes neuronales artificiales.
PALABRAS CLAVE: Digital image processing, ART
neural networks, Image classification, Image shape
analysis
1 INTRODUCCIÓN
Esta propuesta incluye las descripciones completas
del controlador PID digital a utilizar en el DSP, es una
guía que se refuerza con la respectiva teoría en
controladores
PID,
como
también
describirá
detalladamente las características de nuestra planta y la
forma como identificamos e implementamos un
controlador mediante la herramienta de matlab.
2 OBJETIVOS.
3 DESARROLLO REALIZADO.
3.1 DIPOSITIVOS DE CAPTURA DE IMÁGENES.
Para el desarrollo de este proyecto se empleó una
cámara digital tipo Web-Cam con una resolución de 640
por 480 pixeles, lo suficiente para tener imágenes
digitales con una calidad representativa de la escena
original, baja carga computacional en el procesamiento y
con una velocidad de captura de 30 fps (frames por
segundo). El objetivo de trabajar con una Web-Cam fue
brindar versatilidad al sistema desarrollado, permitiendo
que él mismo, opere con computadores de escritorio,
además de los bajos costos en la adquisición de este
tipo de cámaras y la fácil disponibilidad de las mismas
para los usuarios.
3.2 ADQUISICION DE IMÁGENES PATRONES
Las imágenes patrones se adquirieron en condiciones
de ambiente controlado específicas, se realizaron
capturas de las gesturas ejecutadas por la mano
contrastándola contra un fondo de tono el alto grado
oscuro. También se empleó un guante blanco sobre la
mano con el fin de minimizar el ruido y obtener imágenes
patrones estándar con pocas variaciones de color y brillo
entre fotografías.
Las imágenes poseen la misma resolución de la red
neuronal de 640 X 480. Inicialmente se captura la
imagen a color, posteriormente fue necesario
transformarlas a escala de grises y luego realizar la
segmentación para extraer la información necesaria para
el funcionamiento de la red.
Una forma de comunicación, que no requiere el
empleo del lenguaje hablado, se puede efectuar usando
las manos. Con las cuales se puede simbolizar el
alfabeto completo ejecutando símbolos y movimientos
estándar de comunicación no audible a partir de
gesturas visuales.
Con el fin de reconocer estas mismas, mediante la
incorporación de técnicas de programación basadas en
inteligencia y visión artificial, se implementó un sistema
que capta el símbolo que está representando la mano,
para ser clasificado como una letra del alfabeto ante el
usuario que desconoce el código de gesturas.
Fig 1. Escala de grises y delimitación de bordes de la
letra G
3.3 CAPTURA
IMÁGENES
Y
ALMACENAMIENTO
DE
El tratamiento de las imágenes se realizó en Visual
Basic®, almacenándolas como archivos en formato de
mapa de bits BMP, empleando el control OCX ezVidCap
y se visualizaron en un cuadro Picture del mismo
programa. Posteriormente se inician los procesos de
lectura de imagen pixel a pixel; cada uno de estos está
conformado por tres componentes RGB (red, green,
blue). Este no es el único modelo de la conformación del
color, ya que existen otros como son el modelo YIQ y el
modelo HIS. En el modelo RGB existen tres bandas
espectrales mientras que en el contenido del color, que
se está representando en las matrices I, Q o H, S
respectivamente, la diferencia radica en que las matrices
I de ambos modelos, en YIQ contiene información de
color y en HSI es la imagen de intensidad, por lo que
hay que tener precaución de no confundirlas[1].
Para realizar el procesamiento anteriormente
descrito se llevaron a cabo tres procedimientos:
Operación banda a banda y obtención del resultado
conjunto de las tres bandas de color como una nueva
imagen también de color; transformar la imagen RGB a
uno de los modelos YIQ o HIS, realizar las operaciones
sobre la imagen de intensidad Y o I y realizar,
posteriormente la transformación YIQ o HIS a RGB
utilizando la nueva imagen de intensidad resultante de la
operación realizada y las componentes IQ o HS de la
imagen original para obtener el resultado final. En este
caso la imagen final es una imagen de color también; y
por ultimo transformar la imagen RGB al modelo YIQ o
HIS, realizar las operaciones sobre la imagen de
intensidad Y o I, respectivamente sin volver al color. El
resultado final es una imagen de grises, es decir, con
una sola banda.
Como
primera
medida,
utilizando
los
procedimientos
anteriormente descritos,
en
el
procesamiento de la imagen se redujo la información
contenida en las tres componentes RGB a un valor único
entre 0 a 255.
La ecuación matemática que permite transformar
una imagen a color a una imagen en escala de grises
es:
(70 * cmpR + 150 *cmpG + 29 * cmpB)/255
Donde cmpR, cmpG y cmpB representan los
valores de un pixel en sus componentes de color rojo,
verde y azul en orden respectivo.
El resultado de aplicar esta ecuación sobre el valor
de un pixel a color genera como resultado un nuevo
valor para el pixel en el rango de 0 a 255.
Fig 2. Transformación de imagen patrón a escala
de grises.
3.4 IMPLEMENTACION DE ALGORITMOS PARA
REALIZAR EXTRACCION DE BORDES
Se implementaron 4 algoritmos para llevar a cabo
este procedimiento que fueron [3]:
•
•
•
•
Operador de Prewitt
Operador de Roberts
Operador Frei-Chen
Operador de Sobel
Y los resultados obtenidos fueron los siguientes:
Fig 3. Imagen patron
a
b
c
d
Fig 4. Resultados de la implementacion de los
algoritmos para realizar extraccion de bordes. a)Prewitt,
b) Roberts, c) Frei-Chen, d) Sobel
A partir de la implementación de cada operador y
observando la respuesta de los mismos, se determino
cual de los cuatro operadores, representan del modo
más claro los bordes correspondientes a la imagen
original.
Como conclusión se obtuvo que el operador de
Sobel es el que mejor funciona pues el resultado de la
aplicación permite la extracción de bordes de forma clara
y con mejor calidad en la imagen comparado con el resto
de operadores.
3.5 IMPLEMENTACION DE RED NEURONAL
La red arquitectura de red neuronal elegida para
realizar el procedimiento de reconocimiento de
imágenes fue la ART (Adaptive Resonance Theory). Una
vez realizado el procesamiento previo de imágenes
(transformaciones a escala de grises, eliminación de
ruido y extracción de contornos) se hizo elección de tres
imágenes fácilmente diferenciables para realizar el
proceso de entrenamiento y procesamiento de la red
neuronal [2].
a
b
c
Fig 5. Imágenes utilizadas para entRenar la red
neuronal, a) letra B, b) letra L, c) letra M
El primer paso consistió en determinar el número
de neuronas y capas para la configuración de la red
neuronal. De este modo se trabajo con tres neuronas de
salida, cada una para el reconocimiento de las imágenes
patrones, y una capa de entrada de 307200 neuronas.
Como las imágenes a trabajar tienen una
resolución de 640 X 480 pixeles es necesario dedicar
una neurona para cada uno de ellos.
La función de la red neuronal es realizar la
sumatoria de productos entre cada neurona con su
respectivo peso para cada una de las neuronas de
salida. El resultado de este cálculo determina cual de las
neuronas es la ganadora, es decir la de mayor valor.
Fig 6. Software en ejecucion
Las condiciones de operación del software exigen
que la gestura deba realizarse del modo más parecido a
las imágenes patrones de la red, es por esto, que antes
de operar el software se debe tener un conocimiento
previo de la representación de cada letra y también que
la gestura se debe realizar lo más centrado posible.
Teniendo en cuenta estas recomendaciones la
operación es óptima.
3.6 ENTRENAMIENTO DE LA RED NEURONAL
El entrenamiento de la red neuronal se realizó en el
programa MATLAB 7.0; se implementó un algoritmo para
realizar el cálculo de los valores de los pesos para las
conexiones de las neuronas. Una vez calculados dichos
valores se generó un archivo plano en EXCEL de los
mismos para que el algoritmo de la red neuronal los
pueda leer en cualquier momento con tan solo
especificar la ubicación de este archivo.
En el proceso de entrenamiento de la red neuronal
se tuvo en cuenta tres imágenes diferenciables
claramente entre sí, estas se tomaron como patrón para
el cálculo de los pesos de w de la red.
Como el número de filas de la matriz es 307200, en
EXCEL se emplearon tres columnas de 102400 filas por
cada vector para represnetar una sola, es decir, el vector
de pesos de la Letra B esta comprendido entre las
columnas de EXCEL “A”,”B” y “C”, los pesos de la Letra
L estan entre las columnas “D”,”E” y “F” y los pesos de la
Letra M estan entre “G”, “H” e “I”, para cada caso, las
tres columnas en realidad son una sola para el algoritmo
de la red neuronal.
4 CONCLUSIONES:
.
Durante la elaboración del
sistema de
reconocimiento del lenguaje de gestos manuales
alfabéticos mediante visión artificial, se desarrollaron
diferentes etapas que permitieron lograr el objetivo final
del sistema (reconocimiento de signos alfabéticos); cada
una de las etapas, exigió una documentación y estudio
previó para realizar implementaciones óptimas que
cumplieran con las exigencias propuestas.
En esencia el desarrollo se separo en tres partes:
a) captura y acondicionamiento de imágenes, en donde
se implementaron algoritmos para hacer captura desde
una Web-Cam y un posterior procesamiento de las
imágenes adquiridas, dando como resultado una imagen
óptima para ser entregada a la red neuronal. b)
Procesamiento de imágenes mediante una red neuronal.
Para esta etapa se hizo selección del tipo de
arquitectura de red neuronal a ser implementada, con
base en la aplicación deseada y en aplicaciones
similares, se tomo la decisión de trabajar con la
arquitectura de redes neuronales tipo ART (Adaptive
Resonance Theory). c) Por último se realizó el
entrenamiento de la red neuronal, proceso en el cual se
desarrollo un algoritmo en MATLAB designado a realizar
esta
labor.
Se
escogieron
tres
imágenes
(correspondientes a los signos manuales para las letras
B, L y M) claramente diferenciables entre si, y se genero
la matriz de pesos para la operación de la red.
En el procesamiento previo de la imagen antes de
ser entregada a la red neuronal para realizar el
reconocimiento, se evidencia la importancia de aplicar
operadores y transformaciones básicas para entregar
una imagen con la información más relevante en
óptimas condiciones, es decir, realizar la eliminación de
ruido y elementos ajenos a la imagen. El termino
información relevante hace referencia a los contornos de
la imagen extraídos. Existen diversos tipos de
operadores (filtros) que permiten realizar la labor de
procesamiento previo, sin embargo, es necesario hacer
elección de los mismos de acuerdo al tipo de imágenes
manipuladas así como las condiciones en que se
encuentre la misma. Para realizar una elección oportuna
de transformaciones a realizar, se implemento en
software cada una de las descritas a lo largo de este
documento y mediante las pruebas se definió cual era la
más apropiada.
Al igual que en la elección de transformaciones
aplicadas a las imágenes en el procesamiento previo, al
realizar la elección de topología de red neuronal a
implementar, fue necesario investigar en aplicaciones
similares (a través de la web) cuales eran las de mayor
aplicación y por tanto las que mejor se ajustaran al
desarrollo elaborado. ART fue una respuesta oportuna,
pues incorpora además de las redes convencionales un
factor adicional llamado flexibilidad, definido como la
capacidad de adquirir nuevos patrones (aprender
nuevas cosas), sin que sean modificados u olvidados
conocimientos anteriores.
La implementación de algoritmos para la red
neuronal ART es de fácil programación y un tiempo de
ejecución reducido. Los resultados fueron buenos
pruebas introduciendo ruido a las imágenes, sin
embargo el algoritmo fue capaz de discernir y dar una
respuesta acertada.
Por otra parte, el entrenamiento de la red juega un
papel de vital importancia, pues es en esta etapa donde
la red adquiere el conocimiento necesario para realizar
el reconocimiento eficaz de las imágenes. Se hace
necesario trabajar con imágenes en óptimas condiciones
para calcular matrices de pesos limpias para ser
manipuladas por la red neuronal.
Una vez realizado el sistema, se puede correr la
aplicación para la cual fue propuesta, sin embargo, lo
interesante del desarrollo no es la aplicación como tal,
sino la red y procesamiento que corre debajo, de este
modo, la aplicación puede diferir para el mismo
algoritmo, se puede realizar reconocimiento de rostros,
reconocimiento de formas, huellas dactilares y demás
aplicaciones similares con pequeñas modificaciones en
los algoritmos y con un nuevo proceso de
entrenamiento.
Los sistemas de visión artificial brindan alternativas
para la solución práctica de problemas comunes, su uso
es cada vez más frecuente y las aplicaciones son
innumerables. Es importante migrar a aplicaciones de
este tipo para trabajar con sistemas modernos y de gran
utilidad en diversos campos, que van desde la ingeniería
hasta la economía y las finanzas.
6 REFERENCIAS
[1]. Royman López Beltrán, Edgar Sotter Solano, “Operación
automática de control de calidad utilizando un sistema de
visión”
[2]. Bonifacio Martin del Brio, Alfredo Sanz Molina, “Redes
neuronales y sistemas difusos”, Alfaomega, 2002¨.
[3]. Mo Dai, Pierre Baylou, “An efficient algorithm for
computation of shape moments from chain codes” ,
Univerisité de Bordeaux-France