Download Identificación de proteínas en imágenes de geles 2D

Document related concepts
no text concepts found
Transcript
Identificación de proteínas en imágenes de geles
2D utilizando DoG y algoritmos genéticos
Carlos Fernández-Lozano1, José Antonio Seoane2, Alberto Alvarellos3, Julián Dorado4
Resumen-- En este artículo se presenta una técnica de análisis
de imagen para la detección de proteínas en imágenes de geles
2D, muy utilizadas en proteómica. Esta técnica se basa en
combinar un operador de segunda derivada DoG con un
algoritmo genético para el ajuste de sus parámetros. Esta
técnica se ha probado comparando diferentes funciones de
fitness en el algoritmo genético para reducir el número de
falsos positivos detectados. Los resultados observados
muestran que el algoritmo genético es capaz de optimizar los
parámetros del operador DoG para la detección de proteínas
en imágenes de electroforesis bidimensional, pero es necesario
ajustar la función de fitness para reducir la detección de
falsos positivos.
Palabras
clave—diferencia de gaussianas,
computador, computación evolutiva
I.
visión
por
INTRODUCCIÓN
Muchas enfermedades se manifiestan a nivel
proteico, de modo que la información genética por si
sola es insuficiente para predecir los perfiles de las
proteínas de una muestra (tejido, célula o fluido). La
manifestación de muchas de las patologías más
comunes se produce a nivel proteómico, de manera
que haciendo un estudio de las diferencias de
expresión entre el mapa de proteínas de un conjunto
de ejemplos sanos y el mapa de proteínas de un
conjunto de ejemplos enfermo, se pueden realizar
estudios de asociación en busca de relaciones
estadísticas entre un determinado patrón de
expresión proteico de ejemplo y uno con una
enfermedad particular. Existen múltiples técnicas
para separar proteínas de una muestra, entre las que
se encuentran la espectrometría de masas y las
imágenes de electroforesis bidimensional.
La electroforesis bidimensional permite la
separación de una proteína particular en una mezcla
proteica compleja. La separación se hace en dos
etapas, en la primera las proteínas son separadas en
función de su carga a lo largo del gel con gradiente
de pH, alcanzando un valor de pH igual a su punto
isoeléctrico. En la segunda etapa las proteínas son
separadas entre sí en función de su masa molecular.
El flujo de trabajo habitual en un análisis de imagen
1,2,3,4
Departamento de Tecnologías de la información y las
comunicaciones. Facultad Informática. Universidade da Coruña.
Campus de Elviña S/N 15071. A Coruña.
1
E-mail: carlos.fernandez@udc.es
2
E-mail: jseoane@udc.es
3
E-mail: alberto.alvarellos@udc.es
4
E-mail: julian@udc.es
de electroforesis bidimensional comienza con la
detección de proteínas en la imagen a estudio,
seguido de la fase de emparejamiento de proteínas
para terminar con el análisis estadístico de las
diferencias de expresión entre ambas proteínas. A
partir de este punto, es posible realizar estudios de
asociación que traten de establecer las relaciones
estadísticas entre la expresión proteómica de un
subconjunto de una población y un fenotipo [1].
Este trabajo se centra en la optimización de la
primera fase del flujo de trabajo del análisis de
imágenes de electroforesis bidimensional que es la
detección de las proteínas. Muchos de los métodos
actuales revisados, proponen algoritmos simples
para la detección de proteínas, pero la sencillez de
estos métodos provoca que se produzcan un elevado
número de falsos positivos [2]. El descarte de estos
falsos positivos por parte de los clínicos que
estudian las imágenes, es una labor muy tediosa [3]
y que aumenta de manera innecesaria el coste
computacional del proceso, debido principalmente a
que estas imágenes pueden tener cientos de
proteínas [4]. Existen una variedad de paquetes de
software que permiten realizar la detección de los
spots que representan las proteínas en las imágenes a
estudio [5]. Muchos de estos paquetes software
implementan métodos de segmentación de imagen
basados en algoritmos de detección de bordes con
suavizado de la imagen u operadores morfológicos
[6], algoritmo watershed [7] o algoritmos
geométricos [8]. De los métodos revisados el que
introduce un menor número de falsos positivos está
basado en la detección de spots en las imágenes de
electroforesis haciendo uso de información de
superficie en la imagen y no en valores de intensidad
de sus píxeles [9]. Se utilizará este método para
validar el trabajo propuesto, ya que los clínicos, para
evitar la detección de falsos positivos, comienzan a
estudiar las imágenes siendo muy restrictivos con
los parámetros de volumen e intensidad a partir de
los cuales se considera un spot como proteína en la
imagen. El método que se propone en este trabajo
pretende ser lo más conservador posible en cuanto a
la detección de proteínas, para además incrementar
su robustez y reducir la complejidad computacional.
El método hace uso de un algoritmo genético
para la optimización de los parámetros de una
técnica de detección de proteínas basada en el
operador de segunda derivada diferencia de
gaussianas (DoG) y su viabilidad para la detección
de proteínas en una imagen de electroforesis
bidimensional. Es una técnica utilizada para la
detección de bordes, caracterizados por un gran
cambio en el nivel de gris entre un lado y el otro de
los mismos, mediante el uso de gradientes o
derivadas que cuantifican estos cambios.
En este tipo de imágenes se van a encontrar
regiones de interés de diferentes formas, tamaños e
intensidades que se corresponden con las proteínas
de la muestra. Uno de los mayores inconvenientes
de trabajar con imágenes en escala de grises es que
no disponen de información de color. El color se
considera un componente esencial en la
discriminación entre objetos en una imagen. Existen
trabajos en los que se intenta extender un método de
detección en blanco y negro, al dominio del color,
donde los autores exploran la correlación existente
entre planos de color [10].
II.
𝑘𝑒𝑟𝑛𝑒𝑙 = !
!!!
!𝑒
Se trata de una técnica de visión artificial para la
detección de bordes que hace uso de un filtro basado
en el operador de la laplaciana (LoG), de segunda
derivada. Los métodos de segunda derivada de una
función buscan los puntos de cruce por cero de la
función, indicando la presencia de un máximo. Estos
métodos son muy susceptibles al ruido, por lo que
requieren un filtrado. La ganancia que se produce en
el dominio de la frecuencia incrementa
cuadráticamente con la frecuencia, causando que los
componentes de ruido de alta frecuencia se
amplifiquen significativamente. Es por esto que no
es utilizado directamente para la detección de
bordes.
Se utiliza un filtro gaussiano para suavizar la
imagen primero, y posteriormente se realzan los
bordes usando un operador laplaciano. Este operador
es simétrico, por lo que los ejes se encuentran en
todas las direcciones, cosa que no pasa con los
operadores de primera derivada, que son
direccionales. El operador LoG es isotrópico, ya que
es un operador que se aplica independientemente de
la dirección de la discontinuidad en la imagen, y
tiene valores positivos y negativos.
El laplaciano de una imagen destaca regiones de
una imagen en las que se producen cambios notables
de intensidad, es por ello que se usa en la detección
de bordes, siendo L(x,y) el laplaciano de una imagen
e I(x,y) los valores de intensidad de cada pixel de la
imagen, se define el laplaciano como
𝜕!𝐼 𝜕!𝐼
+
(1).
𝜕𝑥 ! 𝜕𝑦 !
Para calcular el laplaciano de una imagen se
procede de la siguiente manera
!
!! !!!
!!!
(2)
• Después se calculan las derivadas sobre la
imagen suavizada, de forma que
𝐿𝑜𝐺 = −
! ! !! ! !!! !
!!
𝑒
!
!! !!!
!!!
(3).
El cálculo del LoG tiene un alto coste
computacional, por lo que se puede aproximar su
valor con el operador DoG [11], dicho operador se
calcula como la diferencia de dos gaussianas con
diferentes desviaciones estándar,
MÉTODOS
A. Diferencia de Gaussianas
𝐿 𝑥, 𝑦 =
• Primero se suaviza la imagen con la convolución
de un kernel gaussiano 2-D por la imagen. Una
función gaussiana con dos dimensiones y con
igual varianza en las dos dimensiones, se define
como
𝐷𝑜𝐺 = !
!
!! !!
𝑒
!
!! !!!
!!!
!
−
!
!!
𝑒
!
!! !!!
!!!
!
(4).
Se ha utilizado un método de detección de
bordes para la detección de proteínas en imágenes
de electroforesis bidimensional debido a que el
sistema visual del ser humano es especialmente
sensible a los bordes y las diferencias de gradientes.
Hay estudios que indican que la detección de bordes
juega un rol muy importante en la detección de
objetos y en el análisis de la escena que se está
visualizando [11] y [12].
En la naturaleza, los bordes así como otras
estructuras de imagen, son multiescalados. Desde
los primeros trabajos que usaban un suavizado
Gaussiano multiescaladado [13], esta técnica ha
crecido paulatinamente y evolucionado hacia un
campo por sí misma. Esta teoría afirma que bajo un
conjunto de condiciones poco severas, la función
Gaussiana es la única que genera señales
multiescalares. Marr y Hildreth [11] y [12]
sugirieron que los fenómenos físicos deben ser
estudiados a través de múltiples canales con
diferentes tamaños espaciales o escalas. De esta
manera, un cambio de intensidad debido a un
fenómeno físico se manifiesta con la presencia de
segmentos que implican un cruce por cero de la
señal sobre un cierto número de escalas. Estos
segmentos tienen la misma posición y orientación en
cada canal estudiado. Un cambio significativo de
intensidad indica la presencia de un borde físico, y
es reconocido como un único fenómeno físico. El
modelo propuesto por Marr y Hildreth [11] lleva al
desarrollo de sistemas de detección de bordes
basados en un análisis multiescalar realizado con
filtros de diferentes escalas.
Witkin introdujo el concepto de escala espacial
[13] en su propuesta de un método para obtener
𝑟!"#$"% = 3𝜎
información de una imagen a través de un conjunto
continuo de escalas. El espacio escalar ψ(x,y;σ) de
una imagen f(x,y) se define como todos los cruces
por cero de su función LoG.
ψ 𝑥, 𝑦; 𝜎
=
y el tamaño del kernel como
𝑡𝑎𝑚𝑎ñ𝑜!"#$"% = 2𝑟!"#$"% .
𝑥, 𝑦; 𝜎 |𝜁 𝑥, 𝑦; 𝜎 = 0, (5)
𝜕𝜁 !
𝜕𝜁 !
+
≠ 0, 𝑠𝑖𝑒𝑛𝑑𝑜 𝜎 > 0,
𝜕𝑥
𝜕𝑦
(6)
donde
(9)
Al tamaño del kernel, para asegurarse de que el
centro está bien definido en el caso impar, se le
suma uno. De modo que el tamaño del kernel se
calcula para cada nueva escala según la fórmula
𝑡𝑎𝑚𝑎ñ𝑜!"#$"% = 3𝜎. 2 + 1
𝜁 𝑥, 𝑦; 𝜎 = ∇! 𝑔 𝑥, 𝑦; 𝜎 ∗ 𝑓 𝑥, 𝑦 . (7)
El valor que puede tomar σ varía desde 0 hasta
∞ por lo que el conjunto ψ{(x,y;σ)} forma
superficies continuas en el espacio escalar (x,y;σ).
Se ha comprobado que en el espacio escalar casi
todas las imágenes filtradas por un gaussiana
determinan la señal de manera única con una
constante espacial. Esta afirmación es importante en
tanto en cuanto no se produce pérdida de
información al trabajar sobre un espacio escalar. El
incremento dentro de ciertos límites de σ no crea
nuevos cruces por cero y es el único filtro que se
comporta de esta manera [14]. El coste
computacional
al
trabajar
con
señales
bidimensionales es más elevado que al trabajar con
señales unidimensionales, debido a que no existe
una región topológica simple de cruces por cero
asociada, sino que se debe realizar el seguimiento de
una superficie de cruces por cero entre diferentes
escalas.
Basándose en lo expuesto anteriormente, el
método propuesto en este trabajo opera de la
siguiente manera:
• Se establecen el número de gaussianas que se
utilizarán para filtrar la imagen. Esto es, el
número de escalas
• Se establece el valor de σ de la primera
gaussiana
• Se estable el valor de escalado de cada nueva
gaussiana. Se aplicará sobre el valor σ de la
anterior, resultado en un nuevo valor mayor. Al
convolucionar un kernel con σ de pequeño
valor, se consigue destacar todos los bordes de
la imagen, se trabaja a escala fina y es más
sensible al ruido. Al ir incrementando el valor
de σ en el espacio escalar la señal se va
suavizando y termina por destacar el borde más
significativo, se suprimen los detalles finos.
• Se modifica el tamaño del kernel para cada
nueva iteración del operador. Teniendo en
cuenta que en una distribución gaussiana y
siguiendo la regla de Chebyshev, que dice que
el 99,7% de los resultados se encuentran a 3
desviaciones estándar de la media, se calcula el
radio como
(8)
•
•
•
•
(10)
Se busca para cada pixel de la imagen el valor
máximo entre todas las escalas que surgen de
aplicar el operador sobre la imagen.
Se establece el valor umbral que determinará,
en función del valor máximo encontrado, si se
considera al pixel susceptible de pertenecer a
una proteína en la imagen o no.
Se intenta buscar una región común de interés
entre los pixeles detectados. Dicha región debe
ser conectada y corresponde a una proteína.
Se calcula el centroide de la región conectada y
se establece como el centro de la proteína
detectada
B. Algoritmos genéticos
Como ya es conocido los algoritmos genéticos
son métodos adaptativos que se usan generalmente
para resolución de problemas de búsqueda y
optimización de parámetros, están basados en la
evolución y en el principio de supervivencia del
individuo más apto [15]. Para alcanzar la solución a
un problema se parte de un conjunto inicial de
individuos, llamado población y generado de manera
aleatoria. Cada uno de estos individuos, representa
una posible solución al problema. Al conjunto de
parámetros que dan solución a un problema se le
conoce como gen. El conjunto de los parámetros
representados por un gen particular recibe el nombre
de genotipo. Todo individuo de la población, tiene
asociado un valor de ajuste de acuerdo a la bondad
de la solución que representa, denominado fenotipo.
Sobre esta población a lo largo del proceso de
evolución se aplican en cada generación una serie de
operadores, denominados selección, cruce y
mutación. Los algoritmos de selección son los
encargados de seleccionar los individuos que van a
tener oportunidad para reproducirse a la hora de
generar futuras poblaciones de individuos. Una vez
son seleccionados los individuos, estos son
recombinados para producir la descendencia que se
insertará en la siguiente generación, utilizando la
operación de cruce. El operador mutación provoca
que alguno de los genes del individuo varíe su valor,
enriqueciendo la diversidad genética de la población
y evitando su degeneración.
C. Optimización de la detección de spots
Ambos métodos se han utilizado de manera
conjunta para la detección de spots en imágenes de
electroforesis bidimensional. La técnica de visión
artificial que se ha utilizado dispone de varios
parámetros que es necesario configurar. Los
algoritmos genéticos permiten la optimización de los
parámetros de la función que pretenden optimizar.
Se creó un genotipo de individuo para la
población del algoritmo genético cuyos genes eran
los parámetros del método DoG que se pretendía
optimizar. Durante el desarrollo de las pruebas se
fueron probando diferentes funciones de fitness,
tratando de buscar la minimización de las distancias
de los spots detectados por el DoG con respecto a
las proteínas detectadas por el método basado en
información de superficie [9]. Se incluyeron en esta
función parámetros que limitaban el número de
spots detectados, para que se ajustasen al número
referencia, ya que la finalidad de este trabajo era
eliminar lo máximo posible el número de falsos
positiva detectados.
El genotipo utilizado en este trabajo estaba
compuesto por 4 genes, con valores reales. Estos
valores se encontraban en el rango [0,1]. Tres de
estos genes fueron normalizados entre un valor
mínimo y máximo a un nuevo rango de valores,
haciendo que
𝑣! =
𝑣 − min (𝑟)
∗ max 𝑟 ! − min 𝑟 !
max 𝑟 − min (𝑟)
+ min (𝑟 ! )
(11)
siendo v el valor a normalizar, v’ el valor
normalizado, r el rango de valores inicial y r’ el
rango de valores final.
Cada uno de los genes tiene su propio rango de
valores. Estos genes son los que se corresponden
con el número de escalas que se calcularán, que
toma valores enteros en el rango [2,5], el valor de
sigma de la primera Gaussiana, que toma valores
reales en el rango [1,20] y el valor de escalado de
cada nueva gaussiana, que estará en el rango de
valores reales entre [0.5,2] . El gen que se deja en el
rango de valores reales [0,1] es el que sirve para el
cálculo de porcentaje umbral con respecto al valor
máximo de gris de cada pixel, para considerar al
pixel susceptible de ser considerado integrante de
una proteína en la imagen.
El método propuesto en este trabajo toma el
centro de la proteína como el centroide de la región
de interés detectada, mientras que el método basado
en información de superficie [9] toma el centro de la
proteína detectada como el punto de la imagen al
que los píxeles cercanos migran en busca de la
máxima pendiente, hasta llegar a un punto de
equilibrio, de tal manera que todos los píxeles cuyo
punto de partida esté en la pendiente de un pico,
migrarán hasta él. De esta forma, el número de
píxeles que migren hasta el pico será igual a la
superficie del spot. Se puede de este modo detectar
un spot en función de información de superficie.
La detección del centro de la proteína de manera
diferente en ambos métodos, hace que se pueda dar
un error en el cálculo de las distancias mínimas entre
spots detectados, como puede verse en la figura 1,
aunque ambos métodos estén detectando el mismo
spot en el gel.
Fig. 1.
a) Proteína de la imagen. b) Centro detectado por [9]
c) Centro detectado por este trabajo.
III.
EXPERIMENTACIÓN Y RESULTADOS
A. Configuración del AAGG
El algoritmo de selección utilizado por el
algoritmo genético es el de selección por torneo. Es
bien conocido que el algoritmo de selección por
ruleta tiene una serie de inconvenientes que son
[16]:
• El peligro de convergencia prematura porque
los mejores individuos de la población, la
dominan muy rápidamente. Esto se conoce
como potenciación de la creación de super
individuos y se debe a la fuerte presión selectiva
que aplica el operador de selección por ruleta
cuando tienes un individuo que es mucho mejor
que los demás de la población. Lo que se
consigue es que el resto de los individuos
tengan muy pocas oportunidades de ser
seleccionados para reproducirse.
• En caso de que los valores de la función
objetivo estén muy cercanos, se produce una
baja presión selectiva, de tal manera que si
existe muy poca diferencia en el valor de
bondad de varios individuos, todos reciben una
probabilidad de selección muy parecida.
En cuanto al operador de cruce que se ha
utilizado en este trabajo, está demostrado que el
cruce en un punto destruye los bloques constructores
en codificación binaria, que son los encargados de
guiar el paralelismo implícito del algoritmo
genético, lo que provoca que el algoritmo no
converja adecuadamente [17]. Es por esto que se
recomienda utilizar como mínimo un cruce en dos
puntos o mejor, un cruce uniforme. Es cierto
también, que para codificaciones reales, hacer un
cruce en un punto, dos puntos o uniforme no añade
nuevo material genético, que es necesario para que
se produzca una buena convergencia. No se debe
dejar toda la responsabilidad de la variabilidad al
operador mutación [17]. Para las codificaciones
enteras, no existen trabajos ni recomendaciones en
cuanto a qué operador de cruce usar, no se sabe bien
cómo afecta la teoría de los esquemas de
codificación, aunque en vista de lo ya comentado, lo
más indicado parece ser emplear al menos un cruce
en dos puntos. Se descarta también el uso de
algoritmos de cruce de más de dos puntos según se
propone en [18] debido a que el tamaño de la
población es reducido y la codificación de sus genes
son números reales. Un mayor número de cruces
sería contraproducente.
Las funciones de fitness que se han evaluado son
las siguientes:
• Para cada una de las proteínas de partida, la
función de fitness (f1) determina la mínima
distancia que existe a alguna de las proteínas
detectadas. Una vez calculada la mínima
distancia de todas las proteínas de partida, se
calcula la media de los errores.
• Para cada una de las proteínas de partida, la
función de fitness (f2) determina la mínima
distancia que existe a alguna de las proteínas
detectadas. Una vez calculada la mínima
distancia de todas las proteínas de partida, se
calcula la mediana de los errores.
• Para cada una de las proteínas de partida, la
función de fitness (f3) determina la mínima
distancia que existe a alguna de las proteínas
detectadas. Una vez calculada la mínima
distancia de todas las proteínas de partida, se
calcula la media de los errores. Se le añade un
factor de ponderación para que el número de
spot detectados por el método desarrollado sea
igual al número de proteínas detectadas por el
método basado en información de superficie
[9].
• Para cada una de las proteínas de partida, la
función de fitness (f4) determina la mínima
distancia que existe a alguna de las proteínas
detectadas. Una vez calculada la mínima
distancia de todas las proteínas de partida, se
calcula la mediana de los errores. Se le añade un
factor de ponderación para que el número de
spot detectados por el método desarrollado sea
igual al número de proteínas detectadas por el
método basado en información de superficie
[9].
El factor que se utiliza para que en las funciones
de fitness f3 y f4 se pondere positivamente si el
número de spots detectados es lo más cercano
posible al número de spots referencia se define
como
𝑓𝑎𝑐𝑡𝑜𝑟 = 100 ∗ 1 −
!"#$ !
!"#$ !
,
(12)
siendo size(d) el número de proteínas detectadas por
este método y size(r) el número de proteínas
referencia detectadas por el método basado en
información de superficie [9].
Para validar este método como ya se ha indicado,
se ha comparado con el método basado en
información de superficie [9]. A partir de las
coordenadas de los spot detectados en la imagen por
dicho método, se calcula la distancia mínima
existente con los spots detectados por el método
propuesto en este trabajo según la fórmula de
Minkowski,
!
!!!
𝐿! 𝑥, 𝑦 =
𝑥! − 𝑦!
!
! !
(13),
y en concreto para el caso q=1, conocida como
distancia Manhattan.
!
!!!
𝐿! 𝑥, 𝑦 =
𝑥! − 𝑦! .
(14)
En la Tabla I se presentan los resultados
alcanzados por este método. Se muestran para cada
una de las funciones de fitness utilizadas el número
de proteínas a detectar en la imagen, el número de
proteínas correctamente detectadas, el número de
proteínas totales detectadas por el método, el error
devuelto por la función de fitness como la distancia
en píxeles entre los centros detectados. Las
imágenes utilizadas en este trabajo son imágenes
reales que han sido obtenidas de repositorios de
imágenes
de
electroforesis
bidimensional
disponibles en la red [19, 20]. En la sección de
métodos se explicó que la técnica utilizada para
situar el centro de la proteína por este trabajo y el
basado en información de superficie [9] son
distintas, por lo que se ha usado un parámetro φ que
establece la distancia máxima entre los centros de
las proteínas detectadas para ser consideradas como
la misma.
TABLA I
TABLA COMPARATIVA DE RESULTADOS
𝑛!"#
𝜑=6
316
𝑛!"#
𝑣!"#
𝑣!"#
390
𝜑=4
224
20125
20,24
4,86
390
176
278
13952
15,9
5
390
81
194
417
53,24
29,81
390
65
178
405
52,93
25,26
𝑓
𝑛!"!
𝑓1
𝑓2
𝑓3
𝑓4
Siendo 𝑛!"! el número total de proteínas a
detectar, establecido por el método basado en
información de superficie [9], 𝑛!"# el número de
proteínas detectadas por este método coincidentes,
𝑛!"# el número de proteínas totales detectadas por
este método, 𝑣!"# el valor devuelto por la función de
fitness y 𝑣!"# el valor resultado del mejor individuo
de la población.
IV.
CONCLUSIONES
En la sección de pruebas se han presentado los
resultados obtenidos haciendo uso de una técnica de
visión artificial para la detección de bordes usando
un método de gradiente de segunda derivada que
hace uso del operador Diferencia de Gaussianas.
Estos resultados muestran cómo esta técnica podría
llegar a lograr los mismos resultados en la detección
de spots en las imágenes de electroforesis
bidimensional que los mostrados por el método
basado en información de superficie [9], con un
reducido número de falsos positivos, pero es
necesario ajustar más la función de fitness del
algoritmo genético. Se puede observar que con las
funciones de ajuste utilizadas f1 y f2 se detectan
muchos falsos positivos, a pesar de que entre los
spots detectados se encuentren los verdaderos
positivos en diferente índice de acierto. Al aplicar el
factor de ajuste del número de spots detectados en f3
y f4, se puede observar que el número de falsos
positivos se reduce, pero sigue siendo superior a lo
deseado, y que no todos los spots detectados se
corresponden con los detectados por el método
basado en información de superficie [9], esto es
debido a que es más restrictivo con respecto a lo que
se considera un spot válido en la imagen que el
método propuesto, por lo que a pesar de que este
método detecte un spot que fuese válido, no está
considerado como tal por el método basado en
información de superficie [9]. Estas pruebas
demuestran que el método puede usarse para la
detección de spots, y que parece ser capaz de
detectar como proteínas los mismos spots que el
método basado en información de superficie [9],
pero que es necesario optimizar la función de fitness
para hacer que los spots detectados sean los de
referencia.
V.
También podría reducirse el ruido intrínseco de
la imagen debido al proceso de electroforesis
bidimensional con la utilización de wavelets.
AGRADECIMIENTOS
Este trabajo ha sido cofinanciado por la Xunta de
Galicia (Ref. 10SIN105004PR, Ref. 10MDS014CT,
Ref. 08MDS003CT, Ref. 08TMT005CT, Ref.
08SIN010105PR), por el Ministerio de Ciencia e
Innovación conjuntamente con fondos FEDER (Ref.
RD07/0067/005,
Ref.
TIN2009-07707),
el
Ministerio de Industria, Turismo y Comercio (Ref.
TSI-020110-2009-53) y el programa Iberoamericano
de Ciencia y Tecnología para el desarrollo –
CYTED (Red Ibero-NBIC 209RT0366).
El trabajo de José A. Seoane está financiado con
la beca Isabel Barreto de la dirección general de
Investigación, Desarrollo e Innovación de la Xunta
de Galicia.
REFERENCIAS
1.
2.
3.
FUTUROS DESARROLLOS
Se propone utilizar un método que evalúe cómo
de bien se ajusta el spot detectado en la imagen por
este método con una función gaussiana. Este factor
se añadiría a la función de fitness como un tercer
parámetro a evaluar, además de la distancia mínima
y el número de spots. Podría calcularse con una
función de ajuste Levenberg Marquardt y una
función Gaussiana, al menos bidimensional para
reducir el coste computacional, ya que la proteína
expresada en la imagen, no tiene por qué tener una
forma perfecta de campana de Gauss en todas las
dimensiones. A mayor número de dimensiones
evaluadas, mayor información de la estructura final
de la proteína estudiada. Obteniendo los valores de
sigma que hacen que el método basado en
información de superficie [9] considere un spot
como válido, se podría modificar la función de
fitness del algoritmo genético propuesto en este
trabajo y comprobar finalmente si el método
propuesto es equivalente a éste en términos de falsos
positivos.
4.
5.
6.
7.
8.
Sevilla, S.D., Metodología de los estudios
de asociación genética. Insuficiencia
Cardiaca, 2007. 2(3): p. 4.
Rogers MD, G.J., Tonge R.P, Hoppe A,
Barman S, Ellis T. 2 dimensional
electrophoresis gel registration using point
matching
and
local
image-based
refinement. in British Machine Vision
Conference. 2004. University of Kingston:
BMVA Press.
Almansa A, G.M., Pardo A, Preciozzi J,
Processing of 2D Electrophoresis Gels, in
International Conference on Computer
Vision. Workshop on Computer Vision
Applications for Developing Countries.
2007: Brazil.
Voss, T. and P. Haberl, Observations on
the reproducibility and matching efficiency
of two-dimensional electrophoresis gels:
consequences for comprehensive data
analysis. Electrophoresis, 2000. 21(16): p.
3345-50.
Dowsey, A.W., et al., Image analysis tools
and emerging algorithms for expression
proteomics. Proteomics, 2010. 10(23): p.
4226-57.
Raman, B., A. Cheung, and M.R. Marten,
Quantitative comparison and evaluation of
two
commercially
available,
twodimensional electrophoresis image analysis
software packages, Z3 and Melanie.
Electrophoresis, 2002. 23(14): p. 2194-202.
Conradsen, K. and J. Pedersen, Analysis of
Two-Dimensional Electrophoretic Gels.
Biometrics, 1992. 48(4): p. 1273-1287.
Efrat, A., et al., Geometric algorithms for
the analysis of 2D-electrophoresis gels. J
Comput Biol, 2002. 9(2): p. 299-315.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
Langella, O. and M. Zivy, A method based
on bead flows for spot detection on 2-D gel
images. Proteomics, 2008. 8(23-24): p.
4914-8.
Ming, A. and H. Ma, A blob detector in
color images, in Proceedings of the 6th
ACM international conference on Image
and video retrieval. 2007, ACM:
Amsterdam, The Netherlands. p. 364-370.
Marr, D., S. Ullman, and T. Poggio, Vision:
A Computational Investigation Into the
Human Representation and Processing of
Visual Information. 2010: MIT Press.
Marr, D. and E. Hildreth, Theory of edge
detection. Proc R Soc Lond B Biol Sci,
1980. 207(1167): p. 187-217.
Witkin, A.P., Scale space filtering.
International journal conference on
artificial intelligence, 1983. 2: p. 3.
Yuille, A.L. and T.A. Poggio, Scaling
Theorems for Zero Crossings. Pattern
Analysis and Machine Intelligence, IEEE
Transactions on, 1986. PAMI-8(1): p. 1525.
Fogel,
D.B.
and
I.C.I.
Society,
Evolutionary computation: toward a new
philosophy of machine intelligence. 2006:
Wiley.
Eiben, A.E. and J.E. Smith, Introduction to
evolutionary computing. 2003: Springer.
Herrera, F., M. Lozano, and J.L. Verdegay,
Tackling Real-Coded Genetic Algorithms:
Operators and Tools for Behavioural
Analysis. Artificial Intelligence Review,
1998. 12(4): p. 265-319.
De Jong, K.A. and W.M. Spears, A formal
analysis of the role of multi-point crossover
in genetic algorithms. Annals of
Mathematics and Artificial Intelligence,
1992. 5(1): p. 1-26.
WORLD-2DPAGE-2D PAGE databases
and
services.
Available
from:
http://www.expasy.ch/ch2d/2d-index.html.
GelBank.
Available
from:
http://gelbank.anl.gov.