Download [Diseo de sondas de un chip de DNA para identificar la huella
Document related concepts
no text concepts found
Transcript
V Congreso Internacional de Ingeniería Bioquímica XVI Congreso Nacional de Ingeniería Bioquímica VI Jornadas Científicas de Biomedicina y Biotecnología Molecular Clave: 1584168 DISEÑO DE SONDAS DE UN CHIP DE DNA PARA IDENTIFICAR LA HUELLA GENÓMICA DE ORGANISMOS EUCARIÓTICOS Violeta Larios Serrato; Rogelio Maldonado Rodríguez; Alfonso Méndez Tenorio. DIRECCIÓN DE LOS AUTORES Laboratorio de Biotecnología y Bioinformática Genómica, Escuela Nacional de ciencias Biológicas, Prol. Carpio y Plan de Ayala, IPN, México, 11340. CORREO ELECTRÓNICO siedracko@hotmail.com Mar del Norte No. 5, Col. San Álvaro Azcapotzalco C. P. 02090, México, D. F. Tel. y Fax: 5623 3088 email: colegioibq@hotmail.com, colegioibq@yahoo.com.mx V Congreso Internacional de Ingeniería Bioquímica XVI Congreso Nacional de Ingeniería Bioquímica VI Jornadas Científicas de Biomedicina y Biotecnología Molecular INTRODUCCIÓN Los sensores, genochip o chip de ADN son dispositivos que funcionan a partir de la técnica de biología molecular llamada microarreglos de ADN. El fundamento de la técnica es la capacidad de una cadena sencilla de ADN para buscar y unirse a una segunda cadena de secuencia complementaria. Al resultado de esta unión se le denomina híbrido de ADN y a la forma en la que sucede se le conoce como hibridación. Los microarreglos de ADN funcionan a través de hibridaciones. De manera que un chip es simplemente un medio de llevar a cabo un amplio número de experimentos de análisis de DNA en paralelo y en miniatura. En esencia, esta tecnología implica inmovilizar (manual o automatizadamente) un conjunto ordenado de sondas (un microarreglo) en una pequeña superficie. Recientemente se ha logrado el diseño de las sondas que integraran un microarreglo encaminado a la identificación “Universal” de los genomas bacterianos y virales. El microarreglo esta integrado por un conjunto de sondas de un numero N de longitud en forma ordenada, en el microarreglo, según su estabilidad constituyendo lo que se ha denominado el “Sensor Universal de Huella Genómica” o “Universal Fingerprinting Chip” (UFC). Las características más sobresalientes del microarreglo son: • • • Las sondas son una selección representativa de todas las 4n posibles combinaciones de oligonucleótidos. Las sondas tienen intervalos de estabilidad de hibridación y de composición para garantizar una alta especificidad. Se ha maximizado el número de diferencias entre todas ellas para lograr la óptima capacidad de discriminación. En la estrategia propuesta en este trabajo se parte de todas las secuencias posibles de nucleótidos de una longitud de N-mer. Donde el número total de combinaciones se da por 4n, donde n es el número de nucleótidos en la sonda, sustituyendo en la ecuación ( N =17): 4n = 417 ( 1.177986918x1017) (1) Basado en el tamaño del genoma a ser analizado, se hacen estimaciones estadísticas que pueden conducir a la predicción del tamaño apropiado de la sonda (Ewens et al. 2001). Si se considera ∆L como el promedio del intervalo de la secuencia blanco (en numero de bases) entre los sucesos esperados de una secuencia de una sonda de un largo N con un Mar del Norte No. 5, Col. San Álvaro Azcapotzalco C. P. 02090, México, D. F. Tel. y Fax: 5623 3088 email: colegioibq@hotmail.com, colegioibq@yahoo.com.mx V Congreso Internacional de Ingeniería Bioquímica XVI Congreso Nacional de Ingeniería Bioquímica VI Jornadas Científicas de Biomedicina y Biotecnología Molecular acido nucleico blanco que contenga las bases A, C, G y T iguales y distribuidas de forma aleatoria, entonces ∆L puede ser evaluado por la ecuación 2 (Méndez et al.2005). ∆L = 4n (2) La ecuación anterior puede ser utilizada para calcular el largo de la sonda que puede tener un sitio de hibridación, en promedio, dentro de un genoma. El largo de la sonda, puede ser calculado por la ecuación 3. n = log ∆L/ log 4 (3) Para evaluar las locaciones de las ocurrencias de las palabras (sondas) que aparecen de forma aleatoria a lo largo de la secuencia de DNA existen ecuaciones que nos ayudan a evaluar la frecuencia de las palabras a partir de su composición o bien a evaluar la distancia en la que se pueden encontrar esta palabra, de manera que podemos evaluar cualquier palabra de interés en un genoma cualquiera. La siguientes ecuaciones se utilizaron para calcula el parámetro DesEst (para mayor detalle consultar Ewens y Grant, 2001) . Se define a w (t,k) como un parámetro de composición de una palabra cualquiera (Y) en la ecuación (4), y j es la posición de dada letra en una palabra . n w (t,k) = Σ wj 4j t n-j (4) j=1 La varianza (Var(Y)) de la distancia entre una ocurrencia y la siguiente de una palabra se describe en la ecuación (5) pero el parámetro mas útil es la desviación estándar de la ecuación (6). Var (Y) = 2 x 4n w (1, n) – (2n-1) 4n - 42n DesEst (Y) = (Var)1/2 (5) (6) El largo de la sonda para el UFC será el promedio del cálculo de la ecuación (3) de cada genoma de los organismos de interés. El cálculo de la longitud de la sonda se ve afectado por la longitud de los genomas eucarióticos, lo que nos hace pensar si esta longitud promedio es la apropiada, considerando la diversidad de tamaños de los organismos eucarióticos. De manera que el objetivo de este trabajo es evaluar la longitud de sondas, para determinar el tamaño mas apropiado para su diseño. Mar del Norte No. 5, Col. San Álvaro Azcapotzalco C. P. 02090, México, D. F. Tel. y Fax: 5623 3088 email: colegioibq@hotmail.com, colegioibq@yahoo.com.mx V Congreso Internacional de Ingeniería Bioquímica XVI Congreso Nacional de Ingeniería Bioquímica VI Jornadas Científicas de Biomedicina y Biotecnología Molecular MATERIALES Y MÉTODOS Recursos informáticos Para la realización de este trabajo se utilizó ActiveState Komodo 3.5, ActivePerl 5.8.8 y Microsoft Office Excel 2003. Banco de datos de organismos eucarióticos Las secuencias genómicas de organismos eucarióticos se obtuvieron de NCBI GenBank. RESULTADOS Base de datos de organismos eucarióticos De la base de datos del GenBank (NCBI), se realizo una búsqueda de las secuencias de los cromosomas de los organismos eucarióticos totalmente secuenciados hasta el momento, encontrándose 23 genomas completos de organismos eucarióticos. Se creo una base de datos para estos organismos mediante la descarga de las secuencias reportadas. De forma manual se creo un archivo (archivo números_de_acceso) con los números de acceso de cada cromosoma de los genomas de interés, esta información se obtuvo del NCBI, además se crearon tablas con información de los genomas, que contienen el tamaño de la secuencia en pares de bases, el contenido de G + C, etc. Para esta descarga se utilizó un programa desarrollado en lenguaje Perl (retrive_seq.pl), y la función de este programa es acceder de forma remota a Internet y de forma automática de descargan las secuencias utilizando como referencia el archivo numeros_de acceso, el programa retrive_seq.pl tienen la flexibilidad de descargar los archivos con diferentes extensiones, seleccionándose el formato fasta, que consiste en una línea inicial que contienen información general del organismo y la secuencia, este formato contienen la secuencia completa de DNA, en este caso es un cromosoma completo de un organismo de interés, esta secuencia no tienen un formato especial. Se tiene una base de datos actualizada de 23 organismos secuenciados totalmente ordenados en carpetas por reino y cada organismo tiene una carpeta individual que contiene el genoma completo dividido en archivos por cada cromosoma. Mar del Norte No. 5, Col. San Álvaro Azcapotzalco C. P. 02090, México, D. F. Tel. y Fax: 5623 3088 email: colegioibq@hotmail.com, colegioibq@yahoo.com.mx V Congreso Internacional de Ingeniería Bioquímica XVI Congreso Nacional de Ingeniería Bioquímica VI Jornadas Científicas de Biomedicina y Biotecnología Molecular Se puede observar en la figura 1 hay 4 carpetas que corresponde a cada uno de los reinos y por ejemplo en la carpeta de fungi existe una carpeta para cada organismo y en la carpeta que corresponde a saccharomyces cerevisae se encuentran los archivos con nombre de los números de acceso de cada uno de sus cromosomas. Figura 2: Banco de datos de 23 organismos eucarióticos totalmente secuenciados. De la base de datos de GenBank también se obtuvo la longitud de 217 genomas reportados de proyectos de secuenciación de organismos eucarióticos (figura 2), estas longitudes de genomas son las que se utilizaron para los cálculos de tamaño de las sondas. Se puede observar que es muy amplio el rango de los tamaños, ya que el genoma más pequeño corresponde a un protistas que es Emiliania huxleyi con 0.03 Megapares de bases (Mpb) y el más grande a Macropus eugenii con 3080 Mpb que pertenece a reino de los animales. Mar del Norte No. 5, Col. San Álvaro Azcapotzalco C. P. 02090, México, D. F. Tel. y Fax: 5623 3088 email: colegioibq@hotmail.com, colegioibq@yahoo.com.mx V Congreso Internacional de Ingeniería Bioquímica XVI Congreso Nacional de Ingeniería Bioquímica VI Jornadas Científicas de Biomedicina y Biotecnología Molecular 4000 3500 Longitud de genomas (Mpb) 3000 2500 2000 1500 1000 500 0 1 14 27 40 53 66 79 92 105 118 131 144 157 170 183 196 209 Organismos eucarióticos Figura 2: Longitud de genomas de organismos eucarióticos. Se puede observar los proyectos de secuenciación de organismos eucarióticos reportados en el NCBI. Desarrollo de herramientas para cálculo de la longitud de la sonda Para calcular la desviación estándar se desarrollaron dos programas en lenguaje Perl, el primero llamado RandomWord.pl, que genera una lista aleatoria de sondas de un tamaño definido (figura 3), y segundo programa se llama DesEstan.pl que calcula la desviación estándar de cada una de las sondas de la lista que s genero RandomWord.pl (figura 4). El resultado de utilizar esto programas se resume en la tabla I, el parámetro de desviación estándar de la ecuación (6) se incorpora en el cálculo de la longitud de sonda en la ecuación (3). Mar del Norte No. 5, Col. San Álvaro Azcapotzalco C. P. 02090, México, D. F. Tel. y Fax: 5623 3088 email: colegioibq@hotmail.com, colegioibq@yahoo.com.mx V Congreso Internacional de Ingeniería Bioquímica XVI Congreso Nacional de Ingeniería Bioquímica VI Jornadas Científicas de Biomedicina y Biotecnología Molecular Figura 3: Programa RandoWord.pl. En esta imagen se ejemplifica la generación de sondas de forma aleatoria para un tamaño de 14 mer. Figura 4: Programa DesEstan.pl. En esta imagen se ejemplifica el cálculo del parámetro DesEstan para un tamaño de 16 mer. Mar del Norte No. 5, Col. San Álvaro Azcapotzalco C. P. 02090, México, D. F. Tel. y Fax: 5623 3088 email: colegioibq@hotmail.com, colegioibq@yahoo.com.mx V Congreso Internacional de Ingeniería Bioquímica XVI Congreso Nacional de Ingeniería Bioquímica VI Jornadas Científicas de Biomedicina y Biotecnología Molecular Tabla I: Parámetro DesEstan para un tamaño de sonda. Se describe la desviación estándar mínima (Demin) y máxima (Demax) para tamaños de sondade 12 a 17. 12 13 14 15 16 17 Demin 16777200 67108900 268435000 1073740000 4294970000 17179900000 Demax 21659100 86620500 346545000 1385920000 5543710000 22178200000 Calculo de la longitud de la sonda Se realizo el cálculo de la longitud de la sonda utilizando 3 criterios I. Utilizando todos los organismos eucarióticos reportados En la tabla II, se reportan el cálculo de la longitud de la sonda utilizando todos los proyectos de secuenciación de los organismos eucarióticos reportados en el NCBI. Se puede observar una muestra de organismos, utilizando este criterio se encontró que le promedio de la longitud de la sonda es de 14 mer para todos los organismos e integrando el parámetros DesEstan el tamaño de la sonda pude ampliarse hasta un tamaño de 15 mer por el redondeo de 14.65. Tabla II: Calculo del tamaño de sonda utilizando el criterio I. Reino Genoma Tamaño de Tamaño de genoma genoma (pb) (Mpb) Menos Demin Menos Demax Tamaño sonda Mas Demin Mas Demax Leishmania major cepa Friedlin Protozoa 5.44 5440000 10.92 8.10 11.98 12.39 12.48 Trichophyton rubrum Saccharomyces cerevisiae Fungi Fungi 22 12.07 22000000 12070000 11.95 - 9.98 - 12.99 12.55 13.40 13.18 13.48 13.30 Drosophila novamexicana Animalia 150 150000000 14.23 14.18 14.37 14.49 14.52 Oryza sativa Japonica Group Plantae 389 389000000 - - 15.06 16.02 16.16 Zea mays Plantae 2365 2365000000 - - 16.36 17.11 17.23 Canis lupus familiaris Animalia 2400 2400000000 - - 16.37 17.11 17.24 Macropus eugenii Animalia 3800 3800000000 - - 16.70 17.25 17.35 14 14.54 14.65 Promedio Mar del Norte No. 5, Col. San Álvaro Azcapotzalco C. P. 02090, México, D. F. Tel. y Fax: 5623 3088 email: colegioibq@hotmail.com, colegioibq@yahoo.com.mx V Congreso Internacional de Ingeniería Bioquímica XVI Congreso Nacional de Ingeniería Bioquímica VI Jornadas Científicas de Biomedicina y Biotecnología Molecular II. Considerando un valor de corte dependiendo de la longitud de genoma. Se puede observar en la figura 2 que el rango del tamaño de genomas es muy amplio, de manera que se utilizo un valor de corte para el calculo del tamaño de sonda promedio, este valor de corte es de 1000 Mpb, ya que la variable que impacta mas en el tamaño de la sonda es la longitud de genoma. En la tabla III se observan los resultados utilizando el criterio II. Tabla III: Calculo del tamaño de sonda utilizando el criterio II. Valor de corte Menor a 1000 Mayor a 1000 III. Tamaño sonda Mas Demin Mas Demax 13.54 14.13 14.23 16.44 17.13 17.25 Considerando organismos unicelulares y pluricelulares El tamaño de genoma también esta relacionado con los cuatro reinos y con los organismos unicelulares y pluricelulares y este criterio se utilizo y los resultados están en la tabla IV. Tabla IV: Calculo del tamaño de sonda utilizando el criterio III. Reino Animalia Plantae Fungi Protozoa Tamaño sonda 15.34 14.83 12.97 12.90 Mas Demin 17.15 15.49 13.66 13.66 Mas Demax 17.82 15.60 13.78 13.78 Mar del Norte No. 5, Col. San Álvaro Azcapotzalco C. P. 02090, México, D. F. Tel. y Fax: 5623 3088 email: colegioibq@hotmail.com, colegioibq@yahoo.com.mx V Congreso Internacional de Ingeniería Bioquímica XVI Congreso Nacional de Ingeniería Bioquímica VI Jornadas Científicas de Biomedicina y Biotecnología Molecular DISCUSIÓN Se puede observar que el rango de genomas reportados hasta el momento para los proyectos de secuenciación de organismos eucarióticos en muy amplio y el factor más importante para calcular el tamaño de la sonda es el tamaño de genoma. Esto propone, que obtener un solo tamaño de sonda integrado en un UFC para identificar a todos los organismos podría funcionar con una baja precisión. Se ha descrito una estrategia para poder determinar el tamaño más apropiado para el largo de una sonda para un chip de DNA (UFC) que pueda identificar organismos eucarióticos. Se ha incluido parámetros como la desviación estándar en el cálculo de largo de la sonda para hacer más robusto el análisis y saber bajo que rango se puede utilizar el tamaño de la sonda, este parámetro incorpora datos composicionales de cada sonda y la frecuencia con la que esta se puede encontrar en un genoma determinado. Este ultimo parámetro se podría incluir nuevamente en la selección final de sondas, ya que una ves determinado el tamaño de las sonda y hará una selección del universo de 4n de todas las posibles sondas. Se crearon herramientas en utilizando para facilitar la determinación del tamaño de la sonda con los programas RandomWord.pl y DesEstan.pl. Se aplicaron distintos criterios para calcular el tamaño de la sonda: (i) Utilizando todos los organismos eucarióticos reportados; (ii) considerando un valor de corte dependiendo de la longitud de genoma y (iii) considerando organismos unicelulares y pluricelulares. Con estos datos se puede observar que en efecto se pueden obtener distintos tamaños de sonda dentro de un rango de 12 a 18 mer, con una tendencia de sondas de mayor tamaño (16 a 18 mer) para organismos pluricelulares, del reino animalia y plantae, y con una longitud de mayor a 1000 Mpb. Finalmente, es importante hacer pruebas in silico utilizando el banco de datos de los genomas organismos eucarióticos y sondas con los tamaños encontrados, para evaluar la sensibilidad del tamaño de sonda. Mar del Norte No. 5, Col. San Álvaro Azcapotzalco C. P. 02090, México, D. F. Tel. y Fax: 5623 3088 email: colegioibq@hotmail.com, colegioibq@yahoo.com.mx V Congreso Internacional de Ingeniería Bioquímica XVI Congreso Nacional de Ingeniería Bioquímica VI Jornadas Científicas de Biomedicina y Biotecnología Molecular REFERENCIAS BIBLIOGRÁFICAS 1. Beattie, K.L.(1997)genomic fingerptinting using oligonucleotid4 arrays.In CaetanoAnollés, G. and Gresshoff, P.M. (eds), DNA Markers. Protocols, Applications, and Overvies.Wiley-Liss, New York, pp. 213-224. 2. Ewens W.J. and Grant G.R. (2001). Statistical Methods in Bioinformatics. En Introduction. Springer – Verlag, New York, USA. 3. Méndez Tenorio, A., Reyes rosales E., Guerra Trejo A., Maldonado Rodríguez R., Espinosa Lara J., Santiago Herná, J. and Beattie K. (2005): Universal Fingerprinting chips I: Design Strategies, Validation, and Applications. REFERENCIAS INFORMÁTICAS I. NCBI; url: http://www.ncbi.nlm.nih.gov/; 27 de Febrero del 2008 Mar del Norte No. 5, Col. San Álvaro Azcapotzalco C. P. 02090, México, D. F. Tel. y Fax: 5623 3088 email: colegioibq@hotmail.com, colegioibq@yahoo.com.mx