Download ALINEAMIENTO MÚLTIPLE DE SECUENCIAS
Document related concepts
Transcript
ALINEAMIENTO MÚLTIPLE DE SECUENCIAS (AMS) DE ADN MEDIANTE ALGORITMOS EN EL GENOMA DEL Helicobacter pylori (De cómo la Bioinformática se comporta como un campo de aplicación de la Responsabilidad Social y Ambiental) Por: Sonia Milena Torres Gallego sonia2683@gmail.com ABSTRACT To speak of MSA should be aware of the tools of NCBI Blast and Clustal W, the latter has been one of the most recognized and able to perform alignments and phylogenetic trees to estimate but has errors in each of its versions, after nearly 20 years is the latest version Clustal W 2.0 program is within a programmed group of folders in C and this has a great competition as they are or MUSCLE T-Coffee that are a little faster. Currently Rande Patterson and assistant professor of biology at Penn State is part of a group of researchers in which they plan to trace the evolutionary history and solve the debate of what became a way of life that gesture, it was referenced in MSA for a single comparison between all the sequences of genes / proteins, this in order to obtain more precise information about relationships between sequences. KEYWORDS: Bioinformatics, Molecular Biology, Helicobacter pylori, Genetic Programming, Genetic Algorithms, Alignment. Multiple Sequence RESUMEN Para hablar de AMS se debe tener conocimiento de las herramientas NCBI Blast y Clustal W, este último ha sido uno de los más reconocidos y es capaz de realizar alineamientos y de calcular árboles filogenéticos no obstante tiene errores puntuales en cada una de sus versiones, después de casi 20 años se tiene la última versión Clustal W 2.0 este programa se encuentra dentro de un grupo de carpetas programado en C y este posee una gran competencia como lo son T-Coffee o MUSCLE que son un poco más rápidos. Actualmente el profesor Patterson Randen y asistente de biología de Penn State hace parte de un grupo de investigadores en la cual planean rastrear la historia evolutiva y solucionar el debate de cuál fue la forma de vida que se gesto, se referenciarán en AMS solo para realizar una comparación entre todas las secuencias de genes/proteínas, esto con el fin de obtener información más precisa acerca de las relaciones entre secuencias. PALABRAS CLAVES: Bioinformática, Biología Molecular, Helicobacter pylori, Programación Genética, Algoritmos Genéticos, Alineamiento Múltiple de Secuencias. matemáticas y las estadísticas para organizar, analizar y poder entender problemas que involucren secuencias de nucleótidos y aminoácidos. La Bioinformática surge por el impresionante aumento de secuencias genéticas que se han obtenido a través del proyecto Genoma. INTRODUCCIÓN A través del tiempo las tecnologías informáticas han permeado todos los campos del conocimiento aportando soluciones para el avance de la ciencia y la comprensión de los diferentes fenómenos que han acompañado el origen y filogenia de la vida. Estos se han convertido en una herramienta indispensable para la optimización de los procesos de construcción del conocimiento, ahorrando tiempo dada la facilidad con que se organiza la información necesaria y los recursos de la simulación virtual que permiten minimizar los errores a la hora de su implementación. En el campo de la Bioinformática, la aplicación del método de alineamiento múltiple de secuencias de ADN mediante algoritmos genéticos, permite avanzar en la comprensión y desciframiento del código genético, posibilitando el mejoramiento de la calidad de vida humana. 1. Conceptos básicos aplicados a la Bioinformática 1.1. Bioinformática La Bioinformática está definida como la aplicación de la informática, las En la actualidad la Bioinformática posee varias subdisciplinas como lo son el alineamiento de secuencias, bases de datos, identificación y clasificación de patrones, biología computacional, biología de sistemas y árboles filogenéticos. Algunos investigadores manifiestan que la Bioinformática solo está relacionada con el manejo, organización y uso computacional de la información biológica particularmente la genética. 1.2. Biología Molecular La biología molecular tiene como objetivo fundamental comprender todos aquellos procesos celulares contribuyendo así a la información genética, permitiendo cruzar barreras entre especies y colocar genes de cualquier organismo, en un organismo hospedador mediante las técnicas de la ingeniería genética. La historia de su conocimiento se relaciona desde el año 1866 cuando Mendel realiza sus publicaciones que daban el principio de la segregación y la clasificación independiente de los genes. En 1869 aparece el suizo Frederick Miescher quien descubre en el núcleo de las células una sustancia acida la cual fue llamada nucleina, para los años 20 el químico alemán Robert Feulgen descubre que el DNA estaba situado en los cromosomas. En 1944 Avery, McCleod y McCarty comprueban que el DNA es el que lleva la información genética. En 1953 Watson Crick revela la estructura del DNA, a partir de entonces y de forma exponencial se dan los descubrimientos de las enzimas de restricción, polimerasas entre otras que llegarían a lo que hoy se conoce como tecnología del DNA recombinante. Se considera que el ácido desoxirribonucleico (DNA) es el que regula el número y la naturaleza de cada tipo de estructuras y composición celular, transmitiendo así la información hereditaria y determinando la estructura de las proteínas. 1.3. Helicobacter pylori El Helicobacter pylori es una preocupante bacteria desde el punto de vista de la salud humana, cuyo hábitat es la mucosa gástrica. Suele colonizar aproximadamente la mitad de la población mundial y es considerada hoy como el factor patogénico primario en las enfermedades benignas y malignas del estómago y del duodeno (gastritis crónica, úlceras gástricas y duodenales y cáncer de estómago). En sus comienzos esta bacteria se le llamo Campylobacter pyloridis, después de secuenciar su ADN se vio que no pertenecía a este género y se le reemplazo dentro del género Helicobacter; su estructura es Gram negativa de forma de espiral, alrededor de 3 micras de largo y con un diámetro aproximado de unas 0,5 micras, tiene de 4 a 6 flagelos, es además microaerófila es decir que necesita oxigeno pero en bajas concentraciones de las que se encuentran en la atmósfera, usa hidrógeno y metanogénesis como fuente de energía además es oxidada y catalasa positiva. 1.4. Programación Genética La Programación Genética consiste en la filogenia automática de programas usando ideas basadas en la selección natural (Darwin). En programación genética se busca que poblaciones de programas evolucionen, transmitiendo su herencia de manera que se adapten mejor al medio. Los mejores individuos tienen mayores probabilidades de reproducirse. La medida de calidad del individuo dependerá del tipo de problema. Figura 1. Demostración de programación genética en forma de árbol. La estructura de la programación genética se realiza a través de un árbol donde sus nodos son símbolos que se encuentran representados por funciones y símbolos terminales; para iniciar este proceso se debe de contar con una población inicial donde tome como referencia los operadores genéticos de cruce, reproducción, mutación, no obstante se deben de manejar unos parámetros que van a controlar este proceso como lo son el tamaño de la población, la probabilidad que van a manejar los operadores y la técnica que se va usar para crear la población inicial. 1.5. Algoritmos Genéticos Podemos decir que los Algoritmos Genéticos son algoritmos de búsqueda basados en los mecanismos de selección natural y genética natural. Combinan la supervivencia de los más compatibles entre las estructuras de cadenas, con una estructura de información ya aleatorizada, intercambiada para construir un algoritmo de búsqueda con algunas de las capacidades de innovación de la búsqueda humana. Un algoritmo genético debe de tener en cuenta también una serie de parámetros como son el tamaño de la población que debe garantizar una gran diversidad de soluciones, una condición de terminación donde generalmente al algoritmo se le especifica hasta que numero de generación es que debe de trabajar, y por ultimo una evaluación y una selección donde en la evaluación es codificado el gen asignándole una puntuación para determinar el cromosoma que se va a reproducir, luego de evaluar las puntuaciones se crea una nueva población con los mejores rasgos y luego se hace una selección la cual se va a llevar a la reproducción, esta puede realizarse de tres formas primero basado en el rango que es donde se toma toda la población y se ordena según su puntaje, se mantiene las mejores puntuaciones y se eliminan las de menor puntuación, segundo rueda de ruleta este consiste en sumar todos los alelos de la población, seguidamente se toman parejas aleatorias de cromosomas y se emparejan sin importar que sean del mismo padre y tercero selección de torneo es aquella se escoge un numero aleatorio de individuos dentro de la población y el individuo que posea mayor puntación re reproduce. Figura 2. Seudocódigo de algoritmo genético. 2. El Alineamiento Múltiple Secuencias (AMS) de ADN de Un AMS se puede definir como el resultado de un proceso de alineamiento de 3 o más secuencias unas respecto a otras para lograr alcanzar la máxima similitud entre ellas. El propósito de los AMS es colocar los residuos (bases) que derivan de un ancestro común en columnas. Esto se logra introduciendo gaps (huecos) que representan inserciones ocurridas durante el proceso filogenético. Por tanto, el alineamiento resultante tras el proceso de AMS es un modelo hipotético para explicar las mutaciones ocurridas durante la filogenia. Los mejores alineamientos son aquellos que representan la hipótesis de filogenia más probable. Un AMS puede tener varias finalidades como lo son descubrir un patrón común dentro de la secuencia, poder decidir sobre su proceso evolutivo, entre otras; este AMS es obtenido mediante una inserción para cada secuencia con un número determinado de huecos de tal forma que las secuencias posean una misma longitud y tengan como mínimo un carácter diferente de huecos. Figura 3. Ejemplo de cruce de un alineamiento de secuencias. Figura 4. Ejemplo de un alineamiento múltiple de secuencias. El alineamiento de múltiples secuencias (AMS) de un conjunto de secuencias de ADN puede también ser visto como la historia filogenética de las secuencias. Así, si las secuencias en el AMS se alinean muy bien, parecería que han sido recientemente derivadas de un ancestro común. En contraste, un grupo de secuencias de ADN pobremente alineadas comparten una relación filogenética distante y compleja. La tarea de alinear un conjunto de secuencias de ADN, algunas más relacionadas que otras, es idéntica a descubrir las relaciones filogenéticas entre las secuencias. Dentro de este enfoque se encuentran algoritmos como MultAlin, DIALIGN, HMM (Hidden Markov Models) y los Algoritmos Genéticos, que son los que acaparan el interés de este trabajo. 3. La ética y el avance del conocimiento en el campo de la Bioinformática 3.1. Código Ético en Biología El código ético se basa en el desarrollo científico, esto implica manipular directamente todas aquellas herramientas que pueden transmitir la vida y manipular la filogenia de nuestra especie. Es por esto que la UNESCO se ha comprometido a promover y desarrollar una reflexión ética a los avances científicos en el área de la biología y la genética. Por medio de este código ético se reconocen varios adelantos científicos y tecnológicos, donde se reportan nuevos beneficios para la especie humana como lo son aumentando las expectativas y esperanzas de vida, mejorando la calidad de vida, reconociendo la dignidad humana y el respeto de los derechos humanos, teniendo en cuenta además que el área de la salud no depende totalmente de las investigaciones científicas y tecnológicas, sino también de ambientes como lo son los culturales y los psicosociales, teniendo presente que todo individuo debe de gozar de las mismas normas éticas en la investigación relativa a la medicina y las ciencias de la vida. 3.2. Código Ético en Sistemas El código ético para los ingenieros consiste en comprometerse con uno mismo en convertir el análisis, las especificaciones, el diseño, el desarrollo, las pruebas y el mantenimiento de software en algo respetable y beneficioso para todos. Teniendo como principio un compromiso con la salud, la seguridad y el bienestar del público. Estos principios van muy relacionados con el aspecto del comportamiento y la toma de decisiones, también se identifican plenamente las relaciones que mantienen dentro de un grupo de trabajo que participan en dicha elaboración del proyecto, no obstante cabe resaltar que estos principios están muy ligados a la ética que maneja como individuo el ingeniero de sistemas. BIBLIOGRAFÍA Libros 3.3. La Bioinformática desde la óptica de la responsabilidad social La Bioinformática es un campo de la ciencia en el cual intervienen varias disciplinas tales como: biología, computación y tecnología de la información. Su finalidad es facilitar el descubrimiento de nuevas ideas biológicas así como crear perspectivas globales a partir de las cuales se puedan discernir principios unificadores en biología. La Bioinformática tiene como papel fundamental la aplicación de los desarrollos tecnológicos en el campo de la genética a la práctica médica. La aplicación de los conocimientos en genética molecular y las nuevas tecnologías son necesarias para el mantenimiento y eficiencia del sistema de información. La identificación de las causas moleculares de las enfermedades junto con el desarrollo de la industria biotecnológica en general y de la farmacéutica en particular, permitirán el desarrollo de mejores métodos de diagnóstico, desarrollo de fármacos personalizados y una mejor medicina preventiva, a fin de mejorar la calidad de vida humana. • RICH Elaine– KNIGHT Kevin, Inteligencia Artificial, McGraw Hill 2004. • ROLSTON David W., Principios de Inteligencia Artificial y Sistemas Expertos, McGraw Hill 1997. • RUSELL Stuart y NORVING Peter, Inteligencia Artificial un Enfoque Moderno, Pretice Hall 2003. Web • KROGH Anders y BROWN Michael, http://www.cbse.ucsc.edu/staff/h aussler_pubs/hmm.part1.pdf, 1993. • MARCZYK Adam, http://www.Algoritmos genéticos y computación evolutiva.html, 2004. • PAVA Roberto A., http://www.Método para la detección de secuencias repetidas en tandem en genomas completos y su interpretación biológica, Pdf 2006. • RABINER Lawrence R., http://www.cs.ubc.ca/~murphyk/ Bayes/rabiner.pdf, 1989. • SAGA: sequence alignment by genetic algorithm, 1996 Oxford University Press Nucleic Acids Research, 1996, Vol. 24, No. 8. Pdf. • SHOKHIREV Nikolai V., http://www.shokhirev.com/nikol ai/abc/alg/hmm/hmm.html, 2006. • http://www.Alineamiento de secuencias.html, 2009. • http://www.cs.brown.edu/researc h/ai/dynamics/tutorial/Document s/HiddenMarkovModels.html, 2009. • http://www.Programación Genética, Pdf 2004. Sonia Milena Torres Gallego, es Estudiante de noveno semestre ingeniería en sistemas y computación. De la Corporación Universitaria Centro Superior. Tecnóloga en sistemas y computación de la Corporación Universitaria Centro Superior. Diplomado “Formación en Investigación con Enfoque en RSE” 2009, de la Corporación Universitaria Centro Superior. Curso “English Discoveries - Intermedio II” 2009, SENA, Curso “HTML y Java Script” 2008, SENA, Curso "Photoshop” 2008, SENA, Curso “Flash” 2008