Download biointro2014

Document related concepts

Genómica computacional wikipedia , lookup

Ensembl wikipedia , lookup

Genómica comparativa wikipedia , lookup

Homología de secuencias wikipedia , lookup

Ácido desoxirribonucleico wikipedia , lookup

Transcript
Introducción a la
Bioinformática I
Tomás Arredondo Vidal
2014
Introducción a la Bioinformática
Esta charla trata de lo siguiente:
• Introducción a aspectos de la bioinformática
• Discusión acerca de algunas bases de datos y
herramientas utilizadas en la bioinformática
• Discusión sobre secuencias genéticas y algoritmos usados
para su análisis
Introducción a la Bioinformática
Bioinformática: Algunas áreas de Estudio
• Genómica – Estudio, mapeo, y secuenciacion de genomas
• Microarreglos – Arreglos experimentales para determinar el
nivel de actividad o precencia de muchos genes en parallelo
• Proteomica – Estudio, vusualizacion y quantificacion de las
moleculas de proteinas presentes en tejidos u organismos
• Estructurales – Simulacion y estudio de la estructura de
proteinas
Introducción a la Bioinformática
Motivación para los estudios Bioinformáticos:
Medicina:
• Nuevas drogas, nuevas vacunas de ADN, terapias
genéticas
• Producción de medicinas usando bacterias y levaduras
Genómica:
• Fuente de información para medicina preventiva,
terapéutica, diagnóstico
Ingeniería de tejidos:
• Métodos para generar piel, cartílago, huesos
Biomateriales, Nanotecnologia, Applicaciones
Industriales y Químicas
Introducción a la Bioinformática
Motivación para los estudios Bioinformáticos: Diagnostico
Genome Gene map Gene sequence Expression
t
c
g c g c
g
g
t
g
a
t
Diseases
Alzheimers
Cancer
Arthritis
g
t
c
t
g
t
c
a
t
a
t
g
g
g
t
g
a
a
t
a
t
t
a
c
c
t
g g c g
t
g c
t
a
g
CV Disease
MS
Obesity
Vision
Arthritis
Introducción a la Bioinformática
Motivación para los estudios Bioinformáticos: EBOLA
http://viralzone.expasy.org/all_by_species/207.html
Introducción a la Bioinformática
Motivación para los estudios Bioinformáticos: Producción de Vacunas
Introducción a la Bioinformática
Virus: amigos y enemigos
Introducción a la Bioinformática
De adonde partió el estudio de la Bioinformática?
Gregor Mendel:
• En 1865 el sacerdote Agustino Gregor Mendel hizo
experimentos sobre híbridos de plantas (arvejas) basados
en el fenotipo observable de ellas
• Mendel, desarrolló los principios fundamentales de que
hoy es la moderna ciencia de la genética
• A través de la estadística de los resultados de sus cruces
Mendel demostró que las características heredables son
llevadas en unidades discretas que se heredan por
separado en cada generación
• Estas unidades discretas, que Mendel llamó elemente,
se conocen hoy como genes
Introducción a la Bioinformática
Evolución Genetica
Gregor Mendel hizo experimentos sobre híbridos de
plantas (1866):
• Así, Mendel aisló 7 pares de caracteres que eran razas
puras: cada carácter estudiado se presentaba en dos
variantes, tales como: altura de la planta (alta o baja),
superficie de la semilla (lisa o rugosa), forma de la vaina
(inflada o contraída), forma de la vaina y otras
• En sus experimentos Mendel uso unas 28.000 plantas
de arvejas
• Las posibles codificaciones viables de ADN de un gen
que ocupan una posición (locus) en el genoma de un
organismo se denominan alelos
Introducción a la Bioinformática
Evolución Genetica
Gregor Mendel hizo experimentos sobre híbridos de
plantas (1866)...:
• Los alelos de un gen son responsables de las diferentes
expresiones de los genes (e.g. color de un pétalo) que es
visto en el fenotipo del organismo
• En un organismo diploide hay dos copias de cada
cromosoma en cada célula, por ende hay dos alelos para
cada gen
• En organismos diploides las celulas sexuales (e.g.
gametos) son haploides (e.g. tienen una copia de cada
cromosoma) y se juntan para formar un cigoto (e.g.
zygote) que es la celula que se divide repetidamente para
formar el embrión
Introducción a la Bioinformática
Evolución Genetica
Conclusiones o Leyes de Mendel (1866):
• Ley de uniformidad: El tipo hereditario de la prole no es
intermedio entre los tipos de los padres, sino que en él
predomina el de uno u otro. Si se cruzan dos variedades
bien definidas de una misma especie, el descendiente
híbrido mostrará las características distintivas de uno de
los progenitores (característica dominante)
• Ley de la segregación de los genes antagónicos: La
característica del otro progenitor (recesiva) es latente y se
manifestará en la siguiente generación resultante de
cruzar a los híbridos entre sí. Tres cuartos muestran la
característica dominante y un cuarto la recesiva
• Ley de la recombinación de los genes: Cada una de las
características puras de cada variedad (color, rugosidad
de la piel, etc.) se transmiten a la siguiente generación de
forma independiente entre sí, siguiendo las dos primeras
leyes
Introducción a la Bioinformática
Evolución Genetica
Conclusiones o Leyes de Mendel (1866):
• En 1905 Bateson, Saunders y Punnett descubrieron la
conexión genética a través de las cromosomas
• Ellos determinaron que genes están localizados en
cromosomas y que cada cromosoma es una unidad que
se reproduce intactamente
• Los genes ocupan posiciones (e.g. locus) en
macromoléculas llamadas cromosomas
• Esta idea fue modificada posteriormente por Thomas
Hunt Morgan
• Esto nos lleva al estudio de la células y la Genética...
Introducción a la Bioinformática
Células
Función:
• Las funciones biológicas de los organismos dependen
de las células para la producción y regulación de
compuestos necesarios para su funcionamiento
• Los organismos se clasifican de acuerdo a sus
características celulares:
• Eukariotes (hongos, animales, plantas, humanos)
• Prokariotes (bacterias)
• Virus
• Archaea (organismos similares a las bacteria que
viven en ambientes extremos)
Introducción a la Bioinformática
Introducción a la Bioinformática
Watson y Crick
• En 1953, James Watson y Francis Crick, descubrieron la
estructura tridimensional del ácido desoxirribonucleico
(ADN) al encontrar un modelo que explicaba todos los
datos obtenidos hasta el momento
• El ADN es un polímero (gr. poly - muchas, meros partes) o sea una macro molecula de muchas
componentes individuales
• Es una cadena doble compuesta por fosfatos (PO4),
azucar (desoxiribosa) y una base nitrogenada
PO-4
|
Azúcar - Base
|
PO-4
|
Azúcar - Base
|
PO-4
Introducción a la Bioinformática
ADN
• En el modelo de Watson y Crick, el ADN
es una doble hélice, con las bases
dirigidas hacia el centro, perpendiculares
al eje de la molécula y un esqueleto de
azúcar-fosfato a lo largo de los lados de la
hélice (que protege las bases del
ambiente)
• Las hebras que la conforman son
complementarias y antiparalelas. Las
bases de cada cadena se aparean de
forma complementaria Adenina con Timina
(A-T) y Guanina con Citosina (C-G)
• Cada base tiene puentes de hidrógeno
con su complementaria, uniendo así las
dos cadenas
Introducción a la Bioinformática
ADN y ARN
Estructura
• Los ácidos nucleicos que se conocen son el ácido
desoxirribonucleico (ADN) y el ácido ribonucleico (ARN)
• Ambos están compuestos por nucleótidos en formas
monocatenarias (ARN) o de doble cadena (DNA)
• Las bases nitrogenadas que componen los ácidos
nucleicos son los compuestos que codifican la información
genética en la molécula (el código genético: A, T, C, G)
• Las bases nitrogenadas se clasifican en dos grandes
familias: púricas y pirimidínicas
Introducción a la Bioinformática
ADN y ARN
Estructura
• Bases púricas: Adenina,Guanina
• Bases pirimidínicas: Citosina, Timina, Uracilo
• El ADN contiene adenina-guanina-citosina y timina que
se emparejan en una doble hélice A-T y G-C
• El ARN contiene Uracilo en vez de Timina
• El ARN tiene diferentes nombres dependiendo de su
funcion (e.g. ARNm: ARN mensajero, ARNt: ARN de
transferencia, ... hay mas tipos de ARN)
• El DNA y todas las formas bicatenarias (duplex) de los
ácidos nucleícos se unen entre sí gracias a los enlaces de
hidrógeno que se establecen entre sus bases
• La Timina enlaza con la Adenina con dos enlaces y la
Guanina y la citosina se unen entre sí por tres enlaces de
hidrógeno
Introducción a la Bioinformática
ADN y ARN
Bases
Enlaces
Introducción a la Bioinformática
ADN
Estructura
• En el ADN las azucares sucesivas se conectan a través
del fosfato y una hebra tiene la orientación de 5' a 3' y la
otra hebra (complementaria) de 3' a 5' (dado que la
molécula de azúcar esta rotada)
PO-4
|
5'
3'
5'
3'
PO-4
|
Azucar - C === G - Azucar
|
|
PO-4
PO-4
|
|
Azucar - C === G - Azucar
|
|
PO-4
PO-4
3'
5'
3'
5'
Introducción a la Bioinformática
ADN de Células:
Prokariotas
• Organismos microscópicos
• Su genoma es una molécula circular de ADN
• Genoma es del orden de 0.6-8 Mpb (millones de pares de
bases)
• Densidad de genes es de aproximadamente un gen =
1000 pares de bases
• Sus genes no son sobrepuestos (no overlap)
• Sus genes son transcritos (copiados a ARNm)
inmediatamente después de una región llamada promotor
• Son continuamente codificantes (sin intrones)
Introducción a la Bioinformática
ADN de Células:
Eukariotes
• Organismos variados (plantas, animales, hongos,...)
• Genoma consiste de múltiples pedazos contiguos de
ADN típicamente denominados cromosomas
• Genoma es del orden de 10-3000 Mpb (millones de
pares de bases)
• Densidad de genes es de aproximadamente un gen =
100000 pares bases
• Genoma incluye muchas áreas no codificartes
• Sus genes son transcritos (copiados a ARNm) después
de una región llamada promotor pero elementos en la
secuencia a gran distancia pueden tener gran efecto en el
proceso
• Genes pueden derivar en múltiples formas de ARNm y
proteínas
• Mas complejas!
Introducción a la Bioinformática
Introducción a la Bioinformática
Introducción a la Bioinformática
Dogma Central (Watson & Crick)
• Transferencia general de la información
De ADN a ARN, de ARN a Proteína
Introducción a la Bioinformática
Dogma Central (Watson & Crick)
• Transferencia general de la información
De ADN a ARN, de ARN a Proteína
Introducción a la Bioinformática
Dogma Central (Watson & Crick)
Introducción a la Bioinformática
ADN
Codigo Genetico:
• Las funciones biológicas de los organismos dependen
de las células para la producción y regulación de
compuestos necesarios para su funcionamiento
• Codones: tripletes de bases codificantes en aminoacidos
• Comienzo: ATG
• Termino: TAA, TAG, TGA
• Exones: secciones codificantes (con genes)
• Intrones: secciones entre medio de exones no
codificantes
Sequencias Codificantes:
• ORF: Open Reading Frame (de codón de comienzo a
término)
• CDS: Coding Sequence
Introducción a la Bioinformática
ADN
Codigo Genetico:
• La secuencia genética del ADN esta codificada en
secuencias de nucleotidos (Adenosina, Timina, Citosina,
Guanina)
• El ARN substituye Timina (T) por Uracilo (U)
• El ADN actúa como un molde en la replicación celular
para producir mas ADN (mitosis)
• El ADN también transmite la información necesaria para
la reproducción celular (meiosis)
• Los genes se organizan en cromosomas para la
reproducción durante meiosis
• En el caso de meiosis se intercambia material genético
entre cromosomas homologas
• La unidad de intercambio genético es el gen
Introducción a la Bioinformática
Y
F
C
S
L
W
H
L
R
P
Q
I
N
S
K
R
T
M
D
V
A
E
G
Introducción a la Bioinformática
ADN
Mitosis:
• Watson y Crick formularon la
hipótesis semiconservativa que fue
posteriormente demostrada por
Meselson y Stahl en 1957
• Según esta hipótesis, la nuevas
moléculas de DNA duplexo contienen
una hebra de material original y otra
nueva
Introducción a la Bioinformática
ADN
Meiosis:
•Thomas Hunt Morgan en 1910
estudio en detalle la conexión
genética con moscas de la fruta
•El determino que los genes en
los cromosomas tienen conexión
parcial (partial linkage) al
estudiar Meiosis
•Esto ocurre porque las
cromosomas homologas pueden
intercambiar ADN durante la
fase Prophase I
• La frecuencia con la cual los
genes son separados por cruces
es directamente proporcional
con su distancia en su
cromosoma
Introducción a la Bioinformática
Genes: Partial Linkage
Introducción a la Bioinformática
Genomica
Vías Metabólicas
• Vías metabólicas: reacciones elementales celulares que
producen compuestos centrales para la sobrevivencia de
la célula
• Con el metabolismo se describen los mecanismos de las
células para extraer y convertir la energía de los
compuestos químicos y para construir las moléculas
necesarias para la síntesis y regulación de los ácidos
nucleicos, proteínas, membranas, y polisacáridos
• El metabolismo es una red compleja de reacciones
químicas dentro de los confines de la célula, y que puede
ser analizado como conjuntos separados conocidos como
vías metabólicas
Introducción a la Bioinformática
Genomica
Fundamentos de las Vías Metabólicas
• Reacciones químicas
• Balance energético y termodinámica
• La Integración celular (las células deben gastar mucha
de su energía transportando substrato a través de las
membranas biológicas)
• Mecanismos regulatorios de las vías. Las vías pueden
ser activadas o desactivadas. Modulación de la actividad
enzimática (proteica), y disponibilidad de la enzima
(expresión genética, control de translación)
Introducción a la Bioinformática
Genomica
Vías Metabólicas
• Hay dos áreas principales en la bioquímica del
metabolismo:
• Catabolismo: la degradación oxidativa de moléculas
• Anabolismo: la síntesis reductiva de moléculas
• Las vías, ya sean catabólicas o anabólicas, son
interdependientes, controladas por las necesidades
energéticas y las demandas estructurales del organismo
• La célula controla cuales vías están activas y por cuanto
tiempo
Introducción a la Bioinformática
Introducción a la Bioinformática
Esta charla trata de lo siguiente:
• Introducción a aspectos de la bioinformática
• Discusión acerca de algunas bases de datos y
herramientas utilizadas en la bioinformática
• Discusión sobre secuencias genéticas y algoritmos usados
para su análisis
Introducción a la Bioinformática
Genomica
Bases de datos de nucleótidos
• La bioinformática requiere encontrar e interpretar datos
biológicos.
• De nuestro interés son las bases de datos para
nucleótidos, proteínas y vías metabólicas
• Algunas bases de datos de nucleótidos incluyen:
Genbank, NCBI LocusLink, TIGR, Ensembl
• Genbank es la base de datos principal de nucleótidos y
mantiene un registro histórico (primario) de todos las
secuencias de nucleótidos que se han introducido en el
• Se utiliza el Gene ID (e.g. X01714) para iniciar
búsquedas en Genbank
Introducción a la Bioinformática
Genomica
Bases de datos de proteínas
• La principal base de datos de proteínas por la calidad
de sus datos anotados es SWISS-PROT
• Se utiliza el Primary Accession Number para identificar una
secuencia que se quiere encontrar (e.g. P32861)
•SWISS-PROT es un recurso de datos derivado
(secundario) de la literatura y manualmente verificados
• TrEMBL es una base de datos automáticamente anotada
Introducción a la Bioinformática
Genomica
Bases de datos de Vías Metabólicas
• Algunas recursos sobre vías metabólicas incluyen:
KEGG, BRENDA, IUBMB, ECOCYC
• KEGG (Kyoto Encyclopedia of Genes and Genomes)
incluye una gran cantidad de vías metabólicas y es la mas
importante a nivel mundial
• En KEGG típicamente se utiliza el numero de la enzima
(E.C. para comenzar una búsqueda)
• BRENDA es un sistema de información enzimático
• IUBMB es el sitio oficial de la Unión de Bioquímica y
Biología Molecular
• ECOCYC es la enciclopedia de genes y el metabolismo
de E.Coli
Introducción a la Bioinformática
Genomica
Bases de datos de Vías Metabólicas: KEGG
# [ LinkDB | KEGG ]
# ENTRY EC 2.7.1.2
# NAME Glucokinase
# CLASS Transferases Transferring phosphoruscontaining groups Phosphotransferases with an alcohol
group as acceptor
# SYSNAME ATP:D-glucose 6-phosphotransferase
# REACTION ATP + D-Glucose = ADP + D-Glucose 6phosphate
# SUBSTRATE ATP D-Glucose
# PRODUCT ADP D-Glucose 6-phosphate
# COMMENT A group of enzymes found in invertebrates
and microorganisms highly specific for glucose.
<...>
Introducción a la Bioinformática
Genomica
Aplicaciones Para Comparar Secuencias
• BLAST (Basic Local Alignment Search Tool) es la
principal aplicación para comparar secuencias
• Las principales versiones son BLASTP y TBLASTN
• BLASTP compara la secuencia de una proteína con una
base de datos de proteínas
• TBLASTN comparar la secuencia de una proteína con
una base de datos de nucleótidos
Introducción a la Bioinformática
Genomica
Usos de BLAST
• Para encontrar algo acerca de la función de mi proteína:
usar BLASTP para comparar con otras proteínas en las
bases de datos
• Para descubrir nuevos genes que codifican a alguna
proteína (o enzima): usar TBLASTN para comparar la
proteína con secuencias de ADN traducidas en todas sus
posibles ORFs
Introducción a la Bioinformática
Genomica
Resultados de BLAST
• Sequence Accesion Number
• Description
• Bit score – estima el significado del alineamiento
(mientras mayor mejor)
• E-value – estima el numero de veces que se pudiera
encontrar un alineamiento tan bueno aleatoriamente
(mientras menor mejor)
• Alineamientos (%identidad, largo)
Introducción a la Bioinformática
Genomica
Aplicaciones Para Comparar Secuencias Múltiples
• También es deseable muchas veces hacer alineamientos
múltiples. Hay muchas herramientas para esto. Entre
ellas: CLUSTALW, TCOFFEE
• Mas en el laboratorio!
Introducción a la Bioinformática
Genomica
Evolución Genética
• Todos los genes están relacionados (Zuckerkandl,
Pauling 1960’s)
• Los genes a veces evolucionan independientemente del
organismo (formulado por R. Dawkins 1976)
• Solamente unos pocos miles de familias de genes
existen (C. Chothia, 1992, Nature 357)
Introducción a la Bioinformática
Genomica
Análisis Filogenético: Definiciones
• Genes Homólogos: Genes con un ancestro común
• Genes Ortólogos: Homólogos separados por
especiacion en el cual un ancestro común genera dos
subgrupos que lentamente se separan para convertirse en
nuevas especies
• Genes Paralogs: Homólogos separados por un evento
de duplicación. Una de las copias típicamente mantiene
su función mientras que la otra tiene otra función pero
relacionada
• Genes Xenologs: Xenologs ocurren por la transferencia
horizontal de una especie a otra. No hay historia del
nuevo gen en el genoma que fue insertado
Introducción a la Bioinformática
Búsqueda de secuencias/proteínas homologas:
Introducción a la Bioinformática
Genomica
Análisis filogenético: Ortólog y Paralog
A
Duplicación
A
B
Especiación
A1
B1
A2
B2
Introducción a la Bioinformática
Genomica
Análisis filogenético: Globina y Myoglobina
Globin
ancestor
Ancestral duplication
globin
gene
globin
mouse
globin
globin
man
Myoglobin
Myoglobin
mouse
Myoglobin
man
Introducción a la Bioinformática
Genomica
Análisis Filogenético: Algunas herramientas
• ClustalW: Herramienta de tipo caja negra para análisis
filogenético
• Phylip: Método mas sofisticado que permite controlar los
parámetros necesarios en la reconstrucción
Introducción a la Bioinformática
Esta charla trata de lo siguiente:
• Introducción a aspectos de la bioinformática
• Discusión acerca de algunas bases de datos y
herramientas utilizadas en la bioinformática
• Discusión sobre secuencias genéticas y algoritmos usados
para su análisis
Introducción a la Bioinformática
Genomica: Marcos de Lectura
•
•
•
•
•
•
•
Dada parte de una secuencia de ADN y conociendo el código
genético es posible traducirlo a una proteína al mirar codones
sucesivos en una secuencia genética
Hay secuencias en la cual hay soporte bioquímico y otras que
simplemente se derivan de la secuencia conceptual sin validación
experimental
En una secuencia arbitraria de ADN no se sabe si es que la
primera base indica el comienzo de las CDS (Coding Sequences).
Por eso se hace un traducción en seis marcos de lectura (six
frames):
Hay tres marcos hacia adelante, que se logran al traducir la
primera, segunda y tercera base respectivamente
Tres marcos adicionales se determinan al invertir la secuencia de
ADN y hacer la traducción en las bases primera, segunda y
tercera
Solo uno de los marcos es correcto.
Introducción a la Bioinformática
Introducción a la Bioinformática
Genomica: Marcos de Lectura (cont)
•
•
•
•
•
•
Cual es el marco correcto?
Típicamente el marco mas largo interrumpido por un stop codon
(TGA, TAA or TAG)
Este marco se conoce como un ORF
Típicamente el codon de inicio es ATG (methionine) pero
methionine es también un codon común en el CDS
La presencia de ATG no es un indicador absoluto de inicio del
ORF
Indicadores de regiones codificantes:
•
•
•
Largo suficiente del ORF
Reconocer secuencias especiales al inicio del CDS (e.g. Kozak
sequences)
Patrones estadísticos de uso de codones en regiones codificantes y no
codificantes son diferentes (depende del organismo)
Introducción a la Bioinformática
Genomica: Algoritmos
•
•
•
•
•
Para poder utilizar y entender efectivamente los resultados de las
búsquedas y alineamientos en las bases de datos tenemos que
entender como es que se obtienen estos alineamientos son
obtenidos
Cuando se comparan secuencias es necesario obtener una
indicación de cuan buenos son los posibles alineamientos
Para eso se utiliza el concepto de score en el cual se introducen
penalidades cuando las secuencias no están alineadas de la
manera deseada
En algunos casos encontrar el mejor alineamiento requiere la
introducción de espacios (gaps)
Métodos lograr scores de alineamientos incluyen:
•
•
•
•
•
Dayhoff Mutation Data Matrix
BLOSUM Matrices
Resultados Estadísticos (e.g. BLAST E-value)
Dotplot
Needleman Wunsch Algorithm
Introducción a la Bioinformática
SE ACABO?
Referencias
•
•
•
•
•
•
•
Brown, T.A., Genomes, Wiley, 1999
Claverie, J.M., Bioinformatics for Dumies, Wiley, 2003
Perkus, J. K., Mathematics of Genome Analysis, 2002
Gibas, C., Developing Bioinformatics Computer Skills,
2001
http://www.biologia.edu.ar/index.html
http://www.arrakis.es/%7Elluengo/
Link antiguo: http://www.multisan2001.com