Download ALINEAMIENTO nueva version
Document related concepts
no text concepts found
Transcript
DOT PLOT: VISUALIZACIÓN DE LA SIMILITUD ENTRE DOS SECUENCIAS COMPARACION DE DOS ATPASAS DE PECES El DOT PLOT permite una visualización rápida de la similitud entre dos secuencias Inconvenientes: No identifica directamente los fragmentos similares No permite cuantificar el grado de similitud Ventajas: Nos muestra inversiones y estructuras repetidas Computacionalmente eficiente ALINEAMIENTO: ALINEAR DOS SECUENCIAS CONSISTE EN IDENTIFICAR LAS CORRESPODENCIAS RESIDUO-RESIDUO ENTRE AMBAS EL ALINEAMIENTO ES LA HERRAMIENTA BÁSICA EN BIOINFORMATICA necesitamos criterios para distinguir entre Buenos alineamientos y malos alineamiento Distancia de Hamming: dadas dos cadenas de igual longitud, se define como el número de posiciones no coincidentes (mismatches) Distancia se Levenshtein: dadas dos cadenas, no necesariamente de la misma longitud, se define como el número de operaciones de edición (inserción, deleción, alteración) necesarias para convertir una en otra Scores Las distancias son medidas de la disimilaridad entre secuencias El score es una medida de la similaridad entre secuencias El score tiene introducir una penalización por introducir espacios (gap penalty) La puntuación asignada a residuos coincidentes no tiene por qué ser igual en todos los casos, y dicha puntuación debería tener un sentido biológico ¿Cuál es la mejor ruta entre Malmo y Tromso? Algoritmos de programación dinámica global local Para un score x, la probabilidad de observar un score ≥x es: P(score≥x)=1-exp(-ke–λx) exacto P≤10-100 - casi idénticas -10 relacionadas 10-100 10-50 10-50 10-10 10-5 P≤10-1 -1 Relación distante Probablemente no relacionadas Distribución de valor extremo Z-score = (score-media)/dev estandar Z=0 Similitud observada equivalente a la aleatoria Z≥5 Probablemente significativo E-value de un alineamiento encontrado en una base de datos, es el número esperado de secuencias que por azar dar un score igual o mayor al obtenido. Resulta de multiplicar P por el tamaño de la base de datos E≤0.02 Probablemente homólogas 0.02<E <1 No descartar homología E>1 Indistinguible del azar Interpretación del nivel de similaridad entre dos protéinas <45% Muy probablemente Idéntica función 45-25% Alta probabilidad de Estructura y función similar 18-25% <18% Zona difusa Indistinguible del azar Significación de alineamientos Técnica de Montecarlo: Barajar secuencias> Repetir alineamiento> Apuntar score Interpretación de la homología • Regla de Doolitle para proteínas (Doolitle’s rule of thumb) Si dos secuencias son >100 aa y su identidad es: – > 25%, probablemente están relacionadas – 15-25 % (twilight zone), podrían estar relacionadas, pero habría que demostrarlo con otras pruebas – <15 %, probablemente no están relacionadas Interpretación de la homología • Los alineamientos son fáciles con secuencias muy parecidas • Por debajo de un umbral, los alineamientos pueden no tener un significado biológico – Twilight zone • Por debajo de este umbral hay que disponer de más información (estructura, etc.) Filtros Se aplican filtros para evitar el efecto de: Regiones de baja complejidad (filtros SEG y DUST) Secuencias repetidas (filtros específicos) Regiones coil-coil (filtro COILS) Conceptos básicos • Homología (homology): • Concepto cualitativo • Implica la existencia de una relación evolutiva • Similitud (similarity): • Concepto cuantitativo • Concepto o cantidad que expresa cómo de parecida es una cosa a otra: • Identidad (DNA y proteínas) • Conservación funcional (prot.) Reeck et al. 1987 "Homology" in proteins and nucleic acids : a terminology muddle and a way out of it. Cell 50: 667 Principales algoritmos para alineamientos • Para alineamientos múltiples • Métodos progresivos – Alinean las secuencias más parecidas y luego van incorporando el resto poco a poco – Más rápidos, aunque menos precisos que en prog. dinámica – Producen un buen alineamiento, pero que no es necesariamente el óptimo – Ej. Clustal, PILEUP, T-Coffee • Métodos iterativos – Rápidos y precisos – Construyen un alineamiento inicial que se revisa progresivamente para conseguir mejorar la puntuación – Ej. Multalin, Dialign Clustal • Dos versiones: – Clustal W: en servidor web – Clustal X: con interfaz gráfica para Windows • Método: – Se alinean separadamente todos los pares de secuencias y calcula una matriz de distancias que indica la divergencia entre cada par de secuencias – A partir de la matriz de distancias se calcula un “arbol guía” (NeighborJoining) – Las secuencias se alinean progresivamente siguiendo el orden de las ramas del arbol guía Características: – Fortalezas: • Alta velocidad – Problemas: • Alineamiento depende de las secuencias iniciales • No se puede corregir en el alineamiento la adición inicial de gaps • Operational options Output options Input options, matrix choice, gap opening penalty Gap information, output tree type File input in GCG, FASTA, EMBL, GenBank, Phylip, or several other formats Secuencias no alineadas Misma región, después del alineamiento Multalin • Disponible en servidores Web; también versión local, pero sin interfaz gráfica • Método: – Alinea progresivamente, primero por pares y luego grupos de secuencias, y calcula sus puntuaciones – Recalcula las puntuaciones de los alineamientos de cada dos secuencias durante la producción del alineamiento – Los alineamientos recalculados se incorporan al alineamiento global – El programa para cuando nos e mejoran las puntuaciones • Características: – Puede producir mejores alineamientos que algoritmos progresivos – Problemas: • Requiere mucha computación Editores de alineamientos • Sirven para – Editar manualmente un alineamiento – importar o exportar datos – Mejorar la presentación visual de los alineamientos Secuencias consenso AGTVATVSC AGTSATHAC IGRCARGSC IGEMARLAC IGDYARWSC ......... IGTVARVSC <= Ejemplo de secuencia consenso Expresiones regulares Ejemplo: AGTVATVSC AGTSATHAC IGRCARGSC IGEMARLAC IGDYARWSC ......... IGTVARVSC <= Ejemplo de secuencia consenso podríamos generar el siguiente patrón: [AI]-G-X-X-A-[RT]-[SA]-C prosite Perfiles Permiten mejorar alin en secuencias distantes Position-specific scoring matrix Dominios y Familias de proteínas REDES NEURONALES Modelos ocultos de Markov HMM PSI-BLAST