9.9: Ejercicio 4 - Alineaciones de secuencias múltiples

Última actualización
Guardar como PDF

Page ID: 53934

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

BLASTP proporciona un alineamiento por pares de secuencias que es muy útil para identificar homólogos. Las alineaciones múltiples de secuencias comparan un mayor número de secuencias simultáneamente. Al comparar un mayor número de secuencias en un rango evolutivo más amplio, múltiples alineaciones de secuencias permiten a los investigadores identificar regiones de una proteína que están más altamente conservadas y, por lo tanto, es más probable que sean importantes para la función de una proteína. En este ejercicio, estudiaremos la conservación de secuencias proteicas en una serie de organismos modelo que son ampliamente utilizados en estudios genéticos. Los genomas para organismos modelo han sido secuenciados y las técnicas de análisis genético están bien desarrolladas. Además, se dispone de recursos de bases de datos y clones para apoyar la investigación con organismos modelo. Los siguientes organismos han sido seleccionados porque representan importantes ramas de la evolución y porque son candidatos potenciales para futuras investigaciones en este curso.

Escherichia coli cepa K-12 (gram negativa; K-12 es la cepa estándar de laboratorio) Bacillus subtilis cepa 168 (cepa de referencia gram positiva)

Saccharomyces cerevisiae - ¡necesita ser incluido en árboles y alineaciones! Schizosaccharomyces pombe Arabidopsis thaliana - thale crress; organismo modelo para plantas con flores Caenorhabditis elegans - organismo modelo nematodo utilizado en estudios de desarrollo Mus musculus - ratón de laboratorio

Recoger las secuencias y los datos BLAST

El primer paso en un alineamiento múltiple de secuencias es recolectar los datos de secuencia y analizar los datos BLASTP que comparan las secuencias con la secuencia de S. cerevisiae. Utilizaremos las secuencias de referencia para los organismos, las cuales comienzan con un número NP___. Como ya sabes cómo encontrar registros NP____ y usar BLASTP, tomaremos algunos atajos para encontrar los números restantes y las estadísticas BLASTP. Para las secuencias eucariotas, utilizaremos datos BLASTP que ya están disponibles en la base de datos Homologene del NCBI en NCBI (Syers et al. , 2012). Los números de acceso para las especies bacterianas estarán disponibles en Canvas y en el laboratorio.

Accede a Homologene en: http://www.ncbi.nlm.nih.gov/homologene

Haga clic en Estadísticas de liberación para ver las especies que han sido incluidas en los buscadores BLASTP. Ingresa el nombre de tu gen en el cuadro de búsqueda. Esto trae a colación los diversos grupos Homólogos que tienen un gen con ese nombre. Si la búsqueda te lleva a una página con más de una lista de grupos Homólogos, haz clic en el grupo Homólogo que contiene el gen S. cerevisiae.

Registrar el número de acceso para el grupo Homólogo:

La línea superior de un registro homólogo proporciona el número de acceso y resume la distribución taxonómica de homólogos en eucariotas (“Gen conservado en _________”) Una proteína estrechamente conservada solo podría encontrarse en la Ascomycota, mientras que una proteína ampliamente distritada se encontraría en los Eucariontes.

¿Qué divisiones filogenéticas tienen homólogos de tu gen?

La columna izquierda de cada registro homólogo tiene enlaces a resúmenes completos de genes preparados por los curadores del NCBI. La columna derecha tiene enlaces a los registros NP___ y un gráfico que muestra los dominios conservados en los homólogos. (Área de dominios señalada con diferentes colores.)

¿Cuántos dominios se encuentran en la proteína de S. cerevisiae? ¿Los dominios están igualmente bien conservados entre especies?

Registre los números NP___ para homólogos de su proteína Metp de S. cerevisiae en S.
pombe, A. thaliana, C. elegans y M. musculus. Agregar los números NP_ para los homólogos de E. coli y B. subtilis de la hoja de datos publicada. (Algunos registros bacterianos pueden tener prefijos XP__ o ZP___, debido a que las proteínas no han sido estudiadas experimentalmente). Si tiene menos de cinco entradas,
por ejemplo, la proteína está restringida a Ascomycota, agregue dos especies adicionales del grupo Homólogo que contiene su

Nota

¿El ortólogo S. pombe de tu gen MET tiene un nombre diferente? Necesitarás esta información más adelante en este capítulo.

A continuación, realizar un alineamiento BLASTP por pares para cada secuencia contra la secuencia de S. cerevisiae. Recopilar datos BLASTP es fácil con Homologene: Use el cuadro gris en la parte inferior de la página para configurar cada comparación BLASTP. Registrar la puntuación total,% de cobertura y valor E para cada partido.

En el siguiente paso, preparará una alineación de múltiples secuencias utilizando la información de secuencia en los registros NP___. Utilizando los datos BLASTP, es posible excluir algunas secuencias de estudios posteriores. Los mejores partidos tendrán puntuaciones totales altas y% de cobertura (fracción de las dos proteínas que están alineadas) y valores E bajos. Para el resto de esta asignación, excluya las secuencias donde la puntuación total sea menor a 100 y los valores E sean mayores que 1E-10.

Preparar la alineación de múltiples secuencias.

Utilizaremos el conjunto de programas de Filogenia para construir un alineamiento múltiple de secuencias y un árbol filogenético. La filogenia se describe a sí misma como proporcionar “Análisis Filogenético Robusto para el No Especialista”. Estarás trabajando con material en dos sitios diferentes, por lo que necesitas dos páginas de navegador operativas. Una pestaña del navegador debe permanecer en NCBI, donde recuperará los registros. Dirija la otra página del navegador a http://www.phylogeny.fr

Bajo la pestaña Análisis de filogenia del encabezado, seleccione Un Clic. Después de ingresar los datos, sus secuencias se traerán automáticamente a través de algoritmos de alineación múltiple y construcción de árboles filogenéticos. La opción avanzada en esta página le permitiría ajustar los parámetros asociados a cada programa. ¡Dejaremos que Filogenia tome estas decisiones por nosotros!
Ingresa la secuencia proteica en formato FASTA. Para obtener un archivo FASTA, ingrese el NP__number en el cuadro de búsqueda de la Base de Datos de Proteínas NCBI. (Alternativamente, puede hacer clic en el registro NP_ de la página de resumen Homólogo.) La primera secuencia en su análisis debe ser la proteína de S. cerevisiae. Haga clic en el enlace FASTA en la parte superior izquierda del registro NP. Copia la línea del título, comenzando con > y toda la secuencia de aminoácidos. Pegue la secuencia FASTA DIRECTAMENTE en el cuadro de texto Filogenia. Repite este paso con cada una de las secuencias que te gustaría comparar.
Edite las líneas de título de los archivos FASTA para incluir SOLO el nombre de la especie. (¡Verás por qué más tarde!) Cada línea de título de FASTA debe comenzar con un símbolo > (pájaro pico) y terminar con un retorno duro. Estos caracteres proporcionan la puntuación para la computadora. NO utilice un editor de texto o procesador de trabajo para editar los archivos FASTA, ya que estos introducen puntuación oculta que interfiere con el análisis filogenético.
Cuando hayas terminado, ingresa tu dirección de correo electrónico (esto es útil si quieres volver a tu análisis en los próximos días) y haz clic en el botón Enviar. Tus resultados serán publicados en una página web.

Exportar e imprimir la alineación de múltiples secuencias

Haga clic en la pestaña Alineación para ver la alineación de múltiples secuencias.
Bajo salidas, solicite la alineación en formato ClustalW. La alineación Clustal W aparece en una nueva página web. Obsérvese que la línea inferior de cada agrupación indica si un aminoácido es invariante en la posición por un asterisco. Las posiciones de los aminoácidos conservados están indicadas por dos puntos en la línea de fondo.
Haga clic derecho en la página y descargue la alineación Clustal con un nuevo nombre de archivo que tenga sentido para usted. La página se descargará como un archivo de texto que abrirá en Word o un editor de texto.
Abra el archivo en un procesador de textos. Ajusta el tamaño de fuente y los saltos de página para que las secuencias estén correctamente alineadas y que todos los miembros de un clúster encajen en la misma página. Elija una fuente no proporcional como Courier para que los aminoácidos se alineen correctamente.
¡Imprime el archivo y comprueba que el formato es correcto! Entrégalo con la asignación de Filogenia.

Construir un árbol filogenético.

Haga clic en la pestaña Tree Rendering para acceder a su árbol filogenético.
Puedes usar las herramientas de edición para alterar la apariencia de tu árbol. Preste especial atención a las leyendas en las “hojas” del árbol, que deben tener los nombres de las especies.
Descarga el archivo en un formato de tu elección. Imprime el archivo y entrégalo con la asignación de filogenia.