5.3: El proyecto del genoma de Saccharomyces proporcionó la secuencia de referencia

Última actualización
Guardar como PDF

Page ID: 53801

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

La finalización del proyecto del genoma de S. cerevisiae (Goffeau et al. , 1996) representó un hito en la genética de levaduras. S. cerevisiae había sido un modelo genético importante por más de 50 años, pero asociar genes con fenotipos fue un proceso lento. En genética clásica, los investigadores generan colecciones de mutantes y luego mapean los genes responsables de los fenotipos mutantes
mediante el monitoreo de la segregación de rasgos durante la meiosis. Los rasgos que se heredan juntos más del 50% de las veces se asignan al mismo grupo de ligamiento, debido a que se localizan en el mismo cromosoma. (Recordemos la ley de surtido independiente de Mendel.) Cuanto más frecuentemente se heredan dos rasgos juntos, más cerca están en un cromosoma y menos probabilidades de separarse por recombinación durante la meiosis.

Antes del proyecto del genoma, los genetistas de levaduras habían identificado cientos de grupos de enlace, los cuales fueron ensamblados gradualmente en mapas genéticos de 16 cromosomas. Los mapas genéticos contenían aproximadamente 1000 genes conocidos, incluyendo varios genes involucrados en la biosíntesis de Met. A lo largo de varias décadas, los genetistas de levaduras habían aislado más de un centenar de mutantes que no podían
sintetizar Met y estos mutantes habían sido colocados en 21 grupos de complementación, los equivalentes funcionales de los genes (Masselot y Derobichon-szulmajster, 1975). Sin embargo, la localización cromosómica exacta de la mayoría de los genes MET era desconocida. La figura de la derecha muestra las posiciones de los genes MET y CYS que se mapearon en cromosomas de levadura por métodos genéticos clásicos (Cherry et al. , 1997). Para cuando comenzó el proyecto del genoma, los investigadores
también estaban utilizando tecnología de ADN recombinante para identificar genes que eran deficientes en cepas mutantes, por lo que se disponía de información parcial de secuencias para muchas regiones cromosómicas. Esta información de secuencia resultó ser invaluable en la interpretación de los datos del proyecto del genoma.

El genoma de S. cerevisiae fue el primer genoma eucariota en ser decodificado. El éxito del proyecto del genoma de S. cerevisiae se puede atribuir a la impresionante cantidad de colaboración dentro de la comunidad investigadora de levaduras. Más de 600 investigadores en 92 laboratorios aportaron datos de secuencia que se compilaron para generar una secuencia genómica de alta precisión de la cepa 288C de S. cerevisiae (Goffeau et al. , 1996). Se eligió una sola cepa de levadura para la secuenciación del ADN, ya que S. cerevisiae acumula mutaciones de forma natural y las cepas de laboratorio pueden comenzar a divergir entre sí a medida que se propagan en el laboratorio (Mortimer, 2000). Las cepas de deleción que estamos usando en esta clase (Winzeler et al. , 1999) se derivan de la cepa 288C.

La secuencia de ADN de ~12 millones de pares de bases (Mbp) proporciona el mapa físico definitivo de los 16 cromosomas de levadura. El análisis computacional de la secuencia predijo ~6000 marcos abiertos de lectura (ORF), cada uno representando un gen potencial. El número de ORF fue considerablemente mayor que el número de genes que previamente habían sido mapeados con métodos genéticos. Muchos ORF fueron identificados por su similitud con genes que habían sido estudiados en otros organismos, mientras que cerca de la mitad de los ORF eran completamente novedosos. (Con el tiempo, se han identificado ORF adicionales. Hoy en día, el número de ORF dudosos o no caracterizados de S. cerevisiae se acerca a 1500.) La secuencia genómica de S. cerevisiae generalmente confirmó el orden de genes predicho por los mapas genéticos anteriores, pero proporcionó un espaciado más preciso para las distancias que separan los genes de levadura individuales.

Mapa cromosómico del genoma de S. cerevisiae.
S. cerevisiae tiene 16 cromosomas que fueron identificados originalmente por ligamiento genético y posteriormente confirmados por secuenciación de ADN. Los números cromosómicos se asignaron en el orden en que se identificaron mediante análisis de ligamiento clásico.

(Primero, lea la información de coordenadas en la siguiente página. )
El genoma de S. cerevisiae contiene dos genes, SAM1 y SAM2, que codifican enzimas que catalizan la conversión de Met al donante de metilo de alta energía, S-adenosilmetionina. Los dos genes surgieron de una duplicación génica y permanecen casi idénticos entre sí. El nombre sistemático para SAM1 es YLR180W y el nombre sistemático para SAM2 es YDR502C. Utilice la información de coordenadas a continuación para determinar las ubicaciones cromosómicas de SAM1 y SAM2. Coloca los dos genes en el mapa de arriba. Dibuja flechas que indiquen la dirección de transcripción para ambos genes.

Los datos del proyecto genómico proporcionaron la estructura organizadora de la Base de Datos Genoma de Saccharomyces (SGD). El SGD asignó sistemáticamente números de acceso a los ORF, en función de su ubicación y orientación en los cromosomas de levadura. El nombre sistemático para cada ORF tiene 7 caracteres. Cada uno comienza con una “Y” para la levadura, seguido de letras que representan el número de cromosomas y el brazo cromosómico, seguido de un número ORF de 3 dígitos contando lejos del centrómero. La última letra en el nombre del locus indica si la transcripción ocurre en la cadena Watson o Crick del ADN.

La figura en la página opuesta describe el proceso utilizado por el proyecto del genoma para decodificar y anotar la secuencia de S. cerevisiae. Las secuencias completas de los 16 cromosomas de levadura colocados de extremo a extremo se consideran el genoma de referencia para S. cerevisiae. La secuencia del genoma
se sometió al GenBank del NCBI, donde los curadores asignaron un número de acceso NC____
a cada una de las 16 secuencias cromosómicas, lo que indica que las secuencias son secuencias cromosómicas no redundantes. Las posibles secuencias codificantes de proteínas se identificaron con un algoritmo de búsqueda de ORF que busca secuencias que comiencen con un codón de iniciación ATG y terminen con
un codón de terminación en el mismo marco de lectura. Los programas de búsqueda de ORF se basan en el hecho de que los codones de parada están subrepresentados en las secuencias codificantes de proteínas. Debido a que 3 de los 64 codones totales son codones de parada, se predeciría que un codón de parada ocurriera aleatoriamente aproximadamente una vez en cada 21 aminoácidos
en una secuencia proteica. La mayoría de las proteínas, sin embargo, contienen 100 aminoácidos o más. Los buscadores de ORF también son capaces de identificar y excluir intrones del ORF. A cada ORF potencial identificado en el proyecto se le asignó un número de acceso NM______, consistente con una secuencia de transcripción, o secuencia potencial de ARNm.

Se utilizaron métodos computacionales para predecir las secuencias de aminoácidos de las proteínas codificadas por los transcritos, y a las secuencias traducidas se les asignaron números de acceso NP_______. (De hecho, la gran mayoría de las secuencias de proteínas en la base de datos de proteínas del NCBI se han derivado por traducción automática de secuencias de ADN, porque la secuenciación química de las proteínas es una tarea mucho más laboriosa que la secuenciación del ADN). Las funciones de la mayoría de las proteínas predichas por el proyecto genómico aún no han sido validadas experimentalmente. Sus experimentos de este semestre aportarán parte de la validación experimental faltante, cuando transforme mutantes de eliminación met con plásmidos portadores de genes MET.