Saltar al contenido principal
LibreTexts Español

4.4: Análisis del genoma mediante secuenciación a gran escala

  • Page ID
    58685
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    Los genomas completos se pueden secuenciar tanto por secuenciación aleatoria con pistola de disparo como mediante un enfoque dirigido usando clones mapeados.

    Figura 4.11. Secuenciación dirigida de cóntigos BAC.

    Los resultados de la secuencia Celera y colaboración pública sobre la mosca se publicaron a principios del 2000, y las descripciones de la secuencia del genoma humano fueron publicadas por separado por Celera e IHGSC en 2001. Ninguno de los dos genomas está completamente secuenciado (a partir de 2001), pero ambos están altamente secuenciados y están estimulando una gran revolución en las ciencias de la vida.

    La sabiduría de qué enfoque tomar sigue siendo tema de debate, y depende en cierta medida de cuán minuciosamente se necesita secuenciar un genoma complejo. Por ejemplo, una secuencia de acceso público del genoma del ratón con cobertura 3X fue generada recientemente por el enfoque de escopeta. Otros genomas probablemente serán “ligeramente secuenciados” con una cobertura similar. Pero una secuencia completa de ratón de alta calidad probablemente utilizará aspectos del enfoque más dirigido. Además, el ensamblaje Celera (principalmente secuencia de escopeta) también utilizó los datos públicos sobre la secuencia del genoma humano. Así, los esfuerzos actuales utilizan tanto la secuenciación rápida por métodos de escopeta como la secuenciación de clones mapeados.

    Encuesta de genomas secuenciados

    Las secuencias genómicas están disponibles para muchas especies ahora, cubriendo un impresionante rango filogenético. Esto incluye más de 28 eubacterias, al menos 6 arqueas, un hongo (la levadura Saccharomyces cerevisiae), un protozoo (Plasmodium falciparum), un gusano (el nematodo Caenorhabditis elegans), un insecto (la mosca de la fruta Drosophila melanogaster), dos plantas ( Arabadopsis y arroz (pronto)), y dos mamíferos (Homo sapiens humano y ratón Mus domesticus). Parte de la información sobre estos se enumera en el Cuadro 4.4.

    Cuadro 4.4.Genomas secuenciados. Esta tabla se deriva de la lista de “Genomas completos mapeados en las vías KEGG (Enciclopedia de Genes y Genomas de Kioto)” en

    www.genome.ad.jp/kegg/java/org_list.html

    Se han agregado genomas adicionales, pero solo se listan muestras de las secuencias bacterianas.

    Genes encodina g

    Especies

    Tamaño del Genoma

    (pb)

    Proteína

    RNA

    Total

    Enzimas

    Categoría

    Eubacterias

    Escherichia coli

    4,639,221

    4,289

    108

    1,254

    gramo negativo

    Haemophilus influenzae

    1,830,135

    1,717

    74

    571

    gramo negativo

    Helicobacter pylori

    1,667,867

    1,566

    43

    394

    gramo negativo

    Bacillus subtilis

    4,214,814

    4,100

    121

    819

    gram positivo

    Mycoplasma genitalium

    580,073

    467

    36

    202

    gram positivo

    Mycoplasma pneumoniae

    816,394

    677

    33

    226

    gram positivo

    Mycobacterium tuberculosis

    4,411,529

    3,918

    48

    -

    gram positivo

    Aquifex aeolicus

    1,551,335

    1,522

    50

    -

    bacteria hipertermófila

    Borrelia burgdorferi

    1,230,663

    1,256

    23

    176

    enfermedad de Lyme Espirochete

    Synechocystis sp.

    3,573,470

    3,166

    49

    702

    cianobacteria

    Arquebacterias

    Archaeoglobus fulgidus

    2,178,400

    2,407

    49

    439

    Arqueas metabolizadoras S

    Methanococcus jannaschii

    1,739,934

    1,735

    43

    441

    arqueas

    Methanobacterium thermoautotrophicum

    1,751,377

    1,871

    47

    558

    arqueas

    Eucariotas

    Saccharomyces cerevisiae

    12,069,313

    6,064

    262

    861

    hongos

    Caenorhabditis elegans

    97,000,000

    18,424

    -

    nematodo

    Drosophila melanogaster

    180,000,000

    13,601

    insecto, mosca, 120 Mb secuenciado

    Arabidopsis thaliana

    115,500,000

    25.706

    planta, completa

    Homo sapiens

    3,200,000,000

    30,000-40,000

    humano, borrador + terminado

    Mus domesticus

    3,000,000,000

    ratón, borrador

    Tamaño del genoma

    Los genomas bacterianos varían en tamaño de 0.58 a casi 5 millones de pb (Mb). E. coli y B. subtilis, dos de las bacterias más estudiadas, tienen los genomas más grandes y el mayor número de genes. El genoma de la levadura Saccharomyces cerevisiae es sólo 2.6 veces más grande que el de E. coli. El genoma de los humanos es casi 700 veces mayor que el de E. coli. Sin embargo, el tamaño del genoma no es una medida directa del contenido genético en largas distancias filogenéticas. Se necesita examinar la fracción del genoma que codifica la proteína o contiene otra información importante. Veamos tamaños y números de genes en diferentes genomas.

    Tamaño y número de genes

    El tamaño promedio de los genes es similar entre las bacterias, promediando alrededor de 1100 pb. Muy poco ADN separa la mayoría de los genes bacterianos; en E. coli hay un promedio de sólo 118 pb entre genes. Dado que el tamaño del gen varía poco, entonces el número de genes varía en un rango tan amplio como el tamaño del genoma, desde 467 genes en M. genitalium hasta 4289 en E. coli. Así, dentro de las bacterias, que tienen poco ADN no codificante, el número de genes es proporcional al tamaño del genoma.

    Saccharomyces cerevisiaetiene un gen cada 1900 pb en promedio, lo que podría reflejar tanto un aumento en el tamaño del gen como una distancia algo mayor entre los genes. Tanto las bacterias como las levaduras muestran un empaquetamiento de genes mucho más denso que el que se ve en genomas más complejos.

    Los datos de una gran muestra de genes humanos muestran que son mucho más grandes que los genes bacterianos, siendo la mediana aproximadamente 14 veces mayor que los genes bacterianos de 1 kb. Esto no se debe a que la mayoría de las proteínas humanas sean sustancialmente más grandes; ambas proteínas bacterianas tienen un promedio de aproximadamente 350 aminoácidos de longitud, lo que es similar al tamaño mediano de las proteínas humanas. La principal diferencia es la gran cantidad de secuencia intrónica en los genes humanos.

    Cuadro 4.5.Tamaño promedio de genes humanos y partes de genes. Esto se basa en la información del artículo del IHGSC en Nature, y derivado del análisis de 1804 genes humanos.

    Mediana

    Media

    Exón interno

    122 pb

    145 pb

    Número de exones

    7

    8.8

    Longitud de cada intrón

    1023 pb

    3365 pb

    3' UTR

    400 pb

    770 pb

    5' UTR

    240 pb

    300 pb

    Secuencia codificante

    1100 pb

    1340 pb

    Longitud de la proteína codificada

    367 aminoácidos

    447 aminoácidos

    Extensión genómica

    14,000 pb

    27,000 pb

    Figura 4.14. Tamaño del genoma y número de genes en especies que van desde bacterias hasta humanos.

    El empalme alternativo es común en los genes humanos

    Una estimación previa menor es que el empalme alternativo ocurre en 35% de los genes humanos. Sin embargo, datos recientes muestran que esta fracción es mayor.

    Para el cromosoma 22:

    • 642 transcritos cubren 245 genes, 2.6 txpts/gen
    • 2 o más transcripciones para 145 (59%) de los genes

    Para el cromosoma 19:

    • 1859 transcritos cubren 544 genes, 3.2 txpts/gen

    Esto contrasta con la situación en el gusano, en la que el empalme alternativo ocurre en 22% de los genes. El aumento de la diversidad genética del empalme alternativo puede contribuir considerablemente a la mayor complejidad de los humanos, no solo al aumento en el número de genes.

    Estimaciones del número de genes humanos

    El número estimado de genes humanos ha variado mucho en los últimos años. Algunos de estos números han sido ampliamente citados, y puede ser útil enumerar algunas de las fuentes de estas estimaciones.

    • Complejidad del ARNm (cinética de asociación): 40,000 genes
    • Tamaño promedio del gen 30,000 pb: 100,000 genes
    • Número de islas CpG: 70,000 a 80.000
    • Clusters Unigene de EST: 35,000 a 125,000
    • Agrupación EST más rigurosa: 35.000 genes
    • Comparación con el pez pez balón: 30,000 genes
    • Extrapolado de los recuentos de genes en los cromosomas 21 y 22 (que están terminados): 30,000 a 35.500 genes

    Utilizando el borrador de la secuencia humana de Juy 2000, el IHGSC construyó un Índice de Genes Inicial para humanos. Utilizan el sistema Ensembl en el Centro Sanger. Comenzaron con predicciones ab initio de Genscan, luego confirmadas por similitud con proteínas, ARNm, ESTs y motivos proteicos (base de datos Ppam) de cualquier organismo. Esto condujo a un conjunto inicial de 35.500 genes y 44.860 transcritos en la base de datos Ensemble. Después de reducir la fragmentación, fusionarse con genes conocidos y eliminar secuencias bacterianas contaminantes, se les dejó 31,778 genes. Después de tomar en cuenta la fragmentación residual, y la velocidad a la que se encuentran los genes verdaderos mediante un análisis similar, la estimación permanece alrededor de 32 mil genes. Sin embargo, es una estimación y está sujeta a cambios a medida que se completa más anotación..

    A partir de esta estimación de que el genoma humano contiene alrededor de 32 mil genes, se puede calcular cuánto del genoma está codificando y cuánto se transcribe. Si la longitud de codificación promedio es de 1400 pb, entonces 1.5% del genoma humano consiste en la secuencia codificante. Si la extensión genómica promedio por gen es de 30 kb, entonces se “transcribe” 33% del genoma humano.

    Resumen del número de genes en especies eucariotas:

    • Humano: 32 mil “aún incierto”
    • Mosca: 13, 338
    • Gusano: 18,266
    • Levadura: 6,144
    • Malezas Mostaza: 25,706
    • Humano: 2x número de genes en mosca y gusano
    • Humano: corte y empalme más alternativo, quizás 5x número de proteínas como en mosca o gusano

    Asignación de funciones a genes

    Los genes que codifican proteínas y ARN se pueden detectar con considerable precisión usando herramientas computacionales. Obsérvese que incluso para un organismo ampliamente estudiado como E. coli, el número de genes encontrados por análisis de secuencias (4289 que codifican proteínas) es mucho mayor que el número que se puede asignar como codificación de una enzima particular (1254). La discrepancia entre los genes encontrados en la secuencia versus aquellos con función conocida (es decir, asignados como codificadores de una enzima) es mayor para algunos organismos poco caracterizados como la enfermedad de Lyme causante de Spirochete Borrelia burgdorferi.

    Los muchos genes con función no asignada presentan un reto emocionante tanto en bioinformática como en bioquímica/biología celular/genética. Se han iniciado grandes colaboraciones para un análisis genético y de expresión integral de algunos organismos. Por ejemplo, se están realizando proyectos para realizar mutaciones en todos los genes detectados en Saccharomyces cerevisiae y cuantificar el nivel de ARN estable de cada gen en una variedad de condiciones de crecimiento, a través del ciclo celular y en otras condiciones. Ya se han establecido bases de datos que registran los cambios en los niveles de ARN para todos los genes de levadura cuando el organismo se desplaza de glucosa a galactosa como fuente de carbono. Estos análisis de expresión a gran escala utilizan matrices de microchips de alta densidad que contienen secuencias características para todos los 6064 genes de levadura. Estas matrices de genes se hibridan entonces con ARN o ADNc marcados fluorescentemente de células cultivadas en las dos condiciones diferentes. Las señales de hibridación son cuantificadas y comparadas automáticamente, analizadas. El plan es almacenar los resultados en bases de datos públicas. Los sitios web útiles incluyen:

    • SGD
    • MIPS: una base de datos para genomas y secuencias de proteínas

    Colaboradores y Atribuciones


    This page titled 4.4: Análisis del genoma mediante secuenciación a gran escala is shared under a not declared license and was authored, remixed, and/or curated by Ross Hardison.