Saltar al contenido principal
LibreTexts Español

4.5: Tamaños de genomas - La paradoja del valor C

  • Page ID
    58645
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    El valor C es la cantidad de ADN en el genoma haploide de un organismo. Varía en un rango muy amplio, con un aumento general del valor C con complejidad del organismo desde procariotas hasta invertebrados, vertebrados, plantas. La paradoja del valor C es básicamente esta: ¿cómo podemos dar cuenta de la cantidad de ADN en términos de función conocida? Organismos muy similares pueden mostrar una gran diferencia en los valores de C (por ejemplo, anfibios). La cantidad de ADN genómico en eucariotas complejos es mucho mayor que la cantidad necesaria para codificar proteínas. Por ejemplo: Los mamíferos tienen entre 30,000 y 50,000 genes, pero su tamaño de genoma (o valor C) es de 3 x 10 9 pb.

    \[\dfrac{3 \times 10^9\, \text{base pairs}}{3000\, \text{base paires (average gene size)}} = 1 \times 10^6 \,\text{(“gene capacity”).}\]

    Drosophila melanogaster tiene alrededor de 5000 loci mutables (~genes). Si el tamaño promedio de un gen de insecto es de 2000 pb, entonces

    \[\dfrac{1 \times 10^8 \text{base pairs}}{2 \times 10^3\, \text{base pairs}} = > 50,000 \text{ “gene capacity”}.\]

    Figura\(\PageIndex{1}\): Rangos de tamaño del genoma (en pares de bases) de diversas formas de vida. (CC BY-SA 4.0; Abizar).

    Nuestra comprensión actual de los genomas complejos revela varios factores que ayudan a explicar la paradoja clásica del valor C:

    • Intrones en genes
    • Elementos reguladores de los genes
    • Pseudogenes
    • Múltiples copias de genes
    • Secuencias intergénicas
    • ADN repetitivo

    El hecho de que parte del ADN genómico de organismos complejos es altamente repetitivo, y que algunas proteínas están codificadas por familias de genes mientras que otras están codificadas por genes individuales, significan que el genoma puede considerarse que tiene varios componentes distintivos. El análisis de la cinética de reasociación del ADN, en gran parte en la década de 1970, mostró que dichos genomas tienen componentes que pueden distinguirse por su frecuencia de repetición. Las bases experimentales para esto se revisarán en las primeras secciones de este capítulo, junto con la aplicación de la cinética de hibridación a la medición de la complejidad y abundancia de ARNm. Los avances en la secuenciación genómica han proporcionado visiones más detalladas de la estructura del genoma, y parte de esta información se revisará en las últimas secciones de este capítulo.

    Tabla\(\PageIndex{1}\): Componentes distintos en genomas complejos
    R = frecuencia de repetición
    ADN altamente repetido R (frecuencia de repetición) > 100,000 Casi sin información, baja complejidad
    ADN moderadamente repetido 10< <em>R <10.000> Poca información, complejidad moderada
    ADN de “copia única” R =1 o 2 Mucha información, alta complejidad

    Retrotransposones que contienen LTR

    • MalR: mamíferos, retrotransposones LTR
    • Retrovirus endógenos
    • MER4 (Repetición reiterada mediana, familia 4)

    Repeticiones que se parecen a transposones de ADN

    MER1 y MER2

    Mariner repite

    Algunas de las repeticiones se agrupan en matrices en tándem y conforman características distintivas de los cromosomas (Figura\(\PageIndex{1}\)). Además de las repeticiones intercaladas discutidas anteriormente, otro contribuyente a la fracción de ADN moderadamente repetitiva son las miles de copias de genes de ARNr. Estos se encuentran en extensas matrices en tándem en unos pocos cromosomas, y se condensan en heterocromatina. Otras estructuras cromosómicas con extensas matrices de repeticiones en tándem son los centrómeros y los telómeros.

    Figura\(\PageIndex{2}\): Secuencias repetidas agrupadas en el genoma humano.

    La forma común de encontrar repeticiones ahora es por comparación de secuencias con una base de datos de secuencias repetitivas de ADN, RepBase (de J. Jurka). Una de las mejores herramientas para encontrar coincidencias con estos repaats es RepeatMasker (de Arian Smit y P. Green, U. Wash.). Se puede acceder a un servidor web para RepeatMasker en: ftp.Genome.Washington.edu/CGI-bin/RepeatMasker

    Ejercicio\(\PageIndex{2}\)

    Prueba Repetir Masker en la secuencia del gen INS. Puedes obtener la secuencia INS ya sea desde NCBI (GenBank accesión GI|307071|GB|L15440.1 o uno puede usar LocusLink, consulta en) o desde el sitio web del curso.

    Muy poco del componente de ADN no repetitivo se expresa como ARNm

    Los estudios cinéticos de hibridación del ARN revelaron varias ideas importantes. En primer lugar, los experimentos de saturación, en los que se utilizó un exceso de ARN no marcado para conducir el ADN marcado y no repetitivo (trazador) al híbrido, mostraron que solo una pequeña fracción del ADN no repetitivo estaba presente en el ARNm. Experimentos clásicos del laboratorio de Eric Davidson mostraron que solo 2.70% del ADN no repetitivo total corresponde a ARNm aislado de gastrula de erizo de mar (esto se corrige por el hecho de que solo una hebra de ADN se copia en ARN; la cantidad real conducida al híbrido es la mitad de esto, o 1.35%; Figura 4. 8). La complejidad de esta fracción no repetitiva es (N sc) es de 6.1 x 108 pb, por lo que solo 1.64 x 107 pb de este ADN está presente como ARNm en la célula. Si un ARNm “promedio” tiene 2000 bases de largo, hay ~8200 ARNm presentes en gastrula.

    En contraste, si el ADN no repetitivo se hibrida con ARN nuclear del mismo tejido, 28% de la fracción no repetitiva corresponde al ARN (Figura 4.8). El ARN nuclear es heterogéneo en tamaño, y a veces se le conoce como ARN nuclear heterogéneo, o ARNh. Parte de ella es bastante grande, mucho más que la mayoría del ARNm asociado a los ribosomas en el citoplasma. Este último se llama ARNm polisómico.

    Figura\(\PageIndex{3}\)

    Estos datos muestran que una fracción sustancial del genoma (más de un cuarto de la fracción no repetitiva) se transcribe en núcleos en la etapa de gastrula, pero gran parte de este ARN nunca sale del núcleo (o más formalmente, muchas más secuencias del ADN están representadas en ARN nuclear que en ARN citoplásmico). Así, gran parte de la complejidad del ARN nuclear permanece en el núcleo; no se procesa en ARNm y nunca se traduce en proteínas.

    Los factores que contribuyen a una explicación incluyen

    1. Los genes pueden ser transcritos pero el ARN no es estable. (Incluso el ARNm citoplásmico de diferentes genes puede mostrar diferentes estabilidades; este es un nivel de regulación de la expresión. Pero también podría haber genes cuyas transcripciones son tan inestables en algunos tejidos que nunca se procesan en ARNm citoplásmico, y así nunca se traducen. En este último caso, el gen se transcribe pero no se expresa en proteína).
    2. El ARN intrónico se transcribe y se vuelve rápidamente después del corte y empalme.
    3. Los genes se transcriben mucho más allá del sitio de adición de poli A. Estos transcritos a través de las regiones intergénicas flanqueantes 3' suelen ser muy inestables.
    4. No todo este ARN “extra” en el núcleo es inestable. Por ejemplo, algunos ARN se usan en el núcleo, por ejemplo:
    5. ARN de U2-Un en corte y empalme (ARN nucleares pequeños, o ARNsns).

    El ARN puede ser un componente estructural del andamio nuclear (S. Penman)

    Así, aunque 10 veces más complejidad de ARN está presente en el núcleo en comparación con el citoplasma, esto no significa que se estén transcribiendo 10 veces más genes que se están traduciendo. Alguna fracción (actualmente desconocida) de este “exceso” de ARN nuclear puede representar genes que están siendo transcritos pero no expresados, pero muchos otros factores también contribuyen a este fenómeno.

    Las poblaciones de ARNm en diferentes tejidos muestran un solapamiento considerable:

    • Los genes domésticos codifican funciones metabólicas que se encuentran en casi todas las células.
    • Los genes especializados, o genes específicos de tejido, se expresan en solo 1 (o un pequeño número de) tejidos. Estos genes específicos de tejido a veces se expresan en grandes cantidades.

    Estimación del número de genes expresados y abundancia de ARNm a partir de la cinética de reacciones impulsadas por ARN

    Utilizando principios similares a los del análisis de clases de repetición en ADN genómico, se puede determinar a partir de la cinética de hibridación entre una preparación de ARN y ADN de copia única tanto el número promedio de genes representados en el ARN, como la abundancia de los ARNm. No se presentarán los detalles del análisis cinético, pero son similares a los ya discutidos. Los ARN altamente abundantes (como el ADN de alto número de copias) hibridarán con el ADN genómico más rápido que el ARN de baja abundancia (como el ADN de bajo número de copias). Solo unos pocos ARNm son muy abundantes y constituyen una fracción de baja complejidad. La mayor parte de los genes están representados por ARNm de menor abundancia, y estos muchos ARNm constituyen una fracción de alta complejidad, que se hibrida lentamente.

    Un ejemplo se resume en la Tabla\(\PageIndex{2}\). un exceso de ARNm de lavado de oviducto de pollo ybridizado a un trazador de ADNc marcado (preparado a partir de ARNm de oviducto). Se encontraron tres componentes principales, que van desde el ARNm de ovoalbúmina altamente abundante hasta ARNm mucho más raros de muchos genes.

    Mesa\(\PageIndex{2}\)

    Componente

    Cinética de hibridación

    N (nt)

    # mRNAs

    Abundancia

    Ejemplo

    1

    rápido

    2,000

    1

    120,000

    Ovoalbúmina

    2

    mediano

    15,000

    7-8

    4,800

    Ovomucoid, otros

    3

    lento

    2.6 x 107

    13,000

    6-7

    Todo lo demás

    Preparación de bibliotecas de ADNc normalizadas para EST

    Al igual que las poblaciones de ARNm utilizadas como moldes para la transcriptasa inversa, los ADNc de un tipo de tejido o célula particular estarán compuestos por muchas copias de muy pocos ARNm abundantes, un número bastante grande de copias de los ARNm moderadamente abundantes y un pequeño número de copias de los ARNm raros. Dado que la mayoría de los genes producen ARNm de baja abundancia, se elaborará un pequeño número correspondiente de ADNc a partir de la mayoría de los genes. En un esfuerzo por obtener ADNc de la mayoría de los genes, los investigadores han normalizado las bibliotecas de ADNc para eliminar los ARNm más abundantes.

    Los ADNc se hibridan con el ARNm molde a una Rot suficientemente alta (concentración de tiempo de ARN) para que los ARNm y ADNc moderadamente abundantes estén en dúplex, mientras que los ADNc raros siguen siendo monocatenarios. El ADNc de ARNm dúplex se adherirá a una columna de hidroxiapatita, y se eluirá el ADNc de cadena sencilla y de baja abundancia deseado. Este procedimiento se puede repetir varias veces para mejorar la separación. El ADNc de baja abundancia y alta complejidad se liga luego en un vector de clonación para construir la biblioteca de ADNc.

    Esta normalización es clave para el éxito de un enfoque de secuenciación aleatoria. Se han seleccionado y secuenciado clones aleatorios de ADNc, cientos de miles de ellos. Una secuencia de un solo paso de uno de estos clones de ADNc se denomina etiqueta de secuencia expresada, o EST (Figura 4.9). Se le llama “etiqueta” porque es una secuencia de solo parte del ADNc, y como está en ADNc, que se deriva del ARNm, es de un gen expresado. Si las bibliotecas de ADNc reflejaran la abundancia normal de los ARNm, entonces este enfoque daría como resultado la resecuenciación de los ADNc abundantes una y otra vez, y la mayoría de los ADNc raros nunca serían secuenciados. Sin embargo, la normalización ha sido exitosa, y muchos genes, incluso con ARNm raros, están representados en la base de datos EST.

    A partir de mayo de 2001, más de 2,700,000 EST secuencias individuales de clones de ADNc humano han sido depositadas en dBest. Se agrupan en conjuntos no redundantes (llamados clústeres Unigene). Se han ensamblado más de 95.000 cúmulos Unigene, y casi 20 mil de ellos contienen genes humanos conocidos. El número estimado de genes humanos es menor que el número de agrupaciones Unigene, presumiblemente porque algunos genes grandes todavía están representados en más de un clúster Unigene. Es probable que la mayoría de los genes humanos estén representados en las bases de datos EST. Las excepciones incluyen genes expresados solo en tejidos que no han sido muestreados en las bibliotecas de ADNc. Para obtener más información, consulte www.ncbi.nlm.nih.gov/unigene/index.html

    Figura\(\PageIndex{4}\). Se secuencian clones de ADNc de bibliotecas normalizadas para generar EST.

    Bases de datos para análisis genómico

    NCBI: http://www.ncbi.nlm.nih.gov

    • Secuencias de ácidos nucleicos
    • genómico y ARNm, incluyendo EST
    • Secuencias proteicas
    • Estructuras proteicas
    • Mapas genéticos y físicos

    Bases de datos específicas del organismo

    • MedLine (PubMed)
    • La herencia mendeliana en línea en el hombre (OMIM)
    Figura 4.15. Ejemplo de información de mapeo en NCBI. Mapa genético alrededor de MYOD1, 11p15.4

    Secuencias y anotación del genoma humano

    Ensemble (Instituto Europeo de Bioinformática (EMBL) y Centro Sanger)

    http://www.ensembl.org/

    A.

    Figura 4.16. Vistas de muestra de servidores que muestran el genoma humano. (A) Vista desde el Navegador del Genoma Humano. La región mostrada es parte del cromosoma 22 con los genes PNUTL1, TBX1 y otros. La anotación extensa para exones, repeticiones, polimorfismos de un solo nucleótido, regiones homólogas en ratón y otra información está disponible para todo el genoma secuenciado. (B) Información comparable en un formato diferente está disponible en el servidor ENSEMBL.

    Programas para análisis de secuencias

    • BLAST para buscar rápidamente en bases de datos de secuencias
    • PipMaker (para alinear 2 secuencias de ADN genómico)
    • Búsqueda de genes por métodos ab initio (GenScan, GRAIL, etc.)
    • RepeatMasker
    Figura 4.18. Resultados de la búsqueda BLAST, INS vs. nr

    Colaboradores y Atribuciones


    This page titled 4.5: Tamaños de genomas - La paradoja del valor C is shared under a not declared license and was authored, remixed, and/or curated by Ross Hardison.