4.5: Tamaños de genomas - La paradoja del valor C
- Page ID
- 58645
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)El valor C es la cantidad de ADN en el genoma haploide de un organismo. Varía en un rango muy amplio, con un aumento general del valor C con complejidad del organismo desde procariotas hasta invertebrados, vertebrados, plantas. La paradoja del valor C es básicamente esta: ¿cómo podemos dar cuenta de la cantidad de ADN en términos de función conocida? Organismos muy similares pueden mostrar una gran diferencia en los valores de C (por ejemplo, anfibios). La cantidad de ADN genómico en eucariotas complejos es mucho mayor que la cantidad necesaria para codificar proteínas. Por ejemplo: Los mamíferos tienen entre 30,000 y 50,000 genes, pero su tamaño de genoma (o valor C) es de 3 x 10 9 pb.
\[\dfrac{3 \times 10^9\, \text{base pairs}}{3000\, \text{base paires (average gene size)}} = 1 \times 10^6 \,\text{(“gene capacity”).}\]
Drosophila melanogaster tiene alrededor de 5000 loci mutables (~genes). Si el tamaño promedio de un gen de insecto es de 2000 pb, entonces
\[\dfrac{1 \times 10^8 \text{base pairs}}{2 \times 10^3\, \text{base pairs}} = > 50,000 \text{ “gene capacity”}.\]

Nuestra comprensión actual de los genomas complejos revela varios factores que ayudan a explicar la paradoja clásica del valor C:
- Intrones en genes
- Elementos reguladores de los genes
- Pseudogenes
- Múltiples copias de genes
- Secuencias intergénicas
- ADN repetitivo
El hecho de que parte del ADN genómico de organismos complejos es altamente repetitivo, y que algunas proteínas están codificadas por familias de genes mientras que otras están codificadas por genes individuales, significan que el genoma puede considerarse que tiene varios componentes distintivos. El análisis de la cinética de reasociación del ADN, en gran parte en la década de 1970, mostró que dichos genomas tienen componentes que pueden distinguirse por su frecuencia de repetición. Las bases experimentales para esto se revisarán en las primeras secciones de este capítulo, junto con la aplicación de la cinética de hibridación a la medición de la complejidad y abundancia de ARNm. Los avances en la secuenciación genómica han proporcionado visiones más detalladas de la estructura del genoma, y parte de esta información se revisará en las últimas secciones de este capítulo.
R = frecuencia de repetición | ||
---|---|---|
ADN altamente repetido | R (frecuencia de repetición) > 100,000 | Casi sin información, baja complejidad |
ADN moderadamente repetido | 10< <em>R <10.000> | Poca información, complejidad moderada |
ADN de “copia única” | R =1 o 2 | Mucha información, alta complejidad |
Retrotransposones que contienen LTR
- MalR: mamíferos, retrotransposones LTR
- Retrovirus endógenos
- MER4 (Repetición reiterada mediana, familia 4)
Repeticiones que se parecen a transposones de ADN
MER1 y MER2
Mariner repite
Algunas de las repeticiones se agrupan en matrices en tándem y conforman características distintivas de los cromosomas (Figura\(\PageIndex{1}\)). Además de las repeticiones intercaladas discutidas anteriormente, otro contribuyente a la fracción de ADN moderadamente repetitiva son las miles de copias de genes de ARNr. Estos se encuentran en extensas matrices en tándem en unos pocos cromosomas, y se condensan en heterocromatina. Otras estructuras cromosómicas con extensas matrices de repeticiones en tándem son los centrómeros y los telómeros.

La forma común de encontrar repeticiones ahora es por comparación de secuencias con una base de datos de secuencias repetitivas de ADN, RepBase (de J. Jurka). Una de las mejores herramientas para encontrar coincidencias con estos repaats es RepeatMasker (de Arian Smit y P. Green, U. Wash.). Se puede acceder a un servidor web para RepeatMasker en: ftp.Genome.Washington.edu/CGI-bin/RepeatMasker
Ejercicio\(\PageIndex{2}\)
Prueba Repetir Masker en la secuencia del gen INS. Puedes obtener la secuencia INS ya sea desde NCBI (GenBank accesión GI|307071|GB|L15440.1 o uno puede usar LocusLink, consulta en) o desde el sitio web del curso.
Muy poco del componente de ADN no repetitivo se expresa como ARNm
Los estudios cinéticos de hibridación del ARN revelaron varias ideas importantes. En primer lugar, los experimentos de saturación, en los que se utilizó un exceso de ARN no marcado para conducir el ADN marcado y no repetitivo (trazador) al híbrido, mostraron que solo una pequeña fracción del ADN no repetitivo estaba presente en el ARNm. Experimentos clásicos del laboratorio de Eric Davidson mostraron que solo 2.70% del ADN no repetitivo total corresponde a ARNm aislado de gastrula de erizo de mar (esto se corrige por el hecho de que solo una hebra de ADN se copia en ARN; la cantidad real conducida al híbrido es la mitad de esto, o 1.35%; Figura 4. 8). La complejidad de esta fracción no repetitiva es (N sc) es de 6.1 x 108 pb, por lo que solo 1.64 x 107 pb de este ADN está presente como ARNm en la célula. Si un ARNm “promedio” tiene 2000 bases de largo, hay ~8200 ARNm presentes en gastrula.
En contraste, si el ADN no repetitivo se hibrida con ARN nuclear del mismo tejido, 28% de la fracción no repetitiva corresponde al ARN (Figura 4.8). El ARN nuclear es heterogéneo en tamaño, y a veces se le conoce como ARN nuclear heterogéneo, o ARNh. Parte de ella es bastante grande, mucho más que la mayoría del ARNm asociado a los ribosomas en el citoplasma. Este último se llama ARNm polisómico.

Estos datos muestran que una fracción sustancial del genoma (más de un cuarto de la fracción no repetitiva) se transcribe en núcleos en la etapa de gastrula, pero gran parte de este ARN nunca sale del núcleo (o más formalmente, muchas más secuencias del ADN están representadas en ARN nuclear que en ARN citoplásmico). Así, gran parte de la complejidad del ARN nuclear permanece en el núcleo; no se procesa en ARNm y nunca se traduce en proteínas.
Los factores que contribuyen a una explicación incluyen
- Los genes pueden ser transcritos pero el ARN no es estable. (Incluso el ARNm citoplásmico de diferentes genes puede mostrar diferentes estabilidades; este es un nivel de regulación de la expresión. Pero también podría haber genes cuyas transcripciones son tan inestables en algunos tejidos que nunca se procesan en ARNm citoplásmico, y así nunca se traducen. En este último caso, el gen se transcribe pero no se expresa en proteína).
- El ARN intrónico se transcribe y se vuelve rápidamente después del corte y empalme.
- Los genes se transcriben mucho más allá del sitio de adición de poli A. Estos transcritos a través de las regiones intergénicas flanqueantes 3' suelen ser muy inestables.
- No todo este ARN “extra” en el núcleo es inestable. Por ejemplo, algunos ARN se usan en el núcleo, por ejemplo:
- ARN de U2-Un en corte y empalme (ARN nucleares pequeños, o ARNsns).
El ARN puede ser un componente estructural del andamio nuclear (S. Penman)
Así, aunque 10 veces más complejidad de ARN está presente en el núcleo en comparación con el citoplasma, esto no significa que se estén transcribiendo 10 veces más genes que se están traduciendo. Alguna fracción (actualmente desconocida) de este “exceso” de ARN nuclear puede representar genes que están siendo transcritos pero no expresados, pero muchos otros factores también contribuyen a este fenómeno.
Las poblaciones de ARNm en diferentes tejidos muestran un solapamiento considerable:
- Los genes domésticos codifican funciones metabólicas que se encuentran en casi todas las células.
- Los genes especializados, o genes específicos de tejido, se expresan en solo 1 (o un pequeño número de) tejidos. Estos genes específicos de tejido a veces se expresan en grandes cantidades.
Estimación del número de genes expresados y abundancia de ARNm a partir de la cinética de reacciones impulsadas por ARN
Utilizando principios similares a los del análisis de clases de repetición en ADN genómico, se puede determinar a partir de la cinética de hibridación entre una preparación de ARN y ADN de copia única tanto el número promedio de genes representados en el ARN, como la abundancia de los ARNm. No se presentarán los detalles del análisis cinético, pero son similares a los ya discutidos. Los ARN altamente abundantes (como el ADN de alto número de copias) hibridarán con el ADN genómico más rápido que el ARN de baja abundancia (como el ADN de bajo número de copias). Solo unos pocos ARNm son muy abundantes y constituyen una fracción de baja complejidad. La mayor parte de los genes están representados por ARNm de menor abundancia, y estos muchos ARNm constituyen una fracción de alta complejidad, que se hibrida lentamente.
Un ejemplo se resume en la Tabla\(\PageIndex{2}\). un exceso de ARNm de lavado de oviducto de pollo ybridizado a un trazador de ADNc marcado (preparado a partir de ARNm de oviducto). Se encontraron tres componentes principales, que van desde el ARNm de ovoalbúmina altamente abundante hasta ARNm mucho más raros de muchos genes.
Componente |
Cinética de hibridación |
N (nt) |
# mRNAs |
Abundancia |
Ejemplo |
---|---|---|---|---|---|
1 |
rápido |
2,000 |
1 |
120,000 |
Ovoalbúmina |
2 |
mediano |
15,000 |
7-8 |
4,800 |
Ovomucoid, otros |
3 |
lento |
2.6 x 107 |
13,000 |
6-7 |
Todo lo demás |
Preparación de bibliotecas de ADNc normalizadas para EST
Al igual que las poblaciones de ARNm utilizadas como moldes para la transcriptasa inversa, los ADNc de un tipo de tejido o célula particular estarán compuestos por muchas copias de muy pocos ARNm abundantes, un número bastante grande de copias de los ARNm moderadamente abundantes y un pequeño número de copias de los ARNm raros. Dado que la mayoría de los genes producen ARNm de baja abundancia, se elaborará un pequeño número correspondiente de ADNc a partir de la mayoría de los genes. En un esfuerzo por obtener ADNc de la mayoría de los genes, los investigadores han normalizado las bibliotecas de ADNc para eliminar los ARNm más abundantes.
Los ADNc se hibridan con el ARNm molde a una Rot suficientemente alta (concentración de tiempo de ARN) para que los ARNm y ADNc moderadamente abundantes estén en dúplex, mientras que los ADNc raros siguen siendo monocatenarios. El ADNc de ARNm dúplex se adherirá a una columna de hidroxiapatita, y se eluirá el ADNc de cadena sencilla y de baja abundancia deseado. Este procedimiento se puede repetir varias veces para mejorar la separación. El ADNc de baja abundancia y alta complejidad se liga luego en un vector de clonación para construir la biblioteca de ADNc.
Esta normalización es clave para el éxito de un enfoque de secuenciación aleatoria. Se han seleccionado y secuenciado clones aleatorios de ADNc, cientos de miles de ellos. Una secuencia de un solo paso de uno de estos clones de ADNc se denomina etiqueta de secuencia expresada, o EST (Figura 4.9). Se le llama “etiqueta” porque es una secuencia de solo parte del ADNc, y como está en ADNc, que se deriva del ARNm, es de un gen expresado. Si las bibliotecas de ADNc reflejaran la abundancia normal de los ARNm, entonces este enfoque daría como resultado la resecuenciación de los ADNc abundantes una y otra vez, y la mayoría de los ADNc raros nunca serían secuenciados. Sin embargo, la normalización ha sido exitosa, y muchos genes, incluso con ARNm raros, están representados en la base de datos EST.
A partir de mayo de 2001, más de 2,700,000 EST secuencias individuales de clones de ADNc humano han sido depositadas en dBest. Se agrupan en conjuntos no redundantes (llamados clústeres Unigene). Se han ensamblado más de 95.000 cúmulos Unigene, y casi 20 mil de ellos contienen genes humanos conocidos. El número estimado de genes humanos es menor que el número de agrupaciones Unigene, presumiblemente porque algunos genes grandes todavía están representados en más de un clúster Unigene. Es probable que la mayoría de los genes humanos estén representados en las bases de datos EST. Las excepciones incluyen genes expresados solo en tejidos que no han sido muestreados en las bibliotecas de ADNc. Para obtener más información, consulte www.ncbi.nlm.nih.gov/unigene/index.html

Bases de datos para análisis genómico
NCBI: http://www.ncbi.nlm.nih.gov
- Secuencias de ácidos nucleicos
- genómico y ARNm, incluyendo EST
- Secuencias proteicas
- Estructuras proteicas
- Mapas genéticos y físicos
Bases de datos específicas del organismo
- MedLine (PubMed)
- La herencia mendeliana en línea en el hombre (OMIM)

Secuencias y anotación del genoma humano
- Genoma Humano Navegador
- http://genome.ucsc.edu/goldenPath/hgTracks.html
Ensemble (Instituto Europeo de Bioinformática (EMBL) y Centro Sanger)
A.

Programas para análisis de secuencias
- BLAST para buscar rápidamente en bases de datos de secuencias
- PipMaker (para alinear 2 secuencias de ADN genómico)
- Búsqueda de genes por métodos ab initio (GenScan, GRAIL, etc.)
- RepeatMasker
