4.2: Conservación de secuencias genómicas
- Page ID
- 54797
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)Elementos funcionales en Drosophila
En un artículo 1 de 2007, Stark et al. identificaron firmas evolutivas de diferentes elementos funcionales y función predicha usando firmas conservadas. Un hallazgo importante es que a lo largo del tiempo evolutivo, los genes tienden a permanecer en una ubicación similar. Esto se ilustra en la Figura 4.2, que muestra el resultado de un alineamiento múltiple en segmentos ortólogos de genomas de doce especies de Drosophila. Cada genoma está representado por una línea azul horizontal, donde la línea superior representa la secuencia de referencia. Las líneas grises conectan elementos funcionales ortólogos, y es evidente que sus posiciones generalmente se conservan en las diferentes especies.
FAQ
P: ¿Por qué es significativo que se conserve la posición de los elementos ortólogos?
R: El hecho de que se conserven las posiciones es lo que nos permite hacer comparaciones entre especies. De lo contrario, no seríamos capaces de alinear regiones no codificantes de manera confiable.
Drosophila es una gran especie para estudiar porque, de hecho, la separación de las moscas de la fruta es mayor que la de los mamíferos. Esto nos lleva a una interesante nota al margen, la de qué especies seleccionar al mirar las firmas de conservación. No se quiere tener especies muy similares (como los humanos y los chimpancés, que comparten 98% del genoma), porque sería difícil distinguir regiones que son distintas de las que son iguales. Al comparar especies con humanos, el nivel adecuado de conservación a tener en cuenta son los mamíferos. Específicamente, la mayoría de las investigaciones realizadas en este campo se realizan utilizando 29 mamíferos euterianos (mamíferos placentarios, sin marsupiales ni monotremos) para estudiar. Otra de las cosas a tener en cuenta son las diferencias de longitud de ramificación entre dos especies. Sus sujetos de estudio ideales serían algunas especies estrechamente relacionadas (ramificación corta), para evitar problemas de interpretación que surgen con mutaciones largas de longitud de ramificación, como retromutaciones.
Tarifas y patrones de selección
Ahora que hemos establecido que hay estructura para la evolución de las secuencias genómicas, podemos comenzar a analizar características específicas de la conservación. Para esta sección, consideremos datos genómicos a nivel de nucleótidos individuales. Más adelante en este capítulo veremos que también podemos analizar secuencias de aminoácidos.
Podemos estimar la intensidad de una restricción de selección ω haciendo un modelo de probabilidades de la tasa de sustitución inferida a partir de los datos de alineación genómica. El uso de una estimación de probabilidad máxima (ML) de ω puede proporcionarnos la tasa de selección ω así como la puntuación de probabilidades logarítmicas de que la tasa no es natural.

Figura 4.2: Identificación comparativa de elementos funcionales en 12 especies de Drosophila. Las líneas grises indican la alineación de regiones ortólogas. El color indica la dirección de la transcripción.
Una propiedad que esto mide que podemos considerar es la tasa de sustitución de nucleótidos en un genoma. La Figura 4.3 muestra dos secuencias de nucleótidos de una colección de mamíferos. Una de las secuencias está sujeta a tasas normales de cambio, mientras que la otra demuestra una tasa reducida. De ahí que podamos plantear la hipótesis de que esta última secuencia está sujeta a un mayor nivel de restricción evolutiva, y puede representar una sección más importante biológicamente del genoma.


Figura 4.3: Comparación entre dos regiones genómicas con diferentes tasas de selección ω. La secuencia de la izquierda demuestra tasas normales de mutación, mientras que la secuencia de la derecha muestra un alto nivel de conservación, como lo demuestra el reducido número de mutaciones.
Podemos detectar patrones inusuales de selección π observando un modelo probabilístico de una distribución estacionaria que es diferente de la distribución de fondo. La estimación ML de π nos proporciona la matriz de peso de probabilidad (PWM) para cada k-mer en el genoma, así como el log odds score para sustituciones que son inusuales (por ejemplo, una base que cambia a una y solo otra base). Como se puede ver en la Figura 4.4, las letras específicas importan porque algunas bases cambian selectivamente a una (o dos otras bases), y la base específica a la que cambia puede sugerir cuál puede ser la función de la secuencia.
Podemos aumentar nuestro poder de detección de elementos de restricción observando más especies, como se muestra en la Figura 4.5 donde vemos un aumento dramático en la potencia para detectar pequeños elementos restringidos.
1 www.nature.com/nature/journal... ture06340.html