17.5: Descubrimiento del motivo de novo

Última actualización
Guardar como PDF

Page ID: 54188

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Como se discutió al inicio de este capítulo, el problema central para la búsqueda de motivos es definir los criterios para qué es un motivo válido y dónde se encuentran. Dado que la mayoría de los motivos están vinculados a importantes funciones biológicas, uno podría someter al organismo a una variedad de condiciones con la esperanza de desencadenar estas funciones biológicas. Luego se podrían buscar genes expresados diferencialmente, y luego usar esos genes como base para los cuales los genes están funcionalmente relacionados y, por lo tanto, es probable que sean controlados por la misma instancia de motivo. Sin embargo, esta técnica no solo se basa en el conocimiento previo de interesantes funciones biológicas para sondear, sino que también está sujeta a sesgos en el procedimiento experimental. Alternativamente, se podría usar Chip-seq para buscar motivos, pero este método se basa no solo en tener un Factor de Transcripción conocido de interés, sino que también requiere desarrollar anticuerpos para reconocer dicho Factor de Transcripción, lo que puede ser costoso y llevar mucho tiempo.

Idealmente uno sería capaz de descubrir motivos de novo, o sin depender de un conjunto de genes o Factor de Transcripción ya conocido. Si bien esto parece un problema difícil, de hecho se puede lograr aprovechando la conservación en todo el genoma. Debido a que las funciones biológicas generalmente se conservan entre especies y tienen distintas firmas evolutivas, se pueden alinear secuencias de especies cercanas y buscar específicamente en regiones conservadas (también conocidas como Isla de Conservación) para aumentar la tasa de búsqueda de motivos funcionales.

Descubrimiento de motivos mediante la conservación de todo el genoma

Las islas de conservación a menudo se superponen a motivos conocidos, por lo que hacer exploraciones de todo el genoma a través de regiones conservadas evolutivas puede ayudarnos a descubrir motivos, de novo Sin embargo, no todas las regiones conservadas serán motivos; por ejemplo, los nucleótidos que rodean a los motivos también pueden conservarse aunque ellos mismos no sean parte de un motivo. Distinguir motivos de regiones conservadas de fondo se puede hacer buscando enriquecimientos que seleccionen más específicamente para kmers involucrados en motivos reguladores. Por ejemplo, se pueden encontrar motivos reguladores mediante la búsqueda de secuencias conservadas enriquecidas en regiones intergénicas aguas arriba de los genes en comparación con regiones de control tales como secuencias codificantes, ya que se esperaría que los motivos se enriquecieran en o alrededor de promotores de genes. También se puede ampliar este modelo para encontrar motivos degenerados: podemos buscar la conservación de motivos más pequeños, no degenerados separados por un hueco de longitud variable, como se muestra en la siguiente figura. También podemos extender este motivo a través de una búsqueda codiciosa para acercarnos a encontrar el motivo local de máxima verosimilitud. Finalmente, la evolución de los motivos también puede revelar qué motivos están degenerados; dado que un motivo particular es más probable que se degenere si a menudo es reemplazado por otro motivo a lo largo de la evolución, la agrupación de motivos puede revelar qué kmers probablemente corresponderán al mismo motivo.

De hecho, la estrategia tiene su relevancia biológica. En 2003, el profesor Kellis argumentó que debe haber cierta presión selectiva para hacer que una secuencia particular se produzca en lugares específicos. Su tesis doctoral sobre el tema se puede encontrar en la siguiente ubicación:

Screen Shot 2020-08-26 a las 4.15.15 PM.png — Figura 17.7: Uso de semillas de motivos para encontrar motivos degenerados

Validación de motivos descubiertos con conjuntos de datos funcionales

Estos motivos predichos pueden ser validados con conjuntos de datos funcionales. Los motivos predichos con al menos una de las siguientes características tienen más probabilidades de ser motivos reales: -enriquecimiento en genes co-regulados. Esto se puede extender aún más a grupos génicos más grandes; por ejemplo, se ha encontrado que los motivos están enriquecidos en genes expresados en tejidos específicos -solapamiento con experimentos de unión a TF -enriquecimiento en genes de los mismos sesgos posicionales complejos con respecto al sitio de inicio de la transcripción (TSS): los motivos están enriquecidos en los genes TSS -cadena arriba vs corriente abajo de los genes, sesgos positonales inter- vs. intra-génicos: los motivos generalmente están agotados en secuencias codificantes -similitud con motivos de factores de transcripción conocidos: algunos, pero no todos, los motivos descubiertos pueden coincidir con motivos conocidos (sin embargo, no todos los motivos están conservados y los motivos conocidos pueden no ser exactamente correcto)