Saltar al contenido principal
LibreTexts Español

18.3: Predecir objetivos regulares

  • Page ID
    54781
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Identificación de instancias de motivo

    Una vez descubiertos los motivos potenciales, el siguiente paso es descubrir qué coincidencias de motivos son reales. Esto se puede hacer por métodos tanto experimentales como computacionales.

    • Experimental - Las instancias se pueden identificar experimentalmente usando los métodos Chip-chip y Chip-DEQ. Ambos son métodos in vivo. Esto se hace mediante la reticulación de las células. El ADN se divide primero en secciones. Después se agrega la proteína y su anticuerpo o proteína etiquetada, que se une a diversas secuencias. Estas secuencias unidas ahora se extraen y el entrecruzamiento se invierte. Esto nos permite determinar en qué parte del genoma se unió el factor. Esto tiene una alta tasa de falsos positivos debido a que hay muchos casos en los que un factor se une, pero no es funcional. Este es un método experimental muy popular, pero está limitado por la disponibilidad de anticuerpos, que son difíciles de obtener por muchos factores.
    • Computacional- Enfoques de cómputos. También hay muchos enfoques computacionales para identificar instancias. Los enfoques de genoma único utilizan agrupamiento de motivos. Buscan muchos partidos para aumentar el poder y son capaces de encontrar regiones regulatorias (CRM). Sin embargo, pierden instancias de motivos que ocurren solos y requieren de un conjunto de factores específicos que actúan juntos. Los enfoques multigenómicos, conocidos como huellas filogénicas, enfrentan muchos desafíos. Comienzan alineando muchas secuencias, pero incluso en motivos funcionales, las secuencias pueden moverse, mutar o faltar. El enfoque adoptado por Kheradpour maneja esto al no requerir una conservación perfecta (mediante el uso de una puntuación de longitud de rama) y al no requerir una alineación exacta (buscando dentro de una ventana).

    Las puntuaciones de longitud de rama (BLS) se calculan tomando una coincidencia de motivo y buscándolo en otras especies. Luego, se encuentra el subárbol más pequeño que contiene todas las especies con un motivo coincidente. El porcentaje del árbol total es el BLS. El cálculo del BLS de esta manera permite mutaciones permitidas por degeneración de motivos, desalighment y movimiento dentro de una ventana, y motivos faltantes en árboles de especies densas.

    Este BLS se traduce luego en un puntaje de confianza. Esto nos permite evaluar la probabilidad de una puntuación dada y dar cuenta de las diferencias en la composición del motivo y la longitud. Calculamos esta puntuación de confianza contando todas las instancias de motivos y motivos de control en cada BLS. Entonces queremos ver qué fracción de las instancias de motivo parecen ser reales. El puntaje de confianza es entonces señal/ (señal+ruido). Los motivos de control utilizados en este cálculo se producen produciendo 100 barajados del motivo original, y filtrando los resultados requiriendo que coincidan con el genoma con +/- 20% del motivo original. Estos son luego ordenados en función de su similitud con motivos conocidos y agrupados. A lo sumo se toma un motivo de cada racimo, en orden creciente de similitud, para producir nuestros motivos de control.

    Validación de objetivos

    Similar al descubrimiento de motivos, podemos validar dianas al ver dónde caen en el genoma. La confianza selecciona para instancias de motivos TF en promotores y motivos de miARN en UTR 3', que es lo que esperamos. Los TFs pueden ocurrir en cualquiera de las cadenas, mientras que el miARN debe caer en una sola cadena. Así, aunque no hay preferencia por los TF, los miARN se encuentran preferentemente en la cadena positiva.

    Otro método de validación de objetivos es computando enriquecimientos. Esto requiere tener un conjunto de regiones de fondo y primer plano. Estos podrían ser un promotor de genes co-regulados frente a todos los genes o regiones unidos por un factor frente a otras regiones intergénicas. El enriquecimiento se calcula tomando la fracción de instancias de motivo dentro del primer plano vs la fracción de bases en primer plano. La composición y el nivel de conservación se corrigen con motivos control. Estas fracciones se pueden hacer más conservadoras usando un intervalo de confianza binomial.

    Las dianas se pueden validar comparando con instancias experimentales encontradas usando CHIP-seq. Esto muestra que las instancias conservadas del motivo CTCF están altamente enriquecidas en sitios ChIP-seq. El aumento de la confianza también aumenta el enriquecimiento. Usando esto, se verifican muchas instancias de motivos. Chip-seq no siempre encuentra motivos funcionales, por lo que estos resultados se pueden verificar aún más comparando con regiones unidas conservadas. Esto encuentra que el enriquecimiento en las intersecciones es dramáticamente mayor. Esto muestra dónde son vinculantes factores que tienen un efecto que vale la pena conservar en la evolución. Estos dos enfoques son complementarios y son aún más efectivos cuando se usan juntos.


    This page titled 18.3: Predecir objetivos regulares is shared under a CC BY-NC-SA 4.0 license and was authored, remixed, and/or curated by Manolis Kellis et al. (MIT OpenCourseWare) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.