Saltar al contenido principal
LibreTexts Español

19.4: Procesamiento primario de datos de ChIP

  • Page ID
    54075
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)

    Leer mapeo

    El problema del mapeo de lectura busca asignar una lectura dada a la mejor ubicación coincidente en el genoma de referencia. Dada la gran cantidad de lecturas y el tamaño del genoma humano, un requisito común de todos los algoritmos de mapeo de lectura es que sean eficientes tanto en el espacio como en el tiempo. Además, deben permitir desapareamientos debido a errores de secuenciación y SNP.

    A partir de conferencias anteriores, conocemos varias formas de realizar mapeo de lecturas: alineación de secuencias (O (mn) tiempo) y enfoques basados en hash como BLAST, por ejemplo. También existen otros enfoques: coincidencia lineal de cadenas de tiempo (O (m + n) tiempo) y árboles de sufijos y matrices de sufijos (O (m) tiempo). Sin embargo, un problema con todas estas técnicas es que tienen un gran requerimiento de memoria (a menudo O (mn)). En cambio, se utilizan técnicas de vanguardia basadas en la transformación Burrows-Wheeler [1]. Estos corren en O (m) tiempo y requieren solo O (n) espacio.

    La transformación de Burrows-Wheeler surgió originalmente de la necesidad de comprimir información. Toma una cadena larga y la reorganiza de una manera que tiene letras repetitivas adyacentes. Esta cadena se puede comprimir porque, por ejemplo, en lugar de escribir 100 A's la computadora ahora solo puede indicar que hay 100 A's en fila. La transformación Burrows-Wheeler también tiene algunas otras propiedades especiales que explotaremos para buscar en tiempo sublineal.

    La transformación Burrows-Wheeler crea una cadena transformada única que es más corta que la cadena original. También se puede revertir fácilmente para generar la cadena original, por lo que no se pierde información. La cadena transformada está en orden ordenado, lo que permite una búsqueda fácil. Los detalles de la transformación Burrows-Wheeler se describen a continuación y se ilustran en la Figura 19.3.

    Primero, producimos una transformación a partir de una cadena original mediante los siguientes pasos. En particular, producimos una transformación del genoma de referencia.

    1. Para un genoma de referencia dado, agregue un carácter especial al principio y al final de la cadena (por ejemplo, “BANANA” se convierte en ^BANANA@). Luego genere todas las rotaciones de esta cadena (por ejemplo, una de esas rotaciones sería NANA@^BA).
    2. Ordena las rotaciones lexicográficamente —es decir, en orden alfabético— con caracteres especiales ordenados por último.
    3. Conservar únicamente la última columna de la lista ordenada de rotaciones. Esta columna contiene la cadena transformada

    Una vez que se ha calculado una transformada de Burrows-Wheeler, es posible revertir la transformación para calcular la cadena original. Esto se puede hacer con el procedimiento en la Figura??. Brevemente, la transformación inversa funciona de la siguiente manera: dada la cadena transformada, ordena los caracteres de cadena en orden alfabético; esto da la primera columna de la transformación. Combina la última columna con la primera para obtener pares de caracteres de las rotaciones originales. Ordenar los pares y repetir.

    Mediante el uso de punteros de clasificación en lugar de cadenas completas, es posible generar esta transformación del genoma de referencia utilizando un espacio que es lineal en su tamaño. Además, incluso con un número muy grande de lecturas, sólo es necesario hacer la transformada en una dirección hacia adelante. Después de contar las lecturas en el espacio transformado, entonces solo es necesario hacer la transformación inversa una vez para mapear los recuentos a las coordenadas del genoma.

    En particular, a partir de la transformación de Burrows-Wheeler observamos que todas las ocurrencias del mismo sufijo están efectivamente una al lado de la otra en lugar de dispersas por todo el genoma. Además, la iésima ocurrencia de un carácter en la primera columna corresponde a la iésima ocurrencia en la última columna. La búsqueda de subcadenas usando la transformación también es fácil. Supongamos que estamos buscando la subcadena “ANA” en la cadena dada. Entonces el problema de la búsqueda se reduce a buscar un prefijo “ANA” entre todos los sufijos ordenados posibles (generados por rotaciones). La última letra de la subcadena (“A”) se busca primero en las primeras letras de las rotaciones ordenadas. Entonces, se consideran las rotaciones de una letra de estos partidos; se buscan las dos últimas letras de la subcadena (“NA”) entre las dos primeras letras de estas rotaciones de una letra. Este proceso se puede continuar con sufijos de longitud crecientes para encontrar la subcadena como prefijo de una rotación. Específicamente, cada lectura es buscada y se encuentra como prefijo de una rotación del genoma de referencia; esto da la posición de la lectura en el genoma. Al hacer una transformación inversa, es posible encontrar las coordenadas genómicas de las lecturas mapeadas.

    Tenga en cuenta que esta idea no es más rápida en teoría que el hash, pero puede ser más rápida en la práctica porque usa una huella de memoria más pequeña.

    Métricas de control de calidad

    Al igual que con todos los datos experimentales, los métodos ChIP contienen sesgos y su producción puede ser de calidad variada. En consecuencia, antes de procesar los datos, es necesario controlar para estos sesgos, determinar qué lecturas en los datos alcanzan cierto nivel de calidad, y establecer umbrales objetivo sobre la calidad del conjunto de datos en su conjunto. En esta sección describiremos estos problemas de control de calidad y métricas asociadas a ellos.

    QC1: Uso de ADN de entrada como control

    Primero, las lecturas dadas por ChIP no están dispersas uniformemente en el genoma. Por ejemplo, las regiones accesibles del genoma pueden fragmentarse más fácilmente, lo que lleva a una fragmentación no uniforme. Para controlar este sesgo, podemos ejecutar el experimento ChIP en la misma porción de ADN sin usar un anticuerpo. Esto produce ADN de entrada, que luego se puede fragmentar y mapear para dar una pista de señal que se puede considerar como un fondo, es decir, lecturas que esperaríamos por casualidad. (En efecto, incluso en el fondo no vemos uniformidad.) Adicionalmente, tenemos una pista de señal para el experimento verdadero, que proviene del ADN cromo-inmunoprecipitado. Se muestra en la Figura 19.4

    QC2: Umbral de puntuación de calidad de secuenciación de nivel de lectura

    Al secuenciar ADN, cada par de bases se asocia con una puntuación de calidad. Por lo tanto, las lecturas dadas por ChIP- seq contienen puntuaciones de calidad en el nivel de pares base, donde las puntuaciones de menor calidad implican una mayor probabilidad de mapeos erróneos. Podemos usar fácilmente esta información en un paso de preprocesamiento simplemente rechazando cualquier lectura cuyo puntaje de calidad promedio caiga por debajo de algún umbral (por ejemplo, solo use lecturas donde Q, el puntaje de calidad promedio, sea mayor que 10). Se muestra en la Figura 19.5

    QC3: Fracción de lecturas cortas mapeadas

    Cada lectura que pase la métrica de calidad anterior puede mapearse exactamente a una ubicación en el genoma, a múltiples ubicaciones o a ninguna ubicación en absoluto. Cuando se lee el mapa a múltiples ubicaciones, hay una serie de enfoques para manejar esto:

    • Un enfoque conservador: No asignamos las lecturas a ningún lugar porque somos muy inciertos. Con: podemos perder señal
    • Un enfoque probabilístico: Asignamos fraccionalmente las lecturas a todas las ubicaciones. Con: puede agregar artefactos (picos irreales)
    • Un enfoque de muestreo: Solo seleccionamos una ubicación al azar para una lectura. Lo más probable es que, a través de muchas lecturas, las asignemos de manera uniforme. Con: puede agregar artefactos (picos irreales)
    • Un enfoque EM: Podemos mapear lecturas basadas en la densidad de lecturas inequívocas. Es decir, muchas lecturas únicas que mapean a una región dan una alta probabilidad previa de que una lectura mapee a esa región. Nota: debemos hacer la suposición de que las densidades son constantes dentro de cada región
    • Un enfoque de extremos emparejados: Debido a que secuenciamos ambos extremos de un fragmento de ADN, si conocemos el mapeo de la lectura desde un extremo, podemos determinar el mapeo de la lectura en el otro extremo aunque sea ambiguo.

      De cualquier manera, probablemente habrá lecturas que no mapeen al genoma. Una métrica de control de calidad estaría considerando la fracción de lecturas de ese mapa; podemos establecer un objetivo del 50%, por ejemplo. De igual manera, puede haber regiones a las que no se lee mapa. Esto puede deberse a una falta de cobertura de ensamblaje o a demasiadas lecturas mapeadas a la región; tratamos las regiones no mapeables como datos faltantes.

    QC4: Análisis de correlación cruzada

    Un control de calidad adicional que es el análisis de correlación cruzada. Si se emplean lecturas de un solo extremo, la proteína de unión a ADN generará un pico de lecturas que mapean el desplazamiento de la cadena directa a una distancia aproximadamente igual a la longitud del fragmento de ADN desde un pico de lecturas que mapean a la cadena inversa. Un patrón similar se genera a partir de lecturas finales emparejadas, en las que los extremos de lectura caen en dos grupos con un desplazamiento dado, un extremo de lectura mapeará a la hebra hacia adelante y el otro a la hebra inversa. La longitud promedio del fragmento se puede inferir calculando la correlación entre el número de lecturas que mapean a la cadena directa y el número de lecturas que se mapean a la cadena inversa como una función de la distancia entre las lecturas directa e inversa. La correlación alcanzará su pico en la longitud media del fragmento.

    El análisis de correlación cruzada también proporciona información sobre la calidad del conjunto de datos Chip-seq. El ADN de entrada no debe contener ningún pico real, pero a menudo muestra una fuerte correlación cruzada a una distancia igual a la longitud de lectura. Esto ocurre porque algunas lecturas mapean de manera única entre regiones que no se pueden mapear. Si una lectura puede mapear de manera única en la posición x entre dos regiones no mapeables en la cadena directa, entonces una lectura también puede mapear únicamente a la hebra inversa en la posición x + r -1, donde r es la longitud de lectura. Las lecturas de ese mapa de esta manera generan la fuerte correlación cruzada a distancia igual a la longitud de lectura en el ADN de entrada. Si un experimento de ChIP-seq no tuvo éxito y no enriqueció significativamente para la proteína de interés, entonces un gran componente de las lecturas será similar a la entrada no enriquecida, lo que producirá un pico en la correlación cruzada a la longitud de lectura. Por lo tanto, la fuerza de la correlación cruzada a la longitud de lectura en relación con la fuerza a la longitud del fragmento se puede utilizar para evaluar la calidad del conjunto de datos de ChIP-seq. Las bibliotecas de ChIP-seq aceptables deben tener una correlación cruzada a la longitud del fragmento al menos tan alta como a la longitud de lectura, y cuanto mayor sea la relación entre la correlación cruzada de longitud de fragmento y la correlación cruzada de longitud de lectura, mejor.

    QC5: Complejidad de Biblioteca

    Como métrica final de control de calidad, podemos considerar la complejidad de la biblioteca, o la fracción de lecturas que no son redundantes. En una región con señal, podríamos esperar que las lecturas provengan de todas las posiciones de esa región; sin embargo, a veces vemos que solo un pequeño número de posiciones en una región tienen lecturas mapeadas a ellas. Esto puede ser el resultado de un artefacto de amplificación en el que una sola lectura amplifica mucho más de lo que debería. En consecuencia, consideramos la fracción no redundante de una biblioteca:

    \[ \mathrm{NRF}=\frac{\text { No. of distinct unique-mapping reads }}{\text { No. of unique mapping reads }} \nonumber \]

    Este valor mide la complejidad de la biblioteca. Los valores bajos indican baja complejidad, lo que puede ocurrir, por ejemplo, cuando no hay suficiente ADN o un fragmento de ADN está sobresecuenciado. Cuando se trabaja con al menos 10 millones de lecturas mapeadas de forma única, normalmente establecemos un objetivo de al menos 0.8 para la NRF.

    Llamadas pico y selección

    Después de alinear las lecturas, se pueden generar pistas de señal como se muestra en la Figura 19.6. Estos datos se pueden ordenar en un histograma largo que abarca la longitud del genoma, lo que corresponde al número de lecturas (o grado de fluorescencia en el caso de Chip-chip) que se encuentran en cada posición del genoma. Más lecturas (o fluorescencia) sugieren una presencia más fuerte del marcador epigenético de interés en esta ubicación particular.

    En particular, para generar estas pistas de señal transformamos los recuentos leídos en una señal de intensidad normalizada. Primero, podemos usar el análisis de correlación cruzada de cadenas para estimar la distribución de longitud de fragmento f. Como ahora conocemos f, así como la longitud de cada lectura, podemos extender cada lectura (típicamente solo 36 pb) desde la dirección 5' a 3' para que su longitud sea igual a la longitud promedio del fragmento. Entonces, en lugar de simplemente sumar la intensidad de cada base en las lecturas originales, podemos sumar la intensidad de cada base en las lecturas extendidas de ambas hebras. En otras palabras, a pesar de que solo secuenciamos una pequeña lectura, podemos usar información sobre un segmento completo del cual esa lectura forma parte. Podemos hacer esta misma operación sobre los datos de control. Esto produce pistas de señal tanto para el experimento verdadero como para el control, como se muestra en la Figura 19.7.

    Para procesar los datos, primero estamos interesados en usar estas pistas de señales para descubrir regiones (es decir, intervalos discretos) de enriquecimiento. Este es el objetivo del pico de llamadas. Hay muchos programas que realizan llamadas pico con diferentes enfoques. Por ejemplo, MACS utiliza una distribución local de Poission como modelo estadístico, mientras que PeakSeq utiliza un modelo binomial condicional.

    Una forma de modelar la distribución de conteo de lecturas es con una distribución de Poisson. Podemos estimar el recuento esperado de lecturas, λlocal a partir de los datos de control. Entonces,

    \[ \operatorname{Pr}(\text { count }=x)=\frac{\lambda_{\text {local }}^{x} e^{-\lambda_{\text {local }}}}{x !} \nonumber \]
    Así, el valor p de Poisson para un recuento leído x viene dado por Pr (count ≥ x). Especificamos un valor p umbral (por ejemplo, 0.00001) por debajo del cual las regiones genómicas se consideran picos.

    Podemos transformar este valor p en una tasa empírica de falsos descubrimientos, o eFDR, intercambiando los datos del experimento ChIP (true) con las pistas de ADN de entrada (control). Esto produciría las ubicaciones en el genoma donde la señal de fondo es mayor que la señal de ChIP. Para cada valor p, podemos encontrar tanto a partir de los datos de ChIP como de los datos de control. Entonces, para cada valor p, el eFDR es simplemente el número de picos de control dividido por el número de picos de ChIP. Con esto, entonces podemos elegir a qué picos llamar en función de un umbral de eFDR.

    Un problema importante que surge es que no se puede usar un único eFDR universal o umbral de valor p. Los umbrales ideales dependen de una variedad de factores, incluyendo el ChIP, la profundidad de secuenciación y la ubicuidad del factor objetivo. Además, pequeños cambios en el umbral de eFDR pueden producir cambios muy grandes en los picos que se descubren. Una medida alternativa es la tasa de descubrimiento irreproducible, o IDR, y esta medida evita estos problemas específicos de FDR.

    Tasa de Descubrimiento Irreducible (IDR)

    Un inconveniente importante del uso de métodos estadísticos tradicionales para evaluar la significación de los picos de Chip-seq es que los enfoques basados en el valor de FDR y p hacen suposiciones particulares con respecto a la relación entre enriquecimiento y significación. Evaluar la importancia de los picos de ChIP usando IDR en lugar de un valor p o FDR es ventajoso porque nos permite aprovechar la información presente en réplicas biológicas para llamar picos sin establecer un umbral de significancia. Los enfoques basados en IDR se basan en la idea de que es probable que la señal real sea reproducible entre réplicas, mientras que el ruido no debe ser reproducible. El uso de IDR para llamar a picos significativos devuelve picos que satisfacen un umbral dado de significancia. Para determinar qué picos son significativos a través de IDR, los picos en cada réplica biológica se clasifican en función de su enriquecimiento en orden descendente.Los picos de N superiores en cada réplica se comparan entre sí, y el IDR para una réplica dada es la fracción de picos presentes en los picos de N superiores en el replicar que no están presentes en las otras réplicas (es decir, la fracción de picos que no son reproducibles entre réplicas). Para desarrollar más intuición matemática, la siguiente subsección (totalmente opcional) introducirá rigurosamente el concepto del IDR.

    Derivación matemática del IDR

    Dado que el IDR utiliza rangos, esto significa que las distribuciones marginales son uniformes, y la información se codifica principalmente en las distribuciones conjuntas de los rangos a través de réplicas biológicas. Específicamente, cuando las distribuciones marginales son uniformes, podemos modelar las distribuciones conjuntas a través de un modelo de cópula. En pocas palabras, una cópula es una distribución de probabilidad multivariada en la que la probabilidad marginal de cada variable es uniforme. El Teorema de Skar afirma que existe al menos una función cópula que nos permite expresar la articulación en términos de la dependencia de las distribuciones marginales.

    \[F_{k}\left(x_{1}, x_{2}, \ldots x_{k}\right)=C_{x}\left(F_{X_{1}}\left(x_{1}\right), \ldots F_{X_{k}}\left(x_{K}\right)\right) \nonumber \]

    Donde C x es la función cópula y la F (x) es la distribución acumulativa para una variable x Dada esta información, podemos establecer una distribución de Bernoulli K i ~ Bern (π i) que denota si el i-ésimo pico es del conjunto consistente o del conjunto espurio. Podemos derivar z 1 = (z 1, 1, z 1,2) si K i = 1 o z 0 = (z 0,1, z 0,2) si K i = 0 (donde z 0, i significa que es del conjunto espurio en replicado biológico i). Usando esto, podemos modelar los modelos z 1,1 y z 0,1 de la siguiente manera:

    \ [\ left (\ begin {array} {c}
    z_ {i, 1}\\
    z_ {i, 2}
    \ end {array}\ right)\ mid K_ {i} =k\ sim N\ left (\ left (\ begin {array} {c}
    \ mu_ {k}\
    \ mu_ {k}
    \ end {array}\ right),\ left (\ begin {array} {cc}
    \ sigma_ {k} ^ {2} &\ rho_ {k}\ sigma_ {k} ^ {2}\\
    \ rho_ {k}\ sigma_ {k} ^ {2} &\ sigma_ {k} ^ {2}
    \ end {array}\ derecha)\ derecha)\ nonumber\]

    Podemos utilizar dos modelos diferentes para modelar si proviene del conjunto espurio (denotado por 0), o del conjunto real (1). Si el conjunto real, tenemos μ 1 > 0 y 0<ρ 1 <1, donde como en el conjunto nulo tenemos μ 0 =0, y σ 0 2 = 1. Podemos modelar una variable u i,1 y u i,2 con las siguientes fórmulas:

    \[ u_{i, 1}=G\left(z_{i, 1}\right)=\pi_{1} \Phi\left(\frac{z_{i, 1}-\mu_{1}}{\sigma_{1}}\right)+\pi_{0} \Phi\left(z_{i, 1}\right) \nonumber \]

    \[u_{i, 2}=G\left(z_{i, 2}\right)=\pi_{1} \Phi\left(\frac{z_{i, 2}-\mu_{1}}{\sigma_{1}}\right)+\pi_{0} \Phi\left(z_{i, 2}\right) \nonumber \]

    Donde Φ es la función de distribución acumulativa normal. Entonces, dejemos que las x i,1 =\(F^{-1}\left(u_{i, 1}\right)\) y\(x_{i, 2}=F^{-1}\left(u_{i, 2}\right)\), F 1 y F 2 observadas sean las distribuciones marginales de las dos coordenadas. Así, para una señal i, tenemos:

    \[P\left(X_{i, 1} \leq x_{1}, X_{i, 2} \leq x_{2}\right)=\pi_{0} h_{0}\left(G^{-1}\left(F_{1}\left(x_{i, 1}\right), G^{-1}\left(F_{2}\left(x_{i, 2}\right)\right)+\pi_{1} h_{1}\left(G^{-1}\left(F_{1}\left(x_{i, 1}\right), G^{-1}\left(F_{2}\left(x_{i, 2}\right)\right)\right.\right.\right.\right. \nonumber \]

    Podemos expresar h 0 y h 1 con las siguientes distribuciones normales, similares a las z 1 y z 2 que se definieron anteriormente:

    \ [\ begin {aligned}
    &h_ {0}\ sim N\ left (\ left (\ begin {array} {l}
    0\\
    0
    \ end {array}\ right),\ left (\ begin {array} {ll}
    1 & 0\\
    0 & 1
    \ end {array}\ derecha)\\ derecha)\\
    &h_ {1}\ sim N\ left (\ left ( \ begin {array} {c}
    \ mu_ {1}\
    \ mu_ {1}
    \ end {array}\ derecha),\ left (\ begin {array} {cc}
    \ sigma_ {1} ^ {2} &\ rho_ {1}\ sigma_ {1}\ sigma_ {1} ^ {2}
    \\ rho_ {1}\ sigma_ {1} ^ {2} &\ sigma_ _ {1} ^ {2}
    \ end {array}\ right)\ right)
    \ end { alineado}\ nonumber\] Ahora

    podemos inferir los parámetros θ = (μ 1, ρ 1, σ 1, π 0), usando un algoritmo EM, donde la inferencia se basa en P (K i = 1 | (x i,1, x i,2);\(\hat{\theta}\)). Así, podemos definir la tasa de descubrimiento irreproducible local como:

    idr (x i,1, x i,2) = P (K i = 0 | (x i,1, x i,2);\(\hat{\theta}\))

    Entonces para controlar el IDR en algún nivel\ alpha, podemos clasificar (x i,1, x i,2) por sus valores IDR. Entonces podemos seleccionar (x (i) ,1, x (i) ,2), i = 1. l, donde

    \[I=\operatorname{argmax}_{i} \frac{1}{i} \sum_{j=1}^{i} i d r_{j} \leq \alpha \nonumber \]

    La IDR es análoga a un control de FDR en este modelo de mezcla de cópula. Esta subsección resume la in- formación proporcionada en esta conferencia: www.biostat.wisc.edu/~kendzi... AT877/SK_2.pdf. El artículo original, junto con una formulación aún más detallada de IDR, se puede encontrar en Li et al. [10]

    Ventajas y casos de uso del IDR

    El análisis de IDR se puede realizar con N creciente, hasta que se alcanza la IDR deseada (por ejemplo, N se incrementa hasta IDR=0.05, lo que significa que 5% de los picos de N superiores no son reproducibles). Tenga en cuenta que N puede ser diferente para diferentes réplicas del mismo experimento, ya que algunas réplicas pueden ser más reproducibles que otras debido a artefactos técnicos o biológicos.

    IDR también es superior a enfoques más simples para usar la reproducibilidad entre experimentos para definir la significación. Un enfoque podría ser tomar la unión de todos los picos en ambas réplicas como significativa, sin embargo; este método aceptará tanto picos reales como el ruido en cada conjunto de datos. Otro enfoque es tomar la intersección de picos en ambas réplicas, es decir, solo contar picos presentes en ambos conjuntos de datos como significativos. Si bien este método eliminará de manera muy efectiva los picos espurios, es probable que pierda muchos picos genuinos. Se puede pensar que la IDR combina ambos enfoques, ya que acepta todos los picos, independientemente de si son reproducibles, siempre y cuando los picos tengan suficiente enriquecimiento para caer dentro del segmento de los datos con una tasa de irreproducibilidad global por encima de un umbral dado. Otra ventaja de la IDR es que aún se puede realizar aunque no se disponga de réplicas biológicas, lo que a menudo puede ser el caso de los experimentos de ChIP realizados en tipos de células raras. Las réplicas de PSUDO se pueden generar a partir de un único conjunto de datos asignando aleatoriamente la mitad de las lecturas a una pseudo-réplica y la mitad a otra pseudo-réplica.

    Interpretación de marcas de cromatina

    Ahora pasamos a técnicas para interpretar las marcas de cromatina. Hay muchas formas de analizar las marcas epigenómicas, como agregar señales de cromatina (por ejemplo, H3K4me3) en tipos de características conocidas (por ejemplo, promotores de genes con niveles de expresión altos o bajos) y realizar métodos de aprendizaje automático supervisados o no supervisados para derivar características epigenómicas que predicen diferentes tipos de elementos genómicos como promotores, potenciadores o grandes ARN intergénicos no codificantes. En particular, en esta conferencia, examinamos en detalle el análisis de las marcas de cromatina tal como se hace en [7].


    This page titled 19.4: Procesamiento primario de datos de ChIP is shared under a CC BY-NC-SA 4.0 license and was authored, remixed, and/or curated by Manolis Kellis et al. (MIT OpenCourseWare) via source content that was edited to the style and standards of the LibreTexts platform.