19.5: Anotar el genoma usando firmas de cromatina

Última actualización
Guardar como PDF

Page ID: 54094

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

La hipótesis del código histona sugiere que las interacciones cromatina-ADN están guiadas por modificaciones combinatorias de sus tonos. Estas modificaciones combinatorias, cuando se toman juntas, pueden determinar en parte cómo una región de ADN es interpretada por la célula (es decir, como un dominio de unión al factor de transcripción, un sitio de corte y empalme, una región potenciadora, un gen expresado activamente, un gen reprimido o una región no funcional). Nos interesa interpretar este “código” (es decir, determinar a partir de marcas de histonas en una región si la región es un sitio de inicio de la transcripción, potenciador, promotor, etc.). Con una comprensión de las marcas de histonas combinatorias, podemos anotar el genoma en regiones funcionales y predecir nuevos potenciadores, promotores, genes, etc. El desafío es que hay docenas de marcas y exhiben efectos combinatorios complejos.

Dicho de otra manera, el ADN puede tomar una serie de estados (ocultos) (codificantes, no codificantes, etc.). Cada uno de estos estados emite una combinación específica de modificaciones epigenéticas (H3K4me3, H3K36me3, etc) que la célula reconoce. Queremos poder predecir estos estados ocultos y biológicamente relevantes a partir de modificaciones epigenéticas observadas.

En esta sección, exploramos una técnica para interpretar el “código” y su aplicación a un conjunto de datos específico [7], que midió 41 marcas de cromatina en todo el genoma humano.

Datos

Los datos para este análisis consistieron en 41 marcas de cromatina incluyendo acetilaciones, metilaciones, H2AZ, CTCF y PolLi en células T CD4. Primero, el genoma se dividió en bins no superpuestos de 200 pb en los que se determinó la ausencia binaria o presencia de cada una de las 41 marcas de cromatina. Estos datos se procesaron mediante binarización de datos, en la que a cada marca en cada intervalo se le asigna un valor de 0 o 1 dependiendo de si el enriquecimiento de la señal de la marca en ese intervalo excede un umbral. Específicamente, sea C _ij el número de lecturas detectadas por Chip-seq para la marca i, mapeando al bin j de 200 pb.\(\lambda_{i}\) Sea el número promedio de lecturas que mapean a un bin para la marca i. Se determina que la marca i está presente en el bin j si P (X > C _ij) es menor que el umbral aceptado de 10 ^- ⁴ donde X es una variable aleatoria de Poisson con media\(\lambda_{i}\) y ausente de otra manera. El umbral es definido por el usuario, similar a un valor p de Poisson. En palabras de orden, el enriquecimiento de lectura para un bin específico tiene que ser significativamente mayor que un proceso aleatorio de poner lecturas en bins. Un ejemplo de estados de cromatina alrededor del gen CAPZA2 en el cromosoma 7 se muestra en la Figura 19.8. Entonces de esta manera, para cada marca i, podemos etiquetar cada bin j con un 1 si la marca está presente y un 0 si no lo está.Mirando los datos como un todo, podemos pensarlo como una matriz binaria grande, donde cada fila corresponde a una marca y cada columna corresponde a un bin (que es simplemente una región de 200bp del genoma).

Los datos adicionales utilizados para el análisis incluyeron datos de ontología génica, datos de SNP, datos de expresión y otros.

HMMs para anotación de estado de cromatina

Nuestro objetivo es identificar combinaciones biológicamente significativas y espacialmente coherentes de marcas de cromatina. Recuerde que dividimos el genoma en bloques de 200bp, así que por espacialmente coherente queremos decir que si tenemos un elemento genómico que es mayor que 200bps, esperamos que la combinación de marcas de cromatina sea consistente en cada bin de 200bp en la región. Llamaremos a estas combinaciones biológicamente significativas y espacialmente coherentes de marcas de cromatina estados de cromatina. En conferencias anteriores, hemos visto HMM aplicados a la anotación genómica para genes e islas CpG. Nos gustaría aplicar las mismas ideas a esta situación, pero en este caso, no conocemos los estados ocultos a priori (por ejemplo, región insular CpG o no), nos gustaría aprenderlos de novo. Este modelo puede capturar tanto el orden funcional de diferentes estados (por ejemplo, desde el promotor hasta las regiones transcritas) como la propagación de ciertos dominios de cromatina a través de los genomas. Para resumir, queremos aprender un HMM donde los estados ocultos del HMM son estados de cromatina.

Como aprendimos anteriormente, incluso si no conocemos las probabilidades de emisión y las probabilidades de transición de un HMM, podemos usar el algoritmo de entrenamiento Baum-Welch para aprender los valores de máxima verosimilitud para esos parámetros. En nuestro caso, tenemos una dificultad añadida, ¡ni siquiera sabemos cuántos estados de cromatina existen! En las siguientes subsecciones, ampliaremos cómo se modelan los datos y cómo podemos elegir el número de estados para el HMM.

Emisión de un Vector

En los HMM de conferencias anteriores, cada estado emitía ya sea un solo nucleótido o una sola cadena de nucleótidos a la vez. En el HMM para este problema, cada estado emite una combinación de marcas epigenéticas. Cada combinación se puede representar como un vector n-dimensional donde n es el número de marcas de cromatina que se están analizando (n = 41 para nuestros datos). Por ejemplo, suponiendo que tenga cuatro posibles modificaciones epigenéticas: H3K4me3, H2BK5ac, Methyl-C y Methyl-A, una secuencia que contiene H3K4me3 y Methyl-C podría presentarse como el vector (1, 0, 1, 0). Uno podría imaginar muchas distribuciones de probabilidad diferentes en vectores n binarios y, por simplicidad, asumimos que las marcas son independientes y se modelan como variables aleatorias de Bernoulli. Entonces estamos asumiendo que las marcas son independientes dado el estado oculto del HMM (tenga en cuenta que esto no es lo mismo que asumir que las marcas son independientes).

Si hay n marcas de entrada, cada estado k tiene un vector (p _k1,.. , p _kn) de probabilidades de observar marcas 1 a n Dado que la probabilidad se modela como un conjunto de variables aleatorias independientes de Bernoulli, la probabilidad de observar un conjunto de marcas dado que estamos en el estado oculto k es igual al producto de las probabilidades de observar marcas individuales. Por ejemplo si n = 4, las marcas observadas en bin j fueron (1, 0, 1, 0) y estábamos en estado k, entonces la probabilidad de que esos datos sean p _k1 (1-p _k2) p _k3 (1-p _k4).

Las probabilidades de emisión aprendidas para los datos se muestran en la Figura 19.9.

Probabilidades de transición

Recordemos que las probabilidades de transición representan la frecuencia de transición de un estado oculto a otro estado oculto. En este caso, nuestros estados ocultos son estados de cromatina. La matriz de transición para nuestros datos se muestra en la Figura 19.10. Como se ve en la figura, la matriz es escasa, lo que indica que solo algunas de las posibles transiciones ocurren realmente. La matriz de transición revela las relaciones espaciales entre estados vecinos. Los bloques de estados en la matriz revelan subgrupos de estados y a partir de estos bloques de nivel superior, podemos ver transiciones entre estos metaestados.

Elegir el número de estados a modelar

Como ocurre con la mayoría de los algoritmos de aprendizaje automático, aumentar la complejidad del modelo (por ejemplo, el número de estados ocultos) permitirá que se ajuste mejor a los datos de entrenamiento. Sin embargo, los datos de entrenamiento son sólo una muestra limitada de la población real. A medida que agregamos más complejidad, en algún momento estamos ajustando patrones en los datos de entrenamiento que solo existen por muestreo limitado, para que el modelo no se generalice a la población verdadera. Esto se llama sobreajuste de datos de entrenamiento; debemos dejar de agregar complejidad al modelo antes de que se ajuste al ruido en los datos de entrenamiento.

El Criterio de Información Bayesiana (BIC) es una técnica común para optimizar la complejidad de un modelo que equilibra el ajuste aumentado a los datos con la complejidad del modelo. Usando BIC, podemos visualizar la potencia creciente del HMM en función del número de estados. Generalmente, se elegirá un valor para k (el número de estados) tal que la adición de más estados tenga relativamente poco beneficio en términos de ganancia de potencia predictiva. Sin embargo, existe una compensación entre la complejidad del modelo y la interpretabilidad del modelo que BIC no puede ayudar con. Es probable que el modelo óptimo según BIC tenga más estados que un modelo ideal porque estamos dispuestos a intercambiar algún poder predictivo por un modelo con menos estados que pueda interpretarse biológicamente. El genoma humano es tan grande y las marcas de cromatina tan complejas que las diferencias estadísticamente significativas son fáciles de encontrar, sin embargo, muchas de estas diferencias no son biológicamente significativas.

Para resolver este problema, comenzamos con un modelo con más estados ocultos de los que creemos necesarios y podamos estados ocultos siempre y cuando todos los estados de interés en el modelo más grande sean capturados adecuadamente. El algoritmo Baum-Welch (y EM en general) es sensible a las condiciones iniciales, por lo que intentamos varias inicializaciones aleatorias en nuestro aprendizaje. Por cada número de estados ocultos de 2 a 80, generamos tres inicializaciones aleatorias de los parámetros y entrenamos el modelo usando Baum-Welch. El mejor modelo según BIC tuvo 79 estados y luego los estados se eliminaron iterativamente de este conjunto de 79 estados.

Como mencionamos anteriormente, Baum-Welch es sensible a los parámetros iniciales, por lo que cuando podamos estados, usamos una inicialización anidada en lugar de una inicialización aleatoria para el modelo podado. Específicamente, los estados fueron removidos con avidez del modelo BIC-Optimal 79 estados. El estado a eliminar fue el estado que tal que todos los estados de los 237 modelos inicializados aleatoriamente fueron bien capturados. Al eliminar un estado, se eliminarían las probabilidades de emisión y cualquier estado que pasara al estado eliminado tendría esa probabilidad de transición redistribuida uniformemente a los estados restantes. Esto se utilizó como la inicialización al entrenamiento de Baum-Welch. El número de estados para que un modelo analice se puede seleccionar eligiendo el modelo entrenado a partir de dicha inicialización anidada con el menor número de estados que capta suciamente todos los estados ofreciendo distintas interpretaciones biológicas. El modelo final resultante tuvo 51 estados.

También podemos verificar el ajuste del modelo observando cómo los datos violan los supuestos del modelo. Dado el estado oculto, el HMM asume que cada marca es independiente. Podemos probar qué tan bien se ajustan los datos a esta suposición trazando la dependencia entre marcas. Esto puede revelar estados que encajan bien y aquellos que no. En particular, los estados repetitivos revelan un caso donde el modelo no encaja bien. A medida que agregamos más estados, el modelo es más capaz de ajustarse a los datos y, por lo tanto, ajustarse a las dependencias. Al monitorear el ajuste en estados individuales que nos interesan, podemos controlar la complejidad del modelo.

Resultados

Este modelo multivariado HMM resultó en un conjunto de 51 estados de cromatina biológicamente relevantes. Sin embargo, no hubo relación uno a uno entre cada estado y clases conocidas de elementos genómicos (por ejemplo, intrones, exones, promotores, potenciadores, etc.) En cambio, múltiples estados de cromatina a menudo se asociaron con un elemento genómico. Cada estado de cromatina codificaba información biológica específica relevante sobre su elemento genómico asociado. Por ejemplo, tres estados de cromatina dierentes se asociaron con el sitio de inicio de la transcripción (TSS), pero uno se asoció con TSS de genes altamente expresados, mientras que los otros dos se asociaron con TSS de genes de expresión media y baja respectivamente. Dicho uso de marcadores epigenéticos mejoró enormemente la anotación genómica, particularmente cuando se combina con señales evolutivas discutidas en conferencias anteriores. Los 51 estados de cromatina se pueden dividir en cinco grandes grupos. Las propiedades de estos grupos se describen de la siguiente manera y se ilustran adicionalmente en 19.11:

1. Estados Asociados a los Promotores (1-11):

Todos estos estados de cromatina tuvieron un alto enriquecimiento para las regiones promotoras. 40-89% de cada estado estuvo dentro de 2 kb de un TSS RefSeq en comparación con 2.7% de ancho del genoma. Todos estos estados tuvieron una alta frecuencia de H3K4me3, enriquecimientos significativos para sitios hipersensibles a la DNasa I, islas CpG, motivos evolutivamente servidos y factores de transcripción unidos. Sin embargo, estos estados diferían en los niveles de marcas asociadas como H3K79me2/3, H4K20me1, acetilaciones, etc. Estos estados también disminuyeron en su enriquecimiento funcional basado en Ontología Génica (GO). Por ejemplo, los genes asociados con la activación de células T se enriquecieron en el estado 8 mientras que los genes asociados con el desarrollo embrionario se enriquecieron en el estado Adicionalmente, entre estos estados promotores hubo distintos enriquecimientos posicionales. Los estados 1-3 alcanzaron su pico tanto aguas arriba como aguas abajo del TSS; los estados 4-7 se concentraron justo sobre el SST mientras que los estados 8-11 alcanzaron un pico entre 400 pb y 1200 pb aguas abajo del SST. Esto sugiere que las marcas de cromatina pueden reclutar factores de iniciación y que el acto de transcripción puede reforzar estas marcas. El enriquecimiento funcional distinto también sugiere que las marcas codifican una historia de activación.

2. Estados Asociados a la Transcripción (12-28):

Este fue el segundo grupo más grande de estados de cromatina e incluyó 17 estados asociados a la transcripción. Hay 70-95% contenido en regiones transcritas anotadas en comparación con 36% para el resto del genoma. Estos estados no se asociaron predominantemente con una sola marca sino que se definieron por una combinación de siete marcas: H3K79me3, H3K79me2, H3K79me1, H3K27me1, H2BK5me1, H4K20me1 y H3K36me3. Estos estados tienen subgrupos asociados con ubicaciones 5' proximales o 5' distales. Algunos de estos estados se asociaron con exones empalmados, sitios de inicio de la transcripción o sitios finales. De interés, el estado 28, que se caracterizó por alta frecuencia para H3K9me3, H4K20me3 y H3K36me3, mostró un alto enriquecimiento en genes de dedos de zinc. Esta combinación específica de marcas se reportó previamente como regiones marcadoras de unión a KAP1, un co-represor específico de dedos de zinc.

3. Estados intergénicos activos (29-39):

Estos estados se asociaron con varias clases de regiones potenciadoras candidatas y regiones aislantes y se asociaron con frecuencias más altas para H3K4me1, H2AZ, varias marcas de acetilación pero frecuencias más bajas de marcas de metilación. Además, las marcas de cromatina podrían usarse para distinguir los potenciadores activos de los menos activos. Estas regiones generalmente estaban alejadas de los promotores y estaban fuera de los genes transcritos. Curiosamente, varios estados intergénicos activos mostraron un enriquecimiento significativo para SNP de la enfermedad, o polimorfismo de un solo nucleótido en el estudio de asociación de todo el genoma (GWAS). Por ejemplo, se encontró que un SNP (rs12619285) asociado a los niveles plasmáticos de recuento de eosinófilos en enfermedades inflamatorias se localizó en el estado de cromatina 33, el cual fue enriquecido por impactos de GWAS. En contraste, la región circundante de este SNP se asignó a otros estados de cromatina sin asociación significativa de GWAS. Esto puede arrojar luz sobre la posible importancia funcional de los SNP de la enfermedad en función de sus distintos estados de cromatina.

4. Estados Reprimidos a Gran Escala (40-45):
Estos estados marcaron regiones reprimidas y heterocromáticas a gran escala, representando 64% del genoma. H3K27me3 y H3K9me3 fueron las dos marcas más frecuentemente detectadas en este grupo.

5. Estados Repetitivos (46-51):

Estos estados mostraron enriquecimientos fuertes y distintos para elementos repetitivos específicos. Por ejemplo, el estado 46 tuvo una firma de secuencia fuerte de repeticiones de baja complejidad como (CA) n, (TG) n y (CATG) n. Los estados 48-51 mostraron frecuencias aparentemente altas para muchas modificaciones pero también enriquecimiento en lecturas de control de anticuerpos no específicos. El modelo también pudo capturar artefactos resultantes de la falta de cobertura para copias adicionales de elementos repetidos.

Dado que muchos de los estados de cromatina fueron descritos por múltiples marcas, se cuantificó la contribución de cada marca a un estado. Se probaron diferentes subconjuntos de marcas de cromatina para evaluar su potencial para distinguir entre estados de cromatina. En general, se encontró que subconjuntos crecientes de marcas convergen a un estado preciso de cromatina cuando las marcas se eligieron con avidez.

El poder predictivo de los estados de cromatina para el descubrimiento de elementos funcionales superó consistentemente a las predicciones basadas en marcas individuales. Tal modelo no supervisado usando combinación de marcas epigenómicas e información genómica espacial realizada así como muchos modelos supervisados en anotación genómica. Se demostró que este modelo HMM basado en estados de cromatina fue capaz de revelar promotores previamente no anotados y regiones transcritas que fueron apoyadas por evidencia experimental independiente. Cuando se analizaron las marcas de cromatina en todo el genoma, algunas de las propiedades observadas fueron estados enriquecidos satélite (47-51) enriquecidos en centrómero, el estado enriquecido con dedos de zinc (estado 28) enriquecido en el cromosoma 19 etc. Así, dicha anotación genómica basada en estados de cromatina puede ayudar a interpretar mejor datos biológicos y potencialmente descubrir nuevas clases de elementos funcionales en el genoma.

Múltiples tipos de celdas

Todo el trabajo anterior se realizó en un solo tipo de célula (células T CD4+). Dado que los marcadores epigenómicos varían con el tiempo, según los tipos de células y las circunstancias ambientales, es importante considerar la dinámica de los estados de cromatina en diferentes tipos de células y condiciones experimentales. El proyecto ENCODE [3] en el Grupo Brad Bernstein Chromatin ha medido 9 marcas diferentes de cromatina en nueve líneas celulares humanas. En este caso, queremos aprender un solo conjunto de marcas de cromatina para todos los datos. Hay dos enfoques para este problema: la concatenación y el apilamiento. Para la concatenación, podríamos combinar todas las 9 líneas celulares como si fueran una sola línea celular. Al concatenar las diferentes líneas celulares, nos aseguramos de que se aprenda un conjunto común de definiciones de estado. Podemos hacer esto aquí porque las marcas perfiladas eran las mismas en cada experimento. Sin embargo, si perfilamos diferentes marcas para diferentes líneas celulares, necesitamos usar otro enfoque. Alternativamente, podemos alinear las 9 líneas celulares y tratar todas las marcas como un supervector. Esto nos permite aprender estados de actividad específicos de líneas celulares, por ejemplo, podría haber un estado para potenciadores específicos de ES (en ese estado habría marcas potenciadoras en ES, pero no marcas en otros tipos de células). Desafortunadamente, esto aumenta en gran medida la dimensión de los vectores emitidos por el HMM, lo que se traduce en un aumento en la complejidad del modelo necesaria para ajustarse adecuadamente a los datos.

Supongamos que teníamos múltiples tipos de células donde perfilamos diferentes marcas y queríamos concatenerlas. Un enfoque es aprender modelos independientes y luego combinarlos. Podríamos encontrar estados correspondientes al emparejar vectores de emisión que son similares o al emparejar estados que aparecen en los mismos lugares del genoma. Un segundo enfoque es tratar las marcas faltantes como datos faltantes. El marco EM permite puntos de datos no especificados, por lo que siempre y cuando se observen relaciones por pares entre marcas en algún tipo de celda, podemos usar EM. Por último, podemos predecir las marcas de cromatina faltantes con base en las marcas observadas usando máxima verosimilitud como en el algoritmo de Viterbi. Este es un enfoque menos poderoso si el objetivo final es el aprendizaje del estado de cromatina porque solo estamos mirando el estado más probable en lugar de promediar sobre todas las posibilidades como en el segundo enfoque.

En el caso de 9 marcas en 9 líneas celulares humanas, se concatenaron las líneas celulares y se aprendió un modelo con 15 estados [8]. Cada tipo de célula se analizó para el enriquecimiento de clase. Se demostró que algunos estados de cromatina, como los que codifican promotores activos, fueron altamente estables en todos los tipos de células. Otros estados, como los que codifican potenciadores fuertes, estaban altamente enriquecidos de una manera específica de tipo celular, lo que sugiere su papel en la expresión génica específica de tejido. Finalmente, se demostró que había correlación significativa entre las marcas epigenéticas en los potenciadores y las marcas epigenéticas en los genes que regulan, aunque estas pueden estar a miles de pares de bases de distancia. Tal modelo de estado de cromatina ha demostrado ser útil para emparejar potenciadores con sus respectivos genes, un problema que en gran parte no ha sido resuelto en la biología moderna. Por lo tanto, los estados de cromatina proporcionan un medio para estudiar la naturaleza dinámica de la cromatina en muchos tipos de células. En particular, podemos ver la actividad de una región particular del genoma a partir de la anotación de la cromatina. También nos permite resumir información importante contenida en 2.4 mil millones de lecturas en tan solo 15 estados de cromatina.

Una publicación de 2015 Nature del Epigenome Roadmap Project ha demostrado que produjo una referencia incomparable para las firmas de epigenómica humana en más de cien tejidos diferentes [2]. En su análisis, hacen uso de varios de los conceptos que hemos discutido en profundidad en este capítulo, como un modelo ChromHmm de 15 estados o 18 estados para anotar el epigenoma. El entrenamiento sobre 111 conjuntos de datos permitió una mayor robustez a los modelos HMM discutidos anteriormente. El proyecto Roadmap exploró muchas direcciones interesantes en su artículo, y se recomienda encarecidamente a los lectores interesados que lean esta publicación. Conclusiones interesantes incluyen que los estados asociados a H3K4-me1 son las marcas de cromatina más específicas de tejido, y que los promotores bivalentes y los estados reprimidos también fueron las anotaciones más variables en diferentes tipos de tejido. Para los potenciadores, el proyecto Roadmap encontró que una cantidad significativa de SNP relacionados con la enfermedad están asociados con regiones potenciadoras anotadas. La exploración activa de esta conexión está en curso en el Grupo de Biología Computacional del MIT.