Saltar al contenido principal
LibreTexts Español

31.3: Estructura de un estudio eQTL

  • Page ID
    54904
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    El enfoque básico detrás de un estudio eQTL es considerar la expresión de cada gen como un rasgo cuantitativo multifactor y retroceder sobre los componentes principales que explican la varianza en la expresión. Primero, se extraen células del tejido de interés y se extrae su ARN. La expresión de proteínas de interés se mide por micromatriz o mediante análisis de RNA-seq. Los niveles de expresión de cada gen se retroceden sobre los genotipos, controlando el ruido biológico y técnico, de tal manera que

    \[Y_{i}=\alpha+X_{i} \beta+\epsilon_{i}\nonumber\]

    Donde Y i es la expresión génica del gen i, X i es un vector que contiene la composición alélica de cada SNP asociado con el gen (y puede tomar valores 0, 1 o 2 dado un alelo de referencia),\(\alpha\) y\(\beta\) son vectores de columna que contienen los coeficientes de regresión, y \(\epsilon_{i}\)es el error residual (Ver Figura 31.5) [9]. En concepto, tal estudio es sumamente sencillo. En la práctica, existen cientos de posibles factores de confusión e incertidumbres estadísticas que deben contabilizarse en cada paso del proceso. Sin embargo, se puede utilizar el mismo modelo de regresión para dar cuenta de estas covariables.

    La Figura 31.9 contiene un ejemplo de estudio eQTL realizado sobre el asma. El resultado clave del estudio es el modelo lineal en la parte superior derecha: podemos ver como el genotipo tiende más hacia la variante “A”, la expresión del gen diana disminuye.

    Consideraciones para los datos de expresión

    La cuantificación de la expresión de genes está plagada de desafíos experimentales. Para una discusión más detallada de estos temas, véase el Capítulo 14. Una consideración importante para este tipo de análisis de expresión es el SNP- bajo sonda effec t: las secuencias de sonda que mapean a regiones con variantes comunes proporcionan resultados inconsistentes debido al efecto de la variación dentro de la propia sonda sobre la dinámica de unión. Así, los experimentos repetidos con múltiples conjuntos de sondas producirán un resultado más confiable. El análisis de expresión también debería excluir generalmente los genes constitutivos, que no están regulados diferencialmente entre los miembros de una población y/o tipos celulares, ya que estos solo diluirían el poder estadístico del estudio.

    Consideraciones para los datos genómicos

    Existen dos consideraciones principales para el análisis de los datos genómicos: la frecuencia de alelos menores y el radio de búsqueda. El radio de búsqueda determina la generalidad del efecto que se está considerando: un radio de búsqueda infinito corresponde a una exploración cis y trans-EQTL de genoma completo, mientras que los radios más pequeños restringen el análisis a cis-EQTLS. La frecuencia alélica menor (MAF) determina el punto de corte bajo el cual no se considera un sitio SNP: es un determinante mayor del poder estadístico del estudio. Un mayor corte de MAF generalmente conduce a una mayor potencia estadística, pero MAF y radio de búsqueda interactúan de manera no lineal para determinar el número de alelos significativos detectados (ver Figura 31.6).

    Ajuste Covariable

    Hay muchos posibles factores de confusión estadísticos en un estudio eQTL, tanto biológicos como técnicos. Muchos factores biológicos pueden afectar la expresión observada de cualquier ARNm dado en un individuo; esto se ve exacerbado por la imposibilidad de controlar las circunstancias de prueba de las grandes muestras de población necesarias para lograr significación. La estratificación poblacional y las diferencias genómicas entre grupos raciales son factores contribuyentes adicionales. La variabilidad estadística también existe en el lado técnico. Incluso las muestras ejecutadas en la misma máquina en diferentes momentos muestran un agrupamiento marcadamente diferente de resultados de expresión. (Figura 31.7).

    Los investigadores han utilizado con éxito la técnica del Análisis de Componentes Principales (ACP) para separar los efectos de estos factores de confusión. El PCA puede producir nuevos ejes de coordenadas a lo largo de los cuales los datos de expresión génica asociados a SNP tienen la mayor varianza, aislando así fuentes no deseadas de variación consistente (ver Capítulo 20.4 para una descripción detallada del Análisis de Componentes Principales). Después de extraer los componentes principales de los datos de expresión génica, podemos extender el modelo de regresión lineal para dar cuenta de estos factores de confusión y producir una regresión más precisa.

    FAQ

    P: ¿Por qué es PCA una herramienta estadística apropiada para usar en este entorno y por qué la necesitamos?

    R: Desafortunadamente, nuestros datos brutos tienen varios sesgos y factores externos que dificultarán inferir buenos EQTLs. Sin embargo, podemos pensar en estos sesgos como influencias independientes en los conjuntos de datos que crean varianza artificial en los niveles de expresión que vemos, confundiendo los factores que dan lugar a la varianza real. Usando PCA, podemos descomponer e identificar estas varianzas en sus componentes principales, y filtrarlos adecuadamente. Además, debido a la naturaleza compleja de los rasgos que se analizan, el PCA puede ayudar a reducir la dimensionalidad de los datos y así facilitar el análisis computacional.

    FAQ

    P: ¿Cómo decidimos cuántos componentes principales usar?

    R: Este es un problema difícil; una posible solución sería probar un número diferente de componentes principales y examinar los EQTLs encontrados después, muy este número para futuras pruebas al ver si los EQTLs generados son viables. Tenga en cuenta que sería difícil” optimizar” diferentes parámetros para el estudio eQTL porque cada conjunto de datos tendrá un número óptimo de componentes principales, un mejor valor para MAF, etc...

    Puntos a considerar

    Los siguientes son algunos puntos a considerar al realizar un estudio eQTL.

    • La estrategia óptima para el descubrimiento de eQTL en un conjunto de datos específico de todas las diferentes formas de realizar procedimientos de normalización, filtrado de genes no específicos, selección de radio de búsqueda y cortes de frecuencia de alelos menores puede no ser transferible a otro estudio de eQTL. Muchos científicos superan esto usando el ajuste codicioso de estos parámetros, ejecutando el estudio eQTL iterativamente hasta que se encuentre un número máximo de EQTLs significativos.

    • Es importante señalar que los estudios eQTL solo encuentran correlación entre marcadores genéticos y patrones de expresión génica, y no implican causalidad.

    • Al realizar un estudio de eQTL, tenga en cuenta que los EQTL más significativos se encuentran dentro de unos pocos kb del gen regulado.

    • Históricamente, se ha encontrado que la mayoría de los estudios eQTL son aproximadamente 30-40% reproducibles, y esta es una reliquia de cómo se estructura el conjunto de datos y las diferentes estrategias de normalización y filtrado que utilizan los investigadores respectivos. Sin embargo, los EQTL que se encuentran en dos o más cohortes siguen de manera consistente una influencia de expresión similar dentro de cada una de las cohortes.

    • Muchos EQTLs son específicos de tejido; es decir, su influencia en la expresión génica podría ocurrir en un tejido pero no en otro, y una posible explicación de esto es la corregulación de un solo gen por múltiples EQTL que depende de que un gen tenga múltiples alelos.


    31.3: Estructura de un estudio eQTL is shared under a not declared license and was authored, remixed, and/or curated by LibreTexts.