Saltar al contenido principal
LibreTexts Español

1.5: Introducción a algoritmos e inferencia probabilística

  • Page ID
    54853
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    1. Rápidamente revisaremos alguna probabilidad básica considerando una forma alternativa de representar motivos: una matriz de peso de posición (PWM). Nos gustaría modelar el hecho de que las proteínas pueden unirse a motivos que no están completamente especificados. Es decir, algunas posiciones pueden requerir un cierto nucleótido (por ejemplo, A), mientras que otras posiciones son libres para ser un subconjunto de los 4 nucleótidos (por ejemplo, A o C). Un PWM representa el conjunto de todas las secuencias de ADN que pertenecen al motivo mediante el uso de una matriz que almacena la probabilidad de encontrar cada uno de los 4 nucleótidos en cada posición en el motivo. Por ejemplo, considere el siguiente PWM para un motivo con longitud 4:

    Screen_shot_2020-07-11_AT_6.54.25_pm.png

    Decimos que este motivo puede generar secuencias de longitud 4. Los PWM suelen suponer que la distribución de una posición no está influenciada por la base de otra posición. Observe que cada posición está asociada con una distribución de probabilidad sobre los nucleótidos (suman a 1 y no son negativos).

    2. También podemos modelar la distribución de fondo de los nucleótidos (la distribución que se encuentra a través del genoma):

    Screen Shot 2020-07-11 a las 6.56.38 PM.png

    Observe cómo las probabilidades para A y T son las mismas y las probabilidades de G y C son las mismas. Esto es consecuencia de la complementariedad del ADN que asegura que la composición global de A y T, G y C es la misma en general en el genoma.

    3. Considera la secuencia\(S = GCAA.\)

    • La probabilidad de que el motivo genere esta secuencia es\[P(S|M) = 0.4 × 0.25 × 0.1 × 1.0 = 0.01. \nonumber\]
    • La probabilidad de que el fondo genere esta secuencia\[P (S|B) = 0.4 × 0.4 × 0.1 × 0.1 = 0.0016. \nonumber\]

    4. Solo esto no es particularmente interesante. Sin embargo, dada la fracción de secuencias que son generadas por el motivo, por ejemplo P (M) = 0.1, y suponiendo que todas las demás secuencias son generadas por el fondo (P (B) = 0.9) podemos calcular la probabilidad de que el motivo genere la secuencia usando la Regla de Bayes:

    \[\begin{align*} P(M|S) &= \frac{P(S|M)P(M)}{P(S)} \\[4pt] &= \frac{P(S|M)P(M)}{P(S|B)P(B)+P(S|M)P(M)} \\[4pt] &= \frac{0.01 \times 0.1}{0.0016 \times 0.9 + 0.01 \times 0.1} = 0.40984 \end{align*}\]


    This page titled 1.5: Introducción a algoritmos e inferencia probabilística is shared under a CC BY-NC-SA 4.0 license and was authored, remixed, and/or curated by Manolis Kellis et al. (MIT OpenCourseWare) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.