Saltar al contenido principal

# 3.7: Fundamentos probabilísticos del alineamiento de secuencias

$$\newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$$

$$\newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}}$$

$$\newcommand{\id}{\mathrm{id}}$$ $$\newcommand{\Span}{\mathrm{span}}$$

( \newcommand{\kernel}{\mathrm{null}\,}\) $$\newcommand{\range}{\mathrm{range}\,}$$

$$\newcommand{\RealPart}{\mathrm{Re}}$$ $$\newcommand{\ImaginaryPart}{\mathrm{Im}}$$

$$\newcommand{\Argument}{\mathrm{Arg}}$$ $$\newcommand{\norm}[1]{\| #1 \|}$$

$$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$$

$$\newcommand{\Span}{\mathrm{span}}$$

$$\newcommand{\id}{\mathrm{id}}$$

$$\newcommand{\Span}{\mathrm{span}}$$

$$\newcommand{\kernel}{\mathrm{null}\,}$$

$$\newcommand{\range}{\mathrm{range}\,}$$

$$\newcommand{\RealPart}{\mathrm{Re}}$$

$$\newcommand{\ImaginaryPart}{\mathrm{Im}}$$

$$\newcommand{\Argument}{\mathrm{Arg}}$$

$$\newcommand{\norm}[1]{\| #1 \|}$$

$$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$$

$$\newcommand{\Span}{\mathrm{span}}$$ $$\newcommand{\AA}{\unicode[.8,0]{x212B}}$$

$$\newcommand{\vectorA}[1]{\vec{#1}} % arrow$$

$$\newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow$$

$$\newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$$

$$\newcommand{\vectorC}[1]{\textbf{#1}}$$

$$\newcommand{\vectorD}[1]{\overrightarrow{#1}}$$

$$\newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}}$$

$$\newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}}$$

$$\newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$$

$$\newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}}$$

$$\newcommand{\avec}{\mathbf a}$$ $$\newcommand{\bvec}{\mathbf b}$$ $$\newcommand{\cvec}{\mathbf c}$$ $$\newcommand{\dvec}{\mathbf d}$$ $$\newcommand{\dtil}{\widetilde{\mathbf d}}$$ $$\newcommand{\evec}{\mathbf e}$$ $$\newcommand{\fvec}{\mathbf f}$$ $$\newcommand{\nvec}{\mathbf n}$$ $$\newcommand{\pvec}{\mathbf p}$$ $$\newcommand{\qvec}{\mathbf q}$$ $$\newcommand{\svec}{\mathbf s}$$ $$\newcommand{\tvec}{\mathbf t}$$ $$\newcommand{\uvec}{\mathbf u}$$ $$\newcommand{\vvec}{\mathbf v}$$ $$\newcommand{\wvec}{\mathbf w}$$ $$\newcommand{\xvec}{\mathbf x}$$ $$\newcommand{\yvec}{\mathbf y}$$ $$\newcommand{\zvec}{\mathbf z}$$ $$\newcommand{\rvec}{\mathbf r}$$ $$\newcommand{\mvec}{\mathbf m}$$ $$\newcommand{\zerovec}{\mathbf 0}$$ $$\newcommand{\onevec}{\mathbf 1}$$ $$\newcommand{\real}{\mathbb R}$$ $$\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}$$ $$\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}$$ $$\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}$$ $$\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}$$ $$\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}$$ $$\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}$$ $$\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}$$ $$\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}$$ $$\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}$$ $$\newcommand{\laspan}[1]{\text{Span}\{#1\}}$$ $$\newcommand{\bcal}{\cal B}$$ $$\newcommand{\ccal}{\cal C}$$ $$\newcommand{\scal}{\cal S}$$ $$\newcommand{\wcal}{\cal W}$$ $$\newcommand{\ecal}{\cal E}$$ $$\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}$$ $$\newcommand{\gray}[1]{\color{gray}{#1}}$$ $$\newcommand{\lgray}[1]{\color{lightgray}{#1}}$$ $$\newcommand{\rank}{\operatorname{rank}}$$ $$\newcommand{\row}{\text{Row}}$$ $$\newcommand{\col}{\text{Col}}$$ $$\renewcommand{\row}{\text{Row}}$$ $$\newcommand{\nul}{\text{Nul}}$$ $$\newcommand{\var}{\text{Var}}$$ $$\newcommand{\corr}{\text{corr}}$$ $$\newcommand{\len}[1]{\left|#1\right|}$$ $$\newcommand{\bbar}{\overline{\bvec}}$$ $$\newcommand{\bhat}{\widehat{\bvec}}$$ $$\newcommand{\bperp}{\bvec^\perp}$$ $$\newcommand{\xhat}{\widehat{\xvec}}$$ $$\newcommand{\vhat}{\widehat{\vvec}}$$ $$\newcommand{\uhat}{\widehat{\uvec}}$$ $$\newcommand{\what}{\widehat{\wvec}}$$ $$\newcommand{\Sighat}{\widehat{\Sigma}}$$ $$\newcommand{\lt}{<}$$ $$\newcommand{\gt}{>}$$ $$\newcommand{\amp}{&}$$ $$\definecolor{fillinmathshade}{gray}{0.9}$$

Como se describió anteriormente, el algoritmo BLAST utiliza una matriz de puntuación (sustitución) para expandir la lista de W-meros con el fin de buscar y determinar una secuencia aproximadamente coincidente durante la extensión de la semilla. Además, se utiliza una matriz de puntuación en la evaluación de coincidencias o desajustes en los algoritmos de alineación. Pero, ¿cómo construimos esta matriz en primer lugar? ¿Cómo se determina el valor de$$s\left(x_{i}, y_{j}\right)$$ en alineación global/local?

La idea detrás de la matriz de puntuación es que la puntuación de alineación debe reflejar la probabilidad de que dos secuencias similares sean homólogas, es decir, la probabilidad de que dos secuencias que tienen un montón de nucleótidos en común también compartan una ascendencia común. Para ello, nos fijamos en los cocientes de verosimilitud entre dos hipótesis.

1. Hipótesis 1: — Que el alineamiento entre las dos secuencias se debe al azar y las secuencias son, de hecho, no relacionadas.

2. Hipótesis 2: — Que el alineamiento se debe a la ascendencia común y las secuencias están realmente relacionadas.

Luego, calculamos la probabilidad de observar una alineación de acuerdo a cada hipótesis. Pr (x, y|u) es la probabilidad de alinear x con y asumiendo que no están relacionados, mientras que Pr (x, y|R) es la probabilidad de la

alineación, suponiendo que estén relacionados. Luego, definimos la puntuación de alineación como el log de la relación de verosimilitud entre los dos:

\ [\ begin {ecuación}
S\ equiv\ log\ frac {P (\ mathbf {x},\ mathbf {y}\ mid R)} {P (\ mathbf {x},\ mathbf {y}\ mid U)}
\ end {ecuación}\ nonumber\]

Dado que una suma de registros es un registro de productos, podemos obtener la puntuación total de la alineación sumando las puntuaciones de las alineaciones individuales. Esto nos da la probabilidad de toda la alineación, asumiendo que cada alineación individual es independiente. Así, una puntuación de matriz aditiva nos da exactamente la probabilidad de que las dos secuencias estén relacionadas, y el alineamiento no se debe al azar. De manera más formal, considerando el caso de alinear proteínas, para secuencias no relacionadas, la probabilidad de tener un alineamiento de n residuos entre x e y es un producto simple de las probabilidades de las secuencias individuales ya que los emparejamientos de residuos son independientes.

Es decir,

\ [\ comenzar {ecuación}
\ mathbf {x} &=\ izquierda\ {x_ {1}\ lpuntos x_ {n}\ derecha\}\
\ mathbf {y} &=\ izquierda\ {y_ {1}\ lpuntos x_ {n}\ derecha\}\
q_ {a} &=P (\ texto {aminoácido} a)\
P (\ mathbf {x},\ mathbf {y}\ media U) &=\ prod_ {i=1} ^ {n} q_ {x_ {i}}\ prod_ {i=1} ^ {n} q_ {y_ {i}}
\ end {ecuación}\ nonumber\]

Para secuencias relacionadas, los emparejamientos de residuos ya no son independientes por lo que debemos usar una articulación diferente

\ [\ begin {ecuación}
p_ {a b} &=P (\ text {evolución dio lugar a} a\ text {in}\ mathbf {x}\ text {y} b\ text {in}\ mathbf {y})\\
P (\ mathbf {x},\ mathbf {y}\ mid R) &=\ prod_ {i=1} ^ {n} p_ {x_ {i} y_ {i}}
\ end {ecuación}\ nonumber\]

Entonces, la razón de verosimilitud entre los dos viene dada por:

\ [\ begin {ecuación}
\ frac {P (\ mathbf {x},\ mathbf {y}\ mid R)} {P (\ mathbf {x},\ mathbf {y}\ mid U)} &=\ frac {\ prod_ {i=1} ^ {n} p_ {x_ {i} y_ {i}} {\ prod_ {i=1} ^ {n} q_ {x_ {i}}\ prod_ {i=1} ^ {n} q_ {y_ {i}}}\\
&=\ frac {\ prod_ {i=1} ^ {n} p_ {x_ {i} y_ {i}}} {\ prod_ {i=1} ^ {n } q_ {x_ {i}} q_ {y_ {i}}}
\ final {ecuación}\ nonumber\]

Como finalmente queremos calcular una suma de puntajes y probabilidades requieren agregar productos, tomamos el registro del producto para obtener una suma útil:

\ [\ begin {ecuación}
S &\ equiv\ log\ frac {P (\ mathbf {x},\ mathbf {y}\ mid R)} {P (\ mathbf {x},\ mathbf {y}\ mid U)}\\
v &=\ sum_ {i}\ log\ left (\ frac {p_ {x_ {i} y_ {i}}} {q_ {x_ {i}} q_ {y_ {i}}\ derecha)\\
&\ equiv\ suma_ {i} s\ izquierda (x_ {i}, y_ { i}\ derecha)
\ final {ecuación}\ nonumber\]

Así, la puntuación de la matriz de sustitución para un par dado a, b es dada por

\ [\ begin {ecuación}
s (a, b) =\ log\ left (\ frac {p_ {a b}} {q_ {a} q_ {b}}\ derecha)
\ end {ecuación}\ nonumber\]

La expresión anterior se usa entonces para producir una matriz de sustitución como el BLOSUM62 para aminoácidos. Es interesante señalar que la puntuación de una coincidencia de un aminoácido consigo mismo depende del aminoácido en sí mismo porque la frecuencia de ocurrencia aleatoria de un aminoácido afecta los términos utilizados en el cálculo de la puntuación de la relación de verosimilitud de alineación. De ahí que estas matrices capturen no sólo la similitud de secuencia de los alineamientos, sino también la similitud química de diversos aminoácidos.