7.7: Lectura adicional, ¿qué hemos aprendido?

Última actualización
Guardar como PDF

Page ID: 54359

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

\( \newcommand{\dsum}{\displaystyle\sum\limits} \)

\( \newcommand{\dint}{\displaystyle\int\limits} \)

\( \newcommand{\dlim}{\displaystyle\lim\limits} \)

\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\id}{\mathrm{id}}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\kernel}{\mathrm{null}\,}\)

\( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\)

\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\)

\( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)

\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)

\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vectorC}[1]{\textbf{#1}} \)

\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\(\newcommand{\longvect}{\overrightarrow}\)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)

Distribuciones de Longitud de Estados y Modelos Generalizados de Markov Ocultos

Dada una cadena de Markov con la transición de cualquier estado al estado final teniendo probabilidad τ, la probabilidad de generar una secuencia de longitud L (y luego terminar con una transición al estado final) viene dada por:

\[ \tau(1-\tau)^{L-1} \nonumber \]

De igual manera, en los HMM que hemos estado examinando, la longitud de los estados será exponencialmente destributada, lo que no es apropiado para muchos fines. (Por ejemplo, en una secuencia genómica, una distribución exponencial no captura con precisión las longitudes de genes, exones, intrones, etc.). ¿Cómo podemos construir un modelo que no emita secuencias de estados con una distribución exponencial de longitudes? Supongamos que queremos asegurarnos de que nuestra secuencia tiene una longitud exactamente 5. Podríamos construir una secuencia de cinco estados con un solo camino permitido por las probabilidades de transición. Si incluimos un bucle self en uno de los estados, emitiremos secuencias de longitud mínima 5, con secuencias más largas distribuidas exponencialmente. Supongamos que tenemos una cadena de n estados, con todas las cadenas comenzando con el estado π1 y haciendo la transición a un estado final después de π _n. También supongamos que la probabilidad de transición entre el estado π _i y π _i+1 es 1−p, mientras que la probabilidad de autotransición del estado π _i es p. La probabilidad de que una secuencia generada por esta cadena de Markov tenga longitud L viene dada por:

\ [\ left (\ begin {array} {l}
L-1\\
n-1
\ end {array}\ derecha) p^ {L-n} (1-p) ^ {n}\ nonumber\]

A esto se le llama distribución binomial negativa.

De manera más general, podemos adaptar HMM para producir secuencias de salida de longitud arbitraria. En un Modelo Generalizado de Markov Ocultos [1] (también conocido como modelo semi-Markov oculto), la salida de cada estado es una cadena de símbolos, en lugar de un símbolo individual. La longitud y el contenido de esta cadena de salida se pueden elegir en función de una distribución de probabilidad. Muchas herramientas de búsqueda de genes se basan en modelos generalizados ocultos de Markov.

Campos aleatorios condicionales

El modelo de campo aleatorio condicional es un modelo gráfico probabilístico discriminativo no dirigido que se usa alternativamente a los HMM. Se utiliza para codificar relaciones conocidas entre observaciones y construir interpretaciones con- sistentes. A menudo se usa para etiquetar o analizar datos secuenciales. Es ampliamente utilizado en la búsqueda de genes. Los siguientes recursos pueden ser útiles para aprender más sobre los CRF:

Conferencia sobre Campos Aleatorios Condicionales a partir de Modelos Gráficos Probabilísticos Curso: class. coursera.org/pgm/lecture/preview/33. Para antecedentes, es posible que también desee ver los dos segmentos anteriores, en redes de Markov por pares y distribuciones generales de Gibbs.
Campos aleatorios condicionales en biología: www.cis.upenn.edu/~pereira/papers/crf.pdf
Campos aleatorios condicionales tutorial: http://people.cs.umass.edu/~mccallum...f-tutorial.pdf

¿Qué hemos aprendido?

En esta sección, los principales contenidos que cubrimos son los siguientes:

• Primero, introdujimos la motivación detrás de la adopción de Modelos Ocultos de Markov en nuestro análisis de anotación genómica.

Segundo, formalizamos Markov Chains y HMM bajo la luz del ejemplo de predicción del clima.
Tercero, tenemos una idea de cómo aplicar HMM en datos del mundo real al observar los problemas de Casino Deshonesto y región rica en CG.
En cuarto lugar, introdujimos sistematicamente ajustes algorítmicos de HMM y entramos en detalles de tres de ellos:
— Scoring: scoring over single path
— Scoring: scoring over all paths
— Decodificación: codificación Viterbi para determinar el camino más probable
Finalmente, discutimos la posibilidad de introducir la memoria en el análisis de HMM y brindamos lecturas adicionales para los lectores interesados.

Bibliografía

[1] Introducción a los GHMM: www.cs.tau.ac.il/~rshamir/algmb/00/scribe00/html/lec07/node28. html.

[2] R. Durbin, S. Eddy, A. Krogh y G. Mitchison. Análisis de secuencias biológicas. undécima edición, 2006.

Search

Text Color

Text Size

Margin Size

Font Type