17.8: OOPS, ZOOPS, MTC

Última actualización
Guardar como PDF

Page ID: 54189

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Los diferentes tipos de modelo de secuencia hacen suposiciones diferentes sobre cómo y dónde aparecen las ocurrencias de motivos en el conjunto de datos. El tipo de modelo más simple es OOPS (OOPS) ya que asume que hay exactamente una ocurrencia por secuencia del motivo en el conjunto de datos. Este es el caso que hemos analizado en la sección de muestreo de Gibbs. Este tipo de modelo fue introducido por Lawrence & Reilly (1990) [2], cuando describen por primera vez una generalización de OOPS, llamada ZOOPS (ZOOPS (Zero-o-Uno-Sucece-per-Sequence), que asume cero o una ocurrencia de motivo por secuencia de conjunto de datos. Finalmente, los modelos TCM (mezcla de dos componentes) asumen que hay cero o más ocurrencias no superpuestas del motivo en cada secuencia del conjunto de datos, como describen Baily & Elkan (1994). [1] Cada uno de estos tipos de modelo de secuencia consta de dos componentes, que modelan, respectivamente, el motivo y no- posiciones del motivo (fondo) en secuencias. Un motivo es modelado por una secuencia de variables aleatorias discretas cuyos parámetros dan las probabilidades de que cada una de las diferentes letras (4 en el caso del ADN, 20 en el caso de las proteínas) ocurran en cada una de las diferentes posiciones en una ocurrencia del motivo. Las posiciones de fondo en la secuencia se modelan mediante una única variable aleatoria discreta.