9.8: Conclusión, Bibliografía
- Page ID
- 54597
La identificación computacional de genes, ya que implica encontrar los elementos funcionales codificados dentro de un genoma, tiene mucho significado práctico y teórico para el avance de los campos bio- lógicos.
Los dos enfoques descritos anteriormente se resumen a continuación en la Figura 9.11:
HMM
• modelo generativo
• genera aleatoriamente datos observables, generalmente con un estado oculto
• especifica una distribución de probabilidad conjunta
• P (x, y) = P (x|y) P (y)
• a veces difíciles de modelar dependencias correctamente
• los estados ocultos son las etiquetas para cada base de ADN/letra
• emisiones compuestas son una combinación de la base/letra de ADN que se emite con evidencia adicional
CRF
• modelo discriminativo
• modelos dependencia de la variable no observada y de una variable observada x • P (y|x)
• difícil de entrenar sin supervisión
• más efectivo para cuando el modelo no requiere distribución conjunta
En la práctica, la especificación génica resultante usando CONTRASTE, una implementación de CRF, es de aproximadamente 46.2% en su máximo. Esto se debe a que en biología, hay muchas excepciones al modelo estándar, como genes superpuestos, genes anidados y empalme alternativo. Tener modelos que incluyan todas esas excepciones a veces produce peores predicciones; esta es una compensación no trivial. No obstante, la tecnología está mejorando y dentro de los próximos cinco años, habrá más datos experimentales para impulsar el desarrollo de la identificación computacional de genes, lo que a su vez ayudará a generar una mejor comprensión de la sintaxis del ADN.