Saltar al contenido principal
LibreTexts Español

9.1: Introducción

  • Page ID
    54586
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Después de que un genoma ha sido secuenciado, un siguiente paso común es intentar inferir el potencial funcional del organismo o célula codificada a través de un análisis cuidadoso de esa secuencia. Esto toma principalmente la forma de identificar los genes codificantes de proteínas dentro de la secuencia ya que se cree que son las principales unidades de función dentro de los sistemas vivos; esto no quiere decir que sean las únicas unidades funcionales dentro de los genomas como cosas como los motivos reguladores y los ARN no codificantes también lo son elementos imperativos.

    Esta anotación de las regiones codificadoras de proteínas es demasiado laboriosa para realizarla a mano, por lo que se automatiza en un proceso conocido como identificación génica computacional. Los algoritmos subyacentes a este proceso suelen basarse en Modelos Ocultos de Markov (HMM), un concepto discutido en capítulos anteriores para resolver problemas simples como saber si un casino está rodando un dado justo versus un dado cargado. Los genomas, sin embargo, son conjuntos de datos muy complicados, repletos de repeticiones largas, genes superpuestos (donde uno o más nucleótidos forman parte de dos o más genes distintos) y pseudogenes (regiones no transcritas que se ven muy similares a los genes) entre muchas otras ofuscaciones. Por lo tanto, los datos experimentales y evolutivos a menudo necesitan ser incluidos en los HMM para una mayor precisión anotacional, lo que puede resultar en una pérdida de escalabilidad o una dependencia de suposiciones incorrectas de independencia. Se han utilizado algoritmos alternativos para abordar los problemas de los HMM incluyendo aquellos basados en Campos Aleatorios Condicionales (CRF), que se basan en la creación de una distribución de los estados ocultos de la secuencia genómica en cuestión condicionada a datos conocidos. El uso de CRF no ha ido eliminando los HMM ya que ambos se utilizan con diversos grados de éxito en la práctica. 1


    1 R. Guigo (1997). “Identificación computacional de genes: un problema abierto”. Computadoras Chem. Vol. 21. 165


    This page titled 9.1: Introducción is shared under a CC BY-NC-SA 4.0 license and was authored, remixed, and/or curated by Manolis Kellis et al. (MIT OpenCourseWare) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.