15.1: Introducción
- Page ID
- 54986
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)En este capítulo, consideramos el problema de discernir similitudes o patrones dentro de grandes conjuntos de datos. Encontrar la estructura en dichos conjuntos de datos nos permite sacar conclusiones sobre el proceso, así como la estructura subyacente a las observaciones. Abordamos este problema a través de la aplicación de técnicas de clustering. El siguiente capítulo se centrará en las técnicas de clasificación.
Agrupación vs Clasificación
Una distinción importante que debe hacerse desde el principio es la diferencia entre clasificación y agrupamiento. Clas- sificación es el problema de identificar a cuál de un conjunto de categorías (subpoblaciones) pertenece una nueva observación, a partir de un conjunto de entrenamiento de datos que contienen observaciones o instancias cuya categoría miembro se conoce. El conjunto de entrenamiento se utiliza para aprender reglas que asignarán etiquetas con precisión a nuevas observaciones. La dificultad es encontrar las características más importantes (selección de características).
En la terminología del aprendizaje automático, la clasificación se considera una instancia de aprendizaje supervisado, es decir, aprendizaje donde se dispone de un conjunto de formación de observaciones correctamente identificadas. El procedimiento no supervisado correspondiente se conoce como clustering o cluster analysis, e implica agrupar los datos en categorías basadas en alguna medida de similitud inherente, como la distancia entre instancias, consideradas como vectores en un espacio vectorial multidimensional. La dificultad es identificar la estructura de los datos. La Figura 15.1 ilustra la diferencia entre agrupamiento y clasificación.

Figura 15.1: Agrupación comparada con la clasificación. En la agrupación agrupamos las observaciones en clústeres en función de lo cerca que están entre sí. En clasificación queremos una regla que asigne etiquetas con precisión a nuevos puntos.
Aplicaciones
La agrupación se desarrolló originalmente dentro del campo de la inteligencia artificial. Poder agrupar objetos similares, con implicaciones plenas de generalidad implícitas, es de hecho un atributo bastante deseable para una inteligencia artificial, y uno que los humanos realizan rutinariamente a lo largo de la vida. A medida que el desarrollo de algoritmos de clustering avanzaba a buen ritmo, rápidamente queda claro que no había ninguna barrera intrínseca involucrada en la aplicación de estos algoritmos a conjuntos de datos cada vez más grandes. Esta realización condujo a la rápida introducción del agrupamiento en la biología computacional y otros campos que se ocupan de grandes conjuntos de datos.
La agrupación en clústeres tiene muchas aplicaciones para la biología computacional. Por ejemplo, consideremos los perfiles de expresión de muchos genes tomados en diversas etapas de desarrollo. La agrupación puede mostrar que ciertos conjuntos de genes se alinean (es decir, muestran los mismos niveles de expresión) en varias etapas. Esto puede indicar que este conjunto de genes tiene expresión o regulación común y podemos usar esto para inferir una función similar. Además, si encontramos un gen no caracterizado en dicho conjunto de genes, podemos razonar que el gen no caracterizado también tiene una función similar a través de la culpa por asociación.
Las marcas de cromatina y los motivos reguladores se pueden usar para predecir relaciones lógicas entre reguladores y genes diana de manera similar. Este tipo de análisis permite la construcción de modelos que permiten predecir la expresión génica. Estos modelos se pueden utilizar para modificar las propiedades reguladoras de un gen en particular, predecir cómo surgió un estado de enfermedad o ayudar a dirigir genes a órganos particulares basados en circuitos reguladores en las células del órgano relevante.
La biología computacional trata con conjuntos de datos cada vez más grandes y de acceso abierto. Un ejemplo de ello es el proyecto ENCODE [2]. Lanzado en 2003, el objetivo de ENCODE es construir una lista completa de elementos funcionales en el genoma humano, incluyendo elementos que actúan a nivel de proteína y ARN, y elementos reguladores que controlan las células y circunstancias en las que un gen está activo. Los datos de CODIFICAR ahora están disponibles libre e inmediatamente para todo el genoma humano: http://genome.ucsc.edu/ENCODE/. Utilizando todos estos datos, es posible hacer predicciones funcionales sobre los genes mediante el uso de clustering.