7: Resumen

Última actualización
Guardar como PDF

Page ID: 149747

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

El modelado de regresión lineal es uno de los más básicos de una amplia colección de técnicas de minería de datos. Puede demostrar las relaciones entre las entradas a un sistema y la salida correspondiente. También se puede utilizar para predecir la salida dado un nuevo conjunto de valores de entrada. Si bien los detalles para desarrollar un modelo de regresión dependerán de los detalles de sus datos, hay varios pasos clave a tener en cuenta al desarrollar un nuevo modelo utilizando el entorno de programación R:

Lea sus datos en el entorno R.

Por simple que parezca, una de las tareas más complicadas a menudo es simplemente leer tus datos en R. Porque es posible que no hayas controlado cómo se recopilaron los datos, o en qué formato, estar preparado para pasar algún tiempo escribiendo nuevas funciones para analizar tus datos y cargarlos en un marco de datos R. El capítulo 6 proporciona un ejemplo de lectura de un archivo csv moderadamente complicado en R.
Cordura revisa tus datos.

Una vez que tenga sus datos en el entorno R, realice algunas comprobaciones de cordura para asegurarse de que no haya nada obviamente malo con los datos. Los tipos de comprobaciones que debes realizar dependen de los detalles de tus datos. Algunas posibilidades incluyen:
- Encontrar el mínimo, máximo, promedio y desviación estándar de los valores en cada columna de marco de datos.
- Buscando cualquier valor de parámetro que parezca sospechosamente fuera de los límites esperados.
- Determinar la fracción de valores faltantes (NA) en cada columna para asegurar que haya suficientes datos disponibles.
- Determinar la frecuencia de los parámetros categóricos, para ver si aparecen valores inesperados.
- Cualquier otra prueba específica de datos.
En última instancia, debe estar seguro de que los valores de su conjunto de datos son razonables y consistentes.
Visualiza tus datos.

Siempre es bueno trazar tus datos, para obtener un sentido básico de su forma y asegurar que nada se vea fuera de lugar. Por ejemplo, puede esperar ver una relación algo lineal entre dos parámetros. Si ves algo más, como una línea horizontal, debes investigar más a fondo. Su suposición sobre una relación lineal podría ser incorrecta, o los datos pueden estar corruptos (ver ítem no. 2 anterior). O tal vez algo completamente inesperado está pasando. Independientemente, debes entender lo que podría estar sucediendo antes de comenzar a desarrollar el modelo. La función pairs () es bastante útil para realizar esta comprobación visual rápida, como se describe en la Sección 4.1.
Identificar los posibles predictores.

Antes de que puedas comenzar el proceso de eliminación hacia atrás, debes identificar el conjunto de todos los posibles predictores que podrían entrar en tu modelo. En el caso más simple, este conjunto consta de todas las columnas disponibles en su marco de datos. No obstante, es posible que sepas que algunas de las columnas no serán útiles, incluso antes de comenzar a construir el modelo. Por ejemplo, una columna que contiene solo unas pocas entradas válidas probablemente no sea útil en un modelo. Tu conocimiento del sistema también te puede dar una buena razón para eliminar un parámetro como posible predictor, tanto como eliminamos TDP como posible predictor en la Sección 4.2, o para incluir algunas de las funciones no lineales de los parámetros como posibles predictores, como hicimos cuando agregamos la raíz cuadrada de la caché términos de tamaño a nuestro conjunto de posibles predictores.
Seleccione los predictores.

Una vez que hayas identificado los predictores potenciales, usa el proceso de eliminación hacia atrás descrito en la Sección 4.3 para seleccionar los predictores que incluirás en el modelo final, en función del umbral de significancia que decidas usar.
Validar el modelo.

Examine el valor R ² de su modelo y el valor de R ² ajustado. Utilice el análisis residual para examinar más a fondo la calidad del modelo. También debes dividir tus datos en conjuntos de entrenamiento y pruebas, y luego ver qué tan bien tu modelo predice los valores del conjunto de prueba.
Predecir.

Ahora que tienes un modelo que sientes apropiadamente explica tus datos, puedes usarlo para predecir valores de salida previamente desconocidos.

Un cuerpo profundo de literatura se dedica tanto a la modelización estadística como al lenguaje R. Si quieres aprender más sobre R como lenguaje de programación, hay muchos buenos libros disponibles, entre ellos [11, 12, 15, 16]. Estos libros se centran en ideas estadísticas específicas y utilizan R como lenguaje computacional [1, 3, 4, 14]. Por último, este libro [9] da una introducción a la medición del rendimiento de la computadora.

A medida que continúe desarrollando sus habilidades de minería de datos, recuerde que lo que ha desarrollado es solo un modelo. Idealmente, es una herramienta útil para explicar las variaciones en sus datos medidos y comprender las relaciones entre las entradas y la salida. Pero como todos los modelos, es sólo una aproximación del sistema subyacente real, y está limitado en lo que puede decirnos sobre ese sistema. Proceda con precaución.