6: Lectura de datos en el entorno R
- Page ID
- 149758
Como hemos visto, el entorno R proporciona algunas funciones poderosas para desarrollar y probar modelos de regresión rápida y relativamente fácilmente. Irónicamente, simplemente leer los datos en R en un formato útil puede ser uno de los aspectos más difíciles de desarrollar un modelo. R no carece de buenas capacidades de entrada-salida, pero los datos a menudo llegan al desarrollador del modelo de forma desordenada. Por ejemplo, el formato de datos puede ser inconsistente, con campos faltantes y valores registrados incorrectamente. Conseguir los datos en el formato necesario para el análisis y modelado a menudo se denomina limpieza de datos. Los pasos específicos necesarios para “limpiar” los datos dependen en gran medida del conjunto de datos y, por lo tanto, están más allá del alcance de este tutorial. Baste decir que debes examinar cuidadosamente tus datos antes de utilizarlos para desarrollar cualquier tipo de modelo de regresión. La sección 2.2 proporciona algunas reflexiones sobre la limpieza de datos.
En el Capítulo 2, proporcionamos las funciones utilizadas para leer los datos de ejemplo en el entorno R, pero sin explicación sobre cómo funcionaban. En este capítulo, veremos estas funciones en detalle, como ejemplos específicos de cómo leer un conjunto de datos en R. Por supuesto, los detalles de las funciones que puede necesitar escribir para ingresar sus datos necesariamente cambiarán para que coincidan con los detalles de su conjunto de datos.