2: Comprender sus datos
- Page ID
- 149785
Los buenos datos son la base de cualquier tipo de modelo de regresión, porque usamos estos datos para construir realmente el modelo. Si los datos son defectuosa, el modelo será defectuoso. Es la vieja máxima de la basura adentro, basura afuera. Por lo tanto, el primer paso en el modelado de regresión es garantizar que sus datos sean confiables. No existe un enfoque universal para verificar la calidad de sus datos, desafortunadamente. Si lo recolectas tú mismo, al menos tienes la ventaja de conocer su procedencia. Sin embargo, si obtiene sus datos de otro lugar, depende de la fuente para garantizar la calidad de los datos. Su trabajo luego se convierte en verificar la confiabilidad y corrección de su fuente tanto como sea posible.
- 2.1: Valores faltantes
- Cualquier gran colección de datos es probablemente incompleta. Es decir, es probable que haya celdas sin valores en su tabla de datos. Estos valores faltantes pueden ser el resultado de un error, como el experimentador simplemente olvidando rellenar una entrada en particular. También podrían faltar porque esa configuración particular del sistema no tenía ese parámetro disponible. Afortunadamente, R está diseñado para manejar con gracia los valores faltantes.
- 2.4: Marcos de datos
- El objeto fundamental utilizado para almacenar tablas de datos en R se denomina marco de datos. Podemos pensar en un marco de datos como una forma de organizar los datos en una tabla grande con una fila para cada sistema medido y una columna para cada parámetro. Una característica interesante y útil de R es que todas las columnas en un marco de datos no necesitan ser del mismo tipo de datos. Algunas columnas pueden consistir en datos numéricos, por ejemplo, mientras que otras columnas contienen datos textuales.