Este resumen proporciona un resumen rápido del material en la unidad de Análisis Exploratorio de Datos. Tenga en cuenta que este resumen no proporciona una cobertura completa del material, solo enumera los puntos principales.
- El propósito del análisis exploratorio de datos (EDA) es convertir los datos disponibles de su forma cruda a uno informativo, en el que se iluminen las principales características de los datos.
- Al realizar EDA, siempre debemos:
- utilizar pantallas visuales (gráficas o tablas) más medidas numéricas.
- describir el patrón general y mencionar cualquier desviación sorprendente de ese patrón.
- interpretar los resultados que encontramos en contexto.
- Al examinar la distribución de una sola variable, distinguimos entre una variable categórica y una cuantitativa.
- La distribución de una variable categórica se resume utilizando:
- Mostrar: gráfico circular o gráfico de barras (variación: pictograma → puede ser engañoso — ¡cuidado!)
- Medidas numéricas: porcentajes de categoría (grupo).
- La distribución de una variable cuantitativa se resume utilizando:
- Display: histograma (o stemplot, principalmente para conjuntos de datos pequeños). Al describir la distribución tal como se muestra en el histograma, debemos describir lo siguiente:
- Patrón general → forma, centro, extendido.
- Desviaciones del patrón → valores atípicos.
- Medidas numéricas: estadística descriptiva (medida del centro más medida de propagación):
- Si la distribución es simétrica sin valores atípicos, utilice la media y la desviación estándar.
- De lo contrario, utilice el resumen de cinco números, en particular, la mediana y el IQR (rango intercuartil).
- El resumen de cinco números y el Criterio 1.5 (IQR) para detectar valores atípicos son los ingredientes que necesitamos para construir la parcela de caja. Las gráficas de caja son más efectivas cuando se usan lado a lado para comparar distribuciones (ver también el caso C→Q al examinar las relaciones).
- En el caso especial de una distribución que tenga la forma normal, se aplica la Regla de Desviación Estándar. Esta regla nos dice aproximadamente qué porcentaje de las observaciones se encuentran dentro de 1,2, o 3 desviaciones estándar de la media. En particular, cuando una distribución es aproximadamente normal, casi todas las observaciones (99.7%) se encuentran dentro de 3 desviaciones estándar de la media.
- Al examinar la relación entre dos variables, el primer paso es clasificar las dos variables relevantes según su rol y tipo:

y sólo entonces determinar las herramientas adecuadas para resumir los datos. (No tratamos el caso Q→C en este curso).
- Caso C→Q: Explorar la relación equivale a comparar las distribuciones de la variable de respuesta cuantitativa para cada categoría de la variable explicativa. Para ello, utilizamos:
- Visualización: diagramas de caja lado a lado.
- Medidas numéricas: estadística descriptiva de la variable respuesta, para cada valor (categoría) de la variable explicativa por separado.
- Caso C→C: Explorar la relación equivale a comparar las distribuciones de la variable de respuesta categórica, para cada categoría de la variable explicativa. Para ello, utilizamos:
- Expositor: mesa de dos vías.
- Medidas numéricas: porcentajes condicionales (de la variable de respuesta para cada valor (categoría) de la variable explicativa por separado).
- Al examinar la relación entre dos variables (independientemente del caso), cualquier relación observada (asociación) no implica causalidad, debido a la posible presencia de variables al acecho.
- Cuando incluimos una variable al acecho en nuestro análisis, podríamos necesitar repensar la dirección de la relación → La paradoja de Simpson.