CO-1: Describir los roles que la bioestadística desempeña en la disciplina de la salud pública.
CO-6: Aplicar conceptos básicos de probabilidad, variación aleatoria y distribuciones de probabilidad estadística de uso común.
El panorama general
Objetivos de aprendizaje
LO 1.3: Identificar y diferenciar entre los componentes del Panorama General de la Estadística
Recordemos “The Big Picture”, el proceso de cuatro pasos que abarca la estadística (tal y como se presenta en este curso):
1. Producir datos — Elegir una muestra de la población de interés y recopilar datos.
2. Análisis Exploratorio de Datos (EDA) {Estadística Descriptiva} — Resumiendo los datos que hemos recopilado.
3. y 4. Probabilidad e inferencia — Sacar conclusiones sobre toda la población a partir de los datos recopilados de la muestra.
A pesar de que en la práctica es el segundo paso en el proceso, vamos a ver primero el Análisis Exploratorio de Datos (EDA). (Si has olvidado por qué, revisa la información de la estructura del curso al final de la página en The Big Picture y en el video que cubre The Big Picture.)

Análisis Exploratorio de Datos
Objetivos de aprendizaje
LO 1.5: Explicar los usos y características importantes del análisis exploratorio de datos.
Como se puede observar por los ejemplos de conjuntos de datos que hemos visto, los datos brutos no son muy informativos. Análisis Exploratorio de Datos (EDA) es cómo damos sentido a los datos al convertirlos de su forma cruda a una más informativa.
Nota
En particular, EDA consiste en:
- organizar y resumir los datos brutos,
- descubrir características y patrones importantes en los datos y cualquier desviación sorprendente de esos patrones, y luego
- interpretar nuestros hallazgos en el contexto del problema
Y puede ser útil para:
- describiendo la distribución de una sola variable (centro, extensión, forma, valores atípicos)
- comprobación de datos (por errores u otros problemas)
- comprobación de suposiciones a análisis estadísticos más complejos
- investigar las relaciones entre variables
Los métodos de análisis exploratorio de datos (EDA) a menudo se denominan Estadística Descriptiva debido a que simplemente describen, o proporcionan estimaciones basadas en, los datos en cuestión.
En la Unidad 4 cubriremos métodos de Estadística Inferencial que utilizan los resultados de una muestra para hacer inferencias sobre la población en estudio.
Las comparaciones se pueden visualizar y estimar los valores de interés utilizando EDA, pero las estadísticas descriptivas por sí solas no proporcionarán información sobre la certeza de nuestras conclusiones.
Características importantes del análisis exploratorio de datos
Hay dos características importantes en la estructura de la unidad EDA en este curso:
Nota
- El material de esta unidad abarca dos temas amplios:
Examinar distribuciones: explorar datos de una variable a la vez.
Examinar las relaciones: explorar datos de dos variables a la vez.
Nota
- En Análisis Exploratorio de Datos, nuestra exploración de datos constará siempre de los siguientes dos elementos:
pantallas visuales, complementadas por
medidas numéricas.
Intenta recordar estos temas estructurales, ya que te ayudarán a orientarte por el camino de esta unidad.
Examinando distribuciones
Objetivos de aprendizaje
LO 6.1: Explicar el significado del término distribución en estadística.
Comenzaremos la parte EDA del curso explorando (o mirando) una variable a la vez.
Como hemos visto, los datos para cada variable consisten en una larga lista de valores (sean numéricos o no), y no son muy informativos en esa forma.
Para convertir estos datos brutos en información útil, necesitamos resumir y luego examinar la distribución de la variable.
Nota
Por distribución de una variable, queremos decir:
- qué valores toma la variable, y
- con qué frecuencia la variable toma esos valores.
Primero aprenderemos a resumir y examinar la distribución de una sola variable categórica, y luego hacer lo mismo para una sola variable cuantitativa.