Unidad 1: Análisis Exploratorio de Datos
( \newcommand{\kernel}{\mathrm{null}\,}\)
selected template will load here
This action is not available.
( \newcommand{\kernel}{\mathrm{null}\,}\)
CO-1: Describir los roles que la bioestadística desempeña en la disciplina de la salud pública.
CO-6: Aplicar conceptos básicos de probabilidad, variación aleatoria y distribuciones de probabilidad estadística de uso común.
Introducción al Análisis Exploratorio de Datos (2 videos, 7:04 total)
LO 1.3: Identificar y diferenciar entre los componentes del Panorama General de la Estadística
Recordemos “The Big Picture”, el proceso de cuatro pasos que abarca la estadística (tal y como se presenta en este curso):
1. Producir datos — Elegir una muestra de la población de interés y recopilar datos.
2. Análisis Exploratorio de Datos (EDA) {Estadística Descriptiva} — Resumiendo los datos que hemos recopilado.
3. y 4. Probabilidad e inferencia — Sacar conclusiones sobre toda la población a partir de los datos recopilados de la muestra.
A pesar de que en la práctica es el segundo paso en el proceso, vamos a ver primero el Análisis Exploratorio de Datos (EDA). (Si has olvidado por qué, revisa la información de la estructura del curso al final de la página en The Big Picture y en el video que cubre The Big Picture.)
LO 1.5: Explicar los usos y características importantes del análisis exploratorio de datos.
Como se puede observar por los ejemplos de conjuntos de datos que hemos visto, los datos brutos no son muy informativos. Análisis Exploratorio de Datos (EDA) es cómo damos sentido a los datos al convertirlos de su forma cruda a una más informativa.
En particular, EDA consiste en:
Y puede ser útil para:
Los métodos de análisis exploratorio de datos (EDA) a menudo se denominan Estadística Descriptiva debido a que simplemente describen, o proporcionan estimaciones basadas en, los datos en cuestión.
En la Unidad 4 cubriremos métodos de Estadística Inferencial que utilizan los resultados de una muestra para hacer inferencias sobre la población en estudio.
Las comparaciones se pueden visualizar y estimar los valores de interés utilizando EDA, pero las estadísticas descriptivas por sí solas no proporcionarán información sobre la certeza de nuestras conclusiones.
Hay dos características importantes en la estructura de la unidad EDA en este curso:
Examinar distribuciones: explorar datos de una variable a la vez.
Examinar las relaciones: explorar datos de dos variables a la vez.
pantallas visuales, complementadas por
medidas numéricas.
Intenta recordar estos temas estructurales, ya que te ayudarán a orientarte por el camino de esta unidad.
LO 6.1: Explicar el significado del término distribución en estadística.
Comenzaremos la parte EDA del curso explorando (o mirando) una variable a la vez.
Como hemos visto, los datos para cada variable consisten en una larga lista de valores (sean numéricos o no), y no son muy informativos en esa forma.
Para convertir estos datos brutos en información útil, necesitamos resumir y luego examinar la distribución de la variable.
Por distribución de una variable, queremos decir:
Primero aprenderemos a resumir y examinar la distribución de una sola variable categórica, y luego hacer lo mismo para una sola variable cuantitativa.