Saltar al contenido principal
LibreTexts Español

Unidad 1: Análisis Exploratorio de Datos

  • Page ID
    151245
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)

    CO-1: Describir los roles que la bioestadística desempeña en la disciplina de la salud pública.

    CO-6: Aplicar conceptos básicos de probabilidad, variación aleatoria y distribuciones de probabilidad estadística de uso común.

    El panorama general

    Objetivos de aprendizaje

    LO 1.3: Identificar y diferenciar entre los componentes del Panorama General de la Estadística

    Recordemos “The Big Picture”, el proceso de cuatro pasos que abarca la estadística (tal y como se presenta en este curso):

    1. Producir datos — Elegir una muestra de la población de interés y recopilar datos.

    2. Análisis Exploratorio de Datos (EDA) {Estadística Descriptiva} — Resumiendo los datos que hemos recopilado.

    3. y 4. Probabilidad e inferencia — Sacar conclusiones sobre toda la población a partir de los datos recopilados de la muestra.

    A pesar de que en la práctica es el segundo paso en el proceso, vamos a ver primero el Análisis Exploratorio de Datos (EDA). (Si has olvidado por qué, revisa la información de la estructura del curso al final de la página en The Big Picture y en el video que cubre The Big Picture.)

    El panorama general de las estadísticas. Primero, se creó un conjunto de datos a partir de un subconjunto de la población. Luego, realizamos el paso 2, análisis exploratorio de datos sobre los datos. Este es el paso en el que estamos trabajando en esta dependencia. Con los resultados del análisis, aplicamos el tercer paso, probabilidad para ayudarnos a sacar conclusiones sobre la población a partir de los datos. A continuación, realizamos inferencia y sacamos conclusiones. Este es el cuarto paso.

    Análisis Exploratorio de Datos

    Objetivos de aprendizaje

    LO 1.5: Explicar los usos y características importantes del análisis exploratorio de datos.

    Como se puede observar por los ejemplos de conjuntos de datos que hemos visto, los datos brutos no son muy informativos. Análisis Exploratorio de Datos (EDA) es cómo damos sentido a los datos al convertirlos de su forma cruda a una más informativa.

    Nota

    En particular, EDA consiste en:

    • organizar y resumir los datos brutos,
    • descubrir características y patrones importantes en los datos y cualquier desviación sorprendente de esos patrones, y luego
    • interpretar nuestros hallazgos en el contexto del problema

    Y puede ser útil para:

    • describiendo la distribución de una sola variable (centro, extensión, forma, valores atípicos)
    • comprobación de datos (por errores u otros problemas)
    • comprobación de suposiciones a análisis estadísticos más complejos
    • investigar las relaciones entre variables

    Los métodos de análisis exploratorio de datos (EDA) a menudo se denominan Estadística Descriptiva debido a que simplemente describen, o proporcionan estimaciones basadas en, los datos en cuestión.

    En la Unidad 4 cubriremos métodos de Estadística Inferencial que utilizan los resultados de una muestra para hacer inferencias sobre la población en estudio.

    Las comparaciones se pueden visualizar y estimar los valores de interés utilizando EDA, pero las estadísticas descriptivas por sí solas no proporcionarán información sobre la certeza de nuestras conclusiones.

    Características importantes del análisis exploratorio de datos

    Hay dos características importantes en la estructura de la unidad EDA en este curso:

    Nota
    • El material de esta unidad abarca dos temas amplios:

    Examinar distribuciones: explorar datos de una variable a la vez.

    Examinar las relaciones: explorar datos de dos variables a la vez.

    Nota
    • En Análisis Exploratorio de Datos, nuestra exploración de datos constará siempre de los siguientes dos elementos:

    pantallas visuales, complementadas por

    medidas numéricas.

    Intenta recordar estos temas estructurales, ya que te ayudarán a orientarte por el camino de esta unidad.

    Examinando distribuciones

    Objetivos de aprendizaje

    LO 6.1: Explicar el significado del término distribución en estadística.

    Comenzaremos la parte EDA del curso explorando (o mirando) una variable a la vez.

    Como hemos visto, los datos para cada variable consisten en una larga lista de valores (sean numéricos o no), y no son muy informativos en esa forma.

    Para convertir estos datos brutos en información útil, necesitamos resumir y luego examinar la distribución de la variable.

    Nota

    Por distribución de una variable, queremos decir:

    • qué valores toma la variable, y
    • con qué frecuencia la variable toma esos valores.

    Primero aprenderemos a resumir y examinar la distribución de una sola variable categórica, y luego hacer lo mismo para una sola variable cuantitativa.


    Unidad 1: Análisis Exploratorio de Datos is shared under a CC BY-NC-SA 4.0 license and was authored, remixed, and/or curated by LibreTexts.