Saltar al contenido principal
LibreTexts Español

Resumen (Unidad 1)

  • Page ID
    151248
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    (Opcional) Lectura Exterior: ¡Mira los Datos! (≈1200 palabras)

    (Opcional) Lectura Exterior: Creación de Archivos de Datos (≈1200 palabras)

    Este resumen proporciona un resumen rápido del material en la unidad de Análisis Exploratorio de Datos. Tenga en cuenta que este resumen no proporciona una cobertura completa del material, solo enumera los puntos principales.

    • El propósito del análisis exploratorio de datos (EDA) es convertir los datos disponibles de su forma cruda a uno informativo, en el que se iluminen las principales características de los datos.
    • Al realizar EDA, siempre debemos:
      • utilizar pantallas visuales (gráficas o tablas) más medidas numéricas.
      • describir el patrón general y mencionar cualquier desviación sorprendente de ese patrón.
      • interpretar los resultados que encontramos en contexto.
    • Al examinar la distribución de una sola variable, distinguimos entre una variable categórica y una cuantitativa.
    • La distribución de una variable categórica se resume utilizando:
      • Mostrar: gráfico circular o gráfico de barras (variación: pictograma → puede ser engañoso — ¡cuidado!)
      • Medidas numéricas: porcentajes de categoría (grupo).
    • La distribución de una variable cuantitativa se resume utilizando:
      • Display: histograma (o stemplot, principalmente para conjuntos de datos pequeños). Al describir la distribución tal como se muestra en el histograma, debemos describir lo siguiente:
        • Patrón general → forma, centro, extendido.
        • Desviaciones del patrón → valores atípicos.
      • Medidas numéricas: estadística descriptiva (medida del centro más medida de propagación):
        • Si la distribución es simétrica sin valores atípicos, utilice la media y la desviación estándar.
        • De lo contrario, utilice el resumen de cinco números, en particular, la mediana y el IQR (rango intercuartil).
    • El resumen de cinco números y el Criterio 1.5 (IQR) para detectar valores atípicos son los ingredientes que necesitamos para construir la parcela de caja. Las gráficas de caja son más efectivas cuando se usan lado a lado para comparar distribuciones (ver también el caso C→Q al examinar las relaciones).
    • En el caso especial de una distribución que tenga la forma normal, se aplica la Regla de Desviación Estándar. Esta regla nos dice aproximadamente qué porcentaje de las observaciones se encuentran dentro de 1,2, o 3 desviaciones estándar de la media. En particular, cuando una distribución es aproximadamente normal, casi todas las observaciones (99.7%) se encuentran dentro de 3 desviaciones estándar de la media.
    • Al examinar la relación entre dos variables, el primer paso es clasificar las dos variables relevantes según su rol y tipo:

    Existen variables categóricas explicativas, variables cuantitativas explicativas, variables categóricas de respuesta y variables cuantitativas de respuesta. Es posible que cualquier tipo de variable explicativa se empareja con cualquier tipo de variable de respuesta. Los posibles emparejamientos son: Explicativo Categórico → Respuesta Categórica (C→C), Explicativo Categórico → Respuesta Cuantitativa (C→Q), Explicativo Cuantitativo → Respuesta Categórica (Q→C) y Explicativo Cuantitativo → Respuesta Cuantitativa (Q→Q)

    y sólo entonces determinar las herramientas adecuadas para resumir los datos. (No tratamos el caso Q→C en este curso).

    • Caso C→Q: Explorar la relación equivale a comparar las distribuciones de la variable de respuesta cuantitativa para cada categoría de la variable explicativa. Para ello, utilizamos:
      • Visualización: diagramas de caja lado a lado.
      • Medidas numéricas: estadística descriptiva de la variable respuesta, para cada valor (categoría) de la variable explicativa por separado.
    • Caso C→C: Explorar la relación equivale a comparar las distribuciones de la variable de respuesta categórica, para cada categoría de la variable explicativa. Para ello, utilizamos:
      • Expositor: mesa de dos vías.
      • Medidas numéricas: porcentajes condicionales (de la variable de respuesta para cada valor (categoría) de la variable explicativa por separado).
    • Caso Q→P: Examinamos la relación utilizando:
      • Pantalla: diagrama de dispersión. Al describir la relación tal como se muestra en la gráfica de dispersión, asegúrese de considerar:
        • Patrón general → dirección, forma, fuerza.
        • Desviaciones del patrón → valores atípicos.

        Etiquetar la gráfica de dispersión (incluyendo una tercera variable categórica relevante en nuestro análisis), podría agregar alguna idea sobre la naturaleza de la relación.

      En el caso especial de que la gráfica de dispersión muestre una relación lineal (y solo entonces), complementamos la gráfica de dispersión con:

      • Medidas numéricas: El coeficiente de correlación de Pearson (r) mide la dirección y, lo que es más importante, la fuerza de la relación lineal. Cuanto más cerca está r a 1 (o -1), más fuerte es la relación lineal positiva (o negativa). r no contiene unidades, está influenciado por valores atípicos, y debe usarse solo como complemento de la gráfica de dispersión.
      • Cuando la relación es lineal (como se muestra en la gráfica de dispersión, y soportada por la correlación r), podemos resumir el patrón lineal usando la línea de regresión de mínimos cuadrados. Recuerda que:
        • La pendiente de la línea de regresión nos indica el cambio promedio en la variable de respuesta que resulta de un incremento de 1 unidad en la variable explicativa.
        • Al usar la línea de regresión para las predicciones, debe tener cuidado con la extrapolación.
    • Al examinar la relación entre dos variables (independientemente del caso), cualquier relación observada (asociación) no implica causalidad, debido a la posible presencia de variables al acecho.
    • Cuando incluimos una variable al acecho en nuestro análisis, podríamos necesitar repensar la dirección de la relación → La paradoja de Simpson.

    Resumen (Unidad 1) is shared under a CC BY-NC-SA 4.0 license and was authored, remixed, and/or curated by LibreTexts.