Saltar al contenido principal
LibreTexts Español

5.4: Diferencias entre grupos

  • Page ID
    150166
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Además de la covarianza y correlación (discutida en el siguiente capítulo), también podemos examinar las diferencias en algunas variables de interés entre dos o más grupos. Por ejemplo, es posible que queramos comparar la media de la variable de riesgo de cambio climático percibida para hombres y mujeres. En primer lugar, podemos examinar estas variables visualmente.

    Según lo codificado en nuestro conjunto de datos, el género (género) es una variable numérica con un 1 para los hombres y 0 para las mujeres. Sin embargo, podemos querer convertir género en una variable categórica con etiquetas para Female y Male, a diferencia de una variable numérica codificada como 0's y 1's Para ello hacemos una nueva variable y usamos el comando factor, que le dirá a R que la nueva variable es una variable categórica. Entonces le diremos a R que esta nueva variable tiene dos niveles o factores, Masculino y Femenino. Finalmente, etiquetaremos los factores de nuestra nueva variable y la nombraremos f.gend.

    ds$f.gend <- factor(ds$gender, levels = c(0, 1), labels = c("Female","Male"))

    Luego podemos observar diferencias en las distribuciones de riesgo percibido para hombres y mujeres mediante la creación de curvas de densidad:

    library(tidyverse)
    ds %>%
      drop_na(f.gend) %>%
      ggplot(aes(glbcc_risk)) +
      geom_density() +
      facet_wrap(~ f.gend, scales = "fixed")
    género-1 (1) .png
    Figura\(\PageIndex{7}\): Gráficas de Densidad del Riesgo de Cambio Climático por Género

    Con base en las parcelas de densidad, parece que existen algunas diferencias entre hombres y mujeres con respecto al riesgo percibido de cambio climático. También podemos usar el comando by para ver la media de riesgo de cambio climático para hombres y mujeres.

    by(ds$glbcc_risk, ds$f.gend, mean, na.rm=TRUE)
    ## ds$f.gend: Female
    ## [1] 6.134259
    ## -------------------------------------------------------- 
    ## ds$f.gend: Male
    ## [1] 5.670577

    Nuevamente parece haber una diferencia, ya que las hembras perciben mayor riesgo en promedio (6.13) que los machos (5.67). Sin embargo, queremos saber si estas diferencias son estadísticamente significativas. Para probar la significancia estadística de la diferencia entre grupos, se utiliza una prueba t.

    5.4.1 pruebas t

    La prueba t se basa en la distribución tt. La distribución tt, también conocida como distribución tt de Student, es la distribución de probabilidad para estimaciones muestrales. Tiene propiedades similares y se relaciona con, la distribución normal. La distribución normal se basa en una población donde se conocen μμ y σ2σ2; sin embargo, la distribución tt se basa en una muestra donde se estiman μμ y σ2σ2, como la media ¯XX¯ y varianza s2xsx2. La media de la distribución tt, al igual que la distribución normal, es 00, pero la varianza, s2xsx2, está condicionada por n−1n−1 grados de libertad (df). Grados de libertad son los valores utilizados para calcular estadísticas que son “libres” para variar. La distribución de 11 A tt se acerca a la distribución normal estándar a medida que aumenta el número de grados de libertad.

    En resumen, queremos conocer la diferencia de medias entre machos y hembras, d=¯xM−¯xFD=x¯m−x¯f, y si esa diferencia es estadísticamente significativa. Esto equivale a una prueba de hipótesis donde nuestra hipótesis de trabajo, H1H1, es que los hombres son menos propensos que las mujeres a ver el cambio climático como riesgoso. La hipótesis nula, JAHA, es que no hay diferencia entre hombres y mujeres en cuanto a los riesgos asociados al cambio climático. Para probar H1H1 utilizamos la prueba t, que se calcula:

    t=¯xM−¯xFSED (5.6) (5.6) T=x¯m−x¯FSED

    Donde seDSED es la de las diferencias estimadas entre los dos grupos. Para estimar SEDSed, necesitamos el SE de la media estimada para cada grupo. El SE se calcula:

    se=s√n (5.7) (5.7) se=SN

    donde ss es el s.d. de la variable. H1H1 afirma que existe una diferencia entre machos y hembras, por lo que bajo H1H1 se espera que t>0t>0 ya que cero es la media de la distribución tt. Sin embargo, bajo JAHA se espera que t=0t=0.

    Podemos calcular esto en R. Primero, calculamos el tamaño nn para machos y hembras. Después calculamos el SE para machos y hembras.

    n.total <- length(ds$gender)
    nM <- sum(ds$gender, na.rm=TRUE)
    nF <- n.total-nM
    by(ds$glbcc_risk, ds$f.gend, sd, na.rm=TRUE)
    ## ds$f.gend: Female
    ## [1] 2.981938
    ## -------------------------------------------------------- 
    ## ds$f.gend: Male
    ## [1] 3.180171
    sdM <- 2.82
    seM <- 2.82/(sqrt(nM))
    seM
    ## [1] 0.08803907
    sdF <- 2.35
    seF <- 2.35/(sqrt(nF))
    seF
    ## [1] 0.06025641

    A continuación, necesitamos calcular el sedado:sed=√SE2M+SE2F (5.8) (5.8) SED=SEM2+SEF2

    seD <- sqrt(seM^2+seF^2)
    seD
    ## [1] 0.1066851

    Finalmente, podemos calcular nuestra puntuación t, y usar la función t.test para verificar.

    by(ds$glbcc_risk, ds$f.gend, mean, na.rm=TRUE)
    ## ds$f.gend: Female
    ## [1] 6.134259
    ## -------------------------------------------------------- 
    ## ds$f.gend: Male
    ## [1] 5.670577
    meanF <- 6.96 
    meanM <- 6.42
    t <- (meanF-meanM)/seD
    t
    ## [1] 5.061625
    t.test(ds$glbcc_risk~ds$gender)
    ## 
    ##  Welch Two Sample t-test
    ## 
    ## data:  ds$glbcc_risk by ds$gender
    ## t = 3.6927, df = 2097.5, p-value = 0.0002275
    ## alternative hypothesis: true difference in means is not equal to 0
    ## 95 percent confidence interval:
    ##  0.2174340 0.7099311
    ## sample estimates:
    ## mean in group 0 mean in group 1 
    ##        6.134259        5.670577

    Para la diferencia en el riesgo percibido entre mujeres y hombres, tenemos un valor tt de 4.6. Este resultado es mayor a cero, como se esperaba por H1H1. Además, como se muestra en la salida de t.test el valor pp —la probabilidad de obtener nuestro resultado si la diferencia poblacional fue 00—es extremadamente bajo en .0002275 (es decir, lo mismo que 2.275e-04). Por lo tanto, rechazamos la hipótesis nula y concluimos que existen diferencias (en promedio) en las formas en que hombres y mujeres perciben el riesgo del cambio climático.

    5.5 Resumen

    En este capítulo obtuvimos una comprensión de las estadísticas inferenciales, cómo utilizarlas para colocar intervalos de confianza alrededor de una estimación y una visión general de cómo utilizarlas para probar hipótesis. En el siguiente capítulo, pasamos, de manera más formal, a probar hipótesis utilizando tabulaciones cruzadas y comparando medios de diferentes grupos. Luego continuamos explorando las pruebas de hipótesis y la construcción de modelos mediante análisis de regresión.


    1. Es importante tener en cuenta que, para fines de construcción teórica, la población de interés puede no ser finita. Por ejemplo, si teorizas sobre las propiedades generales del comportamiento humano, muchos de los miembros de la población humana aún no están (o ya no están) vivos. De ahí que no sea posible incluir a toda la población de interés en su investigación. Nosotros, por lo tanto, nos basamos en muestras. ↩
    2. Por supuesto, también necesitamos estimar los cambios —tanto graduales como abruptos— en la forma en que las personas se comportan a lo largo del tiempo, que es la provincia del análisis de series temporales. ↩
    3. Wei Wang, David Rothschild, Sharad Goel y Andrew Gelman (2014)” Pronosticando elecciones con encuestas no representativas”, preimpresión enviada al International Journal of Forecasting 31 de marzo de 2014. ↩
    4. En una prueba de diferencia de medias en dos grupos, “usamos” una observación cuando separamos las observaciones en dos grupos. De ahí que el denominador refleje la pérdida de esa observación gastada: n-1. ↩

    This page titled 5.4: Diferencias entre grupos is shared under a CC BY 4.0 license and was authored, remixed, and/or curated by Jenkins-Smith et al. (University of Oklahoma Libraries) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.