13.8: Tamaño del Efecto

Última actualización
Guardar como PDF

Page ID: 151776

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

La medida más utilizada del tamaño del efecto para una prueba t es la d de Cohen (Cohen 1988). Es una medida muy simple en principio, con bastantes arrugas cuando empiezas a indagar en los detalles. El propio Cohen lo definió principalmente en el contexto de una prueba t de muestras independientes, específicamente la prueba de Student. En ese contexto, una forma natural de definir el tamaño del efecto es dividir la diferencia entre las medias por una estimación de la desviación estándar. En otras palabras, estamos buscando calcular algo en la línea de esto:

\(d=\dfrac{(\text { mean } 1)-(\text { mean } 2)}{\text { std dev }}\)

y sugirió una guía aproximada para interpretar d en Table?? . Uno pensaría que esto sería bastante inequívoco, pero no lo es; en gran parte porque Cohen no era demasiado específico en lo que pensaba que debería usarse como la medida de la desviación estándar (en su defensa, estaba tratando de hacer un punto más amplio en su libro, no quisquilloso sobre pequeños detalles). Como discutieron McGrath y Meyer (2006), hay varias versiones diferentes en uso común, y cada autor tiende a adoptar una notación ligeramente diferente. En aras de la simplicidad (a diferencia de la precisión) usaré d para referirme a cualquier estadística que calcule a partir de la muestra, y usaré δ para referirme a un efecto teórico de población. Obviamente, eso sí significa que hay varias cosas diferentes todas llamadas d. La función CohenSD () en el paquete lsr usa el argumento method para distinguir entre ellas, así que eso es lo que haré en el texto.

Mi sospecha es que la única vez que querrías la d de Cohen es cuando estás ejecutando una prueba t, y si estás usando las funciones OneSampletTest, IndependentSamplestTest y PairedSamplestTest () para ejecutar tus pruebas t, entonces no necesitas aprender ningún comando nuevo, porque producen automáticamente una estimación de la d de Cohen como parte de la salida. Sin embargo, si estás usando t.test () entonces necesitarás usar la función CohenSD () (también en el paquete lsr) para hacer los cálculos.

valor d	interpretación aproximada
cerca de 0.2	pequeño efecto
cerca de 0.5	efecto moderado
alrededor de 0.8	gran efecto

D de Cohen de una muestra

La situación más sencilla a considerar es la que corresponde a una prueba t de una muestra. En este caso, la media de una muestra\(\ \bar{X}\) y una población (hipotética) significan μ _o para compararla. No solo eso, realmente solo hay una manera sensata de estimar la desviación estándar de la población: solo usamos nuestra estimación habitual\(\ \hat{\sigma}\). Por lo tanto, terminamos con lo siguiente como única forma de calcular d,

\(d=\dfrac{\bar{X}-\mu_{0}}{\hat{\sigma}}\)

Al escribir la función CohenSD (), he intentado hacer que funcione de manera similar a t.test (). Como consecuencia, CohensD () puede calcular el tamaño de tu efecto independientemente del tipo de prueba t que hayas realizado. Si lo que quieres es una medida de la d de Cohen para acompañar una prueba t de una muestra, solo hay dos argumentos que te deben preocupar. Estos son:

x. Un vector numérico que contiene los datos de la muestra.
mu. La media con la que se compara la media de x (el valor por defecto es mu = 0).

No necesitamos especificar qué método usar, porque solo hay una versión de d que tiene sentido en este contexto. Entonces, para calcular un tamaño de efecto para los datos de la clase del Dr. Zeppo (Sección 13.2), escribimos algo como esto:

cohensD( x = grades,    # data are stored in the grades vector
          mu = 67.5      # compare students to a mean of 67.5
 )

## [1] 0.5041691

y, solo para que veas que no está pasando nada elegante, el siguiente comando te muestra cómo calcularlo si no había ninguna función fancypants CohenSD () disponible:

( mean(grades) - 67.5 ) / sd(grades)

## [1] 0.5041691

Sí, mismo número. En general, entonces, los estudiantes de psicología en la clase del Dr. Zeppo están logrando calificaciones (media = 72.3%) que son aproximadamente .5 desviaciones estándar superiores al nivel que esperarías (67.5%) si estuvieran desempeñando al mismo nivel que otros estudiantes. Juzgado contra la guía aproximada de Cohen, este es un tamaño de efecto moderado.

D de Cohen de una prueba t de Student

La mayoría de las discusiones de la d de Cohen se centran en una situación que es análoga a la prueba t de muestras independientes de Student, y es en este contexto donde la historia se vuelve más desmesurada, ya que hay varias versiones diferentes de d que quizás quieras usar en esta situación, y puedes usar el método a la función CohensD () para elegir la que quieras. Para entender por qué hay múltiples versiones de d, ayuda a tomar el tiempo para anotar una fórmula que corresponda al verdadero efecto poblacional tamaño δ. Es bastante sencillo,

\(\delta=\dfrac{\mu_{1}-\mu_{2}}{\sigma}\)

donde, como de costumbre, μ1 y μ2 son las medias poblacionales correspondientes al grupo 1 y al grupo 2 respectivamente, y σ es la desviación estándar (la misma para ambas poblaciones). La forma obvia de estimar δ es hacer exactamente lo mismo que hicimos en la prueba t: usar las medias de la muestra como línea superior, y una estimación de desviación estándar agrupada para la línea de fondo:

\(d=\dfrac{\bar{X}_{1}-\bar{X}_{2}}{\hat{\sigma}_{p}}\)

donde\(\ \hat{\sigma_p}\) es exactamente la misma medida de desviación estándar agrupada que aparece en la prueba t. Esta es la versión más utilizada de la d de Cohen cuando se aplica al resultado de una prueba t de Student, y a veces se le conoce como estadística g de Hedges (Hedges 1981). Corresponde al método = “agrupado” en la función CohensD (), y es el valor predeterminado.

No obstante, hay otras posibilidades, que voy a describir brevemente. En primer lugar, es posible que tenga razones para querer usar solo uno de los dos grupos como base para calcular la desviación estándar. Este enfoque (a menudo llamado Glass' Δ) solo tiene más sentido cuando se tiene una buena razón para tratar a uno de los dos grupos como un reflejo más puro de “variación natural” que el otro. Esto puede suceder si, por ejemplo, uno de los dos grupos es un grupo de control. Si eso es lo que quieres, entonces usa method = “x.sd” o method = “y.sd” cuando uses CohenSD (). En segundo lugar, recordemos que en el cálculo habitual de la desviación estándar agrupada dividimos entre N−2 para corregir el sesgo en la varianza muestral; en una versión de la d de Cohen se omite esta corrección. En cambio, dividimos por N. Esta versión (método = “crudo”) tiene sentido principalmente cuando se trata de calcular el tamaño del efecto en la muestra; en lugar de estimar un tamaño de efecto en la población. Por último, existe una versión basada en Hedges y Olkin (1985), quienes señalan que existe un pequeño sesgo en la estimación habitual (agrupada) para la d de Cohen, por lo que introducen una pequeña corrección (método = “corregido”), multiplicando el valor habitual de d por (N−3)/(N−2.25).

En cualquier caso, ignorando todas esas variaciones que podrías hacer uso si quisieras, echemos un vistazo a cómo calcular la versión predeterminada. En particular, supongamos que miramos los datos de la clase del Dr. Harpo (el marco de datos harpo). El comando que queremos usar es muy similar al comando t.test () relevante, pero también especifica un método

cohensD( formula = grade ~ tutor,  # outcome ~ group
          data = harpo,             # data frame 
          method = "pooled"         # which version to calculate?
)

## [1] 0.7395614

Esta es la versión de la d de Cohen que es reportada por la función IndependentSampleTestTest () cada vez que ejecuta una prueba t de Student.

D de Cohen de una prueba de Welch

Supongamos que la situación en la que te encuentras se parece más a la prueba de Welch: aún tienes dos muestras independientes, pero ya no crees que las poblaciones correspondientes tengan varianzas iguales. Cuando esto sucede, tenemos que redefinir lo que queremos decir con el tamaño del efecto poblacional. Me referiré a esta nueva medida como δ′, para mantenerla distinta de la medida δ que definimos anteriormente. Lo que sugiere Cohen (1988) es que podríamos definir nuestro nuevo tamaño de efecto poblacional promediando las dos varianzas poblacionales. Lo que esto significa es que obtenemos:

\(\delta^{\prime}=\dfrac{\mu_{1}-\mu_{2}}{\sigma^{\prime}}\)

donde

\(\sigma^{\prime}=\sqrt{\dfrac{\sigma_{1}^{2}+\sigma_{2}^{2}}{2}}\)

Esto parece bastante razonable, pero fíjate que ninguna de las medidas que hemos discutido hasta ahora está intentando estimar esta nueva cantidad. Podría ser mi propia ignorancia del tema, pero solo estoy al tanto de una versión de la d de Cohen que en realidad estima el tamaño del efecto de varianza desigual δ′ en lugar del tamaño del efecto de varianza igual δ. Todo lo que hacemos para calcular d para esta versión (método = “desigual”) es sustituir las medias de la muestra\(\ \bar{X_1}\)\(\ \bar{X_2}\) y las desviaciones estándar de muestra corregidas\(\ \hat{\sigma_1}\) y\(\ \hat{\sigma_2}\) en la ecuación para δ′. Esto nos da la siguiente ecuación para d,

\(d=\dfrac{\bar{X}_{1}-\bar{X}_{2}}{\sqrt{\dfrac{\hat{\sigma}_{1}\ ^{2}+\hat{\sigma}_{2}\ ^{2}}{2}}}\)

como nuestra estimación del tamaño del efecto. No hay nada particularmente difícil en calcular esta versión en R, ya que todo lo que tenemos que hacer es cambiar el argumento del método:

cohensD( formula = grade ~ tutor, 
          data = harpo,
          method = "unequal" 
 )

## [1] 0.7244995

Esta es la versión de la d de Cohen que es reportada por la función IndependentSamplestTest () cada vez que ejecuta una prueba t de Welch.

D de Cohen a partir de una prueba de muestras emparejadas

Por último, ¿qué debemos hacer para una prueba t de muestras pareadas? En este caso, la respuesta depende de qué es lo que estés tratando de hacer. Si quieres medir tus tamaños de efecto en relación con la distribución de puntuaciones de diferencia, la medida de d que calculas es justa (método = “emparejado”)

\(d=\dfrac{\bar{D}}{\hat{\sigma}_{D}}\)

donde\(\ \hat{\sigma_D}\) está la estimación de la desviación estándar de las diferencias. El cálculo aquí es bastante sencillo

cohensD( x = chico$grade_test2, 
          y = chico$grade_test1,
          method = "paired" 
 )

## [1] 1.447952

Esta es la versión de la d de Cohen que es reportada por la función PairedSampleTestTest (). La única arruga es averiguar si esta es la medida que quieres o no. En la medida en que te preocupen por las consecuencias prácticas de tu investigación, a menudo quieres medir el tamaño del efecto en relación con las variables originales, no las puntuaciones de diferencia (por ejemplo, la mejora del 1% en la clase del Dr. Chico es bastante pequeña cuando se mide contra la cantidad de variación entre alumnos en las calificaciones), en cuyo caso usas las mismas versiones de d de Cohen que usarías para una prueba de Student o Welch. Por ejemplo, cuando hacemos eso para la clase del Dr. Chico,

cohensD( x = chico$grade_test2, 
          y = chico$grade_test1,
          method = "pooled" 
 )

## [1] 0.2157646

lo que vemos es que el tamaño general del efecto es bastante pequeño, cuando se evalúa en la escala de las variables originales.