Saltar al contenido principal
LibreTexts Español

12.1: Tamaño del efecto y potencia

  • Page ID
    150309
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    Si ya sabes algo de estadística mientras leías este libro, te habrás dado cuenta de que olvidamos discutir el tema del tamaño del efecto, y apenas hablamos del poder estadístico. Hablaremos un poco de estas cosas aquí.

    En primer lugar, cabe señalar que a lo largo de los años, al menos en Psicología, muchas sociedades y revistas han hecho recomendaciones sobre cómo los investigadores deben reportar sus análisis estadísticos. Entre las recomendaciones se encuentra que se reporten medidas de “tamaño del efecto”. De igual manera, muchas revistas requieren ahora que los investigadores reporten un análisis de potencia “a priori” (la recomendación es que esto se haga antes de que se recojan los datos). Debido a que estas recomendaciones son tan frecuentes, vale la pena discutir a qué se refieren estas ideas. Al mismo tiempo, el significado del tamaño del efecto y el poder dependen en cierta medida de tu doblamiento “filosófico”, y estas dos ideas pueden volverse completamente sin sentido dependiendo de cómo pienses de las estadísticas. Por estas razones complicadoras hemos suspendido nuestra discusión del tema hasta ahora.

    La pregunta o práctica de usar medidas de tamaño de efecto y realizar análisis de potencia también son buenos ejemplos de la necesidad más general de pensar en lo que estás haciendo. Si vas a reportar el tamaño del efecto, y realizar análisis de poder, estas actividades no deben hacerse ciegamente porque alguien más te recomienda que las hagas, estas actividades y otras adecuadas deben realizarse como parte de justificar lo que estás haciendo. Es parte de pensar en cómo hacer que tus datos respondan preguntas por ti.

     

    Probabilidad vs. efectos reales

    Vamos a repetir algo que hemos dicho una y otra vez. En primer lugar, los investigadores están interesados en saber si su manipulación provoca un cambio en su medición. Si lo hace, pueden confiar en que han descubierto una fuerza causal (la manipulación). Sin embargo, sabemos que las diferencias en la medida entre las condiciones experimentales pueden surgir solo por casualidad, solo por error de muestreo. De hecho, podemos crear imágenes que nos muestren la ventana de oportunidad para una estadística determinada, estas nos dicen aproximadamente el rango y las probabilidades de obtener diversas diferencias solo por casualidad. Con estas ventanas en la mano, podemos entonces determinar si las diferencias que encontramos en algunos datos que recolectamos eran probables o improbables de ser por casualidad. También aprendimos que el tamaño de la muestra juega un papel importante en la forma de la ventana de oportunidad. Las muestras pequeñas dan oportunidad una gran oportunidad de hacer grandes diferencias. Las muestras grandes dan a la oportunidad una pequeña oportunidad de hacer grandes diferencias. La lección general hasta este punto ha sido, diseñar un experimento con una muestra lo suficientemente grande como para detectar el efecto de interés. Si su diseño no está bien formado, podría medir fácilmente el ruido y sus diferencias podrían ser causadas por un error de muestreo. En términos generales, esta sigue siendo una muy buena lección: mejores diseños producen mejores datos; y no se puede arreglar un diseño roto con estadísticas.

    Claramente hay otra cosa que puede determinar si tus diferencias se deben o no al azar. Ese es el efecto en sí. Si la manipulación sí provoca un cambio, entonces hay un efecto, y ese efecto es real. Los efectos se refieren a diferencias en la medición entre condiciones experimentales. Lo que pasa con los efectos es que pueden ser grandes o pequeños, tienen un tamaño.

    Por ejemplo, se puede pensar en una manipulación en cuanto al tamaño de su martillo. Una manipulación fuerte es como un martillo neumático: es ruidoso, produce un gran efecto, crea enormes diferencias. Una manipulación media es como un martillo normal: funciona, se oye, introduce un clavo en la madera, pero no destruye el concreto como un martillo neumático, produce un efecto confiable. Una pequeña manipulación es como tocar algo con un lápiz: hace algo, apenas se puede escuchar, y solo en una habitación tranquila, no hace un buen trabajo clavando un clavo en la madera, y no hace nada al concreto, produce efectos diminutos, poco confiables. Por último, un efecto realmente pequeño sería martillar algo con una pluma, casi no deja marca y no hace nada que obviamente sea perceptiple a clavos o pavimento. La lección es, si quieres romper el concreto, usa un martillo neumático; o, si quieres medir tu efecto, haz que tu manipulación sea más fuerte (como un martillo neumático) para que produzca una diferencia mayor.

     

    Tamaño del efecto: concreto vs. nociones abstractas

    En términos generales, el gran concepto de tamaño de efecto, es simplemente cuán grandes son las diferencias, eso es todo. Sin embargo, la grandeza o pequeñez de los efectos rápidamente se vuelve un poco complicada. Por un lado, la cruda diferencia en los medios puede ser muy significativa. Veamos que estamos midiendo el rendimiento en un examen final, y estamos probando si un medicamento milagroso puede hacer que te vaya mejor en la prueba. Digamos que tomar el medicamento te hace un 5% mejor en la prueba, en comparación con no tomar el medicamento. Sabes lo que significa 5%, eso es básicamente una calificación de letra completa. Bastante bien. Un tamaño de efecto del 25% sería aún mejor, ¡bien! Los lotes de medidas tienen una calidad concreta para ellos, y muchas veces queremos el tamaño del efecto expresado en términos de la medida original.

    Hablemos un poco más de medidas concretas. ¿Qué tal aprender un instrumento musical? Digamos que se necesitan 10 mil horas para convertirse en un experto en piano, violín o guitarrista. Y, digamos que encontraste algo en línea que dice que usando su método, aprenderás el instrumento en menos tiempo de lo normal. Esa es una afirmación sobre el tamaño del efecto de su método. ¿Querrías saber qué tan grande es el efecto correcto? Por ejemplo, el tamaño del efecto podría ser de 10 horas. Eso significaría que te tomaría 9,980 horas convertirte en un experto (eso es un total de 10 horas menos). Si supiera que el tamaño del efecto era tan pequeño, no me molestaría con su nuevo método. Pero, si el tamaño del efecto fue digamos 1,000 horas, eso es un problema bastante grande, eso es un 10% menos (todavía no parece mucho, pero ahorrar 1,000 horas parece mucho).

    Tan a menudo como tenemos medidas concretas que son fácilmente interpretables, la Psicología a menudo produce medidas que son extremadamente difíciles de interpretar. Por ejemplo, las medidas del cuestionario a menudo no tienen un significado concreto, y solo un significado estadístico abstracto. Si quisieras saber si una manipulación hacía que las personas fueran más o menos felices, y solías hacer un cuestionario para medir la felicidad, podrías encontrar que las personas eran 50 felices en la condición 1, y 60 felices en la condición 2, esa es una diferencia de 10 unidades felices. Pero ¿cuánto es 10? ¿Esa es una diferencia grande o pequeña? No es inmediatamente obvio. ¿Cuál es la solución aquí? Una solución común es proporcionar una medida estandarizada de la diferencia, como una puntuación z. Por ejemplo, si una diferencia de 10 reflejara un desplazamiento de una desviación estándar sería útil saber, y ese sería un cambio considerable. Si la diferencia fuera solo un cambio de .1 en términos de desviación estándar, entonces la diferencia de 10 no sería muy grande. A continuación, elaboramos esta idea al describir el d de cohen.

     

    D de Cohen

    Echemos un vistazo a algunas distribuciones para afirmar algunas ideas sobre el tamaño del efecto. En la gráfica de abajo verás cuatro paneles. El primer panel (0) representa la distribución nula de no diferencias. Esta es la idea de que tu manipulación (A vs. B) no hace nada en absoluto, como resultado cuando mides puntuaciones en las condiciones A y B, efectivamente estás muestreando puntuaciones de la misma distribución general. El panel muestra la distribución como verde para la condición B, pero la roja para la condición A es idéntica y dibujada debajo (es invisible). Hay 0 diferencia entre estas distribuciones, por lo que representa un efecto nulo.

    library(ggplot2)
    X<-c(seq(-5,5,.1),seq(-5,5,.1),
         seq(-5,5,.1),seq(-5,5,.1),
         seq(-5,5,.1),seq(-5,5,.1),
         seq(-5,5,.1),seq(-5,5,.1))
    Y<-c(dnorm(seq(-5,5,.1),0,1),dnorm(seq(-5,5,.1),0,1),
         dnorm(seq(-5,5,.1),0,1),dnorm(seq(-5,5,.1),.5,1),
         dnorm(seq(-5,5,.1),0,1),dnorm(seq(-5,5,.1),1,1),
         dnorm(seq(-5,5,.1),0,1),dnorm(seq(-5,5,.1),2,1))
    effect_size<-rep(c(0,.5,1,2),each=101*2)
    condition<-rep(rep(c("A","B"),each=101),2)
    df<-data.frame(effect_size,
                   condition,
                   X,Y)
    ggplot(df, aes(x=X,y=Y, group=condition, color=condition))+
      geom_line()+
      theme_classic(base_size = 15)+
      facet_wrap(~effect_size)+
      xlab("values")+
      ylab("density")
    Figura\(\PageIndex{1}\): Cada panel muestra distribuciones hipotéticas para dos condiciones. A medida que aumenta el tamaño del efecto, la diferencia entre las distribuciones se hace mayor.

    Los paneles restantes son ejemplos hipotéticos de cómo podría ser un verdadero efecto, cuando tu manipulación realmente causa una diferencia. Por ejemplo, si la condición A es un grupo control, y la condición B es un grupo de tratamiento, estamos viendo tres casos en los que la manipulación del tratamiento provoca un cambio positivo en la media de distribución. Estamos usando curvas normales con media =0 y sd =1 para esta demostración, por lo que un desplazamiento de .5 es un desplazamiento de la mitad de una desviación estándar. Un cambio de 1 es un cambio de 1 desviación estándar, y un cambio de 2 es un cambio de 2 desviaciones estándar. Podríamos dibujar muchos más ejemplos mostrando cambios aún mayores, o turnos que van en la otra dirección.

    Veamos otro ejemplo, pero esta vez usaremos algunas medidas concretas. Digamos que estamos viendo el desempeño del examen final, por lo que nuestros números son porcentajes de calificaciones. Digamos también que sabemos que la media en la prueba es de 65%, con una desviación estándar de 5%. El Grupo A podría ser un control que acaba de tomar la prueba, el Grupo B podría recibir alguna manipulación “educativa” diseñada para mejorar el puntaje de la prueba. Estas gráficas luego nos muestran algunas hipótesis sobre lo que puede o no estar haciendo la manipulación.

    library(ggplot2)
    X<-c(seq(25,100,1),seq(25,100,1),
         seq(25,100,1),seq(25,100,1),
         seq(25,100,1),seq(25,100,1),
         seq(25,100,1),seq(25,100,1))
    Y<-c(dnorm(seq(25,100,1),65,5),dnorm(seq(25,100,1),65,5),
         dnorm(seq(25,100,1),65,5),dnorm(seq(25,100,1),67.5,5),
         dnorm(seq(25,100,1),65,5),dnorm(seq(25,100,1),70,5),
         dnorm(seq(25,100,1),65,5),dnorm(seq(25,100,1),75,5))
    effect_size<-rep(c("65, d=0","67.5,d=.5","70, d=1","75, d=2"),each=76*2)
    condition<-rep(rep(c("A","B"),each=76),2)
    df<-data.frame(effect_size,
                   condition,
                   X,Y)
    ggplot(df, aes(x=X,y=Y, group=condition, color=condition))+
      geom_line()+
      theme_classic(base_size = 15)+
      facet_wrap(~effect_size)+
      xlab("values")+
      ylab("density")
    Figura\(\PageIndex{2}\): Cada panel muestra distribuciones hipotéticas para dos condiciones. A medida que aumenta el tamaño del efecto, la diferencia entre las distribuciones se hace mayor.

    El primer panel muestra que tanto la condición A como la B muestrearán las puntuaciones de las pruebas de la misma distribución (media =65, con 0 efecto). Los otros paneles muestran la media desplazada para la condición B (el tratamiento que se supone que aumenta el rendimiento de la prueba). Entonces, el tratamiento podría aumentar el rendimiento de la prueba en 2.5% (media 67.5, desplazamiento de .5 sd), o en 5% (media 70, cambio de 1 sd), o en 10% (media 75%, desplazamiento de 2 sd), o en cualquier otra cantidad. En términos de nuestra metáfora anterior, un desplazamiento de 2 desviaciones estándar es más como martillo neumático en términos de tamaño, y un desplazamiento de .5 desviaciones estándar es más como usar un lápiz. Lo que pasa con la investigación, es que a menudo no tenemos idea de si nuestra manipulación producirá un efecto grande o pequeño, por eso estamos realizando la investigación.

    Te habrás dado cuenta de que la letra\(d\) aparece en la figura anterior. ¿Por qué es eso? Jacob Cohen utilizó la carta\(d\) para definir el tamaño del efecto para esta situación, y ahora todos la llaman Cohen's\(d\). La fórmula para Cohen\(d\) es:

    \[d = \frac{\text{mean for condition 1} - \text{mean for condition 2}}{\text{population standard deviation}} \nonumber \]

    Si te das cuenta, esto es solo una especie de puntaje z. Es una manera de estandarizar la diferencia media en términos de la desviación estándar poblacional.

    También vale la pena señalar nuevamente que esta medida de tamaño de efecto es completamente hipotética para la mayoría de los propósitos. En general, los investigadores desconocen la desviación estándar de la población, sólo pueden adivinarla, o estimarla a partir de la muestra. Lo mismo ocurre con las medias, en la fórmula se trata de diferencias de medias hipotéticas en dos distribuciones poblacionales. En la práctica, los investigadores desconocen estos valores, los adivinan a partir de sus muestras.

    Antes de discutir por qué el concepto de tamaño de efecto puede ser útil, observamos que Cohen\(d\) es útil para comprender medidas abstractas. Por ejemplo, cuando no sabes lo que significa una diferencia de 10 o 20 como puntuación bruta, puedes estandarizar la diferencia por la desviación estándar de la muestra, entonces sabes aproximadamente qué tan grande es el efecto en términos de unidades estándar. Si pensabas que un 20 era grande, pero resultó ser solo una décima parte de una desviación estándar, entonces sabrías que el efecto es en realidad bastante pequeño con respecto a la variabilidad general en los datos.


    This page titled 12.1: Tamaño del efecto y potencia is shared under a CC BY-SA 4.0 license and was authored, remixed, and/or curated by Matthew J. C. Crump via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.