Saltar al contenido principal
LibreTexts Español

12.2: Poder

  • Page ID
    150306
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    Cuando hay un verdadero efecto por ahí para medir, quieres asegurarte de que tu diseño sea lo suficientemente sensible como para detectar el efecto, de lo contrario, cuál es el punto. Ya hemos hablado de la idea de que un efecto puede tener diferentes tamaños. La siguiente idea es que tu diseño pueda ser más menos sensible en su capacidad para medir confiablemente el efecto. Ya hemos discutido esta idea general muchas veces ya en el libro de texto, por ejemplo sabemos que tendremos más probabilidades de detectar efectos “significativos” (cuando hay diferencias reales) cuando aumentemos nuestro tamaño de muestra. Aquí, hablaremos sobre la idea de sensibilidad del diseño en términos del concepto de poder. Curiosamente, el concepto de poder es un concepto algo limitado, en el sentido de que sólo existe como concepto dentro de algunas filosofías de la estadística.

     

    Una digresión sobre las pruebas de hipótesis

    En particular, el concepto de poder cae fuera del concepto Neyman-Pearson de prueba de hipótesis nula vs. alternativa. Hasta este punto, hemos evitado en gran medida esta terminología. Esto quizás sea un flaco favor en que las ideas de Neyman-Pearson son por ahora las más comunes y extendidas, y en opinión de algunos de nosotros, también son la idea más ampliamente incomprendida y abusada, razón por la cual hemos evitado estas ideas hasta ahora.

    Lo que hemos estado haciendo principalmente es hablar de pruebas de hipótesis desde la perspectiva Fisheriana (Sir Ronald Fisher, el tipo ANOVA). Esta es una perspectiva básica que pensamos que no se puede ignorar fácilmente. También es bastante limitado. La idea básica es esta:

    1. Sabemos que el azar puede causar algunas diferencias cuando medimos algo entre condiciones experimentales.
    2. Queremos descartar la posibilidad de que la diferencia que observamos no pueda deberse al azar
    3. Construimos grandes diseños de N que nos permiten hacer esto cuando se observa un efecto real, de tal manera que podemos decir con confianza que las grandes diferencias que encontramos son tan grandes (bien fuera de la ventana de oportunidad) que es altamente inverosímil que el azar por sí solo pudiera haber producido.
    4. La conclusión final es que era extremadamente improbable que el azar hubiera producido las diferencias. Entonces inferimos que algo más, como la manipulación, debió haber causado la diferencia.
    5. No decimos nada más sobre la otra cosa.
    6. O rechazamos la distribución nula como explicación (esa oportunidad no lo pudo haber hecho), o retenemos el nulo (admitir que el azar podría haberlo hecho, y si lo hiciera no podríamos distinguir la diferencia entre lo que encontramos y lo que podría hacer la oportunidad)

    Neyman y Pearson introdujeron una idea más a esta mezcla, la idea de una hipótesis alternativa. La hipótesis alternativa es la idea de que si hay un efecto verdadero, entonces los datos muestreados en cada condición del experimento deben haber venido de dos distribuciones diferentes. Recuerde, cuando no hay ningún efecto asumimos toda la cámara de datos de la misma distribución (que por definición no puede producir verdaderas diferencias a largo plazo, porque todos los números provienen de la misma distribución). Las gráficas de tamaños de efecto anteriores muestran ejemplos de estas distribuciones alternativas, con muestras para la condición A provenientes de una distribución, y muestras de condición B provenientes de una distribución desplazada con una media diferente.

    Entonces, bajo la tradición Neyman-Pearson, cuando un investigador encuentra un efecto significante hace más de una cosa. Primero, rechazan la hipótesis nula de no diferencias, y aceptan la hipótesis alternativa de que hubo diferencias. Esto parece una cosa sensata de hacer. Y, debido a que el investigador está realmente interesado en las propiedades del efecto real, podría estar interesado en aprender más sobre la hipótesis alternativa real, es decir, podría querer saber si sus datos provienen de dos distribuciones diferentes que estaban separadas por alguna cantidad... en otras palabras, ellos querrían saber el tamaño del efecto que estaban midiendo.

     

    Volver al poder

    Ya hemos discutido suficientes ideas para formalizar el concepto de poder estadístico. Para que este concepto exista necesitamos hacer un par de cosas.

    1. Acordar establecer un criterio alfa. Cuando el valor p para nuestro estadístico de prueba esté por debajo de este valor, llamaremos a nuestro hallazgo estadísticamente significativo, y aceptaremos rechazar la hipótesis nula y aceptar la hipótesis “alternativa” (nota al margen, generalmente no está muy claro qué hipótesis alternativa específica se aceptó)
    2. Antes de realizar el estudio, averigüe qué tipos de tamaños de efecto nuestro diseño es capaz de detectar con probabilitas particulares.

    El poder de un estudio está determinado por la relación entre

    1. El tamaño muestral del estudio
    2. El tamaño del efecto de la manipulación
    3. El valor alfa establecido por el investigador.

    Para ver esto en la práctica hagamos una simulación. Haremos una prueba t en un diseño entre grupos 10 sujetos en cada grupo. El grupo A será un grupo control con puntuaciones muestreadas de una distribución normal con media de 10 y desviación estándar de 5. El grupo B será un grupo de tratamiento, diremos que el tratamiento tiene un tamaño de efecto de Cohen\(d\) = .5, es decir, un desplazamiento de desviación estándar de .5, por lo que las puntuaciones con provienen de una distribución normal con media =12.5 y deivación estándar de 5. Recuerda 1 desviación estándar aquí es 5, por lo que la mitad de una desviación estándar es 2.5.

    El siguiente script R ejecuta este experimento simulado 1000 veces. Establecemos el criterio alfa en .05, esto significa que rechazaremos el nulo siempre que el\(p\) -value sea menor que .05. Con este diseño específico, ¿cuántas veces de 1000 rechazamos el nulo y aceptamos la hipótesis alternativa?

    p<-length(1000)
    for(i in 1:1000){
      A<-rnorm(10,10,5)
      B<-rnorm(10,12.5,5)
      p[i]<-t.test(A,B,var.equal = TRUE)$p.value
    }
    length(p[p<.05])
    179

    La respuesta es que rechazamos el nulo, y aceptamos la alternativa 179 veces de cada 1000. Es decir, nuestro experimento acepta con éxito la hipótesis alternativa 17.9 por ciento de las veces, esto se conoce como el poder del estudio. La potencia es la probabilidad de que un diseño detecte con éxito un efecto de un tamaño específico.

    Es importante destacar que el poder es una idea completamente abstracta que está completamente determinada por muchos supuestos, incluyendo N, tamaño de efecto y alfa. En consecuencia, lo mejor es no pensar en el poder como un solo número, sino como una familia de números.

    Por ejemplo, la potencia es diferente cuando cambiamos N. Si aumentamos N, nuestras muestras estimarán con mayor precisión las distribuciones verdaderas de las que provienen. El aumento de N reduce el error de muestreo y reduce el rango de diferencias que se pueden producir por casualidad. Aumentemos nuestro N en esta simulación de 10 a 20 en cada grupo y veamos qué pasa.

    p<-length(1000)
    for(i in 1:1000){
      A<-rnorm(20,10,5)
      B<-rnorm(20,12.5,5)
      p[i]<-t.test(A,B,var.equal = TRUE)$p.value
    }
    length(p[p<.05])
    360

    Ahora el número de experimentos significativos es de 360 sobre 1000, o una potencia de 36 por ciento. Eso se duplicó aproximadamente con respecto a antes. Hemos hecho que el diseño sea más sensible al efecto al aumentar N.

    Podemos cambiar el poder del diseño cambiando el valor alfa, lo que nos dice cuánta evidencia necesitamos para rechazar el nulo. Por ejemplo, si establecemos el criterio alfa en 0.01, entonces seremos más conservadores, solo rechazando el nulo cuando el azar pueda producir la diferencia observada 1% del tiempo. En nuestro ejemplo, esto tendrá el efecto de reducir el poder. Mantengamos N a 20, pero reduzcamos el alfa a 0.01 y veamos qué pasa:

    p<-length(1000)
    for(i in 1:1000){
      A<-rnorm(20,10,5)
      B<-rnorm(20,12.5,5)
      p[i]<-t.test(A,B,var.equal = TRUE)$p.value
    }
    length(p[p<.01])
    138

    Ahora solo 138 de cada 1000 experimentos son significativos, eso es 13.8 de potencia.

    Finalmente, la potencia del diseño depende del tamaño real del efecto causado por la manipulación. En nuestro ejemplo, planteamos la hipótesis de que el efecto provocó un desplazamiento de .5 desviaciones estándar. ¿Y si el efecto provoca un cambio mayor? Digamos, un turno de 2 desviaciones estándar. Mantengamos N= 20, y alfa < .01, pero cambiemos el tamaño del efecto a dos desviaciones estándar. Cuando el efecto en el mundo real es mayor, debería ser más fácil de medir, por lo que nuestro poder aumentará.

    p<-length(1000)
    for(i in 1:1000){
      A<-rnorm(20,10,5)
      B<-rnorm(20,30,5)
      p[i]<-t.test(A,B,var.equal = TRUE)$p.value
    }
    length(p[p<.01])
    1000

    Neat, si el tamaño del efecto es realmente enorme (2 desplazamiento de desviación estándar), entonces tenemos potencia 100 por ciento para detectar el efecto verdadero.

     

    Curvas de potencia

    Mencionamos que lo mejor es pensar en el poder como una familia de números, más que como un solo número. Para elaborar sobre esto considere la curva de potencia a continuación. Esta es la curva de potencia para un diseño específico: a experimentos entre grupos con dos niveles, que utiliza una prueba t de muestras independientes para probar si una diferencia observada se debe a la casualidad. Críticamente, N se establece en 10 en cada grupo, y alfa se establece en .05

    La potencia (como una proporción, no un porcentaje) se representa en el eje y, y el tamaño del efecto (d de Cohen) en unidades de desviación estándar se representa en el eje x.

    library(ggplot2)
    power<-c()
    for(i in seq(0,2,.1)){
    sd_AB <- 1
    n<-10
    C <- qnorm(0.975)
    se <- sqrt( sd_AB/n + sd_AB/n )
    delta<-i
    power <- c(power,1-pnorm(C-delta/se) + pnorm(-C-delta/se))
    }
    plot_df<-data.frame(power,
                        effect_size = seq(0,2,.1))
    ggplot(plot_df, aes(x=effect_size, y=power))+
      geom_line()+
      theme_classic()+
      ggtitle("Power curve for N=10, \n
              Independent samples t-test")
    Figura\(\PageIndex{1}\): Esta figura muestra la potencia en función del tamaño del efecto (d de Cohen) para una prueba t de muestras independientes entre sujetos, con N=10, y criterio alfa 0.05.

    Una curva de potencia como esta es muy útil para entender la sensibilidad de un diseño en particular. Por ejemplo, podemos ver que un diseño entre sujetos con N=10 en ambos grupos, detectará un efecto de d=.5 (medio desplazamiento de desviación estándar) alrededor del 20% del tiempo, detectará un efecto de d=.8 aproximadamente el 50% del tiempo, y detectará un efecto de d=2 aproximadamente el 100% del tiempo. Todos los porcentajes reflejan la potencia del diseño, que es el porcentaje de veces que se esperaría que el diseño encontrara un\(p\) < 0.05.

    Imaginemos que con base en investigaciones previas, el efecto que te interesa medir es bastante pequeño, d=0.2. Si quieres realizar un experimento que detecte un efecto de este tamaño un gran porcentaje del tiempo, ¿cuántos sujetos necesitas tener en cada grupo? Sabemos por la gráfica anterior que con N=10, la potencia es muy baja para detectar un efecto de d=0.2. Hagamos otra gráfica, pero variemos el número de sujetos en lugar del tamaño del efecto.

    library(ggplot2)
    power<-c()
    for(i in seq(10,800,10)){
    sd_AB <- 1
    n<-i
    C <- qnorm(0.975)
    se <- sqrt( sd_AB/n + sd_AB/n )
    delta<-0.2
    power <- c(power,1-pnorm(C-delta/se) + pnorm(-C-delta/se))
    }
    plot_df<-data.frame(power,
                        N = seq(10,800,10))
    ggplot(plot_df, aes(x=N, y=power))+
      geom_line()+
      theme_classic()+
      geom_hline(yintercept=.8, color="green")+
      ggtitle("Power curve for d=0.2, \n
              Independent samples t-test")
    Figura\(\PageIndex{2}\): Esta figura muestra la potencia en función de N para una prueba t de muestras independientes entre sujetos, con d=0.2, y criterio alfa 0.05.

    La figura traza la potencia para detectar un efecto de d=0.2, en función de N. La línea verde muestra donde la potencia = .8, o 80%. Parece que necesitaríamos alrededor de 380 sujetos en cada grupo para medir un efecto de d=0.2, con power = .8. Esto significa que el 80% de nuestros experimentos mostrarían con éxito p < 0.05. Muchas veces se recomienda una potencia del 80% como un nivel razonable de potencia, sin embargo, incluso cuando tu diseño tiene una potencia = 80%, tu experimento seguirá fallando en encontrar un efecto (asociado a ese nivel de potencia) ¡20% de las veces!


    This page titled 12.2: Poder is shared under a CC BY-SA 4.0 license and was authored, remixed, and/or curated by Matthew J. C. Crump via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.