Saltar al contenido principal
LibreTexts Español

12.4: Algunas consideraciones

  • Page ID
    150310
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    Estudios de baja potencia

    Considera el siguiente caso. Un investigador realiza un estudio para detectar un efecto de interés. Hay buenas razones, de investigaciones previas, para creer que el tamaño del efecto es d=0.5. El investigador utiliza un diseño que tiene 30% de poder para detectar el efecto. Ejecutan el experimento y encuentran un valor p significativo, (p<.05). Concluyen que su manipulación funcionó, porque era poco probable que su resultado pudiera haber sido causado por casualidad. ¿Cómo interpretarías los resultados de un estudio como este? ¿Estarías de acuerdo con los investigadores en que la manipulación probablemente causó la diferencia? ¿Serías escéptico del resultado?

    La situación anterior requiere pensar en dos tipos de probabilidades. Por un lado sabemos que el resultado observado por los investigadores no ocurre con frecuencia por casualidad (p es inferior a 0.05). Al mismo tiempo, sabemos que el diseño tenía poca potencia, solo detecta resultados del tamaño esperado 30% de las veces. Estamos cara a preguntarse qué tipo de suerte estaba impulsando la diferencia. Los investigadores podrían haber tenido mala suerte, y la diferencia realmente podría deberse al azar. En este caso, estarían cometiendo un error tipo I (diciendo que el resultado es real cuando no lo es). Si el resultado no se debió al azar, entonces también tendrían suerte, ya que su diseño sólo detecta este efecto el 30% de las veces.

    Quizás otra forma de ver esta situación es en términos de la replicabilidad del resultado. La replicabilidad se refiere a si los hallazgos del estudio serían o no los mismos si se repitiera el experimento. Debido a que sabemos que aquí el poder es bajo (solo 30%), esperaríamos que la mayoría de las réplicas de este experimento no encontrarían un efecto significativo. En cambio, se esperaría que el experimento se replicara solo el 30% de las veces.

     

    N grande y efectos pequeños

    Quizás te hayas dado cuenta de que existe una relación intrigante entre N (tamaño de muestra) y poder y tamaño de efecto. A medida que aumenta N, también lo hace la potencia para detectar un efecto de un tamaño particular. Adicionalmente, a medida que aumenta N, un diseño es capaz de detectar efectos cada vez más pequeños con mayor y mayor potencia. Por ejemplo, si N fuera lo suficientemente grande, tendríamos alta potencia para detectar efectos muy pequeños, digamos d= 0.01, o incluso d=0.001. Pensemos en lo que esto significa.

    Imagina que una compañía farmacéutica te dijo que realizaron un experimento con mil millones de personas para probar si su droga causa un cambio significativo en el dolor de cabeza. Digamos que encontraron un efecto significativo (con potencia = 100%), pero el efecto fue muy pequeño, resulta que el medicamento reduce el dolor de cabeza en menos de 1%, digamos 0.01%. Para nuestro estudio imaginario también asumiremos que este efecto es muy real, y no causado por el azar.

    Claramente el diseño tenía suficiente potencia para detectar el efecto, y el efecto estaba ahí, por lo que el diseño sí detectó el efecto. No obstante, el tema es que hay poco valor práctico a tal efecto. Nadie va a hacerlo por una droga para reducir su dolor de cabeza en 0.01%, aunque se haya “probado científicamente” que funcione. Este ejemplo trae a colación dos cuestiones. Primero, aumentar el N a niveles muy grandes permitirá que los diseños detecten casi cualquier efecto (incluso los muy pequeños) con una potencia muy alta. Segundo, a veces los efectos carecen de sentido cuando son muy pequeños, especialmente en investigaciones aplicadas como los estudios de drogas.

    Estos dos temas pueden dar lugar a sugerencias interesantes. Por ejemplo, alguien podría afirmar que los estudios grandes de N no son muy útiles, porque siempre pueden detectar efectos realmente diminutos que prácticamente carecen de sentido. Por otro lado, los estudios grandes de N también detectarán efectos mayores, y darán una mejor estimación del efecto “verdadero” en la población (porque sabemos que las muestras más grandes hacen un mejor trabajo al estimar los parámetros de la población). Adicionalmente, aunque los efectos realmente pequeños a menudo no son interesantes en el contexto de la investigación aplicada, pueden ser muy importantes en la investigación teórica. Por ejemplo, una teoría podría predecir que manipular X no debería tener ningún efecto, pero otra teoría podría predecir que X sí tiene un efecto, aunque sea pequeño. Entonces, detectar un pequeño efecto puede tener implicaciones teóricas que pueden ayudar a descartar teorías falsas. En términos generales, los investigadores que hagan preguntas tanto teóricas como aplicadas deben pensar y establecer pautas para tamaños de efectos “significativos” para que puedan ejecutar diseños de tamaño apropiado para detectar efectos de “tamaño significativo”.

     

    Efectos pequeños N y grandes

    En igualdad de condiciones, ¿confiarías en los resultados de un estudio con N pequeño o N grande? Esta no es una pregunta engañosa, pero a veces la gente se ata en un nudo tratando de responderla. Ya sabemos que los tamaños de muestra grandes proporcionan mejores estimaciones de las distribuciones de las que provienen las muestras. Como resultado, podemos concluir con seguridad que debemos confiar en los datos de estudios grandes de N más que en estudios pequeños de N.

    Al mismo tiempo, podrías intentar convencerte de lo contrario. Por ejemplo, usted sabe que los estudios grandes de N pueden detectar efectos muy pequeños que prácticamente y posiblemente incluso teóricamente carezcan de sentido. También sabes que los estudios de N pequeños solo son capaces de detectar de manera confiable efectos muy grandes. Entonces, podrías razonar que un estudio pequeño de N es mejor que un estudio grande de N porque si un estudio pequeño de N detecta un efecto, ese efecto debe ser grande y significativo; mientras que, un estudio grande de N podría detectar fácilmente un efecto que es pequeño y sin sentido.

    Esta línea de pensamiento necesita alguna mejora. Primero, el hecho de que un estudio grande de N pueda detectar pequeños efectos, no significa que solo detecte pequeños efectos. Si el efecto es grande, un estudio grande de N lo detectará fácilmente. Los estudios de N grandes tienen el poder de detectar una gama mucho más amplia de efectos, de pequeños a grandes. Segundo, el hecho de que un pequeño estudio de N haya detectado un efecto, no significa que el efecto sea real, o que el efecto sea grande. Por ejemplo, los estudios pequeños de N tienen más variabilidad, por lo que la estimación del tamaño del efecto tendrá más error. Además, hay 5% (o tasa alfa) de probabilidad de que el efecto sea espurio. Curiosamente, existe una relación perniciosa entre el tamaño del efecto y la tasa de error tipo I.

     

    Los errores de tipo I son convincentes cuando N es pequeño

    Entonces, ¿cuál es esta relación perniciosa entre los errores de Tipo I y el tamaño del efecto? Principalmente, esta relación es perniciosa para pequeños estudios de N. Por ejemplo, la siguiente figura ilustra los resultados de miles de experimentos simulados, todos asumiendo la distribución nula. En otras palabras, para todas estas simulaciones no hay efecto verdadero, ya que los números se muestrean todos a partir de una distribución idéntica (distribución normal con media =0, y desviación estándar =1). El verdadero tamaño del efecto es 0 en todos los casos.

    Sabemos que bajo el nulo, los investigadores encontrarán valores de p que son menos 5% aproximadamente 5% de las veces, recuerda que esa es la definición. Entonces, si un investigador pasara a estar en esta situación (donde hay manipulación no hizo absolutamente nada), harían un error tipo I el 5% del tiempo, o si realizaban 100 experimentos, esperarían encontrar un resultado significativo para 5 de ellos.

    La siguiente gráfica reporta los hallazgos de solo los errores tipo I, donde el estudio simulado produjo p < 0.05. Para cada error tipo I, calculamos el valor p exacto, así como el tamaño del efecto (D de cohen) (diferencia media dividida por desviación estándar). Ya sabemos que el verdadero tamaño del efecto es cero, sin embargo echa un vistazo a esta gráfica, y presta mucha atención a los tamaños de muestra más pequeños.

    library(ggplot2)
    all_df<-data.frame()
    for(i in 1:1000){
      for(n in c(10,20,50,100,1000)){
        some_data<-rnorm(n,0,1)
        p_value<-t.test(some_data)$p.value
        effect_size<-mean(some_data)/sd(some_data)
        mean_scores<-mean(some_data)
        standard_error<-sd(some_data)/sqrt(length(some_data))
        t_df<-data.frame(sim=i,sample_size=n,p_value,effect_size,mean_scores,standard_error)
        all_df<-rbind(all_df,t_df)
      }
    }
    type_I_error <-all_df[all_df$p_value<.05,]
    type_I_error$sample_size<-as.factor(type_I_error$sample_size)
    ggplot(type_I_error,aes(x=p_value,y=effect_size, group=sample_size,color=sample_size))+
      geom_point()+
      theme_classic()+
      ggtitle("Effect sizes for type I errors")
    Figura\(\PageIndex{1}\): Tamaño del efecto en función de los valores p para el tipo 1 Errores bajo el nulo, para una prueba t de muestras pareadas.

    Por ejemplo, mira los puntos rojos, cuando el tamaño de la muestra es 10. Aquí vemos que los tamaños de efecto son bastante grandes. Cuando p está cerca de 0.05 el tamaño del efecto es de alrededor de .8, y sube y sube como cuando p se hace cada vez más pequeño. ¿Qué significa esto? Significa que cuando tienes mala suerte con un diseño pequeño de N, y tu manipulación no funciona, pero por casualidad encuentras un efecto “significativo”, la medición del tamaño del efecto te mostrará un “gran efecto”. Este es el aspecto pernicioso. Cuando haces un error tipo I para N pequeño, tus datos te harán pensar que no hay forma de que pueda ser un error de tipo I porque el efecto es tan grande!. Observe que cuando N es muy grande, como 1000, la medida del tamaño del efecto se acerca a 0 (que es el verdadero tamaño del efecto en la simulación).


    This page titled 12.4: Algunas consideraciones is shared under a CC BY-SA 4.0 license and was authored, remixed, and/or curated by Matthew J. C. Crump via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.