Saltar al contenido principal
LibreTexts Español

7.3: ¿Qué significa F?

  • Page ID
    150354
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    Acabamos de señalar que el ANOVA tiene un montón de números que calculamos directamente a partir de los datos. Todos excepto uno, el\(p\) -valor. No calculamos el\(p\) -valor a partir de los datos. ¿De dónde viene, qué significa? Cómo usamos esto para la inferencia estadística. Solo para que no te preocupes demasiado, el\(p\) valor -value para el ANOVA tiene el mismo significado general que el\(p\) -value para la\(t\) -test, o el\(p\) -value para cualquier estadística de muestra. Nos dice que la probabilidad de que observaríamos nuestro estadístico de prueba o mayor, bajo la distribución de no diferencias (el nulo).

    Como seguimos diciendo,\(F\) es una estadística de muestra. ¿Puedes adivinar qué hacemos con las estadísticas de muestra en este libro de texto? Lo hicimos para el Crump Test, el Test de Aleatorización, y el\(t\) -test... Hacemos datos falsos, los simulamos, calculamos el estadístico de muestra que nos interesa, luego vemos cómo se comporta sobre muchas replicaciones o simulaciones.

    Hagamos eso por\(F\). Esto te ayudará a entender qué es\(F\) realmente, y cómo se comporta. Vamos a crear la distribución muestral de\(F\). Una vez que tengamos eso podrás ver de dónde vienen los\(p\) -valores. Es el mismo proceso básico que seguimos para las\(t\) pruebas, excepto que estamos midiendo\(F\) en lugar de\(t\).

    Aquí está la puesta a punto, vamos a ejecutar un experimento con tres niveles. En nuestro experimento imaginario vamos a probar si una nueva píldora mágica puede hacerte más inteligente. La variable independiente es el número de píldoras mágicas que tomas: 1, 2 o 3. Mediremos tu inteligencia usando una prueba de inteligencia. Supondremos que la prueba de inteligencia tiene algunas propiedades conocidas, la puntuación media en la prueba es de 100, con una desviación estándar de 10 (y la distribución es normal).

    El único inconveniente es que nuestra píldora mágica no hace nada en absoluto. Las personas falsas en nuestro experimento falso tomarán pastillas de azúcar que no hacen absolutamente nada a su inteligencia. ¿Por qué querríamos simular un montón de tonterías? La respuesta es que este tipo de simulación es fundamental para hacer inferencias sobre el azar si tuvieras que realizar un experimento real.

    Aquí hay algunos detalles más para el experimento. Cada grupo contará con 10 asignaturas diferentes, por lo que habrá un total de 30 asignaturas. Vamos a ejecutar este experimento 10 mil veces. Cada vez dibujando números aleatoriamente de la misma distribución normal. Vamos a calcular a\(F\) partir de nuestros datos de muestra cada vez, y luego vamos a dibujar el histograma de\(F\) -valores. Esto nos mostrará la distribución muestral de\(F\) para nuestra situación. Hagámoslo y veamos cómo se ve:

    library(ggplot2)
    save_F<-length(10000)
    for(i in 1:10000){
      smartness   <- rnorm(30, 100,10)
      pill_group  <- as.factor(rep(1:3, each=10))
      simulations <- rep(i, each=30)
      sample_df   <- data.frame(simulations,pill_group,smartness)
      aov.out<-summary(aov(smartness~pill_group,sample_df))
      save_F[i]<-aov.out[[1]]$`F value`[1]
    }
    plot_df <- data.frame(sims=1:10000,save_F)
    plot_df <- plot_df[plot_df$save_F<10,]
    ggplot(plot_df, aes(x=save_F))+
      geom_histogram(color="white", bins=100)+
      theme_classic()+
      ggtitle("Simulated F-Distribution for Null")
    Figura\(\PageIndex{1}\): Una simulación de 10,000 experimentos a partir de una distribución nula donde no hay diferencias. El histograma muestra 10,000\(F\) -valores, uno por cada simulación. Estos son valores que F puede tomar en esta situación. Todos estos\(F\) valores fueron producidos por error de muestreo aleatorio.

    Anotemos un par de cosas sobre la\(F\) distribución. 1) El valor más pequeño es 0, y no hay valores negativos. ¿Tiene sentido esto? \(F\)nunca puede ser negativo porque es la relación de dos varianzas, y las varianzas son siempre positivas debido a la operación de cuadratura. Entonces, sí, tiene sentido que la distribución muestral de\(F\) sea siempre 0 o mayor. 2) no parece normal. No, no lo hace. \(F\)puede tener muchas formas de aspecto diferente, dependiendo de los grados de libertad en el numerador y denominador. Sin embargo, estos aspectos son demasiado importantes por ahora.

    Recuerda, antes hablábamos de algunas ideas intuitivas para la comprensión\(F\), basadas en la idea de que\(F\) es una relación de lo que podemos explicar (varianza por diferencias de medias), dividida por lo que no podemos explicar (la varianza del error). Cuando la varianza del error es mayor que la varianza del efecto, entonces siempre obtendremos un\(F\) -valor menor que uno. Se puede ver que muchas veces conseguimos\(F\) -valores menores que uno en la simulación. Esto es sensato, después de todo estábamos simulando muestras provenientes de la misma distribución. En promedio no debería haber diferencias entre las medias. Entonces, en promedio la parte de la varianza total que se explica por los medios debe ser menor a una, o alrededor de una, porque debería ser aproximadamente la misma que la cantidad de varianza de error (recuerden, no estamos simulando diferencias).

    Al mismo tiempo, sí vemos que algunos\(F\) valores -son mayores que 1. Hay pequeños bares que podemos ver yendo todo el camino hasta alrededor de 5. Si tuvieras que obtener un\(F\) valor -de 5, podrías pensar automáticamente, ese es un\(F\) valor bastante grande. En efecto es algo así, significa que puedes explicar 5 veces más de varianza de lo que no puedes explicar. Eso parece mucho. También puede ver que\(F\) los valores -mayores no ocurren muy a menudo. Como recordatorio final, lo que estás viendo es cómo se comporta el\(F\) -estadístico (medido a partir de cada uno de los 10,000 experimentos simulados) cuando lo único que puede causar diferencias en las medias es el error de muestreo aleatorio. Sólo por casualidad a veces los medios serán diferentes. Estás mirando otra ventana de oportunidad. Estos son los\(F\) s que el azar puede producir.

     

    Toma de Decisiones

    Podemos utilizar la distribución muestral de\(F\) (para el nulo) para tomar decisiones sobre el papel del azar en un experimento real. Por ejemplo, podríamos hacer lo siguiente.

    1. Establecer un criterio alfa de\(p\) = 0.05
    2. Conoce el valor crítico para\(F\), para nuestra situación particular (con nuestra\(df\) s para el numerador y denominador).

    Hagámoslo. He dibujado la línea para el valor crítico en el histograma:

    library(ggplot2)
    save_F<-length(10000)
    for(i in 1:10000){
      smartness   <- rnorm(30, 100,10)
      pill_group  <- as.factor(rep(1:3, each=10))
      simulations <- rep(i, each=30)
      sample_df   <- data.frame(simulations,pill_group,smartness)
      aov.out<-summary(aov(smartness~pill_group,sample_df))
      save_F[i]<-aov.out[[1]]$`F value`[1]
    }
    plot_df <- data.frame(sims=1:10000,save_F)
    plot_df <- plot_df[plot_df$save_F<10,]
    ggplot(plot_df, aes(x=save_F))+
      geom_histogram(color="white", bins=100)+
      theme_classic()+
      geom_vline(xintercept=qf(.95, 2, 27))+
      ggtitle("Location of Critical F")+
      annotate("rect", xmin=qf(.95,2,27),xmax=Inf, ymin=0,
               ymax=Inf, alpha=0.5, fill="green")+
      geom_label(data = data.frame(x = qf(.95,2,27), y = 500,
    			label = round(qf(.95,2,27),digits=2)), aes(x = x, y = y, label = label))+
      geom_label(data = data.frame(x = 7.5, y = 500,
    			label ="5% of $F$-values"), aes(x = x, y = y, label = label))
    Figura\(\PageIndex{2}\): El valor crítico para F donde 5% de todos los\(F\) valores se encuentran más allá de este punto.

    Bien, ahora podemos ver que solo el 5% de todos los\(F\) valores de esta distribución muestral serán 3.35 o mayores. Podemos usar esta información.

    ¿Cómo lo usaríamos? Imagina que ejecutamos una versión real de este experimento. Y, realmente usamos algunas pastillas que solo podrían cambiar la inteligencia. Si ejecutamos exactamente el mismo diseño, con 30 personas en total (10 en cada grupo), podríamos establecer un\(F\) criterio de 3.35 para determinar si alguno de nuestros resultados reflejaba un cambio causal en la inteligencia debido a las píldoras, y no por casualidad aleatoria. Por ejemplo, si encontramos un\(F\) -valor de 3.34, lo que sucede, apenas menos del 5% de las veces, podríamos concluir que el error de muestreo aleatorio no produjo las diferencias entre nuestras medias. En cambio, podríamos estar más seguros de que las pastillas realmente hicieron algo, después de todo un\(F\) -valor de 3.34 no sucede muy a menudo, es poco probable (solo 5 veces de cada 100) que ocurra por casualidad.

     

    Fs y medias

    Hasta aquí hemos estado construyendo tu intuición para la comprensión\(F\). Pasamos por el cálculo de los datos\(F\) de la muestra. Pasamos por el proceso de simular miles de\(F\) s para mostrarte la distribución nula. No hemos hablado tanto de lo que realmente les importa a los investigadores... ¡EL MEDIO! Los resultados reales del experimento. ¿Fueron diferentes los medios? eso es a menudo lo que la gente quiere saber. Entonces, ahora vamos a hablar de los medios, y\(F\), juntos.

    Fíjate, si te lo dije hice un experimento con tres grupos, probando si alguna manipulación cambia el comportamiento de los grupos, ¡y te dije que me pareció un gran\(F\)! , digamos un\(F\) de 6!. Y, que el\(F\) de 6 tenía un\(p\) -valor de .001. ¿Qué sabrías solo en base a esa información? Solo sabrías que Fs de 6 no ocurren muy a menudo por casualidad. De hecho solo pasan 0.1% de las veces, eso apenas es para nada. Si alguien me dijera esos valores, yo creería que los resultados que encontraron en su experimento no eran probables por casualidad. Sin embargo, ¡todavía no sabría cuáles fueron los resultados del experimento! Nadie nos dijo cuáles eran los medios en los diferentes grupos, ¡no sabemos qué pasó!

    IMPORTANTE: aunque no sepamos cuáles eran los medios, sí sabemos algo de ellos, cada vez que obtenemos\(F\) -valores y\(p\) -valores como esos (\(F\)s grandes, y muy pequeños asociados\(p\))... ¿Puedes adivinar lo que sabemos? Te lo diré. Automáticamente sabemos que debió haber habido algunas diferencias entre los medios. Si no hubiera diferencias entre las medias, entonces la varianza explicada por las medias (el numerador para\(F\)) no sería muy grande. Entonces, sabemos que debe haber algunas diferencias, simplemente no sabemos cuáles son. Por supuesto, si tuviéramos los datos, todo lo que necesitaríamos hacer es mirar los medios para los grupos (la tabla ANOVA no informa esto, tenemos que hacerlo como un paso separado).

     

    ANOVA es una prueba ómnibus

    Esta propiedad del ANOVA es la razón por la que el ANOVA a veces se llama la prueba ómnibus. Ómnibus es una palabra divertida, suena como un autobús que me gustaría montar. El significado de ómnibus, según el diccionario, es “que comprende varios ítems”. El ANOVA es, en cierto modo, una prueba ómnibus, que comprende varias pruebas pequeñas.

    Por ejemplo, si tuvieras tres grupos, A, B y C. Podrías obtener diferencias entre

    1. A y B
    2. B y C
    3. A y C

    Esas son tres posibles diferencias que podrías conseguir. Podrías ejecutar\(t\) pruebas separadas, para probar si cada una de esas diferencias que podrías haber encontrado podría haber sido producida por casualidad. O bien, podrías ejecutar un ANOVA, como lo que hemos estado haciendo, para hacer una pregunta más general sobre las diferencias. Aquí hay una forma de pensar sobre lo que está probando la prueba ómnibus:

    Hipótesis de no diferencias en ninguna parte:\( A = B = C \)

    Cualquier diferencia en cualquier lugar:

    1. \( A \neq B = C \)
    2. \( A = B \neq C \)
    3. \( A \neq C = B \)

    El\(\neq\) símbolo significa “no es igual”, es un signo igual con una cruz a través de él (¡no se permiten iguales!).

    ¿Cómo juntamos todo esto? Generalmente, cuando obtenemos un pequeño\(F\) -valor, con un gran\(p\) -valor, no rechazaremos la hipótesis de no diferencias. Diremos que no tenemos evidencia de que los medios de los tres grupos sean de alguna manera diferentes, y las diferencias que hay ahí podrían haberse producido fácilmente por casualidad. Cuando obtenemos una F grande con un pequeño\(p\) -valor (uno que está por debajo de nuestro criterio alfa), generalmente rechazaremos la hipótesis de no diferencias. Entonces asumiríamos que al menos una media grupal no es igual a una de las otras. Esa es la prueba ómnibus. Rechazar el nulo de esta manera es rechazar la idea no hay diferencias. Pero, la\(F\) prueba aún no te dice cuáles de las posibles diferencias de grupo son las que son diferentes.

     

    Mirar un montón de medios grupales

    Hicimos 10,000 experimentos justo antes, y ni una sola vez miramos los medios grupales para ninguno de los experimentos. Hagámoslo rápidamente, para que tengamos una mejor idea de lo que está pasando.

    library(ggplot2)
    suppressPackageStartupMessages(library(dplyr))
    all_df<-data.frame()
    for(i in 1:10) {
      smartness   <- rnorm(30, 100,10)
      pill_group  <- as.factor(rep(1:3, each=10))
      simulations <- rep(i, each=30)
      sample_df   <- data.frame(simulations,pill_group,smartness)
      all_df      <- rbind(all_df,sample_df)
    }
    #print(all_df[1:50,])
    all_df$simulations  <- as.factor(all_df$simulations)
    plot_df2 <- all_df %>%
                  dplyr::group_by(simulations,pill_group) %>%
                  dplyr::summarise(group_means = mean(smartness),
                            group_SE= sd(smartness)/sqrt(length(smartness)),
                            .groups='drop_last')
    #print(plot_df2[1:10,])
    ggplot(data=plot_df2, aes(x=pill_group,y=group_means, color=simulations))+
      geom_point()+
      geom_errorbar(aes(ymin=group_means-group_SE, ymax=group_means+group_SE))+
      theme_classic()+
      ggtitle("Sample means for each pill group 10 simulated experiments")+
      ylab("Mean Smartness")+
      facet_wrap(~simulations)
    Figura\(\PageIndex{3}\): Diferentes patrones de medias grupales bajo el nulo (todos los puntajes para cada grupo muestreados de la misma distribución).

    Vaya, eso es mucho para mirar. ¿Qué está pasando aquí? Cada cajita representa el resultado de un experimento simulado. Los puntos son las medias para cada grupo (si los sujetos tomaron 1, 2 o 3 píldoras mágicas). El eje y muestra la inteligencia media para cada grupo. Las barras de error son errores estándar de la media.

    Se puede ver que cada uno de los 10 experimentos resulta diferente. Recuerde, se muestrearon 10 números para cada grupo de la misma distribución normal con media = 100, y sd = 10. Entonces, sabemos que las medias correctas para cada muestra en realidad deberían ser 100 cada vez. Sin embargo, no son 100 cada vez a causa de? ... error de muestreo (Nuestro buen amigo del que hablamos todo el tiempo).

    Para la mayoría de las simulaciones las barras de error se superponen, esto sugiere visualmente que las medias no son diferentes. No obstante, algunos de ellos parecen que no se superponen tanto, y esto sugeriría que son diferentes. Este es el canto de sirena del azar (las sirenas atrajeron a los marineros a su muerte en el mar... cuidado con la sirena llamada del azar). Si concluyéramos que alguno de estos conjuntos de medios tenía una verdadera diferencia, estaríamos cometiendo un error tipo I. Debido a que hicimos la simulación, sabemos que ninguno de estos medios es realmente diferente. Pero, cuando estás realizando un experimento real, no llegas a saber esto con certeza.

     

    Mirando gráficos de barras

    Veamos exactamente la misma gráfica que la anterior, pero esta vez usa barras para ilustrar visualmente las medias, en lugar de puntos. Reharemos nuestra simulación de 10 experimentos, por lo que el patrón será un poco diferente:

    library(ggplot2)
    suppressPackageStartupMessages(library(dplyr))
    all_df <- data.frame()
    for(i in 1:10) {
      smartness   <- rnorm(30, 100,10)
      pill_group  <- as.factor(rep(1:3, each=10))
      simulations <- rep(i, each=30)
      sample_df   <- data.frame(simulations,pill_group,smartness)
      all_df      <- rbind(all_df,sample_df)
    }
    all_df$simulations  <- as.factor(all_df$simulations)
    plot_df2 <- all_df %>%
                dplyr::group_by(simulations,pill_group) %>%
                dplyr::summarize(group_means = mean(smartness),
                          group_SE= sd(smartness)/sqrt(length(smartness)),
                          .groups='drop_last')
    ggplot(plot_df2, aes(x=pill_group,y=group_means, fill=simulations))+
      geom_bar(stat="identity", position="dodge")+
      geom_errorbar(aes(ymin=group_means-group_SE, ymax=group_means+group_SE))+
      theme_classic()+
      ggtitle("Sample means for each pill group 10 simulated experiments")+
      ylab("Mean Smartness")+
      facet_wrap(~simulations)+
      coord_cartesian(ylim=c(90,110))
    Figura\(\PageIndex{4}\): Diferentes patrones de medias grupales bajo el nulo (todos los puntajes para cada grupo muestreados de la misma distribución).

    Ahora las alturas de las barras muestran los medios para cada grupo de pastillas. En general vemos lo mismo. Algunos de los experimentos falsos parecen haber diferencias, y algunos de ellos no.

     

    Cómo se ven las diferencias de medias cuando F es < 1

    Ahora te estamos dando algo de experiencia visual mirando cómo se ven los medios de un experimento en particular. Esto es por tu intuición estadística. Estamos tratando de mejorar tus sentidos de datos.

    Lo que vamos a hacer ahora es similar a lo que hacíamos antes. Excepto en esta ocasión vamos a ver 10 experimentos simulados, donde todos los\(F\) valores -fueron menores a 1. Todos estos\(F\) valores -también estarían asociados con\(p\) valores -bastante grandes. Cuando F es menor que uno, no rechazaríamos la hipótesis de no diferencias. Entonces, cuando miramos patrones de medias cuando F es menor que 1, deberíamos ver mayormente las mismas medias, y no grandes diferencias.

    library(ggplot2)
    suppressPackageStartupMessages(library(dplyr))
    all_df<-data.frame()
    counter<-0
    for(i in 1:100){
      smartness   <- rnorm(30, 100,10)
      pill_group  <- as.factor(rep(1:3, each=10))
      simulations <- rep(i, each=30)
      sample_df   <- data.frame(simulations,pill_group,smartness)
      aov.out<-summary(aov(smartness~pill_group,sample_df))
      the_f<-aov.out[[1]]$`F value`[1]
      if(the_f < 1){
        all_df<-rbind(all_df,sample_df)
        counter<-counter+1
      }
      if (counter ==10){
        break
      }
    }
    all_df$simulations  <- as.factor(all_df$simulations)
    plot_df <- all_df %>%
                dplyr::group_by(simulations,pill_group) %>%
                dplyr::summarise(means=mean(smartness),
                          SEs=sd(smartness)/sqrt(length(smartness)),
                          .groups='drop_last')
    ggplot(plot_df,aes(x=pill_group,y=means, fill=simulations))+
      geom_bar(stat="identity", position="dodge")+
      geom_errorbar(aes(ymin=means-SEs, ymax=means+SEs))+
      theme_classic()+
      facet_wrap(~simulations)+
      ggtitle("Sample means for each pill group, F < 1 for all")+
      ylab("Mean Smartness")+
      coord_cartesian(ylim=c(85,115))
    Figura\(\PageIndex{5}\): Diferentes patrones de medias grupales bajo el nulo (muestreado de la misma distribución) cuando F es menor que 1.

    Los números en los paneles ahora nos dicen qué simulaciones realmente produjeron Fs de menos de 1.

    Vemos aquí que todos los bares no son perfectamente planos, está bien. Lo que es más importante es que para cada panel, las barras de error para cada media se superponen totalmente con todas las demás barras de error. Podemos ver visualmente que nuestra estimación de la media para cada muestra es aproximadamente la misma para todas las barras. Eso es bueno, no haríamos ningún error de tipo I aquí.

     

    Cómo se ven las diferencias de medias cuando F > 3.35

    Anteriormente encontramos que el valor crítico para\(F\) en nuestra situación fue de 3.35, esta fue la ubicación en la\(F\) distribución donde solo 5% de\(F\) s fueron 3.35 o mayores. Rechazaríamos la hipótesis de no diferencias siempre que\(F\) fuera mayor a 3.35. En este caso, siempre que hiciéramos eso, estaríamos cometiendo un error tipo I. Esto se debe a que estamos simulando la distribución de no diferencias (recuerde que todas nuestras medias muestrales provienen de la misma distribución exacta). Entonces, ahora podemos echar un vistazo a cómo se ven los errores de tipo I. En otras palabras, podemos ejecutar algunas simulaciones y mirar el patrón en las medias, solo cuando F pasa a ser 3.35 o mayor (esto solo sucede el 5% del tiempo, así que podríamos tener que dejar que la computadora simule por un tiempo). Veamos cómo se ve eso:

    library(ggplot2)
    suppressPackageStartupMessages(library(dplyr))
    all_df<-data.frame()
    counter<-0
    for(i in 1:1000){
      smartness   <- rnorm(30, 100,10)
      pill_group  <- as.factor(rep(1:3, each=10))
      simulations <- rep(i, each=30)
      sample_df   <- data.frame(simulations,pill_group,smartness)
      aov.out<-summary(aov(smartness~pill_group,sample_df))
      the_f<-aov.out[[1]]$`F value`[1]
      if(the_f > 3.35){
        all_df<-rbind(all_df,sample_df)
        counter<-counter+1
      }
      if (counter ==10){
        break
      }
    }
    all_df$simulations  <- as.factor(all_df$simulations)
    plot_df <- all_df %>%
                dplyr::group_by(simulations,pill_group) %>%
                dplyr::summarise(means=mean(smartness),
                          SEs=sd(smartness)/sqrt(length(smartness)),
                          .groups='drop_last')
    ggplot(plot_df,aes(x=pill_group,y=means, fill=simulations))+
      geom_bar(stat="identity", position="dodge")+
      geom_errorbar(aes(ymin=means-SEs, ymax=means+SEs))+
      theme_classic()+
      facet_wrap(~simulations)+
      ggtitle("Sample means for each pill group, F > 3.35 (crit) for all")+
      ylab("Mean Smartness")+
      coord_cartesian(ylim=c(85,115))
    Figura\(\PageIndex{6}\): Diferentes patrones de medias grupales bajo el nulo cuando F está por encima del valor crítico (todos estos son Errores de tipo I).

    Los números en los paneles ahora nos dicen qué simulaciones produjeron realmente\(F\) s que fueron mayores a 3.35

    ¿Qué notas sobre el patrón de medios dentro de cada panel? Ahora, cada panel muestra al menos una media que es diferente a las demás. Específicamente, las barras de error para una media no se superponen con las barras de error para una u otra media. Así es como se ven los errores. Todos estos son errores de tipo I. Son insidiosos. Cuando te suceden por casualidad, los datos realmente parecen mostrar un patrón fuerte, y tu\(F\) valor es grande, ¡y tu\(p\) valor es pequeño! Es fácil convencerse por un error tipo I (es la canción de sirena del azar).


    This page titled 7.3: ¿Qué significa F? is shared under a CC BY-SA 4.0 license and was authored, remixed, and/or curated by Matthew J. C. Crump via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.