Saltar al contenido principal
LibreTexts Español

7.4: ANOVA sobre datos reales

  • Page ID
    150353
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    Hemos cubierto muchos fundamentos sobre el ANOVA, cómo calcular los valores necesarios para obtener un\(F\) -estadístico, y cómo interpretar el\(F\) -estadístico junto con su\(p\) valor asociado una vez que tenemos uno. En general, estarás realizando ANOVA y jugando con\(F\) s y\(p\) s usando un software que automáticamente escupirá los números por ti. Es importante que entiendas lo que significan los números, por eso hemos dedicado tiempo a los conceptos. También te recomendamos que intentes calcular un ANOVA a mano al menos una vez. Construye carácter, y te deja saber que sabes lo que estás haciendo con los números.

    Pero, probablemente también hemos perdido el hilo real de todo esto. El hilo central es que cuando ejecutamos un experimento utilizamos nuestras estadísticas inferenciales, como ANOVA, para ayudarnos a determinar si las diferencias que encontramos son probables por casualidad o no. En general, nos gusta descubrir que las diferencias que encontramos no se deben al azar, sino a que se deben a nuestra manipulación.

    Entonces, volvemos a la aplicación del ANOVA a un conjunto de datos reales con una pregunta real. Esta es la misma que conocerás en el laboratorio. Te damos un breve resumen aquí para que sepas qué esperar.

     

    Tetris y malos recuerdos

    Sí, lo leíste bien. La investigación que aprenderá sobre las pruebas de si jugar Tetris después de ver una película de miedo puede ayudar a evitar que tenga malos recuerdos de la película (James et al. 2015). A veces en la vida las personas tienen recuerdos intrusivos, y piensan en cosas en las que preferirían no tener que pensar. Esta investigación analiza un método que podría reducir la frecuencia de los recuerdos intrusivos.

    Esto es lo que hicieron. Los sujetos vieron una película aterradora, luego al final de la semana reportaron cuántos recuerdos intrusivos sobre la película tenían. El número medio de memorias intrusivas fue la medición (la variable dependiente). Este fue un experimento entre sujetos con cuatro grupos. Cada grupo de sujetos recibió un tratamiento diferente después de la película de terror. La cuestión era si alguno de estos tratamientos reduciría el número de recuerdos intrusivos. Todos estos tratamientos ocurrieron después de ver la película de miedo:

    1. Control sin tareas: Estos participantes completaron una tarea de relleno de música de 10 minutos después de ver la película de miedo.
    2. Reactivación + Tetris: A estos participantes se les mostró una serie de imágenes de la película de trauma para reactivar los recuerdos traumáticos (es decir, tarea de reactivación). Después, los participantes jugaron el videojuego Tetris durante 12 minutos.
    3. Solo Tetris: Estos participantes jugaron al Tetris durante 12 minutos, pero no completaron la tarea de reactivación.
    4. Solo Reactivación: Estos participantes completaron la tarea de reactivación, pero no jugaron Tetris.

    Por razones que elaboramos en el laboratorio, los investigadores plantearon la hipótesis de que el grupo Reactivación+Tetris tendría menos recuerdos intrusivos a lo largo de la semana que los otros grupos.

    Veamos los hallazgos. Tenga en cuenta que aprenderá a realizar todos estos pasos en el laboratorio. Por ahora, solo mostramos los hallazgos y la tabla ANOVA. Entonces caminamos por cómo interpretarlo.

    library(data.table)
    library(ggplot2)
    suppressPackageStartupMessages(library(dplyr))
    all_data <- fread(
      "https://stats.libretexts.org/@api/deki/files/10605/Jamesetal2015Experiment2.csv")
    all_data$Condition <- as.factor(all_data$Condition)
    levels(all_data$Condition) <- c("Control",
                                    "Reactivation+Tetris", 
                                    "Tetris_only",
                                    "Reactivation_only")
    # get means and SEs
    descriptive_df <- all_data %>% 
                        dplyr::group_by(Condition) %>% 
                        dplyr::summarise(means= mean(Days_One_to_Seven_Number_of_Intrusions),
                                  SEs = sd(Days_One_to_Seven_Number_of_Intrusions)/sqrt(length(Days_One_to_Seven_Number_of_Intrusions)))
    # Make the plot
    ggplot(descriptive_df, aes(x=Condition, y=means))+ 
      geom_bar(stat="identity", aes(fill=Condition))+ # add means
      geom_errorbar(aes(ymin=means-SEs,               # add error bars
                        ymax=means+SEs), width=.1) +
      geom_point(data=all_data, aes(x=Condition, y=Days_One_to_Seven_Number_of_Intrusions), alpha=.5)+
      geom_point(alpha=.25)+
      ylab("Intrusive Memories (Mean for Week)")
    Figura\(\PageIndex{1}\): Promedio del número de memorias intrusivas por semana en función de los tratamientos experimentales.

    Oooooh, mira eso. Hicimos algo elegante. Estás viendo los datos de los cuatro grupos. La altura de cada barra muestra los recuerdos intrusivos medios de la semana. Los puntos muestran las puntuaciones individuales para cada sujeto en cada grupo (útil para la difusión de los datos). Las barras de error muestran los errores estándar de la media.

    ¿Qué podemos ver aquí? De inmediato parece que hay algún apoyo para la hipótesis de investigación. La barra verde, para el grupo Reactivación + Tetris tuvo el menor número medio de recuerdos intrusivos. Además, la barra de error no se superpone con ninguna de las otras barras de error. Esto implica que la media para el grupo Reactivación + Tetris es diferente de las medias para los otros grupos. Y, esta diferencia probablemente no sea muy probable por casualidad.

    Ahora podemos realizar el ANOVA sobre los datos para hacer la pregunta ómnibus. Si obtenemos un valor an con un\(F\) valor asociado\(p\) menor que .05 (el criterio alfa establecido por los autores), entonces podemos rechazar la hipótesis de no diferencias. Veamos qué pasa:

    library(data.table)
    library(xtable)
    all_data <- fread(
      "https://stats.libretexts.org/@api/deki/files/10605/Jamesetal2015Experiment2.csv")
    all_data$Condition <- as.factor(all_data$Condition)
    levels(all_data$Condition) <- c("Control",
                                    "Reactivation+Tetris", 
                                    "Tetris_only",
                                    "Reactivation_only")
    
    aov_out<-aov(Days_One_to_Seven_Number_of_Intrusions ~ Condition, all_data)
    summary_out<-summary(aov_out)
    knitr::kable(xtable(summary_out))
      Df Suma Cuadrados Media Cuadrada Valor F Pr (>F)
    Condición 3 114.8194 38.27315 3.794762 F)" style="vertical-align:middle;">0.0140858
    Residuales 68 685.8333 10.08578 NA F)" style="vertical-align:middle;">NA

    Vemos la tabla ANOVA, está ahí arriba. Podríamos reportar los resultados de la tabla ANOVA así:

    Hubo un efecto principal significativo de la condición de tratamiento, F (3, 68) = 3.79, MSE = 10.08, p=0.014.

    Llamamos a esto un efecto significativo porque el\(p\) valor -fue menor a 0.05. En otras palabras, el\(F\) -valor de 3.79 sólo ocurre 1.4% del tiempo cuando el nulo es verdadero. O bien, las diferencias que observamos en las medias solo ocurren por casualidad aleatoria (error de muestreo) 1.4% del tiempo. Debido a que el azar rara vez produce este tipo de resultados, los investigadores hicieron la inferencia de que el azar NO produjo sus diferencias, en cambio, se inclinaron a concluir que el tratamiento Reactivación + Tetris realmente causó una reducción en los recuerdos intrusivos. Eso es bastante ordenado.

     

    Comparación de medias después del ANOVA

    Recuerda que el ANOVA es una prueba ómnibus, solo nos dice si podemos rechazar la idea de que todos los medios son iguales. La prueba F (sinónimo de ANOVA) que acabamos de realizar sugirió que podríamos rechazar la hipótesis de no diferencias. Como discutimos antes, eso debe significar que existen algunas diferencias en el patrón de medios.

    Generalmente después de realizar un ANOVA, los investigadores realizarán pruebas de seguimiento para comparar diferencias entre medias específicas. Hablaremos más de esta práctica a lo largo del libro de texto. Hay muchas prácticas recomendadas para las pruebas de seguimiento, y hay mucho debate sobre lo que debes hacer. No vamos a meterse en este debate ahora mismo. En cambio vamos a señalar que hay que hacer algo para comparar los medios de interés después de realizar el ANOVA, porque el ANOVA es solo el comienzo... Normalmente no te dice que quieres saber. Quizás te preguntes por qué molestarte en realizar el ANOVA en primer lugar... No es una pregunta terrible en absoluto. Una buena pregunta. Verás mientras hablamos de diseños más complicados, por qué las ANOVA son tan útiles. En el presente ejemplo, no son más que un primer paso común. Se requieren los siguientes pasos, como lo que hacemos a continuación.

    ¿Cómo se puede comparar la diferencia entre dos medias, a partir de un diseño entre sujetos, para determinar si la diferencia que observó es probable o improbable que se produzca por casualidad? Ya cubrimos este, es la\(t\) prueba independiente. Haremos un par\(t\) de pruebas, mostrando el proceso.

     

    Control vs Reactivación+Tetris

    Lo que realmente queremos saber es si Reactivación+Tetris causó menos recuerdos intrusivos... pero ¿comparados con qué? Bueno, si hizo algo, el grupo Reactivación+Tetris debería tener una media menor que el grupo Control. Entonces, hagamos esa comparación:

    library(data.table)
    library(ggplot2)
    suppressPackageStartupMessages(library(dplyr))
    all_data <- fread(
      "https://stats.libretexts.org/@api/deki/files/10605/Jamesetal2015Experiment2.csv")
    all_data$Condition <- as.factor(all_data$Condition)
    levels(all_data$Condition) <- c("Control",
                                    "Reactivation+Tetris", 
                                    "Tetris_only",
                                    "Reactivation_only")
    
    comparison_df <- all_data %>% 
                      filter(Condition %in% c('Control','Reactivation+Tetris')==TRUE)                        
    t.test(Days_One_to_Seven_Number_of_Intrusions ~ Condition, 
           comparison_df,
           var.equal=TRUE)
    	Two Sample t-test
    
    data:  Days_One_to_Seven_Number_of_Intrusions by Condition
    t = 2.9893, df = 34, p-value = 0.005167
    alternative hypothesis: true difference in means is not equal to 0
    95 percent confidence interval:
     1.031592 5.412852
    sample estimates:
                mean in group Control mean in group Reactivation+Tetris 
                             5.111111                          1.888889 
    

    Se encontró que hubo una diferencia significativa entre el grupo control (M=5.11) y el grupo de Reactivación + Tetris (M=1.89), t (34) = 2.99, p=0.005.

    Arriba acabas de ver un ejemplo de reportar otra\(t\) -prueba. Estas frases hacen un buen trabajo de decirle al lector todo lo que quiere saber. Tiene los medios para cada grupo, y los bits importantes de la\(t\) -prueba.

    Más importante, ya que sospechamos que la diferencia entre el grupo control y Reactivación + Tetris probablemente no fue por casualidad.

     

    Control vs. tetris_only

    Ahora realmente podemos empezar a preguntarse qué causó la diferencia. ¿Estaba jugando al Tetris? ¿Solo jugar Tetris reduce el número de recuerdos intrusivos durante la semana? Comparemos eso para controlar:

    library(data.table)
    suppressPackageStartupMessages(library(dplyr))
    all_data <- fread(
      "https://stats.libretexts.org/@api/deki/files/10605/Jamesetal2015Experiment2.csv")
    all_data$Condition <- as.factor(all_data$Condition)
    levels(all_data$Condition) <- c("Control",
                                    "Reactivation+Tetris", 
                                    "Tetris_only",
                                    "Reactivation_only")
    
    comparison_df <- all_data %>% 
                      filter(Condition %in% c('Control','Tetris_only')==TRUE)     
    t.test(Days_One_to_Seven_Number_of_Intrusions ~ Condition, 
           comparison_df,
           var.equal=TRUE)
    	Two Sample t-test
    
    data:  Days_One_to_Seven_Number_of_Intrusions by Condition
    t = 1.0129, df = 34, p-value = 0.3183
    alternative hypothesis: true difference in means is not equal to 0
    95 percent confidence interval:
     -1.230036  3.674480
    sample estimates:
        mean in group Control mean in group Tetris_only 
                     5.111111                  3.888889 
    

    Aquí no encontramos una diferencia significativa. Se encontró que no hubo diferencia significativa entre el grupo control (M=5.11) y el grupo Tetris Only (M=3.89), t (34) = 2.99, p=0.318.

    Entonces, parece que no todas las diferencias entre nuestras medias son lo suficientemente grandes como para llamarse estadísticamente significativas. En particular, la diferencia aquí, o mayor, ocurre por casualidad 31.8% de las veces.

    Podrías seguir haciendo más comparaciones, entre todos los diferentes pares de medias. Cada vez que se realiza una\(t\) prueba, y cada vez se dice algo más específico sobre los patrones a través de las medias de lo que se llega a decir con la prueba ómnibus proporcionada por el ANOVA.

    Por lo general, es el patrón de diferencias entre los medios que usted como investigador está principalmente interesado en comprender. Tus teorías harán predicciones sobre cómo resulta el patrón (por ejemplo, qué medios específicos deberían ser más altos o menores y por cuánto). Entonces, la práctica de hacer comparaciones después de un ANOVA es realmente importante para establecer los patrones en las medias.


    This page titled 7.4: ANOVA sobre datos reales is shared under a CC BY-SA 4.0 license and was authored, remixed, and/or curated by Matthew J. C. Crump via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.