6.3: Prueba t de muestras emparejadas

Última actualización
Guardar como PDF

Page ID: 150347

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\id}{\mathrm{id}}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\kernel}{\mathrm{null}\,}\)

\( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\)

\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\)

\( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)

\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)

\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vectorC}[1]{\textbf{#1}} \)

\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

Para mí (Crump), muchos análisis a menudo se reducen a una prueba t de muestras pareadas. Simplemente pasa que muchas cosas que hago se reducen a una prueba como esta. Soy psicóloga cognitiva, realizo investigaciones sobre cómo la gente hace cosas como recordar, prestar atención y aprender habilidades. Hay muchos Psicólogos como yo, que hacen cosas muy similares.

Todos a menudo realizamos el mismo tipo de experimentos. Van así, y se les llama diseños de medidas repetidas. Se llaman diseños de medidas repetidas, porque medimos cómo una persona hace algo más de una vez, repetimos la medida. Entonces, podría medir a alguien haciendo algo en la condición A, y medir a la misma persona haciendo algo en la Condición B, y luego veo que esa misma persona hace cosas diferentes en las dos condiciones. Mido repetidamente a la misma persona en ambas condiciones. Me interesa saber si la manipulación experimental cambia algo sobre cómo las personas realizan la tarea en cuestión.

Mehr, Song y Spelke (2016)

Presentaremos la prueba t de muestras emparejadas con un ejemplo utilizando datos reales, a partir de un estudio real. Mehr, Song y Spelke (2016) estaban interesados en saber si cantar canciones a los bebés ayuda a los bebés a ser más sensibles a las señales sociales. Por ejemplo, los infantes pueden necesitar aprender a dirigir su atención hacia las personas como parte de aprender a interactuar socialmente con las personas. Quizás cantar canciones a los infantes ayuda a este proceso de dirigir la atención. Cuando un infante escucha una canción familiar, puede que empiece a prestar más atención a la persona que cante esa canción, incluso después de que haya terminado de cantar la canción. La persona que cantó la canción podría llegar a ser más importante socialmente para el infante. Aprenderás más sobre este estudio en el laboratorio para esta semana. Este ejemplo, te prepara para las actividades del laboratorio. Aquí hay un breve resumen de lo que hicieron.

En primer lugar, los padres fueron entrenados para cantar una canción a sus bebés. Después de muchos días de cantar esta canción a los infantes, un padre de familia entró al laboratorio con su bebé. En la primera sesión, los padres se sentaron con sus infantes de rodillas, para que el infante pudiera ver dos presentaciones en video. Había dos videos. Cada video involucraba a dos nuevas personas desconocidas que el infante nunca había visto antes. Cada nueva persona en el video (los cantantes) cantó una canción al infante. Un cantante cantó la canción “familiar” que el infante había aprendido de sus padres. El otro cantante cantó una canción “desconocida” que el infante no había escuchado antes.

Hubo dos fases de medición realmente importantes: la fase basal y la fase de prueba.

La fase basal ocurrió antes de que los infantes vieran y escucharan a cada cantante cantar una canción. Durante la fase basal, los infantes vieron un video de ambos cantantes al mismo tiempo. Los investigadores registraron la proporción de tiempo que el infante miró a cada cantante. La fase basal se realizó para determinar si los infantes tenían preferencia por mirar a cualquiera de las personas (quienes luego les cantarían una canción).

La fase de prueba ocurrió después de que los infantes vieron y escucharon cada canción, cantada por cada cantante. Durante la fase de prueba, cada infante tuvo la oportunidad de ver videos silenciosos de ambos cantantes. Los investigadores midieron la proporción de tiempo que los infantes pasaron mirando a cada persona. La cuestión de interés, era si los infantes pasarían una mayor proporción de tiempo mirando al cantante que cantó la canción familiar, en comparación con el cantante que cantó la canción desfamiliar.

Hay más de una manera de describir el diseño de este estudio. Lo describiremos así. Se trataba de un diseño de medidas repetidas, con una variable independiente (manipulación) llamada Fase de visualización: Baseline versus Test. Había una variable dependiente (la medida), que era el tiempo de búsqueda proporcional (al cantante que cantaba canción familiar). Este fue un diseño de medidas repetidas porque los investigadores midieron la proporción mirando el tiempo dos veces (repitieron la medida), una vez durante la línea base (antes de que los infantes escucharan a cada cantante cantar una canción), y nuevamente durante la prueba (después de que los infantes encabezan cada cantante cantar una canción).

La pregunta importante era si los infantes cambiarían su tiempo de mirada, y mirarían más al cantante que cantó la canción familiar durante la fase de prueba, que lo hicieron durante la fase basal. Esta es una pregunta sobre un cambio dentro de los recién nacidos individuales. En general, los posibles resultados para el estudio son:

Sin cambios: La diferencia entre mirar el tiempo hacia el cantante de la canción familiar durante la línea base y la prueba es cero, ninguna diferencia.
Cambio positivo: Infantes mirarán más tiempo hacia el cantante de la canción familiar durante la fase de prueba (después de que vieron y escucharon a los cantantes), en comparación con la fase basal (antes de ver y escuchar a los cantantes). Esta es una diferencia positiva si usamos la fórmula: Test Phase Looking time - Baseline phase looking time (to familiar song singer).
Cambio negativo: Infantes mirarán más tiempo hacia el cantante de la canción desconocida durante la fase de prueba (después de que vieron y escucharon a los cantantes), en comparación con la fase basal (antes de ver y escuchar a los cantantes). Esta es una diferencia negativa si usamos la misma fórmula: Test Phase Looking time - Baseline phase looking time (to familiar song singer).

Los datos

Echemos un vistazo a los datos de los primeros 5 infantes del estudio. Esto nos ayudará a comprender mejor algunas propiedades de los datos antes de analizarlos. Veremos que los datos están estructurados de una manera particular que podemos aprovechar con una prueba t de muestras pareadas. Tenga en cuenta que observamos los primeros 5 infantes para mostrar cómo funcionan los cómputos. Los resultados de la prueba t de muestras emparejadas cambian cuando usamos todos los datos del estudio.

Aquí hay una tabla de los datos:

library(data.table)
suppressPackageStartupMessages(library(dplyr))
all_data <- fread(
  "https://stats.libretexts.org/@api/deki/files/10603/MehrSongSpelke2016.csv")
experiment_one <- all_data %>% filter(exp1==1)
paired_sample_df <-  data.frame(infant=1:5, 
	Baseline = round(experiment_one$Baseline_Proportion_Gaze_to_Singer[1:5],
				digits=2), 
	Test = round(experiment_one$Test_Proportion_Gaze_to_Singer[1:5], 
				digits=2))
knitr::kable(paired_sample_df)

infantil	Línea de base	Test
1	0.44	0.60
2	0.41	0.68
3	0.75	0.72
4	0.44	0.28
5	0.47	0.50

La tabla muestra tiempos de mirada proporcional hacia el cantante de la canción familiar durante las fases Baseline y Test. Observe que hay cinco infantes diferentes, (1 a 5). Cada lactante se mide dos veces, una durante la fase basal y una vez durante la fase de prueba. Para repetir desde antes, este es un diseño de medidas repetidas, porque los infantes se miden repetidamente (dos veces en este caso). O bien, este tipo de diseño también se llama un diseño de muestras emparejadas. ¿Por qué? porque cada participante viene con un par de muestras (dos muestras), una para cada nivel del diseño.

Genial, entonces, ¿qué es lo que realmente nos interesa aquí? Queremos saber si el tiempo medio de mirada hacia el cantante de la canción familiar para la fase Test es mayor que la fase Baseline. Estamos comparando las dos medias de la muestra entre sí y buscando una diferencia. Ya sabemos que las diferencias podrían obtenerse solo por casualidad, simplemente porque tomamos dos juegos de muestras, y sabemos que las muestras pueden ser diferentes. Entonces, nos interesa saber si el azar era probable o poco probable que hubiera producido alguna diferencia que pudiéramos observar.

Es decir, nos interesa observar las puntuaciones de diferencia entre la fase basal y la fase de prueba para cada lactante. La pregunta aquí es, para cada infante, ¿su proporción mirando el tiempo al cantante de la canción familiar, aumentó durante la fase de prueba en comparación con la fase basal.

Las puntuaciones de diferencia

Agreguemos las puntuaciones de diferencia a la tabla de datos para que sea más fácil ver de qué estamos hablando. El primer paso para crear puntuaciones de diferencia es decidir cómo tomarás la diferencia, hay dos opciones:

Puntuación de fase de prueba - Puntuación de fase basal
Puntuación de fase basal - Puntuación de la fase de prueba

Usemos la primera fórmula. ¿Por qué? Porque nos dará diferencias positivas cuando la puntuación de la fase de prueba sea mayor que la puntuación de la fase basal. Esto hace que una puntuación positiva sea significativa con respecto al diseño del estudio, sabemos (porque la definimos de esta manera), que las puntuaciones positivas se referirán a tiempos de búsqueda de proporción más largos (al cantante de canción familiar) durante la fase de prueba en comparación con la fase basal.

library(data.table)
suppressPackageStartupMessages(library(dplyr))
all_data <- fread(
  "https://stats.libretexts.org/@api/deki/files/10603/MehrSongSpelke2016.csv")
experiment_one <- all_data %>% filter(exp1==1)
paired_sample_df <-  data.frame(infant=1:5, 
	Baseline = round(experiment_one$Baseline_Proportion_Gaze_to_Singer[1:5],
				digits=2), 
	Test = round(experiment_one$Test_Proportion_Gaze_to_Singer[1:5],
				digits=2))

paired_sample_df <- cbind(paired_sample_df,
	differences = (paired_sample_df$Test-
	paired_sample_df$Baseline))
knitr::kable(paired_sample_df)

infantil	Línea de base	Test	diferencias
1	0.44	0.60	0.16
2	0.41	0.68	0.27
3	0.75	0.72	-0.03
4	0.44	0.28	-0.16
5	0.47	0.50	0.03

Ahí lo tenemos, la diferencia puntúa. Lo primero que podemos hacer aquí es mirar los puntajes de diferencia, y preguntar cuántos infantes mostraron el efecto de interés. Específicamente, cuántos infantes mostraron una puntuación de diferencia positiva. Podemos ver que tres de cinco infantes mostraron una diferencia positiva (miraron más al cantante de la canción familiar durante la fase de prueba que en la fase basal), y dos los infantes mostraron el efecto contrario (diferencia negativa, miraron más al cantante de la canción familiar durante la línea base que a la prueba).

La Diferencia Media

Como hemos estado discutiendo, el efecto de interés en este estudio es la diferencia media entre los tiempos de búsqueda de proporción basal y fase de prueba. Podemos calcular la diferencia media, encontrando la media de las puntuaciones de diferencia. Hagámoslo, de hecho, por diversión calculemos la media de los puntajes basales, los puntajes de las pruebas y los puntajes de diferencia.

library(data.table)
suppressPackageStartupMessages(library(dplyr))
all_data <- fread(
  "https://stats.libretexts.org/@api/deki/files/10603/MehrSongSpelke2016.csv")
experiment_one <- all_data %>% filter(exp1==1)
paired_sample_df <-  data.frame(infant=1:5, 
	Baseline = round(experiment_one$Baseline_Proportion_Gaze_to_Singer[1:5],
				digits=2), 
	Test = round(experiment_one$Test_Proportion_Gaze_to_Singer[1:5],
				digits=2))
paired_sample_df <- cbind(paired_sample_df,
	differences = (paired_sample_df$Test-
	paired_sample_df$Baseline))

paired_sample_df <- paired_sample_df %>%
   rbind(c("Sums",colSums(paired_sample_df[1:5,2:4]))) %>%
   rbind(c("Means",colMeans(paired_sample_df[1:5,2:4])))
knitr::kable(paired_sample_df)

infantil	Línea de base	Test	diferencias
1	0.44	0.6	0.16
2	0.41	0.68	0.27
3	0.75	0.72	-0.03
4	0.44	0.28	-0.16
5	0.47	0.5	0.03
Sumas	2.51	2.78	0.27
Medios	0.502	0.556	0.054

Podemos ver que hubo una diferencia media positiva de 0.054, entre las fases de prueba y basal.

¿Podemos apresurarnos a juzgar y concluir que los infantes se sienten más atraídos socialmente por individuos que les han cantado una canción familiar? Espero que no esté basado en esta muestra muy pequeña. Primero, la diferencia en el aspecto de proporción no es muy grande, y por supuesto reconocemos que esta diferencia podría haberse producido por casualidad.

Evaluaremos más formalmente si esta diferencia podría haber sido causada por casualidad con la prueba t de muestras emparejadas. Pero, antes de hacer eso, volvamos a calcular\(t\) y discutir lo que nos\(t\) dice por encima de lo que nos dice nuestra medida de la media de las puntuaciones de diferencia.

Calcular t

Bien, entonces, ¿cómo calculamos\(t\) para una\(t\) prueba de muestras emparejadas? Sorpresa, ¡utilizamos la fórmula de prueba t de una muestra de la que ya aprendiste! Específicamente, utilizamos la fórmula de\(t\) prueba de una muestra en las puntuaciones de diferencia. Tenemos una muestra de puntuaciones de diferencia (puedes ver que están en una columna), por lo que podemos usar la\(t\) prueba de una muestra en las puntuaciones de diferencia. Específicamente, nos interesa comparar si la media de nuestras puntuaciones de diferencia provino de una distribución con diferencia de medias = 0. Esta es una distribución especial a la que nos referimos como la distribución nula. Es la distribución sin diferencias. Por supuesto, esta distribución nula puede producir diferencias por error de muestreo, pero esas diferencias no son causadas por ninguna manipulación experimental, son causadas por el proceso de muestreo aleatorio.

Calculamos\(t\) en un momento. Consideremos ahora de nuevo ¿por qué queremos calcular\(t\)? ¿Por qué no nos quedamos con la diferencia de medias que ya tenemos?

Recuerden, todo el concepto detrás\(t\), es que da una indicación de cuán confiados debemos estar en nuestra media. Recuerde,\(t\) implica una medida de la media en el numerador, dividida por una medida de variación (error estándar de la media muestral) en el denominador. El\(t\) valor resultante es pequeño cuando la diferencia media es pequeña, o cuando la variación es grande. Tan pequeños\(t\) -valores nos dicen que no debemos tener tanta confianza en la estimación de nuestra diferencia de medias. \(t\)Los valores grandes ocurren cuando la diferencia media es grande y/o cuando la medida de variación es pequeña. Entonces,\(t\) los valores grandes nos dicen que podemos tener más confianza en la estimación de nuestra diferencia de medias. Busquemos\(t\) las puntuaciones de diferencia media. Usamos las mismas fórmulas que hicimos la última vez:

library(data.table)
suppressPackageStartupMessages(library(dplyr))
all_data <- fread(
  "https://stats.libretexts.org/@api/deki/files/10603/MehrSongSpelke2016.csv")
experiment_one <- all_data %>% filter(exp1==1)
paired_sample_df <-  data.frame(infant=1:5, 
	Baseline = round(experiment_one$Baseline_Proportion_Gaze_to_Singer[1:5],
				digits=2), 
	Test = round(experiment_one$Test_Proportion_Gaze_to_Singer[1:5],
				digits=2))
paired_sample_df <- cbind(paired_sample_df,
	differences = (paired_sample_df$Test-
	paired_sample_df$Baseline))
paired_sample_df <- paired_sample_df %>%
   rbind(c("Sums",colSums(paired_sample_df[1:5,2:4]))) %>%
   rbind(c("Means",colMeans(paired_sample_df[1:5,2:4])))

paired_sample_df <-  data.frame(infant=1:5, 
	Baseline = round(experiment_one$Baseline_Proportion_Gaze_to_Singer[1:5],
                     digits=2), 
	Test = round(experiment_one$Test_Proportion_Gaze_to_Singer[1:5],
                 digits=2))
differences <-  paired_sample_df$Test-paired_sample_df$Baseline
diff_from_mean <- differences-mean(differences)
Squared_differences <- diff_from_mean^2
paired_sample_df <- cbind(paired_sample_df, 
	differences, diff_from_mean, Squared_differences)
paired_sample_df <- paired_sample_df %>%
	rbind(c("Sums",colSums(paired_sample_df[1:5,2:6]))) %>%
	rbind(c("Means",colMeans(paired_sample_df[1:5,2:6]))) %>%
	rbind(c(" "," "," "," ","sd ",round(sd(paired_sample_df[1:5,4]),
                                        digits=3))) %>%
	rbind(c(" "," "," "," ","SEM ",round(sd(paired_sample_df[1:5,4])/sqrt(5),
                                         digits=3))) %>%
	rbind(c(" "," "," "," ","t",mean(differences)/round(
      sd(paired_sample_df[1:5,4])/sqrt(5), digits=3))
    )
paired_sample_df[6,5]<-0
paired_sample_df[7,5]<-0
knitr::kable(paired_sample_df)

infantil	Línea de base	Test	diferencias	diff_from_mean	Diferencias Cuadradas
1	0.44	0.6	0.16	0.106	0.011236
2	0.41	0.68	0.27	0.216	0.046656
3	0.75	0.72	-0.03	-0.084	0.00705600000000001
4	0.44	0.28	-0.16	-0.214	0.045796
5	0.47	0.5	0.03	-0.024	0.0005759999999999
Sumas	2.51	2.78	0.27	0	0.11132
Medios	0.502	0.556	0.054	0	0.022264
				sd	0.167
				SEM	0.075
				t	0.72

Si hiciéramos esta prueba usando R, obtendríamos casi los mismos números (hay un poco de redondeo en la tabla).

library(data.table)
suppressPackageStartupMessages(library(dplyr))
all_data <- fread(
  "https://stats.libretexts.org/@api/deki/files/10603/MehrSongSpelke2016.csv")
experiment_one <- all_data %>% filter(exp1==1)
paired_sample_df <-  data.frame(infant=1:5, 
	Baseline = round(experiment_one$Baseline_Proportion_Gaze_to_Singer[1:5],
				digits=2), 
	Test = round(experiment_one$Test_Proportion_Gaze_to_Singer[1:5],
				digits=2))
paired_sample_df <- cbind(paired_sample_df,
	differences = (paired_sample_df$Test-
	paired_sample_df$Baseline))
paired_sample_df <- paired_sample_df %>%
   rbind(c("Sums",colSums(paired_sample_df[1:5,2:4]))) %>%
   rbind(c("Means",colMeans(paired_sample_df[1:5,2:4])))

paired_sample_df <-  data.frame(infant=1:5, 
	Baseline = round(experiment_one$Baseline_Proportion_Gaze_to_Singer[1:5],
                     digits=2), 
	Test = round(experiment_one$Test_Proportion_Gaze_to_Singer[1:5],
                 digits=2))
differences <-  paired_sample_df$Test-paired_sample_df$Baseline
diff_from_mean <- differences-mean(differences)
Squared_differences <- diff_from_mean^2
paired_sample_df <- cbind(paired_sample_df, 
	differences, diff_from_mean, Squared_differences)
paired_sample_df <- paired_sample_df %>%
	rbind(c("Sums",colSums(paired_sample_df[1:5,2:6]))) %>%
	rbind(c("Means",colMeans(paired_sample_df[1:5,2:6]))) %>%
	rbind(c(" "," "," "," ","sd ",round(sd(paired_sample_df[1:5,4]),
                                        digits=3))) %>%
	rbind(c(" "," "," "," ","SEM ",round(sd(paired_sample_df[1:5,4])/sqrt(5),
                                         digits=3))) %>%
	rbind(c(" "," "," "," ","t",mean(differences)/round(
      sd(paired_sample_df[1:5,4])/sqrt(5), digits=3))
    )
paired_sample_df[6,5]<-0
paired_sample_df[7,5]<-0

t.test(differences,mu=0)

	One Sample t-test

data:  differences
t = 0.72381, df = 4, p-value = 0.5092
alternative hypothesis: true mean is not equal to 0
95 percent confidence interval:
 -0.1531384  0.2611384
sample estimates:
mean of x 
    0.054

Aquí hay una rápida anotación de nuestros resultados de la prueba t, t (4) = .72, p = .509.

¿Qué nos dice todo eso? Hay algunas cosas en las que aún no nos hemos metido mucho. Por ejemplo, el 4 representa grados de libertad, que discutimos más adelante. La parte importante, el\(t\) valor debería comenzar a ser un poco más significativo. Obtuvimos una especie de pequeño valor t, ¿no?. Es .72. ¿Qué podemos decir de este valor? Primero, es positivo, por lo que sabemos que la diferencia de medias es positiva. El signo del\(t\) -valor es siempre el mismo que el signo de la diferencia de medias (el nuestro fue +0.054). También podemos ver que el valor p era .509. Ya hemos visto valores p antes. Esto nos dice que nuestro\(t\) valor o mayor, ocurre alrededor del 50.9% de las veces... En realidad significa más que esto. Y, para entenderlo, necesitamos hablar del concepto de pruebas de dos colas y de una cola.

Interpretación de ts

Recuerda qué es lo que estamos haciendo aquí. Estamos evaluando si nuestros datos de muestra podrían haber provenido de un tipo particular de distribución. La distribución nula de no diferencias. Esta es la distribución de\(t\) -valores que se producirían para muestras de tamaño 5, con una diferencia media de 0, y un error estándar de la media muestral de .075 (este es el SEM que calculamos a partir de nuestra muestra). Podemos ver cómo se ve esta distribución nula en particular trazándola así:

**Figura**\(\PageIndex{1}\): *Una distribución de valores t que puede ocurrir solo por casualidad, cuando no hay diferencia entre la muestra y una población.*

La\(t\) distribución -anterior nos muestra los tipos de valores\(t\) que tomarán solo por casualidad, cuando medimos las diferencias de medias para pares de 5 muestras (como nuestra corriente). \(t\)es más probable que sea cero, lo cual es bueno, porque estamos viendo la distribución de no-diferencias, ¡que con mayor frecuencia debería ser 0! Pero, a veces, debido al error de muestreo, podemos obtener\(t\) s que son mayores que 0, ya sea en la dirección positiva o negativa. Observe que la distribución es simétrica,\(t\) a de la distribución nula será positiva la mitad del tiempo, y la mitad negativa del tiempo, eso es lo que esperaríamos por casualidad.

Entonces, ¿qué tipo de información queremos saber cuando encontremos un\(t\) valor particular de nuestra muestra? Queremos saber qué tan probable ocurre el\(t\) valor como el que encontramos por casualidad. Esta es en realidad un tipo de pregunta sutilmente matizada. Por ejemplo, cualquier\(t\) valor en particular no tiene una probabilidad específica de ocurrir. Cuando hablamos de probabilidades, estamos hablando de rangos de probabilidades. Consideremos algunas probabilidades. Usaremos la letra\(p\), para hablar de las probabilidades de\(t\) valores particulares.

¿Cuál es la probabilidad de que\(t\) sea cero o positiva o negativa? La respuesta es p=1, o 100%. Siempre tendremos un\(t\) valor que sea cero o distinto de cero... En realidad, si no podemos calcular el valor t, por ejemplo cuando la desviación estándar es indefinida, supongo entonces tendríamos un no-número. Pero, suponiendo que podamos calcular\(t\), entonces siempre será 0 o positivo o negativo.
¿Cuál es la probabilidad de\(t\) = 0 o mayor que 0? La respuesta es p=.5, o 50%. El 50%\(t\) de los valores son 0 o mayores.
¿Cuál es el de\(t\) = 0 o menor que 0? La respuesta es p=.5, o 50%. El 50%\(t\) de los valores son 0 o menores.

Podemos responder a todas esas preguntas con solo mirar nuestra distribución t, y dividirla en dos regiones iguales, el lado izquierdo (que contiene el 50% de los\(t\) valores) y el lado derecho que contiene el 50%\(t\) de los valores).

Y si quisiéramos adoptar un enfoque más fino, digamos que nos interesaban regiones del 10%. Qué tipos de\(t\) s ocurren el 10% del tiempo. Aplicaríamos líneas como las siguientes. Observe, la probabilidad de números mayores (positivos o negativos) se hace menor, así que tenemos que aumentar el ancho de las barras para cada uno de los intervalos entre las barras para contener el 10% de\(t\) los -valores, se ve así:

**Figura**\(\PageIndex{2}\): Dividiendo la distribución t en regiones que contienen cada una 5% de los valores t. El ancho entre las barras se estrecha a medida que se acercan al centro de la distribución, donde hay más valores t.

Considerar las probabilidades (\(p\)) de\(t\) para los diferentes rangos.

\(t\)<= -1.5 (\(t\)es menor o igual a -1.5),\(p\) = 10%
-1.5 >=\(t\) <= -0.9 (\(t\)es igual o entre -1.5 y -.9),\(p\) = 10%
-.9 >=\(t\) <= -0.6 (\(t\)es igual o entre -.9 y -.6),\(p\) = 10%
\(t\)>= 1.5 (\(t\)es mayor o igual a 1.5),\(p\) = 10%

Observe, que los\(p\) s son siempre 10%. \(t\)s ocurren en estos rangos con 10% de probabilidad.

Obtener los valores p para los valores t

Quizás se esté preguntando de dónde estoy sacando algunos de estos valores. Por ejemplo, ¿cómo sé que el 10% de\(t\) los valores (para esta distribución nula) tienen un valor de aproximadamente 1.5 o mayor que 1.5? La respuesta es que usé R para decirme.

En la mayoría de los libros de texto de estadística la respuesta sería: hay una mesa al fondo del libro donde se pueden buscar estas cosas... Este libro de texto no tiene esa tabla. Podríamos hacer uno para ti. Y, podríamos hacer eso. Pero, aún no lo hicimos...

Entonces, ¿de dónde vienen estos valores, cómo puedes averiguar cuáles son? La respuesta complicada es que no vamos a explicar las matemáticas detrás de encontrar estos valores porque, 1) los autores (algunos de nosotros) ciertamente no conocen las matemáticas lo suficientemente bien como para explicarlo, y 2) nos desviaría mucho, 3) aprenderás a obtener estos números en el laboratorio con software, 4) lo harás aprender a obtener estos números en laboratorio sin las matemáticas, solo haciendo una simulación, y 5) puedes hacerlo en R, o excel, o puedes usar una calculadora en línea.

Esto es todo para decir que puedes encontrar los\(t\) s y sus asociados\(p\) s usando software. Pero, el software no te dirá qué significan estos valores. Eso es lo que estamos haciendo aquí. También verás que el software quiere saber algunas cosas más de ti, como los grados de libertad para la prueba, y si la prueba es de una cola o de dos colas. Aún no hemos explicado ninguna de estas cosas. Eso es lo que vamos a hacer ahora. Nota, explicamos grados de libertad al final. Primero, comenzamos con una prueba de una cola.

Pruebas de una cola

Una prueba de una cola a veces también se llama prueba direccional. Se llama prueba direccional, porque un investigador podría tener en mente una hipótesis que sugiera que la diferencia que observan en sus medias va a tener una dirección particular, ya sea una diferencia positiva, o una diferencia negativa.

Por lo general, un investigador establecería un criterio alfa. El criterio alfa describe una línea en la arena para el investigador. A menudo, el criterio alfa se establece en p=.05. ¿Qué significa esto? Veamos de nuevo la gráfica de la\(t\) -distribución, y mostremos el criterio alfa.

**Figura**\(\PageIndex{3}\): *El valor crítico de t para un criterio alfa de 0.05. El 5% de todas las ts se encuentran en este valor o mayores.*

La figura muestra que\(t\) los valores de +2.13 o mayores ocurren el 5% del tiempo. Debido a que la distribución t es simétrica, también sabemos que\(t\) los valores de -2.13 o menores también ocurren el 5% del tiempo. Ambas propiedades son verdaderas bajo la distribución nula de no diferencias. Esto quiere decir, que cuando realmente no hay diferencias, un investigador puede esperar encontrar\(t\) valores de 2.13 o más del 5% de las veces.

Revisemos y conectemos algunos de los términos:

criterio alfa: criterio establecido por el investigador para tomar decisiones sobre si cree que el azar causó o no la diferencia. El criterio alfa aquí se establece en p=.05
Crítico\(t\). El crítico\(t\) es el\(t\) -valor asociado con el criterio alfa. En este caso para una prueba de una cola, es el\(t\) valor donde 5% de todos los\(t\) s son este número o mayores. En nuestro ejemplo, lo crítico\(t\) es 2.13. El 5% de todos\(t\) los valores (con grados de libertad = 4) son +2.13, o mayores que +2.13.
Observado\(t\). El observado\(t\) es el que calculaste a partir de tu muestra. En nuestro ejemplo sobre los infantes, lo observado\(t\) fue\(t\) (4) = 0.72.
p-valor. El\(p\) -valor es la probabilidad de obtener el\(t\) valor observado o mayor. Ahora, podrías mirar hacia atrás en nuestro ejemplo anterior, y encontrar que el\(p\) -valor para\(t\) (4) = .72, era p=.509. SIN EMBARGO, este valor p no se calculó para una prueba unidireccional... (hablamos de lo que significa .509 en la siguiente sección).

Veamos cuál sería el\(p\) valor -value for\(t\) (4) = .72 usando una prueba unidireccional, y cómo se vería:

**Figura**\(\PageIndex{4}\): *Valor crítico para una prueba t unidireccional.*

Demos esto paso a paso. Hemos localizado lo observado\(t\) de .72 en la gráfica. Sombreamos la región correcta todo gris. Lo que vemos es que la región gris representa .256 o 25.6% de todos los\(t\) valores. Es decir, 25.6% de\(t\) los valores son 0.72 o mayores que 0.72. Se podría esperar, solo por casualidad, encontrar un\(t\) valor de .72 o mayor, 25.6% de las veces. Eso es bastante frecuente. Encontramos un\(t\) valor de 0.72. Ahora que sabes que este tipo de\(t\) valor o mayor ocurre 25.6% de las veces, ¿estarías seguro de que la diferencia media no se debió al azar? Probablemente no, dado que el azar puede producir esta diferencia con bastante frecuencia.

Siguiendo el procedimiento “estándar” de toma de decisiones, afirmaríamos que nuestro\(t\) valor no era estadísticamente significativo, porque no era lo suficientemente grande. Si nuestro valor observado fuera mayor que el crítico\(t\) (mayor a 2.13), definido por nuestro criterio alfa, entonces afirmaríamos que nuestro\(t\) valor era estadísticamente signicante. Esto equivaldría a decir que creemos que es poco probable que la diferencia que observamos se deba al azar. En general, para cualquier\(t\) valor observado, el\(p\) -valor asociado le indica la probabilidad\(t\) de que se observe a del tamaño observado o mayor. El\(p\) -value siempre se refiere a un rango de\(t\) -valores, nunca a un solo\(t\) -valor. Los investigadores utilizan el criterio alfa de .05, como cuestión de conveniencia y convención. Existen otras formas de interpretar estos valores que no se basan en una dicotomía estricta (significativa versus no).

Pruebas de dos colas

Bien, así que eso fueron pruebas de una cola... ¿Qué son las pruebas de dos colas, qué es eso? El\(p\) -valor que calculamos originalmente a partir de nuestra\(t\) prueba de muestras emparejadas fue para una prueba de 2 colas. A menudo, el valor predeterminado es que el\(p\) -value es para una prueba de dos colas.

La prueba de dos colas, está planteando una pregunta más general sobre si es probable que una diferencia se haya producido por casualidad. La pregunta es: ¿cuál es la probabilidad de alguna diferencia? También se le llama prueba no direccional, porque aquí no nos importa la dirección o señal de la diferencia (positiva o negativa), solo nos importa si hay algún tipo de diferencia.

Están involucradas las mismas cosas básicas que antes. Definimos un criterio alfa (\(\alpha = 0.05\)). Y, decimos que cualquier\(t\) valor observado que tenga una probabilidad de\(p\) <.05 (\(p\)es menor que .05) se llamará estadísticamente signficante, y los que sean más probables (\(p\)>.05,\(p\) es mayor que .05) se llamarán resultados nulos, o no estadísticamente significativo. La única diferencia es cómo dibujamos el rango alfa. Antes estaba en el lado derecho de la\(t\) distribución (estábamos realizando una prueba unilateral recuerda, así que solo nos interesaba un lado).

Solo echemos un vistazo a cuáles son los 5% más extremos de los valores t, cuando ignoramos si son positivos o negativos:

**Figura**\(\PageIndex{5}\): *Valores críticos para una prueba de dos colas. Cada línea representa la ubicación donde 2.5% de todas las ts son mayores o menores que el valor crítico. El total para ambas colas es del 5%.*

Esto es lo que estamos viendo. Una distribución de no diferencias (la nula, que es lo que estamos viendo), producirá\(t\) s que son 2.78 o mayores 2.5% del tiempo, y\(t\) s que son -2.78 o menores 2.5% del tiempo. 2.5% + 2.5% es un total de 5% del tiempo. También podríamos decir que\(t\) s mayores que +/- 2.78 ocurren 5% de las veces.

Como resultado, el\(t\) valor crítico es (+/-) 2.78 para una prueba de dos colas. Como puede ver, la prueba de dos colas es ciega a la dirección o señal de la diferencia. Debido a esto, el\(t\) valor crítico también es mayor para una prueba de dos colas, que para la prueba de una cola que hicimos antes. Ojalá, ahora puedas ver por qué se llama prueba de dos colas. Hay dos colas de la distribución, una a la izquierda y a la derecha, ambas sombreadas en verde.

Una o dos colas, ¿cuál?

Ahora que sabes que hay dos tipos de pruebas, de una cola, y de dos colas, ¿cuál deberías usar? Hay algo de sabiduría convencional al respecto, pero también cierto debate. Al final, depende de usted poder justificar su elección y por qué es apropiado para usted los datos. Esa es la respuesta real.

La respuesta convencional es que usas una prueba de una cola cuando tienes una teoría o hipótesis que está haciendo una predicción direccional (la teoría predice que la diferencia será positiva, o negativa). De igual manera, usa una prueba de dos colas cuando estés buscando alguna diferencia, y no tienes una teoría que haga una predicción direccional (solo hace la predicción de que habrá una diferencia, ya sea positiva o negativa).

Además, las personas parecen elegir pruebas de una o dos colas en función de lo riesgosas que son como investigadores. Si siempre ejecutaste pruebas de una cola, tus\(t\) valores críticos para tu criterio alfa establecido siempre serían más pequeños que\(t\) los críticos para una prueba de dos colas. A la larga, se harían más errores tipo I, porque el criterio para detectar un efecto es una barra inferior para una de dos pruebas de cola.

Recuerda que los errores tipo 1 ocurren cuando rechazas la idea de que el azar podría haber causado tu diferencia. Muchas veces nunca se sabe cuándo comete este error. Ocurre cada vez que el error de muestreo fue la causa real de la diferencia, pero un investigador descarta esa posibilidad y concluye que su manipulación causó la diferencia.

Del mismo modo, si siempre ejecutaste pruebas de dos colas, incluso cuando tuvieras una predicción direccional, harías menos errores de tipo I a largo plazo, porque el\(t\) para una prueba de dos colas es mayor que el\(t\) para una prueba de una cola. Parece bastante común que los investigadores utilicen una prueba de dos colas más conservadora, incluso cuando están haciendo una predicción direccional basada en la teoría. En la práctica, los investigadores tienden a adoptar un estándar de reporte que es común en su campo. Si la práctica es justificable o no, a veces puede ser una cuestión abierta. La tarea importante para cualquier investigador, o estudiante aprendiendo estadísticas, es poder justificar su elección de prueba.

Grados de libertad

Antes de terminar con muestras emparejadas\(t\) -pruebas, deberíamos hablar de grados de libertad. Nuestro sentido es que los estudiantes realmente no entienden muy bien los grados de libertad. Si estás leyendo este libro de texto, probablemente todavía te estés preguntando qué son los grados de libertad, ya que en realidad no hemos hablado de todo.

Para la\(t\) prueba -existe una fórmula para grados de libertad. Para las\(t\) pruebas de una muestra y muestras pareadas, la fórmula es:

\(\text{Degrees of Freedom} = \text{df} = n-1\). Donde n es el número de muestras en la prueba.

En nuestro ejemplo\(t\) de prueba pareada, hubo 5 infantes. Por lo tanto, grados de libertad = 5-1 = 4.

Bien, esa es una fórmula. A quién le importan los grados de libertad, ¿qué significa el número? Y por qué lo reportamos cuando reportamos una\(t\) -prueba... probablemente hayas notado el número entre paréntesis por ejemplo,\(t\) (4) =.72, el 4 es el\(df\), o grados de libertad.

Grados de libertad es a la vez un concepto, y una corrección. El concepto es que si estimas una propiedad de los números, y usas esta estimación, estarás forzando algunas restricciones en tus números.

Considera los números: 1, 2, 3. La media de estos números es 2. Ahora, digamos que te dije que la media de tres números es 2. Entonces, ¿cuántos de estos tres números tienen libertad? Pregunta graciosa derecha. Lo que queremos decir es, cuántos de los tres números podrían ser cualquier número, o tener la libertad de ser cualquier número.

Los dos primeros números podrían ser cualquier número. Pero, una vez que se establecen esos dos números, el número final (el tercer número), DEBE ser un número particular que haga que la media sea 2. Los dos primeros números tienen libertad. El tercer número no tiene libertad.

Para ilustrar. Escojamos libremente dos números: 51 y -3. Usé mi libertad personal para elegir esos dos números. Ahora bien, si nuestros tres números son 51, -3, y x, y la media de estos tres números es 2. Solo hay una solución, x tiene que ser -42, de lo contrario la media no será 2. Esta es una manera de pensar en grados de libertad. Los grados de libertad para estos tres números es n-1 = 3-1= 2, porque 2 de los números pueden ser libres, pero el último número no tiene libertad, se vuelve fijo después de que se decidan los dos primeros.

Ahora, los estadísticos suelen aplicar grados de libertad a sus cálculos, especialmente cuando un segundo cálculo se basa en un valor estimado. Por ejemplo, cuando calculamos la desviación estándar de una muestra, primero calculamos la media de la muestra ¡derecha! Al estimar la media, estamos fijando un aspecto de nuestra muestra, y así, nuestra muestra ahora tiene n-1 grados de libertad cuando calculamos la desviación estándar (recuerde para la desviación estándar de la muestra, dividimos por n-1... ahí está ese n-1 otra vez.)

Simulando cómo los grados de libertad afectan la distribución t

Hay al menos dos formas de pensar los grados de libertad para una\(t\) -prueba. Por ejemplo, si quieres usar matemáticas para calcular aspectos de la\(t\) distribución, entonces necesitas los grados de libertad para conectarte a la fórmula... Si quieres ver las fórmulas de las que estoy hablando, desplázate hacia abajo en la página de Wikipedia de prueba t y busca la densidad de probabilidad o acumulativa funciones de distribución... Pensamos que eso da bastante miedo para la mayoría de la gente, y una razón por la que no se entienden bien los grados de libertad.

Si quisiéramos simular la\(t\) distribución podríamos ver más fácilmente qué influencia tienen los grados de libertad en la forma de la distribución. Recuerda,\(t\) es una estadística de muestra, es algo que medimos a partir de la muestra. Entonces, podríamos simular el proceso de medición\(t\) a partir de muchas muestras diferentes, luego graficar el histograma de\(t\) para mostrarnos la\(t\) distribución simulada.

**Figura**\(\PageIndex{6}\): *El ancho de la distribución t se contrae a medida que aumenta el tamaño de la muestra.*

Observe que la distribución roja para\(df\) =4, es un poco más corta, y un poco más ancha que la distribución azulo-verde para\(df\) = 100. A medida que aumentan los grados de libertad, la\(t\) distribución se vuelve más alta (en el medio) y más estrecha en el rango. Se pone más pico. ¿Puedes adivinar el motivo de esto? Recuerde, estamos estimando una estadística de muestra, y los grados de libertad son realmente solo un número que se refiere al número de sujetos (bueno menos uno). Y, ya sabemos que a medida que aumentamos\(n\), nuestras estadísticas muestrales se convierten en mejores estimaciones (menos varianza) de los parámetros distribucionales que están estimando. Entonces,\(t\) se convierte en una mejor estimación de su valor “verdadero” a medida que aumenta el tamaño de la muestra, resultando en una distribución más estrecha de\(t\) s.

Hay una\(t\) distribución ligeramente diferente para cada grado de libertad, y las regiones críticas asociadas con el 5% de los valores extremos son, por lo tanto, ligeramente diferentes cada vez. Es por ello que reportamos los grados de libertad para cada prueba t, definen la distribución de\(t\) valores para el tamaño muestral en cuestión. ¿Por qué usamos n-1 y no n? Bueno, calculamos\(t\) usando la desviación estándar de la muestra para estimar el error estándar o la media, esa estimación usa n-1 en el denominador, por lo que nuestra\(t\) distribución se construye asumiendo n-1. Eso es suficiente para grados de libertad...

Search

Text Color

Text Size

Margin Size

Font Type