Saltar al contenido principal
LibreTexts Español

4.2: Prueba T de dos muestras

  • Page ID
    149161
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    Objetivos de aprendizaje
    • Para utilizar Student\(t\) - prueba para dos muestras cuando se tiene una variable de medición y una variable nominal, y la variable nominal tiene sólo dos valores. Se prueba si las medias de la variable de medición son diferentes en los dos grupos.

    Introducción

    Existen varias pruebas estadísticas que utilizan la\(t\) -distribución y pueden llamarse prueba\(t\) -. Una de las más comunes es la prueba de\(t\) Student para dos muestras. Otras\(t\) pruebas incluyen la prueba t de una muestra, que compara una media muestral con una media teórica, y la prueba t pareada.

    La prueba de\(t\) Student para dos muestras es matemáticamente idéntica a un anova unidireccional con dos categorías; debido a que comparar las medias de dos muestras es un diseño experimental tan común, y debido a que la\(t\) prueba es familiar para muchas más personas que el anova, trato a los dos- muestra\(t\) -prueba por separado.

    Cuándo usarlo

    Utilice la\(t\) prueba —de dos muestras cuando tenga una variable nominal y una variable de medición, y desee comparar los valores medios de la variable de medición. La variable nominal debe tener sólo dos valores, como “masculino” y “femenino” o “tratado” y “no tratado”.

    Hipótesis nula

    La hipótesis estadística nula es que las medias de la variable de medición son iguales para las dos categorías.

    Cómo funciona la prueba

    El estadístico de prueba,\(t_s\), se calcula utilizando una fórmula que tiene la diferencia entre las medias en el numerador; esto hace que se\(t_s\) agrandan a medida que las medias se separan más. El denominador es el error estándar de la diferencia en las medias, que se hace menor a medida que disminuyen las varianzas de la muestra o aumentan los tamaños de las muestras. Así\(t_s\) se hace más grande a medida que las medias se separan más, las varianzas se hacen más pequeñas o los tamaños de la muestra aumentan.

    Se calcula la probabilidad de obtener el\(t_s\) valor observado bajo la hipótesis nula usando la\(t\) distribución -. La forma de la distribución t, y por lo tanto la probabilidad de obtener un\(t_s\) valor particular, depende del número de grados de libertad. Los grados de libertad para una\(t\) -prueba es el número total de observaciones en los grupos menos\(2\), o\(n_1+n_2-2\).

    Supuestos

    La prueba\(t\) - supone que las observaciones dentro de cada grupo se distribuyen normalmente. Afortunadamente, no es en absoluto sensible a las desviaciones de esta suposición, si las distribuciones de los dos grupos son las mismas (si ambas distribuciones están sesgadas a la derecha, por ejemplo). He hecho simulaciones con una variedad de distribuciones no normales, incluyendo planas, bimodales y altamente sesgadas, y la\(t\) prueba de dos muestras siempre da\(5\%\) falsos positivos, incluso con tamaños de muestra muy pequeños. Si tus datos son severamente no normales, aún debes intentar encontrar una transformación de datos que los haga más normales, pero no te preocupes si no encuentras una buena transformación o no tienes suficientes datos para verificar la normalidad.

    Si tus datos son severamente no normales, y tienes diferentes distribuciones en los dos grupos (un conjunto de datos está sesgado a la derecha y el otro está sesgado a la izquierda, por ejemplo), y tienes muestras pequeñas (menos que\(50\) o menos), entonces la\(t\) prueba de dos muestras puede dar resultados inexactos, con considerablemente más que\(5\%\) falsos positivos. Una transformación de datos no te ayudará aquí, y tampoco una prueba U de Mann-Whitney. Sería bastante inusual en biología tener dos grupos con distribuciones diferentes pero medias iguales, pero si piensas que eso es una posibilidad, deberías requerir un\(P\) valor mucho menor que\(0.05\) rechazar la hipótesis nula.

    La prueba de dos muestras\(t\) también asume la homocedasticidad (varianzas iguales en los dos grupos). Si tiene un diseño equilibrado (tamaños de muestra iguales en los dos grupos), la prueba no es muy sensible a la heterocedasticidad a menos que el tamaño de la muestra sea muy pequeño (menor que\(10\) o menos); las desviaciones estándar en un grupo pueden ser varias veces más grandes que en el otro grupo, y obtendrá\(P< 0.05\) aproximadamente \(5\%\)del tiempo si la hipótesis nula es verdadera. Con un diseño desequilibrado, la heterocedasticidad es un problema mayor; si el grupo con el tamaño de muestra más pequeño tiene una desviación estándar mayor, la prueba de dos muestras\(t\) puede darte falsos positivos con demasiada frecuencia. Si tus dos grupos tienen desviaciones estándar que son sustancialmente diferentes (como una desviación estándar es dos veces más grande que la otra), y tus tamaños de muestra son pequeños (menores que\(10\)) o desiguales, deberías usar la prueba t de Welch en su lugar.

    Ejemplo

    En el otoño de 2004, los alumnos de la\(2p.m.\) sección de mi clase de Análisis de Datos Biológicos tenían una altura promedio de\(66.6\) pulgadas, mientras que la altura promedio en la\(5p.m.\) sección era de\(64.6\) pulgadas. ¿Las alturas promedio de las dos secciones son significativamente diferentes? Aquí están los datos:

    2 p.m. 5 p.m.
    69 68
    70 62
    66 67
    63 68
    68 69
    70 67
    69 61
    67 59
    62 62
    63 61
    76 69
    59 66
    62 62
    62 62
    75 61
    62 70
    72
    63

    Hay una variable de medida, altura y una variable nominal, sección de clase. La hipótesis nula es que las alturas medias en las dos secciones son las mismas. Los resultados de la\(t\) prueba —(\(t=1.29\),\(32 d.f.\),\(P=0.21\)) no rechazan la hipótesis nula.

    Graficando los resultados

    Debido a que es solo comparar dos números, rara vez pondrás los resultados de una\(t\) prueba en una gráfica para su publicación. Para una presentación, podrías dibujar un gráfico de barras como el de un anova unidireccional.

    Pruebas similares

    La\(t\) prueba de Student es matemáticamente idéntica a un anova unidireccional realizado en datos con dos categorías; obtendrá exactamente el mismo\(P\) valor de una prueba de dos muestras\(t\) y de un anova unidireccional, aunque calcule las estadísticas de la prueba de manera diferente. El\(t\) -test es más fácil de hacer y es familiar para más personas, pero se limita a solo dos categorías de datos. Se puede hacer un anova unidireccional en dos o más categorías. Te recomiendo que si tu investigación siempre implica comparar solo dos medias, debes llamar a tu prueba una\(t\) prueba de dos muestras, porque es más familiar para más personas. Si escribe un artículo que incluye algunas comparaciones de dos medias y algunas comparaciones de más de dos medias, es posible que desee llamar a todas las pruebas anovas unidireccionales, en lugar de cambiar de ida y vuelta entre dos nombres diferentes (\(t\)-test y anova unidireccional) para lo mismo.

    La prueba U de Mann-Whitney es una alternativa no paramétrica a la prueba de dos muestras\(t\) que algunas personas recomiendan para datos no normales. Sin embargo, si las dos muestras tienen la misma distribución, la prueba de dos muestras\(t\) no es sensible a las desviaciones de la normalidad, por lo que puede usar la prueba más potente y familiar en lugar de la\(t\) prueba U de Mann-Whitney. Si las dos muestras tienen distribuciones diferentes, la prueba U de Mann-Whitney no es mejor que la prueba\(t\) -. Entonces, realmente no hay razón para usar la prueba U de Mann-Whitney a menos que tenga una verdadera variable clasificada en lugar de una variable de medición.

    Si las varianzas están lejos de ser iguales (una desviación estándar es dos o más veces más grande que la otra) y los tamaños de sus muestras son pequeños (menores que\(10\)) o desiguales, debe usar la\(t\) prueba de Welch (también conocida como Aspin-Welch, Welch-Satterthwaite, Aspin-Welch-Satterthwaite o Satterthwaite \(t\)- prueba). Es similar a la prueba de\(t\) Student excepto que no asume que las desviaciones estándar son iguales. Es un poco menos potente que la\(t\) prueba de Student cuando las desviaciones estándar son iguales, pero puede ser mucho más precisa cuando las desviaciones estándar son muy desiguales. Mi hoja de cálculo\(t\) de prueba de dos muestras calculará la prueba t —test de Welch. También puedes hacer\(t\) -test de Welch utilizando esta página web, haciendo clic en el botón etiquetado como “Welch's unpairs\(t\) - test”.

    Utilice la prueba t pareada cuando las observaciones de medición vienen en pares, como comparar las fortalezas del brazo derecho con la fuerza del brazo izquierdo en un conjunto de personas.

    Utilice la prueba t —test de una muestra cuando tenga solo un grupo, no dos, y esté comparando la media de la variable de medición para ese grupo con una expectativa teórica.

    Cómo hacer la prueba

    Hojas de Cálculo

    He configurado una hoja de cálculo para t —tests de dos muestras twosamplettest.xls. Realizará ya sea la\(t\) prueba de Student o la de\(t\) Welch, hasta para\(2000\) observaciones en cada grupo.

    Páginas web

    Hay páginas web para hacer la\(t\) prueba aquí y aquí. Ambos harán tanto la\(t\) prueba de Student como la prueba t de Welch.

    R

    El\(R\) compañero de Salvatore Mangiafico tiene una muestra de programas R para la prueba t de dos muestras y la prueba de Welch.

    SAS

    Puede usar PROC TTEST para la\(t\) prueba de Student; el parámetro CLASS es la variable nominal y el parámetro VAR es la variable de medición. Aquí hay un programa de ejemplo para los datos de altura anteriores.

    DATA sectionheight;
    ENTRADA sección $ altura @@;
    DATALINES;
    2pm 69 2pm 70 2pm 66 2pm 63 2pm 68 2pm 70 2pm 69
    2pm 67 2pm 62 2pm 63 2pm 76 2pm 59 2pm 62 2pm 62
    2pm 75 2pm 62 2pm 72 2pm 72 2pm 63
    5pm 68 5pm 62 5pm 67 5pm 68 5pm 69 5pm 67 5pm 61
    5pm 59 5pm 62 5pm 61 5pm 61 5pm 69 5pm 66 5pm 62 5pm 62
    5pm 61 5pm 70
    ;
    PROC TTEST; sección
    CLASE; altura
    VAR;
    RUN;

    La salida incluye mucha información; el\(P\) valor para la prueba t de Student está bajo “Pr > |t| en la línea etiquetada como “Agrupado”, y el\(P\) valor para la\(t\) prueba de Welch está en la línea etiquetada como “Satterthwaite”. Para estos datos, el\(P\) valor es\(0.2067\) para Student's\(t\) - test y\(0.1995\) para Welch's.

    Método Variable Varianzas DF t Valor Pr > |t|

    altura Pooled Igual 32 1.29 0.2067

    altura Satterthwaite Desigual 31.2 1.31 0.1995

    Análisis de potencia

    Para estimar los tamaños de muestra necesarios para detectar una diferencia significativa entre dos medias, se necesita lo siguiente:

    • el tamaño del efecto, o la diferencia en los medios que esperas detectar;
    • la desviación estándar. Por lo general, usarás el mismo valor para cada grupo, pero si sabes con anticipación que un grupo tendrá una desviación estándar mayor que el otro, puedes usar números diferentes;
    • alfa, o el nivel de significancia (generalmente\(0.05\));
    • beta, la probabilidad de aceptar la hipótesis nula cuando es falsa (\(0.50\),\(0.80\), y\(0.90\) son valores comunes);
    • la relación de un tamaño de muestra con respecto al otro. El diseño más potente es tener números iguales en cada grupo (\(N_1/N_2=1.0\)), pero a veces es más fácil obtener grandes números de uno de los grupos. Por ejemplo, si estás comparando la fuerza ósea en ratones que han sido criados en gravedad cero a bordo de la Estación Espacial Internacional frente a ratones de control criados en la tierra, podrías decidir con anticipación usar tres ratones de control por cada ratón espacial caro (\(N_1/N_2=3.0\)).

    El programa G*Power calculará el tamaño de muestra necesario para una\(t\) prueba de dos muestras. Elija “t tests” en el menú “Familia de pruebas” y “Medios: Diferencia entre dos medias independientes (dos grupos” en el menú “Prueba estadística”. Haga clic en el botón “Determinar” e ingrese las medias y desviaciones estándar que espera para cada grupo. Solo es importante la diferencia entre las medias grupales; es el tamaño de tu efecto. Haga clic en “Calcular y transferir a la ventana principal”. Cambia “colas” a dos, establece tu alfa (esto casi siempre lo será\(0.05\)) y tu poder (\(0.5\),\(0.8\), y\(0.9\) se usan comúnmente). Si planeas tener más observaciones en un grupo que en el otro, puedes hacer que la “Relación de asignación” sea diferente de\(1\).

    Como ejemplo, digamos que quieres saber si las personas que corren regularmente tienen los pies más anchos que las personas que no corren. Busca datos publicados anteriormente sobre el ancho del pie y encuentra el conjunto de datos ANSUR, que muestra un ancho medio del pie para los hombres estadounidenses de\(100.6mm\) y una desviación estándar de\(5.26mm\). Tú decides que te gustaría poder detectar una diferencia\(3mm\) en el ancho medio del pie entre corredores y no corredores. Usando G*Power, ingresa\(100mm\) para la media del grupo\(1\),\(103\) para la media del grupo\(2\) y\(5.26\) para la desviación estándar de cada grupo. Tú decides que quieres detectar una diferencia de\(3mm\), a\(P< 0.05\) nivel, con una probabilidad de detectar una diferencia tan grande, si existe, de\(90\%\) (\(1-\text {beta}=0.90\)). Ingresar todos estos números en G*Power da un tamaño de muestra para cada grupo de\(66\) personas.


    This page titled 4.2: Prueba T de dos muestras is shared under a not declared license and was authored, remixed, and/or curated by John H. McDonald via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.