Saltar al contenido principal
LibreTexts Español

5.2: Comparaciones múltiples

  • Page ID
    149499
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Cuando la hipótesis nula es rechazada por la prueba F, creemos que existen diferencias significativas entre las k medias poblacionales. Entonces, ¿cuáles son diferentes? El método de comparación múltiple es la manera de identificar cuáles de las medias son diferentes mientras se controla el error experimental (el riesgo acumulado asociado a una familia de comparaciones). Hay muchos métodos de comparación múltiples disponibles.

    En La Prueba de Diferencia Menos Significativa, cada hipótesis individual se prueba con el estadístico t de estudiante. Cuando la probabilidad de error Tipo I se establece en algún valor y la varianza s2 tiene v grados de libertad, la hipótesis nula es rechazada para cualquier valor observado tal que |to|>tα/2, v. Es una versión abreviada de la realización de todas las posibles pruebas t por pares. Este método tiene una tasa de error débil en cuanto al experimento. El LSD protegido de Fisher es algo mejor para controlar este problema.

    La desigualdad Bonferroni es una alternativa conservadora cuando el software no está disponible. Al realizar n comparaciones, αe≤ n αc por lo tanto αc = αe/n En otras palabras, divida el nivel de significancia experimental por el número de comparaciones múltiples para obtener el nivel de significancia en comparación. El procedimiento de Bonferroni se basa en el cálculo de intervalos de confianza para las diferencias entre cada par posible de μ. El valor crítico para los intervalos de confianza proviene de una tabla con (N — k) grados de libertad y k (k — 1) /2 número de intervalos. Si un intervalo en particular no contiene cero, las dos medias se declaran significativamente diferentes entre sí. Un intervalo que contiene cero indica que las dos medias NO son significativamente diferentes.

    El procedimiento de Dunnett se creó para estudios donde uno de los tratamientos actúa como tratamiento control para algunos o todos los tratamientos restantes. Se utiliza principalmente si el interés del estudio es determinar si las respuestas medias para los tratamientos difieren de las del testigo. Al igual que Bonferroni, se crean intervalos de confianza para estimar la diferencia entre dos medias de tratamiento con una tabla específica de valores críticos utilizados para controlar la tasa de error experimental. El error estándar de la diferencia esImage37382.PNG.

    La prueba de Scheffe es también un método conservador para todas las posibles comparaciones simultáneas sugeridas por los datos. Esta prueba equipara el estadístico F del ANOVA con el estadístico de la prueba t. Desde t2 = F entonces t = √F, podemos sustituir √F (αe, v1, v2) por t (αe, v2) por la estadística de Scheffe.

    La prueba de Tukey proporciona una fuerte sensación de tasa de error experimental para todas las comparaciones por pares de medias de tratamiento. Esta prueba también se conoce como la Diferencia Honestamente Significativa. Esta prueba ordena los tratamientos de menor a mayor y utiliza la estadística de rango studentizado

    \[q=\dfrac {\bar {y}(largest)-\bar y (smallest)}{\sqrt {MSE/r}}\]

    Se utiliza la diferencia absoluta de las dos medias porque la ubicación de las dos medias en la diferencia calculada es arbitraria, con el signo de la diferencia dependiendo de qué media se use primero. Para replicaciones desiguales, se utiliza en su lugar la aproximación Tukey-Kramer.

    La prueba Student-Newman-Keuls (SNK) es una prueba de rango múltiple basada en el estadístico de rango studentizado como el de Tukey, el valor crítico se basa en un par particular de medias que se prueban dentro de todo el conjunto de medias ordenadas. Se utilizan dos o más rangos entre medias para los criterios de prueba. Si bien es similar a la de Tukey en términos de estadística de prueba, tiene tasas de error débiles en cuanto a experimentos.

    Las pruebas de Bonferroni, Dunnett y Scheffe son las más conservadoras, lo que significa que la diferencia entre las dos medias debe ser mayor antes de concluir una diferencia significativa. Las pruebas LSD y SNK son las menos conservadoras. La prueba de Tukey está en el medio. Robert Kuehl, autor de Design of Experiments: Statistical Principles of Research Design and Analysis (2000), afirma que el método Tukey brinda la mejor protección contra errores de decisión, junto con una fuerte inferencia sobre la magnitud y dirección de las diferencias.

    Volvamos a nuestra pregunta sobre la acidez media de la lluvia en Alaska, Florida y Texas. Las hipótesis nulas y alternativas fueron las siguientes:

    H 0: μA = μF = μT

    H 1: al menos una de las medias es diferente

    El valor p para la prueba F fue de 0.000229, lo que es menor que nuestro nivel de significancia del 5%. Rechazamos la hipótesis nula y tuvimos pruebas suficientes para apoyar la afirmación de que al menos una de las medias era significativamente diferente de otra. Utilizaremos los métodos de Bonferroni y Tukey para múltiples comparaciones con el fin de determinar qué media (s) es diferente (s).

    Método de comparación múltiple de Bonferroni

    Se calcula un intervalo de confianza de Bonferroni para cada comparación por pares. Para k poblaciones, habrá k (k -1) /2 comparaciones múltiples. El intervalo de confianza toma la forma de:

    \(For \ \mu_1 - \mu_2 : (\bar {x_1}-\bar {x_2}) \pm (Bonferronit \ critical \ value) \sqrt{\dfrac {MSE}{n_1} +\dfrac {MSE}{n_2}}\)

    \(For \ \mu_{k-1} - \mu_k: (\bar {x_{k-1}} - \bar {x_k}) \pm (Bonferronit \ critical \ value) \sqrt {\dfrac {MSE}{n_{k-1}}+\dfrac{MSE}{n_k}}\)

    Donde MSE es de la tabla de análisis de varianza y el valor crítico de t de Bonferroni proviene de la Tabla Bonferroni que se da a continuación. El valor crítico de Bonferroni t, en lugar del valor crítico t de student, combinado con el uso del MSE se utiliza para lograr un nivel de confianza simultáneo de al menos 95% para todos los intervalos computados. Se juzga que las dos medias son significativamente diferentes si el intervalo correspondiente no incluye cero.

    8535.png

    Cuadro 5. Valores críticos t de Bonferroni.

    Para este problema, k = 3 así que hay k (k — 1) /2= 3 (3 — 1) /2 = 3 comparaciones múltiples. Los grados de libertad son iguales a N — k = 18 — 3 = 15. El valor crítico de Bonferroni es de 2.69.

    \(For \mu_A -\mu_F : (5.033-4.517) \pm (2.69) \sqrt {\dfrac {0.1011}{6} +\dfrac {0.1011}{6}} = (0.0222, 1.0098)\)

    \(For \mu_A - \mu_T : (5.033-5.537) \pm (2.69)\sqrt {\dfrac {0.1011}{6} +\dfrac {0.1011}{6}} = (-0.9978, -0.0102)\)

    \(For \mu_F - \mu_T : (4.517-5.537) \pm (2.69)\sqrt {\dfrac {0.1011}{6} +\dfrac {0.1011}{6}} = (-1.5138, 0.5262)\)

    El primer intervalo de confianza contiene todos los valores positivos. Esto le dice que hay una diferencia significativa entre las dos medias y que el pH medio de lluvia para Alaska es significativamente mayor que el pH medio de lluvia para Florida.

    El segundo intervalo de confianza contiene todos los valores negativos. Esto le dice que hay una diferencia significativa entre las dos medias y que el pH medio de lluvia de Alaska es significativamente menor que el pH medio de lluvia de Texas.

    El tercer intervalo de confianza también contiene todos los valores negativos. Esto le dice que hay una diferencia significativa entre las dos medias y que el pH medio de lluvia de Florida es significativamente menor que el pH medio de lluvia de Texas.

    Los tres estados tienen niveles significativamente diferentes de pH de lluvia. Texas tiene el pH de lluvia más alto, luego Alaska seguido de Florida, que tiene el nivel medio de pH de lluvia más bajo. Puede utilizar los intervalos de confianza para estimar la diferencia media entre los estados. Por ejemplo, el pH promedio de lluvia en Texas oscila entre 0.5262 y 1.5138 más alto que el pH promedio de lluvia en Florida.

    Ahora usemos el método Tukey para múltiples comparaciones. Vamos a dejar que el software calcule los valores por nosotros. Excel no hace múltiples comparaciones así que vamos a confiar en la salida de Minitab.

    095.tif

    ANOVA unidireccional: pH vs estado

    Fuente

    DF

    SS

    MS

    F

    P

    estado

    2

    3.121

    1.561

    15.4

    0.000

    Error

    15

    1.517

    0.101

    Total

    17

    4.638

    S = 0.3180

    R-Sq = 67.29%

    R-Sq (adj) = 62.93%

    Ya hemos visto esta parte de la salida antes. Ahora queremos enfocarnos en el Método de Agrupación de Información Usando Tukey. Los tres estados tienen letras diferentes que indican que el pH medio de la lluvia para cada estado es significativamente diferente. También se listan de mayor a menor. Es fácil ver que Texas tiene el pH medio de lluvia más alto mientras que Florida tiene el más bajo.

    Agrupación de información mediante el método Tukey

    estado

    N

    Media

    Agrupación

    Texas

    6

    5.5367

    A

    Alaska

    6

    5.0333

    B

    Florida

    6

    4.516

    C

    Los medios que no comparten una letra son significativamente diferentes.

    Este siguiente conjunto de intervalos de confianza es similar a los intervalos de confianza de Bonferroni. Estiman la diferencia de cada par de medias. El nivel del intervalo de confianza individual se establece en 97.97% en lugar de 95%, controlando así la tasa de error experimental.

    Intervalos de confianza simultáneos de Tukey

    Todas las comparaciones por pares entre niveles de estado

    Nivel de confianza individual = 97.97%

    estado = Alaska restado de:

    estado

    Inferior

    Centro

    Superior

    ———+———+———+———+

    Florida

    -0.9931

    -0.5167

    -0.0402

    (——*—-)

    Texas

    0.0269

    0.5033

    0.9798

    (——*——)

    ———+———+———+———+

    -0.80

    0.00

    0.80

    1.60

    estado = Florida restado de:

    estado

    Inferior

    Centro

    Superior

    ———+———+———+———+

    Texas

    0.5435

    1.0200

    1.4965

    (——*——)

    ———+———+———+———+

    -0.80

    0.00

    0.80

    1.60

    El primer emparejamiento es Florida — Alaska, lo que resulta en un intervalo de (-0.9931, -0.0402). El intervalo tiene todos los valores negativos que indican que Florida es significativamente menor que Alaska. El segundo emparejamiento es Texas — Alaska, que resulta en un intervalo de (0.0269, 0.9798). El intervalo tiene todos los valores positivos que indican que Texas es mayor que Alaska. El tercer emparejamiento es Texas — Florida, lo que resulta en un intervalo de (0.5435, 1.4965). Todos los valores positivos indican que Texas es mayor que Florida.

    Los intervalos son similares a los intervalos de Bonferroni con diferencias de ancho debido a los métodos utilizados. En ambos casos se llega a las mismas conclusiones.

    Cuando usamos ANOVA unidireccional y concluimos que las diferencias entre las medias son significativas, no podemos estar absolutamente seguros de que el factor dado sea responsable de las diferencias. Es posible que la variación de algún otro factor desconocido sea la responsable. Una forma de reducir el efecto de factores extraños es diseñar un experimento para que tenga un diseño completamente aleatorio. Esto significa que cada elemento tiene igual probabilidad de recibir algún tratamiento o pertenecer a cualquier grupo diferente. En general, los buenos resultados requieren que el experimento sea cuidadosamente diseñado y ejecutado.

    Ejemplo adicional:

    https://youtu.be/BMyYXc8cWHs


    This page titled 5.2: Comparaciones múltiples is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.