Saltar al contenido principal
Library homepage
 
LibreTexts Español

13.3: La distribución F y la relación F

  • Page ID
    153471
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    La distribución utilizada para la prueba de hipótesis es nueva. Se llama la\(F\) distribución, lleva el nombre de Sir Ronald Fisher, un estadístico inglés. El\(F\) estadístico es una relación (una fracción). Hay dos conjuntos de grados de libertad; uno para el numerador y otro para el denominador.

    Por ejemplo, si\(F\) sigue una\(F\) distribución y el número de grados de libertad para el numerador es cuatro, y el número de grados de libertad para el denominador es diez, entonces\(F \sim F_{4,10}\).

    La\(F\) distribución se deriva de la\(t\) distribución del Estudiante. Los valores de la\(F\) distribución son cuadrados de los valores correspondientes\(t\) de la distribución. ANOVA unidireccional expande la\(t\) prueba -para comparar más de dos grupos. El alcance de esa derivación está más allá del nivel de este curso.

    Para calcular la\(F\) relación se realizan dos estimaciones de la varianza.

    1. Varianza entre muestras: Una estimación de\(\sigma^{2}\) eso es la varianza de las medias de la muestra multiplicada por\(n\) (cuando los tamaños de muestra son los mismos.). Si las muestras son de diferentes tamaños, la varianza entre muestras se pondera para tener en cuenta los diferentes tamaños de muestra. La varianza también se llama variación por tratamiento o variación explicada.
    2. Varianza dentro de las muestras: Una estimación de\(\sigma^{2}\) eso es el promedio de las varianzas de la muestra (también conocida como varianza agrupada). Cuando los tamaños de muestra son diferentes, se pondera la varianza dentro de las muestras. La varianza también se llama la variación por error o variación inexplicable.
    • \(SS_{\text{between}} = \text{the sum of squares that represents the variation among the different samples}\)
    • \(SS_{\text{within}} = \text{the sum of squares that represents the variation within samples that is due to chance}\).

    Encontrar una “suma de cuadrados” significa sumar cantidades cuadradas que, en algunos casos, pueden ser ponderadas. Se utilizó suma de cuadrados para calcular la varianza de la muestra y la desviación estándar de la muestra en lo discutido anteriormente.

    \(MS\)significa “cuadrado medio”. \(MS_{\text{between}}\)es la varianza entre grupos, y\(MS_{\text{within}}\) es la varianza dentro de los grupos.

    Cálculo de Suma de Cuadrados y Cuadrados

    • \(k =\)el número de grupos diferentes
    • \(n_{j} =\)el tamaño del\(j^{th}\) grupo}
    • \(s_{j} =\)la suma de los valores en el\(j^{th}\) grupo
    • \(n =\)número total de todos los valores combinados (tamaño total de la muestra):\[n= \sum n_{j}\]
    • \(x =\)un valor:\[\sum x = \sum s_{j}\]
    • Suma de cuadrados de todos los valores de cada grupo combinado:\[\sum x^{2}\]
    • Variabilidad entre grupos:\[SS_{\text{total}} = \sum x^{2} - \dfrac{\left(\sum x^{2}\right)}{n}\]
    • Suma total de cuadrados:\[\sum x^{2} - \dfrac{\left(\sum x\right)^{2}}{n}\]
    • Variación explicada: suma de cuadrados que representan la variación entre las diferentes muestras:\[SS_{\text{between}} = \sum \left[\dfrac{(s_{j})^{2}}{n_{j}}\right] - \dfrac{\left(\sum s_{j}\right)^{2}}{n}\]
    • Variación inexplicable: suma de cuadrados que representan la variación dentro de las muestras debido al azar:\[SS_{\text{within}} = SS_{\text{total}} - SS_{\text{between}}\]
    • \(df\)'s para diferentes grupos (\(df\)'s para el numerador):\[df = k - 1\]
    • Ecuación para errores dentro de las muestras (\(df\)'s para el denominador):\[df_{\text{within}} = n - k\]
    • Cuadrado medio (estimación de varianza) explicada por los diferentes grupos:\[MS_{\text{between}} = \dfrac{SS_{\text{between}}}{df_{\text{between}}}\]
    • Cuadrado medio (estimación de varianza) que se debe a la casualidad (inexplicable):\[MS_{\text{within}} = \dfrac{SS_{\text{within}}}{df_{\text{within}}}\]

    \(MS_{\text{between}}\)y\(MS_{\text{within}}\) se puede escribir de la siguiente manera:

    \[MS_{\text{between}} = \dfrac{SS_{\text{between}}}{df_{\text{between}}} = \dfrac{SS_{\text{between}}}{k - 1}\]

    \[MS_{\text{within}} = \dfrac{SS_{\text{within}}}{df_{\text{within}}} = \dfrac{SS_{\text{within}}}{n - k}\]

    La prueba de ANOVA unidireccional depende de que\(MS_{\text{between}}\) pueda verse influenciada por las diferencias poblacionales entre medias de los diversos grupos. Dado que\(MS_{\text{within}}\) compara los valores de cada grupo con su propia media de grupo, el hecho de que las medias grupales puedan ser diferentes no afecta\(MS_{\text{within}}\).

    La hipótesis nula dice que todos los grupos son muestras de poblaciones que tienen la misma distribución normal. La hipótesis alternativa dice que al menos dos de los grupos de muestra provienen de poblaciones con diferentes distribuciones normales. Si la hipótesis nula es verdadera,\(MS_{\text{between}}\) y ambos\(MS_{\text{within}}\) deben estimar el mismo valor.

    La hipótesis nula dice que todas las medias poblacionales del grupo son iguales. La hipótesis de igualdad de medias implica que las poblaciones tienen la misma distribución normal, porque se asume que las poblaciones son normales y que tienen varianzas iguales.

    \(F\)-Relación o\(F\) Estadística

    \[F = \dfrac{MS_{\text{between}}}{MS_{\text{within}}}\]

    Si\(MS_{\text{between}}\) y\(MS_{\text{within}}\) estiman el mismo valor (siguiendo la creencia de que\(H_{0}\) es verdad), entonces la\(F\) relación -debe ser aproximadamente igual a uno. En su mayoría, solo los errores de muestreo contribuirían a variaciones alejadas de uno. Resulta que\(MS_{\text{between}}\) consiste en la varianza poblacional más una varianza producida a partir de las diferencias entre las muestras. \(MS_{\text{within}}\)es una estimación de la varianza poblacional. Dado que las varianzas son siempre positivas, si la hipótesis nula es falsa, generalmente\(MS_{\text{between}}\) será mayor que\(MS_{\text{within}}\) .Entonces la\(F\) relación -será mayor que uno. Sin embargo, si el efecto poblacional es pequeño, no es poco\(MS_{\text{within}}\) probable que sea mayor en una muestra dada.

    Los cálculos anteriores se realizaron con grupos de diferentes tamaños. Si los grupos son del mismo tamaño, los cálculos se simplifican un poco y la\(F\) relación -ratio se puede escribir como:

    \(F\)-Ratio Formula when the groups are the same size

    \[F = \dfrac{n \cdot s_{\bar{x}}^{2}}{s^{2}_{\text{pooled}}}\]

    donde...

    • \(n = \text{the sample size}\)
    • \(df_{\text{numerator}} = k - 1\)
    • \(df_{\text{denominator}} = n - k\)
    • \(s^{2}_{\text{pooled}} = \text{the mean of the sample variances (pooled variance)}\)
    • \(s_{\bar{x}^{2}} = \text{the variance of the sample means}\)

    Por lo general, los datos se colocan en una tabla para una fácil visualización. Los resultados de ANOVA unidireccional a menudo se muestran de esta manera por software de computadora.

    Fuente de Variación Suma de Cuadrados (\(SS\)) Grados de Libertad (\(df\)) Cuadrado medio (\(MS\)) \(F\)

    Factor

    (Entre)

    \ (SS\))” style="vertical-align:middle; ">\(SS(\text{Factor})\) \ (df\))” style="vertical-align:middle; ">\(k - 1\) \ (MS\))” style="vertical-align:middle; ">\(MS(\text{Factor}) = \dfrac{SS(\text{Factor})}{(k - 1)}\) \ (F\)” style="vertical-align:middle; ">\(F = \dfrac{MS(\text{Factor})}{MS(\text{Error})}\)

    Error

    (Dentro)

    \ (SS\))” style="vertical-align:middle; ">\(SS(\text{Error})\) \ (df\))” style="vertical-align:middle; ">\(n - k\) \ (MS\))” style="vertical-align:middle; ">\(MS(\text{Error}) = \dfrac{SS(\text{Error})}{(n - k)}\) \ (F\)” style="vertical-align:middle; ">
    Total \ (SS\))” style="vertical-align:middle; ">\(SS(\text{Total})\) \ (df\))” style="vertical-align:middle; ">\(n - 1\) \ (MS\))” style="vertical-align:middle; "> \ (F\)” style="vertical-align:middle; ">

    Ejemplo\(\PageIndex{1}\)

    Se van a probar tres planes de dieta diferentes para determinar la pérdida media de peso. Las entradas en la tabla son las pérdidas de peso para los diferentes planes. Los resultados de ANOVA de una vía se muestran en la Tabla.

    Plan 1:\(n_{1} = 4\) Plan 2:\(n_{2} = 3\) Plan 3:\(n_{3} = 3\)
    \ (n_ {1} = 4\) ">5 \ (n_ {2} = 3\) ">3.5 \ (n_ {3} = 3\) ">8
    \ (n_ {1} = 4\) ">4.5 \ (n_ {2} = 3\) ">7 \ (n_ {3} = 3\) ">4
    \ (n_ {1} = 4\) ">4 \ (n_ {2} = 3\) "> \ (n_ {3} = 3\) ">3.5
    \ (n_ {1} = 4\) ">3 \ (n_ {2} = 3\) ">4.5 \ (n_ {3} = 3\) ">

    \[s_{1} = 16.5, s_{2} =15, s_{3} = 15.7\]

    A continuación se presentan los cálculos necesarios para rellenar la tabla ANOVA unidireccional. La tabla se utiliza para realizar una prueba de hipótesis.

    \[\begin{align} SS(\text{between}) &= \sum \left[\dfrac{(s_{j})^{2}}{n_{j}}\right] - \dfrac{\left(\sum s_{j}\right)^{2}}{n} \\ &= \dfrac{s^{2}_{1}}{4} + \dfrac{s^{2}_{2}}{3} + \dfrac{s^{2}_{3}}{3} + \dfrac{(s_{1} + s_{2} + s_{3})^{2}}{10} \end{align}\]

    dónde\(n_{1} = 4, n_{2} = 3, n_{3} = 3\) y\(n = n_{1} + n_{2} + n_{3} = 10\) así

    \[\begin{align} SS(\text{between}) &= \dfrac{(16.5)^{2}}{4} + \dfrac{(15)^{2}}{3} + \dfrac{(5.5)^{2}}{3} = \dfrac{(16.5 + 15 + 15.5)^{2}}{10} \\ &= 2.2458 \end{align}\]

    \[\begin{align} S(\text{total}) =& \sum x^{2} - \dfrac{\left(\sum x\right)^{2}}{n} \\ =& (5^{2} + 4.5^{2} + 4^{2} + 3^{2} + 3.5^{2} + 7^{2} + 4.5^{2} + 8^{2} + 4^{2} + 3.5^{2}) \\ &− \dfrac{(5 + 4.5 + 4 + 3 + 3.5 + 7 + 4.5 + 8 + 4 + 3.5)^{2}}{10} \\ =& 244 - \dfrac{47^{2}}{10} = 244 - 220.9 \\ =& 23.1 \end{align}\]

    \[\begin{align} SS(\text{within}) &= SS(\text{total}) - SS(\text{between}) \\ &= 23.1 - 2.2458 \\ &= 20.8542 \end{align}\]

    Tabla ANOVA de una vía: Las fórmulas para\(SS(\text{Total})\),\(SS(\text{Factor}) = SS(\text{Between})\) y\(SS(\text{Error}) = SS(\text{Within})\) como se muestra anteriormente. La misma información es proporcionada por la función de prueba de hipótesis de calculadora TI ANOVA en TEST STAT (la sintaxis es\(ANOVA(L1, L2, L3)\) donde\(L1, L2, L3\) tienen los datos del Plan 1, Plan 2, Plan 3 respectivamente).

    Fuente de Variación Suma de Cuadrados (\(SS\)) Grados de Libertad (\(df\)) Cuadrado medio (\(MS\)) \(F\)
    Factor
    (Entre)
    \ (SS\))” style="vertical-align:middle; ">\(SS(\text{Factor}) = SS(\text{Between}) = 2.2458\) \ (df\))” style="vertical-align:middle; ">\(k - 1= 3 \text{ groups} - 1 = 2\) \ (MS\))” style="vertical-align:middle; ">\(MS(\text{Factor}) = \dfrac{SS(\text{Factor})}{(k– 1)} = \dfrac{2.2458}{2} = 1.1229\) \ (F\)” style="vertical-align:middle; ">\(F = \dfrac{MS(\text{Factor})}{MS(\text{Error})} = \dfrac{1.1229}{2.9792} = 0.3769\)
    Error
    (Dentro)
    \ (SS\))” style="vertical-align:middle; ">\(SS(\text{Error}) = SS(\text{Within}) = 20.8542\) \ (df\))” style="vertical-align:middle; ">\(n – k = 10 \text{ total data} - 3 \text{ groups} = 7\) \ (MS\))” style="vertical-align:middle; ">\(MS(\text{Error})) = \dfrac{SS(\text{Error})}{(n– k)} = \dfrac{20.8542}{7} = 2.9792\) \ (F\)” style="vertical-align:middle; ">
    Total \ (SS\))” style="vertical-align:middle; ">\(SS(\text{Total}) = 2.2458 + 20.8542 = 23.1\) \ (df\))” style="vertical-align:middle; ">\(n - 1 = 10 \text{ total data} - 1 = 9\) \ (MS\))” style="vertical-align:middle; "> \ (F\)” style="vertical-align:middle; ">

    Ejercicio\(\PageIndex{1}\)

    Como parte de un experimento para ver cómo diferentes tipos de cobertura del suelo afectarían la producción de tomate en rebanado, estudiantes del Colegio Marista cultivaron plantas de tomate bajo diferentes condiciones de cobertura del suelo. Grupos de tres plantas cada uno tuvieron uno de los siguientes tratamientos

    • suelo desnudo
    • una cubierta de suelo comercial
    • plástico negro
    • paja
    • compost

    Todas las plantas crecieron en las mismas condiciones y fueron de la misma variedad. Los estudiantes registraron el peso (en gramos) de los tomates producidos por cada una de las\(n = 15\) plantas:

    Desnudo:\(n_{1} = 3\) Cubierta del suelo:\(n_{2} = 3\) Plástico:\(n_{3} = 3\) Paja:\(n_{4} = 3\) Compost:\(n_{5} = 3\)
    \ (n_ {1} = 3\) ">2.625 \ (n_ {2} = 3\) ">5.348 \ (n_ {3} = 3\) ">6.583 \ (n_ {4} = 3\) ">7.285 \ (n_ {5} = 3\) ">6.277
    \ (n_ {1} = 3\) ">2.997 \ (n_ {2} = 3\) ">5.682 \ (n_ {3} = 3\) ">8.560 \ (n_ {4} = 3\) ">6.897 \ (n_ {5} = 3\) ">7.818
    \ (n_ {1} = 3\) ">4.915 \ (n_ {2} = 3\) ">5.482 \ (n_ {3} = 3\) ">3,830 \ (n_ {4} = 3\) ">9.230 \ (n_ {5} = 3\) ">8.677

    Crear la tabla ANOVA unidireccional.

    Contestar

    Ingresa los datos en las listas L1, L2, L3, L4 y L5. Presiona STAT y flecha hacia Tests. Flecha hacia abajo a ANOVA. Presione ENTER e ingrese L1, L2, L3, L4, L5). Presione ENTER. La tabla se rellenó con los resultados de la calculadora.

    Tabla ANOVA unidireccional
    Fuente de Variación Suma de Cuadrados (\(SS\)) Grados de Libertad (\(df\)) Cuadrado medio (\(MS\)) \(F\)
    Factor (Entre) \ (SS\)) ">36,648,561 \ (df\)) ">\(5 - 1 = 4\) \ (MS\)) ">\(\dfrac{36,648,561}{4} = 9,162,140\) \ (F\) ">\(\dfrac{9,162,140}{2,044,672.6} = 4.4810\)
    Error (Dentro) \ (SS\)) ">20.446.726 \ (df\)) ">\(15 - 5 = 10\) \ (MS\)) ">\(\dfrac{20,446,726}{10} = 2,044,672.6\) \ (F\) ">
    Total \ (SS\)) ">57,095,287 \ (df\)) ">\(15 - 1 = 14\) \ (MS\)) "> \ (F\) ">

    La prueba de hipótesis ANOVA unidireccional siempre es de cola derecha porque\(F\) los valores más grandes están fuera en la cola derecha\(F\) de la curva de distribución y tienden a hacernos rechazar\(H_{0}\).

    Notación

    La notación para la\(F\) distribución es\(F \sim F{df(\text{num}),df(\text{denom})}\)

    donde\(df(\text{num}) = df_{between} and df(\text{denom}) = df_{within}\)

    La media para la\(F\) distribución es\(\mu = \dfrac{df(\text{num})}{df(\text{denom}) - 1}\)

    Referencias

    1. Tomate Data, Escuela de Ciencias del Colegio Marista (investigación estudiantil inédita)

    Revisar

    El análisis de varianza compara las medias de una variable de respuesta para varios grupos. El ANOVA compara la variación dentro de cada grupo con la variación de la media de cada grupo. La relación de estos dos es el\(F\) estadístico de una\(F\) distribución con (número de grupos — 1) como los grados de libertad del numerador y (número de observaciones — número de grupos) como el denominador grados de libertad. Estas estadísticas se resumen en la tabla ANOVA.

    Revisión de Fórmula

    \(SS_{between} = \sum \left[\dfrac{(s_{j})^{2}}{n_{j}}\right] - \dfrac{\left(\sum s_{j}\right)^{2}}{n}\)

    \(SS_{\text{total}} = \sum x^{2} - \dfrac{\left(\sum x\right)^{2}}{n}\)

    \(SS_{\text{within}} = SS_{\text{total}} - SS_{\text{between}}\)

    \(df_{\text{between}} = df(\text{num}) = k - 1\)

    \(df_{\text{within}} = df(\text{denom}) = n - k\)

    \(MS_{\text{between}} = \dfrac{SS_{\text{between}}}{df_{\text{between}}}\)

    \(MS_{\text{within}} = \dfrac{SS_{\text{within}}}{df_{\text{within}}}\)

    \(F = \dfrac{MS_{\text{between}}}{MS_{\text{within}}}\)

    \(F\)cuando los grupos son del mismo tamaño:\(F = \dfrac{ns_{\bar{x}}^{2}}{s^{2}_{\text{pooled}}}\)

    Media de la\(F\) distribución:\(\mu = \dfrac{df(\text{num})}{df(\text{denom}) - 1}\)

    donde:

    • \(k =\)el número de grupos
    • \(n_{j} =\)el tamaño del\(j^{th}\) grupo
    • \(s_{j} =\)la suma de los valores en el\(j^{th}\) grupo
    • \(n =\)el número total de todos los valores (observaciones) combinados
    • \(x =\)un valor (una observación) de los datos
    • \(s_{\bar{x}}^{2} =\)la varianza de las medias de la muestra
    • \(s^{2}_{\text{pooled}} =\)la media de las varianzas de la muestra (varianza agrupada)

    Colaboradores y Atribuciones

    Paul Flowers (University of North Carolina - Pembroke), Klaus Theopold (University of Delaware) and Richard Langley (Stephen F. Austin State University) with contributing authors. Textbook content produced by OpenStax College is licensed under a Creative Commons Attribution License 4.0 license. Download for free at http://cnx.org/contents/85abf193-2bd...a7ac8df6@9.110).


    This page titled 13.3: La distribución F y la relación F is shared under a CC BY 4.0 license and was authored, remixed, and/or curated by OpenStax via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.