Saltar al contenido principal
LibreTexts Español

11.2: Fuentes de varianza

  • Page ID
    150932
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    El ANOVA consiste en observar las diferentes fuentes de varianza (es decir, las razones por las que las puntuaciones difieren entre sí) en un conjunto de datos. Afortunadamente, la forma en que calculamos estas fuentes de varianza toma una forma muy familiar: la Suma de Cuadrados. Antes de entrar en los propios cálculos, primero debemos establecer alguna terminología y notación importantes.

    En ANOVA, estamos trabajando con dos variables, una variable de agrupación o explicativa y una variable de resultado continuo. La variable de agrupación es nuestro predictor (predice o explica los valores en la variable resultado) o, en términos experimentales, nuestra variable independiente, y está compuesta por\(k\) grupos,\(k\) siendo cualquier número entero 2 o mayor. Es decir, el ANOVA requiere de dos o más grupos para trabajar, y generalmente se realiza con tres o más. En ANOVA, nos referimos a los grupos como “niveles”, por lo que el número de niveles es solo el número de grupos, que de nuevo lo es\(k\). En el ejemplo anterior, nuestra variable de agrupación fue la educación, la cual tuvo 3 niveles, por lo que\(k\) = 3. Cuando reportamos algún valor descriptivo (por ejemplo, media, tamaño de muestra, desviación estándar) para un grupo específico, usaremos un subíndice 1...\(k\) para denotar a qué grupo se refiere. Por ejemplo, si tenemos tres grupos y queremos reportar la desviación estándar\(s\) para cada grupo, los reportaríamos como\(s_1\),\(s_2\), y\(s_3\).

    Nuestra segunda variable es nuestra variable de resultado. Esta es la variable en la que se diferencian las personas, y estamos tratando de explicar o dar cuenta de esas diferencias en función de la pertenencia al grupo. En el ejemplo anterior, nuestro resultado fue la puntuación que cada persona obtuvo en la prueba. Nuestra variable de resultado seguirá usándose\(X\) para los puntajes como antes. Al describir la variable de resultado usando medias, usaremos subíndices para referirnos a medias grupales específicas. Entonces, si tenemos\(k\) = 3 grupos, nuestros medios serán\(\overline{X_{1}}\),\(\overline{X_{2}}\), y\(\overline{X_{3}}\). También tendremos una media única que representa el promedio de todos los participantes en todos los grupos. Esto se conoce como la gran media, y usamos el símbolo\(\overline{X_{G}}\). Estos medios diferentes —las medias grupales individuales y la gran media general— serán la forma en que calculemos nuestras sumas de cuadrados.

    Finalmente, ahora tenemos que diferenciar entre varios tamaños de muestra diferentes. Nuestros datos ahora tendrán tamaños de muestra para cada grupo, y los denotaremos con una minúscula “\(n\)” y un subíndice, al igual que con nuestras otras estadísticas descriptivas:\(n_1\),\(n_2\), y\(n_3\). También tenemos el tamaño general de la muestra en nuestro conjunto de datos, y lo denotaremos con un capital\(N\). El tamaño total de la muestra es solo los tamaños de muestra del grupo que se suman.

    Entre Grupos Suma de Cuadrados

    Una fuente de variabilidad que podemos identificar en 11.1.3 del ejemplo anterior fueron las diferencias o variabilidad entre los grupos. Es decir, los grupos claramente tenían diferentes niveles promedio. La variabilidad derivada de estas diferencias se conoce como variabilidad entre grupos, y se cuantifica mediante la Suma de Cuadrados Entre Grupos.

    Nuestros cálculos para las sumas de cuadrados en ANOVA tomarán la misma forma que lo hizo para los cálculos regulares de varianza. Cada observación, en este caso las medias grupales, se compara con la media general, en este caso la gran media, para calcular una puntuación de desviación. Estas puntuaciones de desviación son cuadradas para que no se cancelen entre sí y sumen a cero. Luego se suman o suman las desviaciones cuadradas. Sin embargo, hay una pequeña diferencia. Debido a que cada media de grupo representa un grupo compuesto por varias personas, antes de sumar los puntajes de desviación debemos multiplicarlos por el número de personas dentro de ese grupo. Incorporando esto, encontramos que nuestra ecuación para la Suma de Cuadrados Entre Grupos es:

    \[S S_{B}=\sum n_{j}\left(\overline{X}_{J}-\overline{X_{G}}\right)^{2} \]

    El subíndice\(j\) se refiere al grupo “\(j^{th}\)” donde\(j\) = 1...\(k\) para hacer un seguimiento de la media del grupo y el tamaño de la muestra con que estamos trabajando. Como puede ver, la única diferencia entre esta ecuación y la familiar suma de cuadrados para la varianza es que estamos sumando en el tamaño de la muestra. Todo lo demás encaja lógicamente de la misma manera.

    Dentro de Grupos Suma de Cuadrados

    La otra fuente de variabilidad en las cifras proviene de las diferencias que ocurren dentro de cada grupo. Es decir, cada individuo se desvía un poco de su respectiva media grupal, al igual que las medias grupales diferían de la gran media. Por lo tanto etiquetamos esta fuente como la Suma de Cuadrados Dentro de Grupos Debido a que estamos tratando de dar cuenta de la varianza basada en medias a nivel de grupo, cualquier desviación de las medias de grupo indica una inexactitud o error. Así, nuestra variabilidad dentro de grupos representa nuestro error en el ANOVA.

    La fórmula para esta suma de cuadrados volverá a tomar la misma forma y lógica. Lo que buscamos es la distancia entre cada persona individual y la media del grupo al que pertenece. Calculamos esta puntuación de desviación, la cuadramos para que se puedan sumar, luego sumarlas todas en un solo valor general:

    \[S S_{W}=\sum\left(X_{i j}-\overline{X}_{j}\right)^{2} \]

    En esta instancia, debido a que estamos calculando esta puntuación de desviación para cada persona individual, no hay necesidad de multiplicar por cuántas personas tenemos. El subíndice\(j\) nuevamente representa un grupo y el subíndice\(i\) se refiere a una persona específica. Entonces,\(X_{ij}\) se lee como “la\(i^{th}\) persona del\(j^{th}\) grupo”. Es importante recordar que la puntuación de desviación para cada persona solo se calcula en relación con su media grupal: no calcule estas puntuaciones en relación con las otras medias grupales.

    Suma Total de Cuadrados

    Las Sumas de Cuadrados Entre Grupos y Dentro de Grupos representan toda la variabilidad en nuestro conjunto de datos. También nos referimos a la variabilidad total como la Suma Total de Cuadrados, representando la variabilidad global con un solo número. El cálculo para esta puntuación es exactamente el mismo que sería si estuviéramos calculando la varianza general en el conjunto de datos (porque eso es lo que nos interesa explicar) sin preocuparnos ni siquiera conocer los grupos en los que caen nuestras puntuaciones:

    \[S S_{T}=\sum\left(X_{i}-\overline{X_{G}}\right)^{2} \]

    Podemos ver que nuestra Suma Total de Cuadrados es solo cada puntaje individual menos la gran media. Al igual que con nuestra Suma de Cuadrados Dentro de Grupos, estamos calculando una puntuación de desviación para cada persona individual, por lo que no necesitamos multiplicar nada por el tamaño de la muestra; eso solo se hace para Entre Grupos Suma de Cuadrados.

    Una característica importante de las sumas de cuadrados en ANOVA es que todos encajan entre sí. Podríamos trabajar a través del álgebra para demostrar que si sumamos las fórmulas para\(SS_B\) y\(SS_W\), terminaríamos con la fórmula para\(SS_T\). Es decir:

    \[S S_{T}=S S_{B}+S S_{W} \]

    Esto va a resultar muy conveniente, pues si conocemos los valores de dos cualesquiera de nuestras sumas de cuadrados, es muy rápido y fácil encontrar el valor del tercero. También es una buena manera de verificar los cálculos: si calculas cada uno a\(SS\) mano, puedes asegurarte de que todos encajen como se muestra arriba, y si no, sabes que cometiste un error matemático en alguna parte.

    Podemos ver por las fórmulas anteriores que calcular un ANOVA a mano a partir de datos brutos puede llevar un tiempo muy, muy largo. Por esta razón, no se te requerirá calcular los valores de SS a mano, pero aún así debes tomarte el tiempo para entender cómo encajan y qué representa cada uno para asegurarte de entender el análisis en sí.


    This page titled 11.2: Fuentes de varianza is shared under a CC BY-NC-SA 4.0 license and was authored, remixed, and/or curated by Foster et al. (University of Missouri’s Affordable and Open Access Educational Resources Initiative) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.