14.3: Partición de Sumas de Cuadrados

Última actualización
Guardar como PDF

Page ID: 152306

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Objetivos de aprendizaje

Calcular la suma de cuadrados\(Y\)
Convertir puntuaciones sin procesar en puntuaciones de desviación
Calcular las puntuaciones predichas a partir de una ecuación
Dividir la suma de cuadrados\(Y\) en la suma de cuadrados previstos y el error de la suma de cuadrados
Definir\(r^2\) en términos de suma de cuadrados explicados y suma de cuadrados\(Y\)

Un aspecto útil de la regresión es que puede dividir la variación en\(Y\) dos partes: la variación de las puntuaciones predichas y la variación de los errores de predicción. La variación de\(Y\) se llama la suma de cuadrados\(Y\) y se define como la suma de las desviaciones cuadradas\(Y\) de la media de\(Y\). En la población, la fórmula es

\[ SSY = \sum (Y-\mu_Y)^2\]

donde\(SSY\) es la suma de cuadrados\(Y\),\(Y\) es un valor individual de\(Y\), y\(μ_y\) es la media de\(Y\). Un ejemplo sencillo se da en la Tabla\(\PageIndex{1}\). La media de\(Y\) es\(2.06\) y\(SSY\) es la suma de los valores en la tercera columna y es igual a\(4.597\).

Tabla\(\PageIndex{1}\): *Ejemplo de SSY*
Y	_Y-M	(Y-M _y) ²
1.00	-1.06	1.1236
2.00	-0.06	0.0036
1.30	-0.76	0.5776
3.75	1.69	2.8561
2.25	0.19	0.0361

Cuando se computa en una muestra, se debe utilizar la media muestral,\(M\), en lugar de la media poblacional:

\[ SSY = \sum (Y-M_Y)^2\]

A veces es conveniente usar fórmulas que usen puntuaciones de desviación en lugar de puntuaciones en bruto. Las puntuaciones de desviación son simplemente desviaciones de la media. Por convención, las letras minúsculas en lugar de mayúsculas se utilizan para las puntuaciones de desviación. Por lo tanto, la puntuación\(y\) indica la diferencia entre\(Y\) y la media de\(Y\). \(\PageIndex{2}\)La tabla muestra el uso de esta notación. Los números son los mismos que en la Tabla\(\PageIndex{1}\).

Tabla\(\PageIndex{2}\): *Ejemplo de\(SSY\) uso de puntuaciones de desviación*
Y	y	y ²
1.00	-1.06	1.1236
2.00	-0.06	0.0036
1.30	-0.76	0.5776
3.75	1.69	2.8561
2.25	0.19	0.0361

Los datos de la Tabla\(\PageIndex{3}\) se reproducen de la sección introductoria. La columna\(X\) tiene los valores de la variable predictora y la columna\(Y\) tiene la variable criterio. La tercera columna,\(y\), contiene las diferencias entre la columna\(Y\) y la media de\(Y\).

Tabla\(\PageIndex{4}\): *Datos de ejemplo (La última fila contiene sumas de columnas)*
X	Y	y	y ²	Y'	y'	y' ²	Y-Y'	(Y-Y') ²
1.00	1.00	-1.06	1.1236	1.210	-0.850	0.7225	-0.210	0.044
2.00	2.00	-0.06	0.0036	1.635	-0.425	0.1806	0.365	0.133
3.00	1.30	-0.76	0.5776	2.060	0.000	0.0000	-0.760	0.578
4.00	3.75	1.69	2.8561	2.485	0.425	0.1806	1.265	1.600
5.00	2.25	0.19	0.0361	2.910	0.850	0.7225	-0.660	0.436
Sumas
15.00	10.30	0.00	4.597	10.300	0.000	1.806	0.000	2.791

La cuarta columna,\(y^2\), es simplemente el cuadrado de la\(y\) columna. La columna\(Y'\) contiene los valores predichos de\(Y\). En la sección introductoria, se demostró que la ecuación para la línea de regresión para estos datos es

\[Y' = 0.425X + 0.785.\]

Los valores de\(Y'\) se calcularon de acuerdo con esta ecuación. La columna\(y'\) contiene desviaciones\(Y'\) de la media de\(Y'\) y\(y'^2\) es el cuadrado de esta columna. La columna siguiente a la última,\(Y-Y'\), contiene las puntuaciones reales (\(Y\)) menos las puntuaciones predichas (\(Y'\)). La última columna contiene los cuadrados de estos errores de predicción.

Ahora estamos en condiciones de ver cómo\(SSY\) se divide el. Recordemos que\(SSY\) es la suma de las desviaciones cuadradas de la media. Por lo tanto, es la suma de la\(y^2\) columna y es igual a\(4.597\). \(SSY\)se puede dividir en dos partes: la suma de cuadrados predichos (\(SSY'\)) y la suma de cuadrados error (\(SSE\)). La suma de cuadrados pronosticados es la suma de las desviaciones cuadradas de las puntuaciones predichas a partir de la puntuación media predicha. En otras palabras, es la suma de la\(y'^2\) columna y es igual a\(1.806\). El error de suma de cuadrados es la suma de los errores cuadrados de predicción. Por lo tanto, es la suma de la\((Y-Y')^2\) columna y es igual a\(2.791\). Esto se puede resumir como:

\[SSY = SSY' + SSE\]

\[4.597 = 1.806 + 2.791\]

Hay varias otras características notables sobre Table\(\PageIndex{3}\). Primero, observe que la suma de\(y\) y la suma de\(y'\) son ambas cero. Esto siempre será así porque estas variables fueron creadas restando sus respectivas medias de cada valor. También, fíjese que la media de\(Y-Y'\) es\(0\). Esto indica que aunque algunos\(Y\) valores son superiores a sus respectivos\(Y\) valores predichos y algunos son menores, la diferencia promedio es cero.

La\(SSY\) es la variación total, la\(SSY'\) es la variación explicada y la\(SSE\) es la variación inexplicable. Por lo tanto, la proporción de variación explicada puede calcularse como:

\[\text{Proportion explained} = \dfrac{SSY'}{SSY}\]

De igual manera, la proporción no explicada es:

\[\text{Proportion not explained} = \dfrac{SSE}{SSY}\]

Existe una relación importante entre la proporción de variación explicada y la correlación de Pearson:\(r^2\) es la proporción de variación explicada. Por lo tanto\(r = 1\), si, entonces, naturalmente, la proporción de variación explicada es\(1\); si\(r = 0\), entonces la proporción explicada es\(0\). Un último ejemplo: para\(r = 0.4\), la proporción de variación explicada es\(0.16\).

Dado que la varianza se calcula dividiendo la variación por\(N\) (para una población) o\(N-1\) (para una muestra), las relaciones explicadas anteriormente en términos de variación también se mantienen para la varianza. Por ejemplo,

\[\sigma_{total}^2 = \sigma_{Y'}^2 + \sigma_e^2\]

donde el primer término es la varianza total, el segundo término es la varianza de\(Y'\), y el último término es la varianza de los errores de predicción (\(Y-Y'\)). De igual manera,\(r^2\) se explica la proporción de varianza así como la proporción de variación explicada.

Tabla de resumen

A menudo es conveniente resumir la partición de los datos en una tabla. La columna de grados de libertad (\(df\)) muestra los grados de libertad para cada fuente de variación. Los grados de libertad para la suma de cuadrados explicados son iguales al número de variables predictoras. Esto siempre será\(1\) en regresión simple. Los grados de libertad de error son iguales al número total de observaciones menos\(2\). En este ejemplo, lo es\(5 - 2 = 3\). El total de grados de libertad es el número total de observaciones menos\(1\).

Tabla\(\PageIndex{4}\): Tabla de *resumen para datos de ejemplo*
Fuente	Suma de Cuadrados	df	Cuadrado medio
Explicado	1.806	1	1.806
Error	2.791	3	0.930
Total	4.597	4

Colaborador

Template:ContribHeblLane