Saltar al contenido principal
LibreTexts Español

3.1: La línea de regresión de mínimos cuadrados

  • Page ID
    149773
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    Supongamos que tenemos algunos datos cuantitativos bivariados {(x 1, y 1),., (x n, y n)} para los cuales el coeficiente de correlación indica alguna asociación lineal. Es natural querer anotar explícitamente la ecuación de la mejor línea a través de los datos — la pregunta es qué es esta línea. El significado más común dado a best en esta búsqueda de la línea es la línea cuyo error cuadrado total es el menor posible. Hacemos esta noción precisa en dos pasos

    DEFINICIÓN 3.1.1. Dado un conjunto de datos cuantitativo bivariado {(x 1, y 1),., (x n, y n)} y una línea candidata\(\ \hat{y} = mx+b\) que pasa por este conjunto de datos, un residual es la diferencia en las coordenadas y de un punto de datos real (x i, y i) y el valor y de la línea en la misma coordenada x. Es decir, si la coordenada y de la línea cuando x = x i es\(\ \hat{y_i} = mx_i + b\), entonces el residual es la medida de error dada por\(\ error_i = y_i - \hat{y_i}\).

    Tenga en cuenta que usamos la convención aquí y en otros lugares de escritura\(\ \hat{y}\) para la coordenada y en una línea de aproximación, mientras que la variable y simple se deja para los valores de datos reales, como y i.

    Aquí hay un ejemplo de cómo se ven los residuos

    Screen Shot 2020-01-16 at 10.57.57 PM.png

    Ahora estamos en condiciones de afirmar la

    DEFINICIÓN 3.1.2. Dado un conjunto de datos cuantitativo bivariado, la línea de regresión de mínimos cuadrados, casi siempre abreviada como LSRL, es la línea para la que la suma de los cuadrados de los residuos es la menor posible.

    HECHO 3.1.3. Si un conjunto de datos cuantitativo bivariado {(x 1, y 1),., (x n, y n)} tiene LSRL dado\(\ \hat{y} = mx + b\), entonces

    1. La pendiente de la LSRL viene dada por\(\ m=r\frac{s_y}{s_x}\), donde r es el coeficiente de correlación del conjunto de datos.
    2. El LSRL pasa por el punto (\(\ \bar{x},\bar{y}\)).
    3. De ello se deduce que la intercepción y de la LSRL viene dada por\(\ b = \bar{y} - \bar{x}m = \bar{y} - \bar{x}r \frac{s_y}{s_x}\)

    Es posible encontrar los (coeficientes del) LSRL usando la información anterior, pero a menudo es más conveniente usar una calculadora u otra herramienta electrónica. Tales herramientas también hacen que sea muy fácil graficar el LSRL justo encima de la gráfica de dispersión, aunque a menudo es bastante fácil bosquejar cómo será probablemente el LSRL simplemente haciendo una buena suposición, usando la intuición visual, si la asociación lineal es fuerte (como lo indicará el coeficiente de correlación).

    EJEMPLO 3.1.4. Aquí hay algunos datos donde los individuos son 23 estudiantes en una clase de estadística, la variable independiente es la puntuación total de los estudiantes en sus tareas a domicilio, mientras que la variable dependiente es su total final de puntos del curso, ambos de 100.

    \(\begin{array}{llllllllll}{x:} & {65} & {65} & {50} & {53} & {59} & {92} & {86} & {84} & {29}\end{array}\)
    \(\begin{array}{rrrrrrrrrr}{y:} & {74} & {71} & {65} & {60} & {83} & {90} & {84} & {88} & {48}\end{array}\)

    \(\begin{array}{lllllllllll}{x:} & {29} & {09} & {64} & {31} & {69} & {10} & {57} & {81} & {81}\end{array}\)
    \(\begin{array}{lllllllllll}{y:} & {54} & {25} & {79} & {58} & {81} & {29} & {81} & {94} & {86}\end{array}\)

    \(\begin{array}{lllllllllll}{x:} & {80} & {70} & {60} & {62} & {59} \end{array}\)
    \(\begin{array}{lllllllllll}{y:} & {95} & {68} & {69} & {83} & {70} \end{array}\)

    Aquí está el diagrama de dispersión resultante, hecho con LibreOffice Calc (un equivalente gratuito de Mi- crosoft Excel)

    Screen Shot 2020-01-16 a las 11.13.23 PM.png

    Parece bastante claro que existe una asociación lineal bastante fuerte entre estas dos vari- ables, como nace por el coeficiente de correlación, r = .935 (calculado con CORREL de LibreOffice Calc). Usando entonces STDEV.S y PROMEDIO, encontramos que los coeficientes de la LSRL para estos datos,\(\ \hat{y} = mx + b\) son

    \(\ m = r \frac{s_y}{s_x} = .935 \frac{18.701}{23.207} = .754\)y\(\ b = \bar{y} - \bar{x}m =71 − 58 · .754 = 26.976\)

    También podemos usar Insert Trend Line de LibreOffice Calc, con Show Equation, para hacer todo esto automáticamente. Tenga en cuenta que cuando LibreOffice Calc escribe la ecuación de la LSRL, usa f (x) en lugar de\(\ \hat{y}\), como lo haríamos nosotros.

    Screen Shot 2020-01-16 at 11.19.19 PM.png


    This page titled 3.1: La línea de regresión de mínimos cuadrados is shared under a CC BY-SA 4.0 license and was authored, remixed, and/or curated by Jonathan A. Poritz via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.