Saltar al contenido principal
LibreTexts Español

2.3: Correlación

  • Page ID
    149865
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    Como antes (en §§4 y 5), cuando pasamos de describir histogramas con palabras (como simétricas) a describirlos con números (como la media), ahora construiremos una medida numérica de la fuerza y dirección de una asociación lineal en una gráfica de dispersión.

    [def:corrcoeff] Dados los datos cuantitativos bivariados,\(\{(x_1,y_1), \dots , (x_n,y_n)\}\) el coeficiente de correlación [Pearson] de este conjunto de datos es\[r=\frac{1}{n-1}\sum \frac{(x_i-\overline{x})}{s_x}\frac{(y_i-\overline{y})}{s_y}\] dónde\(s_x\) y\(s_y\) son las desviaciones estándar de la\(x\) y \(y\), respectivamente, conjuntos de datos por sí mismos.

    Recopilamos información básica sobre el coeficiente de correlación en los siguientes

    [fact:corrcoefff] Para cualquier conjunto de datos cuantitativo bivariado\(\{(x_1,y_1), \dots ,(x_n,y_n)\}\) con coeficiente de correlación\(r\), tenemos

    1. \(-1\le r\le 1\)siempre es cierto;
    2. si\(|r|\) está cerca\(1\), lo que significa que\(r\) está cerca\(\pm 1\), entonces la asociación lineal entre\(x\) y\(y\) es fuerte
    3. si\(r\) está cerca\(0\), lo que significa que\(r\) es positivo o negativo, pero cercano\(0\), entonces la asociación lineal entre\(x\) y\(y\) es débil
    4. si\(r>0\) entonces la asociación lineal entre\(x\) y\(y\) es positiva, mientras que si\(r<0\) entonces la asociación lineal entre\(x\) y\(y\) es negativa
    5. \(r\)es lo mismo sin importar qué unidades se usen para las variables\(x\) y\(y\) — lo que significa que si cambiamos las unidades en cualquiera de las variables, no\(r\) cambiará
    6. \(r\)es lo mismo sin importar qué variable se empiece a usar como explicativa y cuál como la variable de respuesta — lo que significa que si cambiamos los roles de la\(x\) y la\(y\) en nuestro conjunto de datos, no\(r\) cambiará.

    También es agradable tener algunos ejemplos de coeficientes de correlación, como

    Screen Shot 2020-01-16 a las 10.49.09 AM.png

    Muchas herramientas electrónicas que computan el coeficiente\(r\) de correlación de un conjunto de datos también reportan su cuadrado,\(r^2\). Hay razón se explica en lo siguiente

    [fact:rsquared] Si\(r\) es el coeficiente de correlación entre dos variables\(x\) y\(y\) en algún conjunto de datos cuantitativos, entonces su cuadrado\(r^2\) es la fracción (a menudo descrita como porcentaje) de la variación de \(y\)que se asocia con la variación en\(x\).

    [eg:rsquared] Si el cuadrado del coeficiente de correlación entre la variable independiente cuántas horas a la semana un estudiante estudia estadística y la variable dependiente cuántos puntos obtiene el alumno en el examen final de estadística es \(.64\), entonces el 64% de la variación en los puntajes para esa clase se debe a la variación en cuanto estudian los estudiantes. El 36% restante de la variación en los puntajes se debe a otros factores aleatorios como si un estudiante estaba bajando con un resfriado el día de la final, o pasó a dormir mal la noche anterior a la final debido a que los vecinos tenían una fiesta, o algunos otros temas diferentes solo de estudiar tiempo.


    This page titled 2.3: Correlación is shared under a CC BY-SA 4.0 license and was authored, remixed, and/or curated by Jonathan A. Poritz via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.