2.3: Correlación
- Page ID
- 149865
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
Como antes (en §§4 y 5), cuando pasamos de describir histogramas con palabras (como simétricas) a describirlos con números (como la media), ahora construiremos una medida numérica de la fuerza y dirección de una asociación lineal en una gráfica de dispersión.
[def:corrcoeff] Dados los datos cuantitativos bivariados,\(\{(x_1,y_1), \dots , (x_n,y_n)\}\) el coeficiente de correlación [Pearson] de este conjunto de datos es\[r=\frac{1}{n-1}\sum \frac{(x_i-\overline{x})}{s_x}\frac{(y_i-\overline{y})}{s_y}\] dónde\(s_x\) y\(s_y\) son las desviaciones estándar de la\(x\) y \(y\), respectivamente, conjuntos de datos por sí mismos.
Recopilamos información básica sobre el coeficiente de correlación en los siguientes
[fact:corrcoefff] Para cualquier conjunto de datos cuantitativo bivariado\(\{(x_1,y_1), \dots ,(x_n,y_n)\}\) con coeficiente de correlación\(r\), tenemos
- \(-1\le r\le 1\)siempre es cierto;
- si\(|r|\) está cerca\(1\), lo que significa que\(r\) está cerca\(\pm 1\), entonces la asociación lineal entre\(x\) y\(y\) es fuerte
- si\(r\) está cerca\(0\), lo que significa que\(r\) es positivo o negativo, pero cercano\(0\), entonces la asociación lineal entre\(x\) y\(y\) es débil
- si\(r>0\) entonces la asociación lineal entre\(x\) y\(y\) es positiva, mientras que si\(r<0\) entonces la asociación lineal entre\(x\) y\(y\) es negativa
- \(r\)es lo mismo sin importar qué unidades se usen para las variables\(x\) y\(y\) — lo que significa que si cambiamos las unidades en cualquiera de las variables, no\(r\) cambiará
- \(r\)es lo mismo sin importar qué variable se empiece a usar como explicativa y cuál como la variable de respuesta — lo que significa que si cambiamos los roles de la\(x\) y la\(y\) en nuestro conjunto de datos, no\(r\) cambiará.
También es agradable tener algunos ejemplos de coeficientes de correlación, como
Muchas herramientas electrónicas que computan el coeficiente\(r\) de correlación de un conjunto de datos también reportan su cuadrado,\(r^2\). Hay razón se explica en lo siguiente
[fact:rsquared] Si\(r\) es el coeficiente de correlación entre dos variables\(x\) y\(y\) en algún conjunto de datos cuantitativos, entonces su cuadrado\(r^2\) es la fracción (a menudo descrita como porcentaje) de la variación de \(y\)que se asocia con la variación en\(x\).
[eg:rsquared] Si el cuadrado del coeficiente de correlación entre la variable independiente cuántas horas a la semana un estudiante estudia estadística y la variable dependiente cuántos puntos obtiene el alumno en el examen final de estadística es \(.64\), entonces el 64% de la variación en los puntajes para esa clase se debe a la variación en cuanto estudian los estudiantes. El 36% restante de la variación en los puntajes se debe a otros factores aleatorios como si un estudiante estaba bajando con un resfriado el día de la final, o pasó a dormir mal la noche anterior a la final debido a que los vecinos tenían una fiesta, o algunos otros temas diferentes solo de estudiar tiempo.