2.3: Correlación

Última actualización
Guardar como PDF

Page ID: 149865

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\id}{\mathrm{id}}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\kernel}{\mathrm{null}\,}\)

\( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\)

\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\)

\( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)

\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)

\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vectorC}[1]{\textbf{#1}} \)

\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

Como antes (en §§4 y 5), cuando pasamos de describir histogramas con palabras (como simétricas) a describirlos con números (como la media), ahora construiremos una medida numérica de la fuerza y dirección de una asociación lineal en una gráfica de dispersión.

[def:corrcoeff] Dados los datos cuantitativos bivariados,\(\{(x_1,y_1), \dots , (x_n,y_n)\}\) el coeficiente de correlación [Pearson] de este conjunto de datos es\[r=\frac{1}{n-1}\sum \frac{(x_i-\overline{x})}{s_x}\frac{(y_i-\overline{y})}{s_y}\] dónde\(s_x\) y\(s_y\) son las desviaciones estándar de la\(x\) y \(y\), respectivamente, conjuntos de datos por sí mismos.

Recopilamos información básica sobre el coeficiente de correlación en los siguientes

[fact:corrcoefff] Para cualquier conjunto de datos cuantitativo bivariado\(\{(x_1,y_1), \dots ,(x_n,y_n)\}\) con coeficiente de correlación\(r\), tenemos

\(-1\le r\le 1\)siempre es cierto;
si\(|r|\) está cerca\(1\), lo que significa que\(r\) está cerca\(\pm 1\), entonces la asociación lineal entre\(x\) y\(y\) es fuerte
si\(r\) está cerca\(0\), lo que significa que\(r\) es positivo o negativo, pero cercano\(0\), entonces la asociación lineal entre\(x\) y\(y\) es débil
si\(r>0\) entonces la asociación lineal entre\(x\) y\(y\) es positiva, mientras que si\(r<0\) entonces la asociación lineal entre\(x\) y\(y\) es negativa
\(r\)es lo mismo sin importar qué unidades se usen para las variables\(x\) y\(y\) — lo que significa que si cambiamos las unidades en cualquiera de las variables, no\(r\) cambiará
\(r\)es lo mismo sin importar qué variable se empiece a usar como explicativa y cuál como la variable de respuesta — lo que significa que si cambiamos los roles de la\(x\) y la\(y\) en nuestro conjunto de datos, no\(r\) cambiará.

También es agradable tener algunos ejemplos de coeficientes de correlación, como

Screen Shot 2020-01-16 a las 10.49.09 AM.png

Muchas herramientas electrónicas que computan el coeficiente\(r\) de correlación de un conjunto de datos también reportan su cuadrado,\(r^2\). Hay razón se explica en lo siguiente

[fact:rsquared] Si\(r\) es el coeficiente de correlación entre dos variables\(x\) y\(y\) en algún conjunto de datos cuantitativos, entonces su cuadrado\(r^2\) es la fracción (a menudo descrita como porcentaje) de la variación de \(y\)que se asocia con la variación en\(x\).

[eg:rsquared] Si el cuadrado del coeficiente de correlación entre la variable independiente cuántas horas a la semana un estudiante estudia estadística y la variable dependiente cuántos puntos obtiene el alumno en el examen final de estadística es \(.64\), entonces el 64% de la variación en los puntajes para esa clase se debe a la variación en cuanto estudian los estudiantes. El 36% restante de la variación en los puntajes se debe a otros factores aleatorios como si un estudiante estaba bajando con un resfriado el día de la final, o pasó a dormir mal la noche anterior a la final debido a que los vecinos tenían una fiesta, o algunos otros temas diferentes solo de estudiar tiempo.

Search

Text Color

Text Size

Margin Size

Font Type