12.2: Covarianza y Coeficiente de Correlación

Última actualización
Guardar como PDF

Page ID: 150994

Paul Pfeiffer
Rice University

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

El valor medio\(\mu_X = E[X]\) y la varianza\(\sigma_X^2 = E[(X - \mu_X)^2]\) dan información importante sobre la distribución de la variable aleatoria real\(X\). ¿Puede la expectativa de una función adecuada de\((X, Y)\) dar información útil sobre la distribución conjunta? Una pista de una posibilidad se da en la expresión

\(\text{Var}[X \pm Y] = \text{Var} [X] + \text{Var} [Y] \pm 2(E[XY] - E[X]E[Y])\)

La expresión\(E[XY] - E[X]E[Y]\) desaparece si el par es independiente (y en algunos otros casos). Observamos también que para\(\mu_X = E[X]\) y\(\mu_Y = E[Y]\)

\(E[(X - \mu_X) (Y - \mu_Y)] = E[XY] - \mu_X \mu_Y\)

Para ver esto, amplíe la expresión\((X - \mu_X)(Y - \mu_Y)\) y use linealidad para obtener

\(E[(X - \mu_X) (Y - \mu_Y)] = E[XY - \mu_Y X - \mu_X Y + \mu_X \mu_Y] = E[XY] - \mu_Y E[X] - \mu_X E[Y] + \mu_X \mu_Y\)

lo que reduce directamente a la expresión deseada. Ahora para dado\(\omega\),\(X(\omega) - \mu_X\) es la variación de\(X\) desde su media y\(Y(\omega) - \mu_Y\) es la variación de\(Y\) desde su media. Por ello, se emplea la siguiente terminología.

Definición: Covarianza

La cantidad\(\text{Cov} [X, Y] = E[(X - \mu_X)(Y - \mu_Y)]\) se llama la covarianza de\(X\) y\(Y\).

Si dejamos\(X' = X - \mu_X\) y\(Y' = Y - \mu_Y\) seremos las variables aleatorias ventiladas, entonces

\(\text{Cov} [X, Y] = E[X'Y']\)

Tenga en cuenta que la varianza de\(X\) es la covarianza de\(X\) consigo misma.

Si estandarizamos, con\(X^* = (X - \mu_X)/\sigma_X\) y\(Y^* = (Y - \mu_Y)/\sigma_Y\), tenemos

Definición: Coeficiente de correlación

El coeficiente de correlación\(\rho = \rho [X, Y]\) es la cantidad

\(\rho [X,Y] = E[X^* Y^*] = \dfrac{E[(X - \mu_X)(Y - \mu_Y)]}{\sigma_X \sigma_Y}\)

Así\(\rho = \text{Cov}[X, Y] / \sigma_X \sigma_Y\). Examinamos estos conceptos para obtener información sobre la distribución conjunta. Por la desigualdad de Schwarz (E15), tenemos

\(\rho^2 = E^2 [X^* Y^*] \le E[(X^*)^2] E[(Y^*)^2] = 1\)con igualdad iff\(Y^* = cX^*\)

Ahora la igualdad sostiene iff

\(1 = c^2 E^2[(X^*)^2] = c^2\)lo que implica\(c = \pm 1\) y\(\rho = \pm 1\)

Concluimos\(-1 \le \rho \le 1\), con\(\rho = \pm 1\) iff\(Y^* = \pm X^*\)

Relación entre \(\rho\)y distribución conjunta

Consideramos primero la distribución para el par estandarizado\((X^*, Y^*)\)
Desde\(P(X^* \le r, Y^* \le s) = P(\dfrac{X - \mu_X}{\sigma_X} \le r, \dfrac{Y - \mu_Y}{\sigma_Y} \le s)\)

\(= P(X \le t = \sigma_X r + \mu_X, Y \le u = \sigma_Y s + \mu_Y)\)

obtenemos los resultados para la distribución\((X, Y)\) por el mapeo

\(t = \sigma_X r + \mu_X\)
\(u = \sigma_Y s + \mu_Y\)

Distribución conjunta para las variables estandarizadas\((X^*, Y^*)\),\((r, s) = (X^*, Y^*)(\omega)\)

\(\rho = 1\)iff\(X^* = Y^*\) iff toda la masa de probabilidad está en la línea\(s = r\).
\(\rho = -1\)iff\(X^* = -Y^*\) iff toda la masa de probabilidad está en la línea\(s = -r\).

Si\(-1 < \rho < 1\), entonces al menos parte de la masa debe dejar de estar en estas líneas.

Figura 12.2.1. Distancia del punto\((r,s)\) a la línea\(s = r\).

Las\(\rho = \pm 1\) líneas para la\((X, Y)\) distribución son:

\(\dfrac{u - \mu_Y}{\sigma_Y} = \pm \dfrac{t - \mu_X}{\sigma_X}\)o\(u = \pm \dfrac{\sigma_Y}{\sigma_X}(t - \mu_X) + \mu_Y\)

Considerar\(Z = Y^* - X^*\). Entonces\(E[\dfrac{1}{2} Z^2] = \dfrac{1}{2} E[(Y^* - X^*)^2]\). La referencia a la Figura 12.2.1 muestra este es el promedio del cuadrado de las distancias de los puntos\((r, s) = (X^*, Y^*) (\omega)\) desde la línea\(s = r\) (es decir, la varianza alrededor de la línea\(s = r\)). De manera similar para\(W = Y^* + X^*\). \(E[W^2/2]\)es la varianza sobre\(s = -r\). Ahora

\(\dfrac{1}{2} E[(Y^* \pm X^*)^2] = \dfrac{1}{2}\{E[(Y^*)^2] + E[(X^*)^2] \pm 2E[X^* Y^*]\} = 1 \pm \rho\)

Así

\(1 - \rho\)es la varianza sobre\(s = r\) (la\(\rho = 1\) línea)
\(1 + \rho\) es la varianza sobre\(s = -r\) (la\(\rho = -1\) línea)

Ahora desde

\(E[(Y^* - X^*)^2] = E[(Y^* + X^*)^2]\)iff\(\rho = E[X^* Y^*] = 0\)

la condición\(\rho = 0\) es la condición para la igualdad de las dos varianzas.

Transformación al\((X, Y)\) plano

\(t = \sigma_X r + \mu_X\)\(u = \sigma_Y s + \mu_Y\)\(r = \dfrac{t - \mu_X}{\sigma_X}\)\(s = \dfrac{u - \mu_Y}{\sigma_Y}\)

La\(\rho = 1\) línea es:

\(\dfrac{u - \mu_Y}{\sigma_Y} = \dfrac{t - \mu_X}{\sigma_X}\)o\(u = \dfrac{\sigma_Y}{\sigma_X} (t - \mu_X) + \mu_Y\)

La\(\rho = -1\) línea es:

\(\dfrac{u - \mu_Y}{\sigma_Y} = \dfrac{t - \mu_X}{\sigma_X}\)o\(u = -\dfrac{\sigma_Y}{\sigma_X} (t - \mu_X) + \mu_Y\)

\(1 - \rho\)es proporcional a la varianza colindante con la\(\rho = 1\) línea y\(1 + \rho\) es proporcional a la varianza alrededor de la\(\rho = -1\) línea. \(\rho = 0\)si las varianzas sobre ambos son las mismas.

Ejemplo\(\PageIndex{1}\) Uncorrelated but not independent

Supongamos que la densidad de la articulación para\(\{X, Y\}\) es constante en el círculo unitario alrededor del origen. Por la prueba del rectángulo, el par no puede ser independiente. Por simetría, la\(\rho = 1\) línea es\(u = t\) y la\(\rho = -1\) línea es\(u = -t\). Por simetría, también, la varianza sobre cada una de estas líneas es la misma. Así\(\rho = 0\), lo cual es cierto iff\(\text{Cov}[X, Y] = 0\). Este hecho se puede verificar por cálculo, si se desea.

Ejemplo\(\PageIndex{2}\) Uniform marginal distributions

Figura 12.2.2. Marginales uniformes pero diferentes coeficientes de correlación.

Considere las tres distribuciones en la Figura 12.2.2. En el caso (a), la distribución es uniforme sobre el cuadrado centrado en el origen con vértices en (1,1), (-1,1), (-1, -1), (1, -1). En el caso (b), la distribución es uniforme sobre dos cuadrados, en el primer y tercer cuadrantes con vértices (0,0), (1,0), (1,1), (0,1) y (0,0),

(-1,0), (-1, -1), (0, -1). En el caso (c) los dos cuadrados están en el segundo y cuarto cuadrantes. Los marginales son uniformes en (-1,1) en cada caso, de manera que en cada caso

\(E[X] = E[Y] = 0\)y\(\text{Var} [X] = \text{Var} [Y] = 1/3\)

Esto significa que la\(\rho = 1\) línea es\(u = t\) y la\(\rho = -1\) línea es\(u = -t\).

a. por simetría,\(E[XY] = 0\) (de hecho el par es independiente) y\(\rho = 0\).
b. Por cada par de valores posibles, los dos signos deben ser los mismos, lo\(E[XY] > 0\) que implica\(\rho > 0\). El valor real puede calcularse para dar\(\rho = 3/4\). Ya que\(1 - \rho < 1 + \rho\), la varianza sobre la\(\rho = 1\) línea es menor que la de la\(\rho = -1\) línea. Esto es evidente a partir de la figura.
c.\(E[XY] < 0\) y\(\rho < 0\). Ya que\(1 + \rho < 1 - \rho\), la varianza sobre la\(\rho = -1\) línea es menor que la de la\(\rho = 1\) línea. Nuevamente, el examen de la cifra lo confirma.

Ejemplo\(\PageIndex{3}\) A pair of simple random variables

Con la ayuda de m-functions y MATLAB podemos caluclar fácilmente la covarianza y el coeficiente de correlación. Usamos la distribución conjunta para el Ejemplo 9 en “Varianza”. En ese ejemplo, los cálculos muestran

\(E[XY] - E[X]E[Y] = -0.1633 = \text{Cov} [X,Y]\),\(\sigma_X = 1.8170\) y\(\sigma_Y = 1.9122\)

así que eso\(\rho = -0.04699\).

Ejemplo\(\PageIndex{4}\) An absolutely continuous pair

El par\(\{X, Y\}\) tiene función de densidad conjunta\(f_{XY} (t, u) = \dfrac{6}{5} (t + 2u)\) en la región triangular delimitada por\(t = 0\),\(u = t\), y\(u = 1\). Por las técnicas de integración habituales, tenemos

\(f_X(t) = \dfrac{6}{5} (1 + t - 2t^2)\),\(0 \le t \le 1\)\(f_Y (u) = 3u^2\) y\(0 \le u \le 1\)

De esto obtenemos\(E[X] = 2/5\),\(\text{Var} [X] = 3/50\),\(E[Y] = 3/4\), y\(\text{Var} [Y] = 3/80\). Para completar la imagen necesitamos

\(E[XY] = \dfrac{6}{5} \int_0^1 \int_t^1 (t^2 u + 2tu^2)\ dudt = 8/25\)

Entonces

\(\text{Cov} [X,Y] = E[XY] - E[X]E[Y] = 2/100\)y\(\rho = \dfrac{\text{Cov}[X,Y]}{\sigma_X \sigma_Y} = \dfrac{4}{30} \sqrt{10} \approx 0.4216\)

APROXIMACIÓN

tuappr
Enter matrix [a b] of X-range endpoints  [0 1]
Enter matrix [c d] of Y-range endpoints  [0 1]
Enter number of X approximation points  200
Enter number of Y approximation points  200
Enter expression for joint density  (6/5)*(t + 2*u).*(u>=t)
Use array operations on X, Y, PX, PY, t, u, and P
EX = total(t.*P)
EX =   0.4012                    % Theoretical = 0.4
EY = total(u.*P)
EY =   0.7496                    % Theoretical = 0.75
VX = total(t.^2.*P) - EX^2
VX =   0.0603                    % Theoretical = 0.06
VY = total(u.^2.*P) - EY^2
VY =   0.0376                    % Theoretical = 0.0375
CV = total(t.*u.*P) - EX*EY
CV =   0.0201                    % Theoretical = 0.02
rho = CV/sqrt(VX*VY)
rho =  0.4212                    % Theoretical = 0.4216

Coeficiente de correlación lineal

El parámetro\(\rho\) suele llamarse coeficiente de correlación. Un nombre más descriptivo sería coeficiente de correlación lineal. El siguiente ejemplo muestra que toda la masa de probabilidad puede estar en una curva, de modo que\(Y = g(X)\) (es decir, el valor de Y está completamente determinado por el valor de\(X\)), todavía\(\rho = 0\).

Ejemplo\(\PageIndex{5}\) \(Y = g(X)\) but \(\rho = 0\)

Supongamos\(X\) ~ uniforme (-1, 1), de modo que\(f_X (t) = 1/2\),\(-1 < t < 1\) y\(E[X] = 0\). Vamos\(Y = g(X) = \cos X\). Entonces

\(\text{Cov} [X, Y] = E[XY] = \dfrac{1}{2} \int_{-1}^{1} t \cos t\ dt = 0\)

Así\(\rho = 0\). Tenga en cuenta que\(g\) podría ser cualquier función par definida en (-1,1). En este caso el integrando\(tg(t)\) es impar, de manera que el valor de la integral es cero.

Varianza y covarianza para combinaciones lineales

Generalizamos la propiedad (V4) en combinaciones lineales. Considere las combinaciones lineales

\(X = \sum_{i = 1}^{n} a_i X_i\)y\(Y = \sum_{j = 1}^{m} b_j Y_j\)

Deseamos determinar\(\text{Cov} [X, Y]\) y\(\text{Var}[X]\). Es conveniente trabajar con las variables aleatorias centradas\(X' = X - \mu_X\) y\(Y' = Y - \mu_Y\). Dado que por linealidad de expectativa,

\(\mu_X = \sum_{i = 1}^{n} a_i \mu_{X_i}\)y\(\mu_Y = \sum_{j = 1}^{m} b_j \mu_{Y_j}\)

tenemos

\(X' = \sum_{i = 1}^{n} a_i X_i - \sum_{i = 1}^{n} a_i \mu_{X_i} = \sum_{i = 1}^{n} a_i (X_i - \mu_{X_i}) = \sum_{i = 1}^{n} a_i X_i'\)

y de manera similar para\(Y'\). Por definición

\(\text{Cov} (X, Y) = E[X'Y'] = E[\sum_{i, j} a_i b_j X_i' Y_j'] = \sum_{i,j} a_i b_j E[X_i' E_j'] = \sum_{i,j} a_i b_j \text{Cov} (X_i, Y_j)\)

En particular

\(\text{Var} (X) = \text{Cov} (X, X) = \sum_{i, j} a_i a_j \text{Cov} (X_i, X_j) = \sum_{i = 1}^{n} a_i^2 \text{Cov} (X_i, X_i) + \sum_{i \ne j} a_ia_j \text{Cov} (X_i, X_j)\)

Usando el hecho de que\(a_ia_j \text{Cov} (X_i, X_j) = a_j a_i \text{Cov} (X_j, X_i)\), tenemos

\(\text{Var}[X] = \sum_{i = 1}^{n} a_i^2 \text{Var} [X_i] + 2\sum_{i <j} a_i a_j \text{Cov} (X_i, X_j)\)

Tenga en cuenta que\(a_i^2\) no depende del signo de\(a_i\). Si la\(X_i\) forma de una clase independiente, o no están correlacionados de otra manera, la expresión de varianza se reduce a

\(\text{Var}[X] = \sum_{i = 1}^{n} a_i^2 \text{Var} [X_i]\)