Saltar al contenido principal
LibreTexts Español

12.2: Covarianza y Coeficiente de Correlación

  • Page ID
    150994
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)

    El valor medio\(\mu_X = E[X]\) y la varianza\(\sigma_X^2 = E[(X - \mu_X)^2]\) dan información importante sobre la distribución de la variable aleatoria real\(X\). ¿Puede la expectativa de una función adecuada de\((X, Y)\) dar información útil sobre la distribución conjunta? Una pista de una posibilidad se da en la expresión

    \(\text{Var}[X \pm Y] = \text{Var} [X] + \text{Var} [Y] \pm 2(E[XY] - E[X]E[Y])\)

    La expresión\(E[XY] - E[X]E[Y]\) desaparece si el par es independiente (y en algunos otros casos). Observamos también que para\(\mu_X = E[X]\) y\(\mu_Y = E[Y]\)

    \(E[(X - \mu_X) (Y - \mu_Y)] = E[XY] - \mu_X \mu_Y\)

    Para ver esto, amplíe la expresión\((X - \mu_X)(Y - \mu_Y)\) y use linealidad para obtener

    \(E[(X - \mu_X) (Y - \mu_Y)] = E[XY - \mu_Y X - \mu_X Y + \mu_X \mu_Y] = E[XY] - \mu_Y E[X] - \mu_X E[Y] + \mu_X \mu_Y\)

    lo que reduce directamente a la expresión deseada. Ahora para dado\(\omega\),\(X(\omega) - \mu_X\) es la variación de\(X\) desde su media y\(Y(\omega) - \mu_Y\) es la variación de\(Y\) desde su media. Por ello, se emplea la siguiente terminología.

    Definición: Covarianza

    La cantidad\(\text{Cov} [X, Y] = E[(X - \mu_X)(Y - \mu_Y)]\) se llama la covarianza de\(X\) y\(Y\).

    Si dejamos\(X' = X - \mu_X\) y\(Y' = Y - \mu_Y\) seremos las variables aleatorias ventiladas, entonces

    \(\text{Cov} [X, Y] = E[X'Y']\)

    Tenga en cuenta que la varianza de\(X\) es la covarianza de\(X\) consigo misma.

    Si estandarizamos, con\(X^* = (X - \mu_X)/\sigma_X\) y\(Y^* = (Y - \mu_Y)/\sigma_Y\), tenemos

    Definición: Coeficiente de correlación

    El coeficiente de correlación\(\rho = \rho [X, Y]\) es la cantidad

    \(\rho [X,Y] = E[X^* Y^*] = \dfrac{E[(X - \mu_X)(Y - \mu_Y)]}{\sigma_X \sigma_Y}\)

    Así\(\rho = \text{Cov}[X, Y] / \sigma_X \sigma_Y\). Examinamos estos conceptos para obtener información sobre la distribución conjunta. Por la desigualdad de Schwarz (E15), tenemos

    \(\rho^2 = E^2 [X^* Y^*] \le E[(X^*)^2] E[(Y^*)^2] = 1\)con igualdad iff\(Y^* = cX^*\)

    Ahora la igualdad sostiene iff

    \(1 = c^2 E^2[(X^*)^2] = c^2\)lo que implica\(c = \pm 1\) y\(\rho = \pm 1\)

    Concluimos\(-1 \le \rho \le 1\), con\(\rho = \pm 1\) iff\(Y^* = \pm X^*\)

    Relación entre \(\rho\)y distribución conjunta

    • Consideramos primero la distribución para el par estandarizado\((X^*, Y^*)\)
    • Desde\(P(X^* \le r, Y^* \le s) = P(\dfrac{X - \mu_X}{\sigma_X} \le r, \dfrac{Y - \mu_Y}{\sigma_Y} \le s)\)

    \(= P(X \le t = \sigma_X r + \mu_X, Y \le u = \sigma_Y s + \mu_Y)\)

    obtenemos los resultados para la distribución\((X, Y)\) por el mapeo

    \(t = \sigma_X r + \mu_X\)
    \(u = \sigma_Y s + \mu_Y\)

    Distribución conjunta para las variables estandarizadas\((X^*, Y^*)\),\((r, s) = (X^*, Y^*)(\omega)\)

    \(\rho = 1\)iff\(X^* = Y^*\) iff toda la masa de probabilidad está en la línea\(s = r\).
    \(\rho = -1\)iff\(X^* = -Y^*\) iff toda la masa de probabilidad está en la línea\(s = -r\).

    Si\(-1 < \rho < 1\), entonces al menos parte de la masa debe dejar de estar en estas líneas.

    La figura uno está compuesta por una línea diagonal con un triángulo rectángulo. Una porción de la línea es la base del triángulo. La línea está etiquetada, s = r. Un punto del triángulo ubicado en la línea diagonal está etiquetado (r, r). El punto del triángulo que no se encuentra en la línea está etiquetado, (r, s). El lado del triángulo entre estos dos puntos etiquetados se etiqueta como el valor absoluto de s - r. El lado del triángulo en la línea no está etiquetado. El tercer lado está etiquetado como el valor absoluto de s - r dividido por la raíz cuadrada de dos.
    Figura 12.2.1. Distancia del punto\((r,s)\) a la línea\(s = r\).

    Las\(\rho = \pm 1\) líneas para la\((X, Y)\) distribución son:

    \(\dfrac{u - \mu_Y}{\sigma_Y} = \pm \dfrac{t - \mu_X}{\sigma_X}\)o\(u = \pm \dfrac{\sigma_Y}{\sigma_X}(t - \mu_X) + \mu_Y\)

    Considerar\(Z = Y^* - X^*\). Entonces\(E[\dfrac{1}{2} Z^2] = \dfrac{1}{2} E[(Y^* - X^*)^2]\). La referencia a la Figura 12.2.1 muestra este es el promedio del cuadrado de las distancias de los puntos\((r, s) = (X^*, Y^*) (\omega)\) desde la línea\(s = r\) (es decir, la varianza alrededor de la línea\(s = r\)). De manera similar para\(W = Y^* + X^*\). \(E[W^2/2]\)es la varianza sobre\(s = -r\). Ahora

    \(\dfrac{1}{2} E[(Y^* \pm X^*)^2] = \dfrac{1}{2}\{E[(Y^*)^2] + E[(X^*)^2] \pm 2E[X^* Y^*]\} = 1 \pm \rho\)

    Así

    \(1 - \rho\)es la varianza sobre\(s = r\) (la\(\rho = 1\) línea)
    \(1 + \rho\) es la varianza sobre\(s = -r\) (la\(\rho = -1\) línea)

    Ahora desde

    \(E[(Y^* - X^*)^2] = E[(Y^* + X^*)^2]\)iff\(\rho = E[X^* Y^*] = 0\)

    la condición\(\rho = 0\) es la condición para la igualdad de las dos varianzas.

    Transformación al\((X, Y)\) plano

    \(t = \sigma_X r + \mu_X\)\(u = \sigma_Y s + \mu_Y\)\(r = \dfrac{t - \mu_X}{\sigma_X}\)\(s = \dfrac{u - \mu_Y}{\sigma_Y}\)

    La\(\rho = 1\) línea es:

    \(\dfrac{u - \mu_Y}{\sigma_Y} = \dfrac{t - \mu_X}{\sigma_X}\)o\(u = \dfrac{\sigma_Y}{\sigma_X} (t - \mu_X) + \mu_Y\)

    La\(\rho = -1\) línea es:

    \(\dfrac{u - \mu_Y}{\sigma_Y} = \dfrac{t - \mu_X}{\sigma_X}\)o\(u = -\dfrac{\sigma_Y}{\sigma_X} (t - \mu_X) + \mu_Y\)

    \(1 - \rho\)es proporcional a la varianza colindante con la\(\rho = 1\) línea y\(1 + \rho\) es proporcional a la varianza alrededor de la\(\rho = -1\) línea. \(\rho = 0\)si las varianzas sobre ambos son las mismas.

    Ejemplo\(\PageIndex{1}\) Uncorrelated but not independent

    Supongamos que la densidad de la articulación para\(\{X, Y\}\) es constante en el círculo unitario alrededor del origen. Por la prueba del rectángulo, el par no puede ser independiente. Por simetría, la\(\rho = 1\) línea es\(u = t\) y la\(\rho = -1\) línea es\(u = -t\). Por simetría, también, la varianza sobre cada una de estas líneas es la misma. Así\(\rho = 0\), lo cual es cierto iff\(\text{Cov}[X, Y] = 0\). Este hecho se puede verificar por cálculo, si se desea.

    Ejemplo\(\PageIndex{2}\) Uniform marginal distributions

    La figura dos está compuesta por tres gráficas de múltiples cuadrados sombreados. Los tres son gráficos cartesianos estándar, con los cuatro cuadrantes iguales en tamaño, t como eje horizontal y u como eje vertical. La primera gráfica muestra un cuadrado grande centrado en el origen con una longitud de dos unidades en un lado. Como el cuadrado está centrado alrededor del origen, el cuadrado se divide equitativamente en cuatro cuadrados más pequeños por los ejes vertical y horizontal. Un subtítulo debajo de la primera gráfica dice, rho = 0. La segunda gráfica contiene dos cuadrados más pequeños, una unidad a un lado, uno sentado con dos lados a lo largo de los ejes de la gráfica en el primer cuadrante, y uno sentado con dos lados a lo largo de los ejes de la gráfica en el tercer cuadrante. El pie de foto dice rho = 3/4. La tercera gráfica contiene dos cuadrados del mismo tamaño que la segunda gráfica, esta vez con uno sentado con dos lados a lo largo de los ejes en el segundo cuadrante, y uno sentado con dos lados a lo largo de los ejes en el cuarto cuadrante. El pie de foto dice rho = -3/4.
    Figura 12.2.2. Marginales uniformes pero diferentes coeficientes de correlación.

    Considere las tres distribuciones en la Figura 12.2.2. En el caso (a), la distribución es uniforme sobre el cuadrado centrado en el origen con vértices en (1,1), (-1,1), (-1, -1), (1, -1). En el caso (b), la distribución es uniforme sobre dos cuadrados, en el primer y tercer cuadrantes con vértices (0,0), (1,0), (1,1), (0,1) y (0,0),

    (-1,0), (-1, -1), (0, -1). En el caso (c) los dos cuadrados están en el segundo y cuarto cuadrantes. Los marginales son uniformes en (-1,1) en cada caso, de manera que en cada caso

    \(E[X] = E[Y] = 0\)y\(\text{Var} [X] = \text{Var} [Y] = 1/3\)

    Esto significa que la\(\rho = 1\) línea es\(u = t\) y la\(\rho = -1\) línea es\(u = -t\).

    a. por simetría,\(E[XY] = 0\) (de hecho el par es independiente) y\(\rho = 0\).
    b. Por cada par de valores posibles, los dos signos deben ser los mismos, lo\(E[XY] > 0\) que implica\(\rho > 0\). El valor real puede calcularse para dar\(\rho = 3/4\). Ya que\(1 - \rho < 1 + \rho\), la varianza sobre la\(\rho = 1\) línea es menor que la de la\(\rho = -1\) línea. Esto es evidente a partir de la figura.
    c.\(E[XY] < 0\) y\(\rho < 0\). Ya que\(1 + \rho < 1 - \rho\), la varianza sobre la\(\rho = -1\) línea es menor que la de la\(\rho = 1\) línea. Nuevamente, el examen de la cifra lo confirma.

    Ejemplo\(\PageIndex{3}\) A pair of simple random variables

    Con la ayuda de m-functions y MATLAB podemos caluclar fácilmente la covarianza y el coeficiente de correlación. Usamos la distribución conjunta para el Ejemplo 9 en “Varianza”. En ese ejemplo, los cálculos muestran

    \(E[XY] - E[X]E[Y] = -0.1633 = \text{Cov} [X,Y]\),\(\sigma_X = 1.8170\) y\(\sigma_Y = 1.9122\)

    así que eso\(\rho = -0.04699\).

    Ejemplo\(\PageIndex{4}\) An absolutely continuous pair

    El par\(\{X, Y\}\) tiene función de densidad conjunta\(f_{XY} (t, u) = \dfrac{6}{5} (t + 2u)\) en la región triangular delimitada por\(t = 0\),\(u = t\), y\(u = 1\). Por las técnicas de integración habituales, tenemos

    \(f_X(t) = \dfrac{6}{5} (1 + t - 2t^2)\),\(0 \le t \le 1\)\(f_Y (u) = 3u^2\) y\(0 \le u \le 1\)

    De esto obtenemos\(E[X] = 2/5\),\(\text{Var} [X] = 3/50\),\(E[Y] = 3/4\), y\(\text{Var} [Y] = 3/80\). Para completar la imagen necesitamos

    \(E[XY] = \dfrac{6}{5} \int_0^1 \int_t^1 (t^2 u + 2tu^2)\ dudt = 8/25\)

    Entonces

    \(\text{Cov} [X,Y] = E[XY] - E[X]E[Y] = 2/100\)y\(\rho = \dfrac{\text{Cov}[X,Y]}{\sigma_X \sigma_Y} = \dfrac{4}{30} \sqrt{10} \approx 0.4216\)

    APROXIMACIÓN

    tuappr
    Enter matrix [a b] of X-range endpoints  [0 1]
    Enter matrix [c d] of Y-range endpoints  [0 1]
    Enter number of X approximation points  200
    Enter number of Y approximation points  200
    Enter expression for joint density  (6/5)*(t + 2*u).*(u>=t)
    Use array operations on X, Y, PX, PY, t, u, and P
    EX = total(t.*P)
    EX =   0.4012                    % Theoretical = 0.4
    EY = total(u.*P)
    EY =   0.7496                    % Theoretical = 0.75
    VX = total(t.^2.*P) - EX^2
    VX =   0.0603                    % Theoretical = 0.06
    VY = total(u.^2.*P) - EY^2
    VY =   0.0376                    % Theoretical = 0.0375
    CV = total(t.*u.*P) - EX*EY
    CV =   0.0201                    % Theoretical = 0.02
    rho = CV/sqrt(VX*VY)
    rho =  0.4212                    % Theoretical = 0.4216

    Coeficiente de correlación lineal

    El parámetro\(\rho\) suele llamarse coeficiente de correlación. Un nombre más descriptivo sería coeficiente de correlación lineal. El siguiente ejemplo muestra que toda la masa de probabilidad puede estar en una curva, de modo que\(Y = g(X)\) (es decir, el valor de Y está completamente determinado por el valor de\(X\)), todavía\(\rho = 0\).

    Ejemplo\(\PageIndex{5}\) \(Y = g(X)\) but \(\rho = 0\)

    Supongamos\(X\) ~ uniforme (-1, 1), de modo que\(f_X (t) = 1/2\),\(-1 < t < 1\) y\(E[X] = 0\). Vamos\(Y = g(X) = \cos X\). Entonces

    \(\text{Cov} [X, Y] = E[XY] = \dfrac{1}{2} \int_{-1}^{1} t \cos t\ dt = 0\)

    Así\(\rho = 0\). Tenga en cuenta que\(g\) podría ser cualquier función par definida en (-1,1). En este caso el integrando\(tg(t)\) es impar, de manera que el valor de la integral es cero.

    Varianza y covarianza para combinaciones lineales

    Generalizamos la propiedad (V4) en combinaciones lineales. Considere las combinaciones lineales

    \(X = \sum_{i = 1}^{n} a_i X_i\)y\(Y = \sum_{j = 1}^{m} b_j Y_j\)

    Deseamos determinar\(\text{Cov} [X, Y]\) y\(\text{Var}[X]\). Es conveniente trabajar con las variables aleatorias centradas\(X' = X - \mu_X\) y\(Y' = Y - \mu_Y\). Dado que por linealidad de expectativa,

    \(\mu_X = \sum_{i = 1}^{n} a_i \mu_{X_i}\)y\(\mu_Y = \sum_{j = 1}^{m} b_j \mu_{Y_j}\)

    tenemos

    \(X' = \sum_{i = 1}^{n} a_i X_i - \sum_{i = 1}^{n} a_i \mu_{X_i} = \sum_{i = 1}^{n} a_i (X_i - \mu_{X_i}) = \sum_{i = 1}^{n} a_i X_i'\)

    y de manera similar para\(Y'\). Por definición

    \(\text{Cov} (X, Y) = E[X'Y'] = E[\sum_{i, j} a_i b_j X_i' Y_j'] = \sum_{i,j} a_i b_j E[X_i' E_j'] = \sum_{i,j} a_i b_j \text{Cov} (X_i, Y_j)\)

    En particular

    \(\text{Var} (X) = \text{Cov} (X, X) = \sum_{i, j} a_i a_j \text{Cov} (X_i, X_j) = \sum_{i = 1}^{n} a_i^2 \text{Cov} (X_i, X_i) + \sum_{i \ne j} a_ia_j \text{Cov} (X_i, X_j)\)

    Usando el hecho de que\(a_ia_j \text{Cov} (X_i, X_j) = a_j a_i \text{Cov} (X_j, X_i)\), tenemos

    \(\text{Var}[X] = \sum_{i = 1}^{n} a_i^2 \text{Var} [X_i] + 2\sum_{i <j} a_i a_j \text{Cov} (X_i, X_j)\)

    Tenga en cuenta que\(a_i^2\) no depende del signo de\(a_i\). Si la\(X_i\) forma de una clase independiente, o no están correlacionados de otra manera, la expresión de varianza se reduce a

    \(\text{Var}[X] = \sum_{i = 1}^{n} a_i^2 \text{Var} [X_i]\)


    This page titled 12.2: Covarianza y Coeficiente de Correlación is shared under a CC BY 3.0 license and was authored, remixed, and/or curated by Paul Pfeiffer via source content that was edited to the style and standards of the LibreTexts platform.