Saltar al contenido principal
Library homepage
 
LibreTexts Español

4.8: Matrices de Valor Esperado y Covarianza

  • Page ID
    151917
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \(\newcommand{\var}{\text{var}}\)\(\newcommand{\cov}{\text{cov}}\)\(\newcommand{\cor}{\text{cor}}\)\(\newcommand{\vc}{\text{vc}}\)\(\renewcommand{\P}{\mathbb{P}}\)\(\newcommand{\E}{\mathbb{E}}\)\(\newcommand{\R}{\mathbb{R}}\)\(\newcommand{\N}{\mathbb{N}}\)\(\newcommand{\bs}{\boldsymbol}\)

    El propósito principal de esta sección es una discusión sobre el valor esperado y la covarianza para matrices y vectores aleatorios. Estos temas son algo especializados, pero son particularmente importantes en los modelos estadísticos multivariados y para la distribución normal multivariada. Esta sección requiere algún conocimiento previo del álgebra lineal.

    Suponemos que los diversos índices\( m, \, n, p, k \) que ocurren en esta sección son enteros positivos. También asumimos que los valores esperados de las variables aleatorias de valor real a las que hacemos referencia existen como números reales, aunque extensiones a casos donde los valores esperados\(-\infty\) son\(\infty\) o son directos, siempre y cuando evitemos la temida forma indeterminada\(\infty - \infty\).

    Teoría Básica

    Álgebra Lineal

    Seguiremos nuestra convención habitual de denotar variables aleatorias por letras mayúsculas y variables no aleatorias y constantes por letras minúsculas. En esta sección, esa convención lleva a una notación que es un poco no estándar, ya que los objetos con los que vamos a tratar son vectores y matrices. Por otro lado, la notación que usaremos funciona bien para ilustrar las similitudes entre los resultados para matrices aleatorias y los resultados correspondientes en el caso unidimensional. Además, trataremos de tener cuidado de señalar explícitamente los espacios subyacentes donde viven diversos objetos.

    Vamos a\(\R^{m \times n}\) denotar el espacio de todas\(m \times n\) las matrices de números reales. La\( (i, j) \) entrada de\( \bs{a} \in \R^{m \times n} \) se denota\( a_{i j} \) para\( i \in \{1, 2, \ldots, m\} \) y\( j \in \{1, 2, \ldots, n\} \). Nos identificaremos\(\R^n\) con\(\R^{n \times 1}\), para que una\(n\) -tupla ordenada también se pueda considerar como un vector de\(n \times 1\) columna. La transposición de una matriz\(\bs{a} \in \R^{m \times n}\) se denota\(\bs{a}^T\) —la\( n \times m \) matriz cuya\( (i, j) \) entrada es la\( (j, i) \) entrada de\( \bs{a} \). Recordemos las definiciones de adición matricial, multiplicación escalar y multiplicación matricial. Recordemos también el producto interno estándar (o producto punto) de\( \bs{x}, \, \bs{y} \in \R^n \):\[ \langle \bs{x}, \bs{y} \rangle = \bs{x} \cdot \bs{y} = \bs{x}^T \bs{y} = \sum_{i=1}^n x_i y_i \] El producto exterior de\( \bs{x} \) y\(\bs{y}\) es\( \bs{x} \bs{y}^T \), la\( n \times n \) matriz cuya\( (i, j) \) entrada es\( x_i y_j \). Tenga en cuenta que el producto interno es la traza (suma de las entradas diagonales) del producto exterior. Por último, recordar la norma estándar sobre\( \R^n \), dada por\[ \|\bs{x}\| = \sqrt{\langle \bs{x}, \bs{x}\rangle} = \sqrt{x_1^2 + x_2^2 + \cdots + x_n^2}\] Recordemos que el producto interno es bilineal, es decir, lineal (conservando la adición y la multiplicación escalar) en cada argumento por separado. En consecuencia, para\( \bs{x}, \, \bs{y} \in \R^n \),\[ \|\bs{x} + \bs{y}\|^2 = \|\bs{x}\|^2 + \|\bs{y}\|^2 + 2 \langle \bs{x}, \bs{y} \rangle \]

    Valor esperado de una matriz aleatoria

    Como es habitual, nuestro punto de partida es un experimento aleatorio modelado por un espacio de probabilidad\((\Omega, \mathscr F, \P)\). Entonces, para revisar,\( \Omega \) es el conjunto de resultados,\( \mathscr F \) la recolección de eventos, y\( \P \) la medida de probabilidad en el espacio muestral\( (\Omega, \mathscr F) \). Es natural definir el valor esperado de una matriz aleatoria de una manera por componentes.

    Supongamos que\(\bs{X}\) es una\(m \times n\) matriz de variables aleatorias de valor real, cuya\((i, j)\) entrada se denota\(X_{i j}\). Equivalentemente,\(\bs{X}\) es como una\(m \times n\) matriz aleatoria, es decir, una variable aleatoria con valores en\( \R^{m \times n} \). El valor esperado\(\E(\bs{X})\) se define como la\(m \times n\) matriz cuya\((i, j)\) entrada es\(\E\left(X_{i j}\right)\), el valor esperado de\(X_{i j}\).

    Muchas de las propiedades básicas del valor esperado de las variables aleatorias tienen resultados análogos para el valor esperado de las matrices aleatorias, reemplazando la operación matricial a las ordinarias. Nuestras dos primeras propiedades son las propiedades de linealidad críticamente importantes. La primera parte es la propiedad aditiva —el valor esperado de una suma es la suma de los valores esperados.

    \(\E(\bs{X} + \bs{Y}) = \E(\bs{X}) + \E(\bs{Y})\)si\(\bs{X}\) y\(\bs{Y}\) son\(m \times n\) matrices aleatorias.

    Prueba

    Esto es cierto por definición del valor esperado de la matriz y la propiedad aditiva ordinaria. Tenga en cuenta que\( \E\left(X_{i j} + Y_{i j}\right) = \E\left(X_{i j}\right) + \E\left(Y_{i j}\right) \). El lado izquierdo es la\( (i, j) \) entrada de\( \E(\bs{X} + \bs{Y}) \) y el lado derecho es la\( (i, j) \) entrada de\( \E(\bs{X}) + \E(\bs{Y}) \).

    La siguiente parte de las propiedades de linealidad es la propiedad de escalado: un factor de matriz no aleatorio se puede sacar del valor esperado.

    Supongamos que\(\bs{X}\) es una\(n \times p\) matriz aleatoria.

    1. \(\E(\bs{a} \bs{X}) = \bs{a} \E(\bs{X})\)si\(\bs{a} \in \R^{m \times n}\).
    2. \( \E(\bs{X} \bs{a}) = \E(\bs{X}) \bs{a}\)si\( \bs{a} \in \R^{p \times n} \).
    Prueba
    1. Por las propiedades de linealidad y escalado ordinarias,\( \E\left(\sum_{j=1}^n a_{i j} X_{j k}\right) = \sum_{j=1}^n a_{i j} \E\left(X_{j k}\right) \). El lado izquierdo es la\( (i, k) \) entrada de\( \E(\bs{a} \bs{X}) \) y el lado derecho es la\( (i, k) \) entrada de\( \bs{a} \E(\bs{X}) \).
    2. La prueba es similar a (a).

    Recordemos que para las variables independientes, de valor real, el valor esperado del producto es el producto de los valores esperados. Aquí está el resultado análogo para matrices aleatorias.

    \(\E(\bs{X} \bs{Y}) = \E(\bs{X}) \E(\bs{Y})\)si\(\bs{X}\) es una\(m \times n\) matriz aleatoria,\(\bs{Y}\) es una\(n \times p\) matriz aleatoria, y\(\bs{X}\) y\(\bs{Y}\) son independientes.

    Prueba

    Por las propiedades de linealidad ordinaria y por el supuesto de independencia,\[ \E\left(\sum_{j=1}^n X_{i j} Y_{j k}\right) = \sum_{j=1}^n \E\left(X_{i j} Y_{j k}\right) = \sum_{j=1}^n \E\left(X_{i j}\right) \E\left(Y_{j k}\right)\] El lado izquierdo es la\( (i, k) \) entrada de\( \E(\bs{X} \bs{Y}) \) y el lado derecho es la\( (i, k) \) entrada de\( \E(\bs{X}) \E(\bs{Y}) \).

    En realidad el resultado anterior se mantiene si\( \bs{X} \) y simplemente no\( \bs{Y} \) están correlacionados en el sentido de que\( X_{i j} \) y no\( Y_{j k} \) están correlacionados para cada uno\( i \in \{1, \ldots, m\} \),\( j \in \{1, 2, \ldots, n\} \) y\( k \in \{1, 2, \ldots p\} \). Estudiaremos la covarianza de vectores aleatorios en la siguiente subsección.

    Matrices de covarianza

    Nuestro siguiente objetivo es definir y estudiar la covarianza de dos vectores aleatorios.

    Supongamos que\(\bs{X}\) es un vector aleatorio en\(\R^m\) y\(\bs{Y}\) es un vector aleatorio en\(\R^n\).

    1. La matriz de covarianza de\(\bs{X}\) y\(\bs{Y}\) es la\(m \times n\) matriz\(\cov(\bs{X}, \bs{Y})\) cuya\((i,j)\) entrada es\(\cov\left(X_i, Y_j\right)\) la covarianza ordinaria de\(X_i\) y\(Y_j\).
    2. Suponiendo que las coordenadas de\( \bs{X} \) y\(\bs{Y}\) tienen varianza positiva, la matriz de correlación de\( \bs{X} \) y\( \bs{Y} \) es la\( m \times n \) matriz\( \cor(\bs{X}, \bs{Y}) \) cuya\( (i, j) \) entrada es\( \cor\left(X_i, Y_j\right)\), la correlación ordinaria de\( X_i \) y\( Y_j \)

    Muchas de las propiedades estándar de covarianza y correlación para variables aleatorias de valor real tienen extensiones a vectores aleatorios. Para los siguientes tres resultados,\( \bs X \) es un vector aleatorio en\( \R^m \) y\( \bs Y \) es un vector aleatorio en\( \R^n \).

    \(\cov(\bs{X}, \bs{Y}) = \E\left(\left[\bs{X} - \E(\bs{X})\right]\left[\bs{Y} - \E(\bs{Y})\right]^T\right)\)

    Prueba

    Por la definición del valor esperado de un vector aleatorio y por la definición de multiplicación matricial, la\( (i, j) \) entrada de\( \left[\bs{X} - \E(\bs{X})\right]\left[\bs{Y} - \E(\bs{Y})\right]^T \) es simplemente\( \left[X_i - \E\left(X_i\right)\right] \left[Y_j - \E\left(Y_j\right)\right] \). El valor esperado de esta entrada es\( \cov\left(X_i, Y_j\right) \), que a su vez, es la\( (i, j) \) entrada de\( \cov(\bs{X}, \bs{Y}) \)

    Así, la covarianza de\( \bs{X} \) y\( \bs{Y} \) es el valor esperado del producto externo de\( \bs{X} - \E(\bs{X}) \) y\( \bs{Y} - \E(\bs{Y}) \). Nuestro siguiente resultado es la fórmula computacional para la covarianza: el valor esperado del producto externo de\( \bs{X} \) y\( \bs{Y} \) menos el producto externo de los valores esperados.

    \(\cov(\bs{X},\bs{Y}) = \E\left(\bs{X} \bs{Y}^T\right) - \E(\bs{X}) \left[\E(\bs{Y})\right]^T\).

    Prueba

    El\( (i, j) \) ingreso de\( \E\left(\bs{X} \bs{Y}^T\right) - \E(\bs{X}) \left[\E(\bs{Y})\right]^T\) is\( \E\left(X_i, Y_j\right) - \E\left(X_i\right) \E\left(Y_j\right) \), que por la fórmula computacional estándar, es\( \cov\left(X_i, Y_j\right) \), que a su vez es la\( (i, j) \) entrada de\( \cov(\bs{X}, \bs{Y}) \).

    El siguiente resultado es la versión matricial de la propiedad de simetría.

    \(\cov(\bs{Y}, \bs{X}) = \left[\cov(\bs{X}, \bs{Y})\right]^T\).

    Prueba

    La\( (i, j) \) entrada de\( \cov(\bs{X}, \bs{Y}) \) es\( \cov\left(X_i, Y_j\right) \), que es la\((j, i) \) entrada de\( \cov(\bs{Y}, \bs{X}) \).

    En el siguiente resultado,\( \bs{0} \) denota la matriz\( m \times n \) cero.

    \(\cov(\bs{X}, \bs{Y}) = \bs{0}\)si y sólo si\(\cov\left(X_i, Y_j\right) = 0\) para cada\(i\) y\(j\), para que cada coordenada de no\(\bs{X}\) esté correlacionada con cada coordenada de\(\bs{Y}\).

    Prueba

    Esto se desprende inmediatamente de la definición de\( \cov(\bs{X}, \bs{Y}) \).

    Naturalmente, cuando\( \cov(\bs{X}, \bs{Y}) = \bs{0} \), decimos que los vectores aleatorios\( \bs{X} \) y no\(\bs{Y}\) están correlacionados. En particular, si los vectores aleatorios son independientes, entonces no están correlacionados. Los siguientes resultados establecen las propiedades bilineales de la covarianza.

    Las propiedades aditivas.

    1. \(\cov(\bs{X} + \bs{Y}, \bs{Z}) = \cov(\bs{X}, \bs{Z}) + \cov(\bs{Y}, \bs{Z})\)si\(\bs{X}\) y\(\bs{Y}\) son vectores aleatorios en\(\R^m\) y\(\bs{Z}\) es un vector aleatorio en\(\R^n\).
    2. \(\cov(\bs{X}, \bs{Y} + \bs{Z}) = \cov(\bs{X}, \bs{Y}) + \cov(\bs{X}, \bs{Z})\)if\(\bs{X}\) es un vector aleatorio en\(\R^m\), y\(\bs{Y}\) y\(\bs{Z}\) son vectores aleatorios en\(\R^n\).
    Prueba
    1. De la propiedad aditiva ordinaria de la covarianza,\( \cov\left(X_i + Y_i, Z_j\right) = \cov\left(X_i, Z_j\right) + \cov\left(Y_i, Z_j\right) \). El lado izquierdo es la\( (i, j) \) entrada de\( \cov(\bs{X} + \bs{Y}, \bs{Z}) \) y el lado derecho es la\( (i, j) \) entrada de\( \cov(\bs{X}, \bs{Z}) + \cov(\bs{Y}, \bs{Z}) \).
    2. La prueba es similar a (a), utilizando la aditividad de la covarianza en el segundo argumento.

    Las propiedades de escalado

    1. \(\cov(\bs{a} \bs{X}, \bs{Y}) = \bs{a} \cov(\bs{X}, \bs{Y})\)si\(\bs{X}\) es un vector aleatorio en\(\R^n\),\(\bs{Y}\) es un vector aleatorio en\(\R^p\), y\(\bs{a} \in \R^{m \times n}\).
    2. \(\cov(\bs{X}, \bs{a} \bs{Y}) = \cov(\bs{X}, \bs{Y}) \bs{a}^T\)si\(\bs{X}\) es un vector aleatorio en\(\R^m\),\(\bs{Y}\) es un vector aleatorio en\(\R^n\), y\(\bs{a} \in \R^{k \times n}\).
    Prueba
    1. Usando las propiedades de linealidad ordinaria de covarianza en el primer argumento, tenemos\[ \cov\left(\sum_{j=1}^n a_{i j} X_j, Y_k\right) = \sum_{j=1}^n a_{i j} \cov\left(X_j, Y_k\right) \] El lado izquierdo es la\( (i, k) \) entrada de\( \cov(\bs{a} \bs{X}, \bs{Y}) \) y el lado derecho es la\( (i, k) \) entrada de\( \bs{a} \cov(\bs{X}, \bs{Y}) \).
    2. La prueba es similar a (a), utilizando la linealidad de la covarianza en el segundo argumento.

    Matrices de varianza-covarianza

    Supongamos que\(\bs{X}\) es un vector aleatorio en\(\R^n\). La matriz de covarianza de\(\bs{X}\) consigo misma se llama la matriz varianza-covarianza de\(\bs{X}\):\[ \vc(\bs{X}) = \cov(\bs{X}, \bs{X}) = \E\left(\left[\bs{X} - \E(\bs{X})\right]\left[\bs{X} - \E(\bs{X})\right]^T\right)\]

    Recordemos que para una variable aleatoria ordinaria de valor real\( X \),\( \var(X) = \cov(X, X) \). Así, la matriz de varianza-covarianza de un vector aleatorio en cierto sentido juega el mismo papel que la varianza para una variable aleatoria.

    \(\vc(\bs{X})\)es una\(n \times n\) matriz simétrica con\(\left(\var(X_1), \var(X_2), \ldots, \var(X_n)\right)\) en la diagonal.

    Prueba

    Recordemos eso\( \cov\left(X_i, X_j\right) = \cov\left(X_j, X_i\right) \). También, la\( (i, i) \) entrada de\( \vc(\bs{X}) \) es\( \cov\left(X_i, X_i\right) = \var\left(X_i\right) \).

    El siguiente resultado es la fórmula para la matriz varianza-covarianza de una suma, análoga a la fórmula para la varianza de una suma de variables de valor real.

    \(\vc(\bs{X} + \bs{Y}) = \vc(\bs{X}) + \cov(\bs{X}, \bs{Y}) + \cov(\bs{Y}, \bs{X}) + \vc(\bs{Y})\)si\(\bs{X}\) y\(\bs{Y}\) son vectores aleatorios en\(\R^n\).

    Prueba

    Esto se desprende de la propiedad aditiva de la covarianza:\[ \vc(\bs{X} + \bs{Y}) = \cov(\bs{X} + \bs{Y}, \bs{X} + \bs{Y}) = \cov(\bs{X}, \bs{X}) + \cov(\bs{X}, \bs{Y}) + \cov(\bs{Y}, \bs{X}) + \cov(\bs{Y}, \bs{Y}) \]

    Recordemos que\( \var(a X) = a^2 \var(X) \) si\( X \) es una variable aleatoria de valor real y\( a \in \R \). Aquí está el resultado análogo para la matriz varianza-covarianza de un vector aleatorio.

    \(\vc(\bs{a} \bs{X}) = \bs{a} \vc(\bs{X}) \bs{a}^T\)if\(\bs{X}\) es un vector aleatorio en\(\R^n\) y\(\bs{a} \in \R^{m \times n}\).

    Prueba

    Esto se desprende de la propiedad de escalado de la covarianza:\[ \vc(\bs{a} \bs{X}) = \cov(\bs{a} \bs{X}, \bs{a} \bs{X}) = \bs{a} \cov(\bs{X}, \bs{X}) \bs{a}^T \]

    Recordemos que si\( X \) es una variable aleatoria, entonces\( \var(X) \ge 0 \), y\( \var(X) = 0 \) si y solo si\( X \) es una constante (con probabilidad 1). Aquí está el resultado análogo para un vector aleatorio:

    Supongamos que\( \bs{X} \) es un vector aleatorio en\( \R^n \).

    1. \( \vc(\bs{X}) \)es positivo semidefinido o positivo definido.
    2. \(\vc(\bs{X})\)es positivo semidefinido pero no positivo definido si y sólo si existe\(\bs{a} \in \R^n\) y\(c \in \R\) tal que, con probabilidad 1,\(\bs{a}^T \bs{X} = \sum_{i=1}^n a_i X_i = c\)
    Prueba
    1. Del resultado anterior,\(0 \le \var\left(\bs{a}^T \bs{X}\right) = \vc\left(\bs{a}^T \bs{X}\right) = \bs{a}^T \vc(\bs{X}) \bs{a} \) para cada\( \bs{a} \in \R^n \). Así, por definición,\( \vc(\bs{X}) \) es o bien positivo semidefinido o positivo definido.
    2. A la luz de (a),\( \vc(\bs{X}) \) es positivo semidefinido pero no positivo definido si y sólo si existe\( \bs{a} \in \R^n \) tal que\( \bs{a}^T \vc(\bs{X}) \bs{a} = \var\left(\bs{a}^T \bs{X}\right) = 0 \). Pero a su vez, esto es cierto si y sólo si\( \bs{a}^T \bs{X} \) es constante con probabilidad 1.

    Recordemos que dado que\(\vc(\bs{X})\) es positivo semidefinido o positivo definido, los valores propios y el determinante de no\(\vc(\bs{X})\) son negativos. Además, si\(\vc(\bs{X})\) es positivo semidefinido pero no positivo definido, entonces una de las coordenadas de\(\bs{X}\) puede escribirse como una transformación lineal de las otras coordenadas (y por lo tanto generalmente puede eliminarse en el modelo subyacente). Por el contrario, si\(\vc(\bs{X})\) es positivo definido, entonces esto no puede suceder;\(\vc(\bs{X})\) tiene valores propios positivos y determinantes y es invertible.

    Mejor predictor lineal

    Supongamos que\(\bs{X}\) es un vector aleatorio en\(\R^m\) y que\(\bs{Y}\) es un vector aleatorio en\(\R^n\). Nos interesa encontrar la función\(\bs{X}\) de la forma\(\bs{a} + \bs{b} \bs{X}\), dónde\(\bs{a} \in \R^n\) y\(\bs{b} \in \R^{n \times m}\), que está más cerca\(\bs{Y}\) en el sentido cuadrático medio. Las funciones de esta forma son análogas a las funciones lineales en el caso de una sola variable. Sin embargo\( \bs{a} = \bs{0} \), a menos que, tales funciones no sean transformaciones lineales en el sentido de álgebra lineal, por lo que el término correcto es función afín de\( \bs{X} \). Este problema es de fundamental importancia en la estadística cuando el vector aleatorio\(\bs{X}\), el vector predictor es observable, pero no el vector aleatorio\(\bs{Y}\), el vector de respuesta. Nuestra discusión aquí generaliza el caso unidimensional, cuándo\(X\) y\(Y\) son variables aleatorias. Ese problema se resolvió en el apartado de Covarianza y Correlación. Supondremos que\(\vc(\bs{X})\) es positivo definido, por lo que\( \vc(\bs{X}) \) es invertible, y ninguna de las coordenadas de\(\bs{X}\) puede escribirse como una función afín de las otras coordenadas. Escribimos\( \vc^{-1}(\bs{X}) \) para lo inverso en lugar de lo más torpe\( \left[\vc(\bs{X})\right]^{-1} \).

    Al igual que con el caso de una sola variable, la solución resulta ser la función afín que tiene el mismo valor esperado que\( \bs{Y} \), y cuya covarianza con\( \bs{X} \) es la misma que la de\( \bs{Y} \).

    Definir\( L(\bs{Y} \mid \bs{X}) = \E(\bs{Y}) + \cov(\bs{Y},\bs{X}) \vc^{-1}(\bs{X}) \left[\bs{X} - \E(\bs{X})\right] \). Entonces\( L(\bs{Y} \mid \bs{X}) \) es la única función afín\( \bs{X} \) de\( \R^n \) satisfacer

    1. \( \E\left[L(\bs{Y} \mid \bs{X})\right] = \E(\bs{Y}) \)
    2. \( \cov\left[L(\bs{Y} \mid \bs{X}), \bs{X}\right] = \cov(\bs{Y}, \bs{X}) \)
    Prueba

    De linealidad,\[ \E\left[L(\bs{Y} \mid \bs{X})\right] = E(\bs{Y}) + \cov(\bs{Y}, \bs{X}) \vc^{-1}(\bs{X})\left[\E(\bs{X}) - \E(\bs{X})\right] = 0\] De linealidad y el hecho de que un vector constante es independiente (y por lo tanto no correlacionado) con cualquier vector aleatorio,\[ \cov\left[L(\bs{Y} \mid \bs{X}), \bs{X}\right] = \cov(\bs{Y}, \bs{X}) \vc^{-1}(\bs{X}) \cov(\bs{X}, \bs{X}) = \cov(\bs{Y}, \bs{X}) \vc^{-1}(\bs{X}) \vc(\bs{X}) = \cov(\bs{Y}, \bs{X}) \] Por el contrario, supongamos que\( \bs{U} = \bs{a} + \bs{b} \bs{X} \) para algunos\( \bs{a} \in \R^n \) y\( \bs{b} \in \R^{m \times n} \), y que\( \E(\bs{U}) = \E(\bs{Y}) \) y\( \cov(\bs{U}, \bs{X}) = \cov(\bs{Y}, \bs{X}) \). A partir de la segunda ecuación, nuevamente usando linealidad y la propiedad no correlacionada de vectores constantes, obtenemos\( \bs{b} \cov(\bs{X}, \bs{X}) = \cov(\bs{Y}, \bs{X}) \) y por lo tanto\( \bs{b} = \cov(\bs{Y}, \bs{X}) \vc^{-1}(\bs{X}) \). Entonces a partir de la primera ecuación,\( \bs{a} + \bs{b} \E(\bs{X}) = \bs{Y} \) entonces\( \bs{a} = \E(\bs{Y}) - \bs{b} \E(\bs{X}) \).

    Un corolario simple es que no\( \bs{Y} - L(\bs{Y} \mid \bs{X}) \) está correlacionado con ninguna función afín de\( \bs{X} \):

    Si\( \bs{U} \) es una función afín de\( \bs{X} \) entonces

    1. \( \cov\left[\bs{Y} - L(\bs{Y} \mid \bs{X}), \bs{U}\right] = \bs{0} \)
    2. \( \E\left(\langle \bs{Y} - L(\bs{Y} \mid \bs{X}), \bs{U}\rangle\right) = 0\)
    Prueba

    Supongamos que\( \bs{U} = \bs{a} + \bs{b} \bs{X} \) donde\( \bs{a} \in \R^n \) y\( \bs{b} \in \R^{m \times n} \). Por simplicidad, vamos\( \bs{L} = L(\bs{Y} \mid \bs{X}) \)

    1. Del resultado anterior,\( \cov(\bs{Y}, \bs{X}) = \cov(\bs{L}, \bs{X}) \). Por lo tanto, utilizando linealidad,\[ \cov\left(\bs{Y} - \bs{L}, \bs{U}\right) = \cov(\bs{Y} - \bs{L}, \bs{a}) + \cov(\bs{Y} - \bs{L}, \bs{X}) \bs{b}^T = \bs{0} + \left[\cov(\bs{Y}, \bs{X}) - \cov(\bs{L}, \bs{X})\right] = \bs{0} \]
    2. Recordemos que\(\langle \bs{Y} - \bs{L}, \bs{U}\rangle\) es el rastro de\( \cov(\bs{Y} - \bs{L}, \bs{U}) \) y por lo tanto tiene valor esperado 0 por parte (a).

    La matriz varianza-covarianza de\( L(\bs{Y} \mid \bs{X}) \), y su matriz de covarianza con\( \bs{Y} \) resultan ser la misma, de nuevo análoga al caso de una sola variable.

    Propiedades adicionales de\( L(\bs{Y} \mid \bs{X}) \):

    1. \( \cov\left[\bs{Y}, L(\bs{Y} \mid \bs{X})\right] = \cov(\bs{Y}, \bs{X}) \vc^{-1}(\bs{X}) \cov(\bs{X}, \bs{Y}) \)
    2. \( \vc\left[L(\bs{Y} \mid \bs{X})\right] = \cov(\bs{Y}, \bs{X}) \vc^{-1}(\bs{X}) \cov(\bs{X}, \bs{Y}) \)
    Prueba

    Recordemos que\( L(\bs{Y} \mid \bs{X}) = \E(\bs{Y}) + \cov(\bs{Y},\bs{X}) \vc^{-1}(\bs{X}) \left[\bs{X} - \E(\bs{X})\right] \)

    1. Usando propiedades básicas de covarianza,\[ \cov\left[Y, L(\bs{Y} \mid \bs{X})\right] = \cov\left[\bs{Y}, \bs{X} - \E(\bs{X})\right] \left[\cov(\bs{Y}, \bs{X}) \vc^{-1}(\bs{X})\right]^T = \cov(\bs{Y}, \bs{X}) \vc^{-1}(\bs{X}) \cov(\bs{X}, \bs{Y}) \]
    2. Usando propiedades básicas de varianza-covarianza,\[ \vc\left[L(\bs{Y} \mid \bs{X})\right] = \vc\left[\cov(\bs{Y}, \bs{X}) \vc^{-1}(\bs{X}) \bs{X} \right] = \cov(\bs{Y}, \bs{X}) \vc^{-1}(\bs{X}) \vc(\bs{X}) \left[\cov(\bs{Y}, \bs{X}) \vc^{-1}(\bs{X})\right]^T = \cov(\bs{Y}, \bs{X}) \vc^{-1}(\bs{X}) \cov(\bs{X}, \bs{Y})\]

    A continuación se encuentra el resultado fundamental que\( L(\bs{Y} \mid \bs{X}) \) es la función afín de la\( \bs{X} \) que está más cerca\( \bs{Y} \) en el sentido cuadrático medio.

    Supongamos que\( \bs{U} \in \R^n \) es una función afín de\( \bs{X} \). Entonces

    1. \( \E\left(\|\bs{Y} - L(\bs{Y} \mid \bs{X})\|^2\right) \le \E\left(\|\bs{Y} - \bs{U}\|^2\right) \)
    2. La igualdad se mantiene en (a) si y sólo si\( \bs{U} = L(\bs{Y} \mid \bs{X}) \) con probabilidad 1.
    Prueba

    Nuevamente, dejemos que\( \bs{L} = L(\bs{Y} \mid \bs{X}) \) por la simplicidad y dejemos\( \bs{U} \in \R^n \) ser una función afín de\( \bs{X}\).

    1. Usando la linealidad del valor esperado, tenga en cuenta que\[ \E\left(\|\bs{Y} - \bs{U}\|^2\right) = \E\left[\|(\bs{Y} - \bs{L}) + (\bs{L} - \bs{U})\|^2\right] = \E\left(\|\bs{Y} - \bs{L}\|^2\right) + 2 \E(\langle \bs{Y} - \bs{L}, \bs{L} - \bs{U}\rangle) + \E\left(\|\bs{L} - \bs{U}\|^2\right) \] Pero\( \bs{L} - \bs{U} \) es una función afín de\( \bs{X} \) y por lo tanto el término medio es 0 por nuestro corolario anterior. De ahí\( \E\left(\|\bs{Y} - \bs{U}\|^2\right) = \E\left(\|\bs{L} - \bs{Y}\|^2\right) + \E\left(\|\bs{L} - \bs{U}\|^2\right) \ge \E\left(\|\bs{L} - \bs{Y}\|^2\right) \)
    2. A partir de (a), la igualdad se sostiene en la desigualdad si y sólo\( \E\left(\|\bs{L} - \bs{U}\|^2\right) = 0 \) si y sólo si\( \P(\bs{L} = \bs{U}) = 1 \).

    La matriz varianza-covarianza de la diferencia entre\( \bs{Y} \) y la mejor aproximación afín se da en el siguiente teorema.

    \( \vc\left[\bs{Y} - L(\bs{Y} \mid \bs{X})\right] = \vc(\bs{Y}) - \cov(\bs{Y}, \bs{X}) \vc^{-1}(\bs{X}) \cov(\bs{X}, \bs{Y}) \)

    Prueba

    Nuevamente, abreviamos\( L(\bs{Y} \mid \bs{X}) \) por\(\bs{L}\). Usando las propiedades básicas de las matrices de varianza-covarianza,\[ \vc(\bs{Y} - \bs{L}) = \vc(\bs{Y}) - \cov(\bs{Y}, \bs{L}) - \cov(\bs{L}, \bs{Y}) + \vc(\bs{L}) \] But\( \cov(\bs{Y}, \bs{L}) = \cov(\bs{L}, \bs{Y}) = \vc(\bs{L}) = \cov(\bs{Y}, \bs{X}) \vc^{-1}(\bs{X}) \cov(\bs{Y}, \bs{X}) \). Sustituir da el resultado.

    El error cuadrático medio real cuando usamos\( L(\bs{Y} \mid \bs{X}) \) para aproximar\( \bs{Y} \), es decir\( \E\left(\left\|\bs{Y} - L(\bs{Y} \mid \bs{X})\right\|^2\right) \), es la traza (suma de las entradas diagonales) de la matriz varianza-covarianza anterior. La función de\(\bs{x}\) dado por\[ L(\bs{Y} \mid \bs{X} = \bs{x}) = \E(\bs{Y}) + \cov(\bs{Y},\bs{X}) \vc^{-1}(\bs{X}) \left[\bs{x} - \E(\bs{X})\right] \] se conoce como la función de regresión lineal (distribución). Si observamos\(\bs{x}\) entonces\(L(\bs{Y} \mid \bs{X} = \bs{x})\) es nuestra mejor predicción afín de\(\bs{Y}\).

    La regresión lineal múltiple es más poderosa de lo que puede aparecer al principio, ya que se puede aplicar a transformaciones no lineales de los vectores aleatorios. Es decir, si\( g: \R^m \to \R^j \) y\( h: \R^n \to \R^k \) entonces\( L\left[h(\bs{Y}) \mid g(\bs{X})\right] \) es la función afín de la\( g(\bs{X}) \) que está más cerca\( h(\bs{Y}) \) en el sentido cuadrático medio. Por supuesto, debemos ser capaces de computar los medios, varianzas y covarianzas apropiados.

    Además, la regresión no lineal con una única variable predictora de valor real puede considerarse como un caso especial de regresión lineal múltiple. Así, supongamos que\(X\) es la variable predictora,\(Y\) es la variable de respuesta, y que\((g_1, g_2, \ldots, g_n)\) es una secuencia de funciones de valor real. Podemos aplicar los resultados de esta sección para encontrar la función lineal de la\(\left(g_1(X), g_2(X), \ldots, g_n(X)\right)\) que está más cerca\(Y\) en el sentido cuadrático medio. Simplemente\(X_i\) reemplazamos\(g_i(X)\) por para cada uno\(i\). Nuevamente, debemos ser capaces de computar los medios, varianzas y covarianzas apropiados para ello.

    Ejemplos y Aplicaciones

    Supongamos que\((X, Y)\) tiene la función de densidad de probabilidad\(f\) definida por\(f(x, y) = x + y\) for\(0 \le x \le 1\),\(0 \le y \le 1\). Encuentra cada uno de los siguientes:

    1. \(\E(X, Y)\)
    2. \(\vc(X, Y)\)
    Contestar
    1. \(\left(\frac{7}{12}, \frac{7}{12}\right)\)
    2. \(\left[\begin{matrix} \frac{11}{144} & -\frac{1}{144} \\ -\frac{1}{144} & \frac{11}{144}\end{matrix}\right]\)

    Supongamos que\((X, Y)\) tiene la función de densidad de probabilidad\(f\) definida por\(f(x, y) = 2 (x + y)\) for\(0 \le x \le y \le 1\). Encuentra cada uno de los siguientes:

    1. \(\E(X, Y)\)
    2. \(\vc(X, Y)\)
    Contestar
    1. \(\left(\frac{5}{12}, \frac{3}{4}\right)\)
    2. \(\left[\begin{matrix} \frac{43}{720} & \frac{1}{48} \\ \frac{1}{48} & \frac{3}{80} \end{matrix} \right]\)

    Supongamos que\((X, Y)\) tiene la función de densidad de probabilidad\(f\) definida por\(f(x, y) = 6 x^2 y\) for\(0 \le x \le 1\),\(0 \le y \le 1\). Encuentra cada uno de los siguientes:

    1. \(\E(X, Y)\)
    2. \(\vc(X, Y)\)
    Contestar

    Tenga en cuenta que\(X\) y\(Y\) son independientes.

    1. \(\left(\frac{3}{4}, \frac{2}{3}\right)\)
    2. \(\left[\begin{matrix} \frac{3}{80} & 0 \\ 0 & \frac{1}{18} \end{matrix} \right]\)

    Supongamos que\((X, Y)\) tiene la función de densidad de probabilidad\(f\) definida por\(f(x, y) = 15 x^2 y\) for\(0 \le x \le y \le 1\). Encuentra cada uno de los siguientes:

    1. \(\E(X, Y)\)
    2. \(\vc(X, Y)\)
    3. \(L(Y \mid X)\)
    4. \(L\left[Y \mid \left(X, X^2\right)\right]\)
    5. Esboce las curvas de regresión en el mismo conjunto de ejes.
    Contestar
    1. \(\left( \frac{5}{8}, \frac{5}{6} \right)\)
    2. \(\left[ \begin{matrix} \frac{17}{448} & \frac{5}{336} \\ \frac{5}{336} & \frac{5}{252} \end{matrix} \right]\)
    3. \(\frac{10}{17} + \frac{20}{51} X\)
    4. \(\frac{49}{76} + \frac{10}{57} X + \frac{7}{38} X^2\)

    Supongamos que\((X, Y, Z)\) se distribuye uniformemente en la región\(\left\{(x, y, z) \in \R^3: 0 \le x \le y \le z \le 1\right\}\). Encuentra cada uno de los siguientes:

    1. \(\E(X, Y, Z)\)
    2. \(\vc(X, Y, Z)\)
    3. \(L\left[Z \mid (X, Y)\right]\)
    4. \(L\left[Y \mid (X, Z)\right]\)
    5. \(L\left[X \mid (Y, Z)\right]\)
    6. \( L\left[(Y, Z) \mid X\right] \)
    Contestar
    1. \(\left(\frac{1}{4}, \frac{1}{2}, \frac{3}{4}\right)\)
    2. \(\left[\begin{matrix} \frac{3}{80} & \frac{1}{40} & \frac{1}{80} \\ \frac{1}{40} & \frac{1}{20} & \frac{1}{40} \\ \frac{1}{80} & \frac{1}{40} & \frac{3}{80} \end{matrix}\right]\)
    3. \(\frac{1}{2} + \frac{1}{2} Y\). Tenga en cuenta que no hay\(X\) término.
    4. \(\frac{1}{2} X + \frac{1}{2} Z\). Tenga en cuenta que este es el punto medio del intervalo\([X, Z]\).
    5. \(\frac{1}{2} Y\). Tenga en cuenta que no hay\(Z\) término.
    6. \( \left[\begin{matrix} \frac{1}{3} + \frac{2}{3} X \\ \frac{2}{3} + \frac{1}{3} X \end{matrix}\right] \)

    Supongamos que\(X\) se distribuye uniformemente en\((0, 1)\), y que dada\(X\), variable aleatoria\(Y\) se distribuye uniformemente en\((0, X)\). Encuentra cada uno de los siguientes:

    1. \(\E(X, Y)\)
    2. \(\vc(X, Y)\)
    Contestar
    1. \(\left(\frac{1}{2}, \frac{1}{4}\right)\)
    2. \(\left[\begin{matrix} \frac{1}{12} & \frac{1}{24} \\ \frac{1}{24} & \frac{7}{144} \end{matrix} \right]\)

    This page titled 4.8: Matrices de Valor Esperado y Covarianza is shared under a CC BY 2.0 license and was authored, remixed, and/or curated by Kyle Siegrist (Random Services) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.