5.7: La distribución normal multivariada

Última actualización
Guardar como PDF

Page ID: 151656

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

\(\newcommand{\R}{\mathbb{R}}\)\(\newcommand{\N}{\mathbb{N}}\)\(\newcommand{\E}{\mathbb{E}}\)\(\newcommand{\P}{\mathbb{P}}\)\(\newcommand{\var}{\text{var}}\)\(\newcommand{\sd}{\text{sd}}\)\(\newcommand{\cov}{\text{cov}}\)\(\newcommand{\cor}{\text{cor}}\)\(\newcommand{\vc}{\text{vc}}\)\(\newcommand{\bs}{\boldsymbol}\)

La distribución normal multivariada se encuentra entre las distribuciones multivariadas más importantes, particularmente en la inferencia estadística y el estudio de procesos gaussianos como el movimiento browniano. La distribución surge naturalmente de transformaciones lineales de variables normales independientes. En esta sección, consideramos primero la distribución normal bivariada, porque se pueden dar resultados explícitos y porque las interpretaciones gráficas son posibles. Luego, con la ayuda de la notación matricial, se discute la distribución multivariante general.

La distribución normal bivariada

La distribución estándar

Recordemos que la función\( \phi \) de densidad de probabilidad de la distribución normal estándar viene dada por\[ \phi(z) = \frac{1}{\sqrt{2 \pi}} e^{-z^2/2}, \quad z \in \R\] La función de distribución correspondiente se denota\( \Phi \) y se considera una función especial en matemáticas:\[ \Phi(z) = \int_{-\infty}^z \phi(x) \, dx = \int_{-\infty}^z \frac{1}{\sqrt{2 \pi}} e^{-x^2/2} \, dx, \quad z \in \R \] Finalmente, la función generadora de momento\( m \) viene dada por \[ m(t) = \E\left(e^{t Z}\right) = \exp\left[\frac{1}{2} \var(t Z)\right] = e^{t^2/2}, \quad t \in \R \]

Supongamos que\( Z \) y\( W \) son variables aleatorias independientes, cada una con la distribución normal estándar. La distribución de\( (Z, W) \) se conoce como la distribución normal bivariada estándar.

Las propiedades básicas de la distribución normal bivariada estándar se derivan fácilmente de la independencia y las propiedades de la distribución normal (univariada). Recordemos primero que la gráfica de una función\( f: \R^2 \to \R \) es una superficie. Para\( c \in \R \), el conjunto de puntos\( \left\{(x, y) \in \R^2: f(x, y) = c\right\} \) es la curva de nivel de\( f \) a nivel\( c \). La gráfica de se\( f \) puede entender por medio de las curvas de nivel.

La función\( \phi_2 \) de densidad de probabilidad de la distribución normal bivariada estándar viene dada por\[ \phi_2(z, w) = \frac{1}{2 \pi} e^{-\frac{1}{2}\left(z^2 + w^2\right)}, \quad (z, w) \in \R^2 \]

Las curvas de nivel de\( \phi_2 \) son círculos centrados en el origen.
El modo de distribución es\( (0, 0) \).
\( \phi_2 \)es cóncavo hacia abajo en\( \left\{(z, w) \in \R^2: z^2 + w^2 \lt 1\right\} \)

Prueba

Por independencia,\( \phi_2(z, w) = \phi(z) \phi(w) \) para\( (z, w) \in \R^2 \). Las partes (a) y (b) son claras. Para la parte (c), la segunda matriz derivada de\( \phi_2 \) es\[ \left[\begin{matrix} \phi_2(z, w)\left(z^2 - 1\right) & \phi_2(z, w) z w \\ \phi_2(z, w) z w & \phi_2(z, w)\left(w^2 - 1\right) \end{matrix}\right]\] con determinante\( \phi_2^2(z, w) \left(1 - z^2 - w^2\right) \). El determinante es positivo y las entradas diagonales negativas en la región circular\( \left\{(z, w) \in \R^2: z^2 + w^2 \lt 1\right\} \), por lo que la matriz es negativa definida en esta región.

Claramente\( \phi \) tiene una serie de propiedades de simetría también:\( \phi_2(z, w) \) es simétrico en\( z \) aproximadamente 0 de modo que\(\phi_2(-z, w) = \phi_2(z, w)\);\( \phi_2(z, w) \) es simétrico en\( w \) aproximadamente 0 así que\( \phi_2(z, -w) = \phi_2(z, w) \);\( \phi_2(z, w) \) es simétrico en\( (z, w) \) así que\( \phi_2(z, w) = \phi_2(w, z) \). En definitiva,\( \phi_2 \) tiene la forma clásica de campana que asociamos con distribuciones normales.

Abra el experimento normal bivariado, mantenga los ajustes predeterminados para obtener la distribución normal bivariada estándar. Ejecutar el experimento 1000 veces. Observe la nube de puntos en la gráfica de dispersión y compare las funciones de densidad empírica con las funciones de densidad de probabilidad.

Supongamos que\( (Z, W) \) tiene la distribución normal bivariada estándar. La función de generación de momento\( m_2 \) de\( (Z, W) \) viene dada por\[ m_2(s, t) = \E\left[\exp(s Z + t W)\right] = \exp\left[\frac{1}{2} \var(s Z + t W)\right] = \exp\left[\frac{1}{2}\left(s^2 + t^2\right)\right], \quad (s, t) \in \R^2 \]

Prueba

Por independencia,\( m_2(s, t) = m(s) m(t) \) para\( (s, t) \in \R^2 \) donde\( m \) esta el MGF normal estandar.

La distribución general

La distribución normal bivariada general se puede construir por medio de una transformación afín en un vector normal bivariado estándar. La distribución tiene 5 parámetros. Como veremos, dos son parámetros de ubicación, dos son parámetros de escala y uno es un parámetro de correlación.

Supongamos que\( (Z, W) \) tiene la distribución normal bivariada estándar. Let\(\mu, \, \nu \in \R\)\(\sigma, \, \tau \in (0, \infty)\);; y\(\rho \in (-1, 1)\), y let\(X\) y\(Y\) ser nuevas variables aleatorias definidas por\ begin {align} X & =\ mu +\ sigma\, Z\\ Y & =\ nu +\ tau\ rho Z +\ tau\ sqrt {1 -\ rho^2} W\ end {align} La distribución conjunta de\((X, Y)\) se llama la normal bivariada distribución con parámetros\((\mu, \nu, \sigma, \tau, \rho)\).

Podemos usar la fórmula de cambio de variables para encontrar la función conjunta de densidad de probabilidad.

Supongamos que\( (X, Y) \) tiene la distribución normal bivariada con los parámetros especificados\( (\mu, \nu, \sigma, \tau, \rho) \) anteriormente. La función de densidad de probabilidad conjunta\( f \) de\((X, Y)\) viene dada por\[ f(x, y) = \frac{1}{2 \pi \sigma \tau \sqrt{1 - \rho^2}} \exp \left\{ -\frac{1}{2 (1 - \rho^2)} \left[ \frac{(x - \mu)^2}{\sigma^2} - 2 \rho \frac{(x - \mu)(y - \nu)}{\sigma \tau} + \frac{(y - \nu)^2}{\tau^2} \right] \right\}, \quad (x, y) \in \R^2 \]

Las curvas de nivel de\( f \) son elipses centradas en\((\mu, \nu)\).
El modo de distribución es\( (\mu, \nu) \).

Prueba

Considerar la transformación que define\((x, y)\) a partir de\((z, w)\) en la definición. La transformación inversa viene dada por\ begin {align} z & =\ frac {x -\ mu} {\ sigma}\\ w & =\ frac {x -\ mu} {\ sigma\,\ sqrt {1 -\ rho^2}} -\ rho\ frac {y -\ nu} {\ tau\,\ sqrt {1 -\ rho^2}}\ end {align} El Jacobiano de la transformación inversa es\[ \frac{\partial(z, w)}{\partial(x, y)} = \frac{1}{\sigma \tau \sqrt{1 - \rho^2}} \] Tenga en cuenta que el jacobiano es una constante, porque el la transformación es afín. El resultado ahora se desprende de la independencia de\(Z\) y\(W\), y el cambio de la fórmula de variables

Tenga en cuenta que\( f \) tiene la forma\( f(x, y) = a \exp\left[- b g(x, y)\right] \) donde\( a \) y\( b \) son constantes positivas y\[ g(x, y) = \frac{(x - \mu)^2}{\sigma^2} - 2 \rho \frac{(x - \mu)(y - \nu)}{\sigma \tau} + \frac{(y - \nu)^2}{\tau^2}, \quad (x, y) \in \R^2 \] La gráfica de\( g \) es una apertura paraboloide hacia arriba. Las curvas de nivel de\( f \) son las mismas que las curvas de nivel de\( g \) (pero a diferentes niveles por supuesto).
El máximo de\( f \) ocurre al mínimo de\( g \), en el punto\( (\mu, \nu) \).

El siguiente teorema da propiedades fundamentales de la distribución normal bivariada.

Supongamos que\((X, Y)\) tiene la distribución normal bivariada con parámetros\((\mu, \nu, \sigma, \tau, \rho)\) como se especificó anteriormente. Entonces

\(X\)se distribuye normalmente con media\(\mu\) y desviación estándar\(\sigma\).
\(Y\)se distribuye normalmente con media\(\nu\) y desviación estándar\(\tau\).
\(\cor(X, Y) = \rho\).
\( X \)y\( Y \) son independientes si y sólo si\( \rho = 0 \).

Prueba

Estos resultados se pueden probar a partir de la función de densidad de probabilidad, pero es más fácil y útil usar la definición de transformación. Entonces, supongamos que\( (X, Y) \) se define en términos del par normal bivariado estándar\( (Z, W) \) como en la definición.

\( X = \mu + \sigma Z \)así\( X \) tiene la distribución normal con media\( \mu \) y desviación estándar\( \sigma \). Esta es una propiedad básica de la distribución normal, y de hecho es la forma en que la variable normal general se construye a partir de una variable normal estándar.
Dado que\( Z \) y\( W \) son independientes y cada uno tiene la distribución normal estándar, normalmente\( Y = \nu + \tau \rho Z + \tau \sqrt{1 - \rho^2} W \) se distribuye por otra propiedad básica. Porque\( Z \) y\( W \) tienen media 0, se deduce de la propiedad lineal de valor esperado que\( \E(Y) = \nu \). De igual manera, ya que\( Z \) y\( W \) tienen varianza 1, se deduce de las propiedades básicas de varianza que\( \var(Y) = \tau^2 \rho^2 + \tau^2 (1 - \rho^2) = \tau^2\).
Usando la propiedad bi-lineal de covarianza e independencia tenemos\( \cov(X, Y) = \rho \tau \sigma \, \cov(Z, Z) = \rho \tau \sigma \), y por lo tanto de (a) y (b),\( \cor(X, Y) = \rho \).
Como propiedad general, recordemos que si\( X \) y\( Y \) son independientes entonces\( \cor(X, Y) = 0 \). Por el contrario, si\( \rho = 0 \) entonces\( X = \mu + \sigma Z \) y\( Y = \nu + \tau W \). Ya que\( Z \) y\( W \) son independientes, también lo son\( X \) y\( Y \).

Así, dos variables aleatorias con una distribución normal conjunta son independientes si y solo si no están correlacionadas.

En el experimento normal bivariado, cambie las desviaciones estándar de\(X\) y\(Y\) con las barras de desplazamiento. Observe el cambio en la forma de las funciones de densidad de probabilidad. Ahora cambie la correlación con la barra de desplazamiento y tenga en cuenta que las funciones de densidad de probabilidad no cambian. Para diversos valores de los parámetros, ejecute el experimento 1000 veces. Observe la nube de puntos en la gráfica de dispersión y compare las funciones de densidad empírica con las funciones de densidad de probabilidad.

En el caso de correlación perfecta (\( \rho = 1 \)o\( \rho = -1 \)), la distribución de también\( (X, Y) \) se dice que es bivariada normal, pero degenerada. En este caso, sabemos de nuestro estudio de covarianza y correlación que\( (X, Y) \) toma valores en la línea de regresión\( \left\{(x, y) \in \R^2: y = \nu + \rho \frac{\tau}{\sigma} (x - \mu)\right\} \), y por lo tanto no tiene una función de densidad de probabilidad (con respecto a la medida de Lebesgue on\( \R^2 \)). Las distribuciones normales degeneradas se discutirán con más detalle a continuación.

En el experimento normal bivariado, ejecutar el experimento 1000 veces con los valores\( \rho \) dados a continuación y los valores seleccionados de\( \sigma \) y\( \tau \). Observe la nube de puntos en la gráfica de dispersión y compare las funciones de densidad empírica con las funciones de densidad de probabilidad.

\( \rho \in \{0, 0.3, 0.5, 0.7, 1\} \)
\( \rho \in \{-0.3, -0.5, -0.7, -1\} \)

Las distribuciones condicionales también son normales.

Supongamos que\( (X, Y) \) tiene la distribución normal bivariada con parámetros\( (\mu, \nu, \sigma, \tau, \rho) \) como se especificó anteriormente.

Para\( x \in \R \), la distribución condicional de\(Y\) dado\(X = x\) es normal con media\( \E(Y \mid X = x) = \nu + \rho \frac{\tau}{\sigma} (x - \mu) \) y varianza\(\var(Y \mid X = x) = \tau^2 \left(1 - \rho^2\right)\).
Para\( y \in \R \), la distribución condicional de\(X\) dado\(Y = y\) es normal con media\( \E(X \mid Y = y) = \mu + \rho \frac{\sigma}{\tau} (y - \nu) \) y varianza\(\var(X \mid Y = y) = \sigma^2 \left(1 - \rho^2\right)\).

Prueba de funciones de densidad

Por simetría, sólo necesitamos probar (a). El PDF condicional de\( Y \) dado\( X = x \) es\( y \mapsto f(x, y) \big/ g(x) \) donde\( f \) está el PDF conjunto, y donde\( g \) está el PDF de\( X \), es decir, el PDF normal con media\( \mu \) y desviación estándar\( \sigma \). El resultado luego sigue después de un poco de álgebra.

Prueba de variables aleatorias

Nuevamente, sólo tenemos que probar (a). Podemos suponer que\( (X, Y) \) se define en términos de un par normal estándar\( (Z, W) \) como en la definición. De ahí que\[ Y = \nu + \rho \tau \frac{X - \mu}{\sigma} + \tau \sqrt{1 - \rho^2} W \]\(X\) ya\(W\) sean independientes, la distribución condicional de\( Y \) dado\( X = x \) es la distribución de\( \nu + \rho \tau \frac{x - \mu}{\sigma} + \tau \sqrt{1 - \rho^2} W \). Esta última distribución es normal, con media y varianza especificadas en el teorema.

Tenga en cuenta que las varianzas condicionales no dependen del valor de la variable dada.

En el experimento normal bivariado, establezca la desviación estándar de\(X\) a 1.5, la desviación estándar de\(Y\) a 0.5 y la correlación a 0.7.

Ejecutar el experimento 100 veces.
Para cada ejecución, compute\(\E(Y \mid X = x)\) el valor predicho de\(Y\) para el dado el valor de\(X\).
En todas las 100 corridas, compute la raíz cuadrada del promedio de los errores cuadrados entre el valor predicho de\(Y\) y el valor verdadero de\(Y\).

Puede quedar perplejo por la falta de simetría en cómo\( (X, Y) \) se define en términos de\( (Z, W) \) en la definición original. Obsérvese sin embargo que la distribución está completamente determinada por los 5 parámetros. Si definimos\( X^\prime = \mu + \sigma \rho Z + \sigma \sqrt{1 - \rho^2} W \) y\( Y^\prime = \nu + \tau Z \) luego\( (X^\prime, Y^\prime) \) tiene la misma distribución que\( (X, Y) \), es decir, la distribución normal bivariada con parámetros\( (\mu, \nu, \sigma, \tau, \rho) \) (aunque, por supuesto\( (X^\prime, Y^\prime) \) y\( (X, Y) \) son diferentes vectores aleatorios). Hay otras formas de definir la misma distribución como una transformación afín de\( (Z, W) \) —la situación se aclarará en la siguiente subsección.

Supongamos que\( (X, Y) \) tiene la distribución normal bivariada con parámetros\( (\mu, \nu, \sigma, \tau, \rho) \). Entonces\( (X, Y) \) tiene la función de generación de momento\( M \) dada por\[ M(s, t) = \E\left[\exp\left(sX + tY\right)\right] = \exp\left[\E(s X + t Y) + \frac{1}{2} \var(s X + t Y)\right] = \exp\left[\mu s + \nu t + \frac{1}{2} \left( \sigma^2 s^2 + 2 \rho \sigma \tau s t + \tau^2 t^2\right) \right], \quad (s, t) \in \R^2 \]

Prueba

Utilizando la representación de\( (X, Y) \) en términos del vector normal bivariado estándar\( (Z, W) \) en la definición y recogiendo términos da\[ M(s, t) = \E\left(\exp\left[(\mu s + \nu t) + (\sigma s + \rho \tau t) Z + \tau \sqrt{1 - \rho^2} t W\right] \right)\] De ahí que a partir de la independencia tenemos\[ M(s, t) = \exp(\mu s + \nu t) m(\sigma s + \rho \tau t) m\left(\tau \sqrt{1 - \rho^2} t\right) \] donde\( m \) está el MGF normal estándar. Sustituir y simplificar da el resultado.

Se demostró anteriormente que si\( (X, Y) \) tiene una distribución normal bivariada entonces las distribuciones marginales de\( X \) y también\( Y \) son normales. Lo contrario no es cierto.

Supongamos que\( (X, Y) \) tiene la función de densidad de probabilidad\( f \) dada por\[ f(x, y) = \frac{1}{2 \pi} e^{-(x^2 + y^2)/2} \left[1 + x y e^{-(x^2 + y^2 - 2)} / 2\right], \quad (x, y) \in \R^2 \]

\( X \)y\( Y \) cada uno tiene distribuciones normales estándar.
\( (X, Y) \)no tiene una distribución normal bivariada.

Prueba

Tenga en cuenta que\( f(x, y) = \phi_2(x, y) [1 + u(x) u(y)] \) para\( (x, y) \in \R^2 \), donde\( \phi_2 \) esta el estándar bivariado PDF normal y donde\( u \) es dado por\( u(t) = t e^{-(t^2 - 1) / 2} \) for\( t \in \R \). A partir del cálculo simple,\( u \) es simétrico alrededor de 0, tiene un máximo local en\( t = 1 \), y\( u(t) \to 0 \) como\( t \to \infty \). En particular,\( |u(t)| \le 1 \) para\( t \in \R \) y por lo tanto\( f(x, y) \ge 0 \) para\( (x, y) \in \R^2 \). A continuación, un truco útil es que podemos escribir integrales de valores\( f \) esperados de funciones de un par normal estándar\( (Z, W) \). En particular,\[ \int_{\R^2} f(x, y) d(x, y) = \E[1 + u(Z) u(W)] = 1 + \E[u(Z)] \E[u(W)] = 1 \] ya que\( \E[u(Z)] = \E[u(W)] = 0 \) por la simetría de la distribución normal estándar y la simetría de\( u \) aproximadamente 0. De ahí\( f \) que sea un PDF válido en\( \R^2 \). Supongamos ahora que\( (X, Y) \) tiene PDF\( f \).

El PDF de\( X \) at\( x \in \R \) es\[\int_\R f(x, y) dy = \int_\R \phi_2(x, y) dy + u(x) \E[u(W)] = \phi(x)\] donde como de costumbre,\( \phi \) es el PDF normal estándar en\( \R \). Por simetría,\( Y \) también tiene la distribución normal estándar.
\( f \)no tiene la forma de un PDF normal bivariado y por lo tanto\( (X, Y) \) no tiene una distribución normal bivariada.

Transformaciones

Al igual que su contraparte univariada, la familia de distribuciones normales bivariadas se conserva bajo dos tipos de transformaciones sobre el vector aleatorio subyacente: transformaciones afines y sumas de vectores independientes. Comenzamos con un resultado preliminar sobre transformaciones afines que deberían ayudar a aclarar la definición original. A lo largo de esta discusión, asumimos que el vector parámetro\( (\mu, \nu, \sigma, \tau, \rho) \) satisface las condiciones habituales:\( \mu, \, \nu \in \R \), y\( \sigma, \, \tau \in (0, \infty) \), y\( \rho \in (-1, 1) \).

Supongamos que\( (Z, W) \) tiene la distribución normal bivariada estándar. Let\( X = a_1 + b_1 Z + c_1 W \) y\( Y = a_2 + b_2 Z + c_2 W \) donde están los coeficientes en\( \R \) y\( b_1 c_2 - c_1 b_2 \ne 0 \). Luego\( (X, Y) \) tiene una distribución normal bivariada con parámetros dados por

\( \E(X) = a_1 \)
\( \E(Y) = a_2 \)
\( \var(X) = b_1^2 + c_1^2 \)
\( \var(Y) = b_2^2 + c_2^2 \)
\( \cov(X, Y) = b_1 b_2 + c_1 c_2 \)

Prueba

Es posible una prueba directa utilizando la fórmula de cambio de variables, pero nuestro objetivo es mostrar que se\( (X, Y) \) puede escribir en la forma dada anteriormente en la definición. Primero, las partes (a) — (e) se derivan de las propiedades básicas de valor esperado, varianza y covarianza. Entonces, en la notación utilizada en la definición, tenemos\( \mu = a_1 \),,\( \nu = a_2 \),\( \sigma = \sqrt{b_1^2 + c_1^2} \)\( \tau = \sqrt{b_2^2 + c_2^2} \), y\[ \rho = \frac{b_1 b_2 + c_1 c_2}{\sqrt{b_1^2 + c_1^2} \sqrt{b_2^2 + c_2^2}} \] (Nota de la suposición sobre los coeficientes que\( b_1^2 + c_1^2 \gt 0 \) y\( b_2^2 + c_2^2 \gt 0 \)). Álgebra simple muestra que\[ \sqrt{1 - \rho^2} = \frac{b_1 c_2 - c_1 b_2}{\sqrt{b_1^2 + c_1^2} \sqrt{b_2^2 + c_2^2}} \] A continuación definimos\ begin {align} U & =\ frac {b_1 Z + c_1 W} {\ sqrt {b_1^2 + c_1^2}}\\ V & =\ frac {c_1 Z - b_1 W} {\ sqrt {b_1^2 + c_1^2}}\ end {align} La transformación que define\( (u, v) \) de\( (z, w) \) es su propio inverso, y tiene jacobiano 1. De ahí que se deduce que\( (U, V) \) tiene la misma distribución conjunta que\( (Z, W) \), es decir, la distribución normal bivariada estándar. Álgebra simple muestra que\ begin {align} X & = a_1 +\ sqrt {b_1^2 + c_1^2} U =\ mu +\ sigma U\\ Y & = a_2 +\ frac {b_1 b_2 + c_1 c_2} {\ sqrt {b_1^2 + c_1^2}} U +\ frac {c_1 b_2 - b_1 c_2} {\ sqrt {b_1^2 + c_1^2}} V =\ nu +\ tau\ rho U +\ tau\ sqrt {1 -\ rho^2} V\ end {align} Esta es la forma dada en el definición, por lo que se deduce que\( (X, Y) \) tiene una distribución normal bivariada.

Ahora es fácil mostrar de manera más general que la distribución normal bivariada está cerrada con respecto a las transformaciones afines.

Supongamos que\( (X, Y) \) tiene la distribución normal bivariada con parámetros\( (\mu, \nu, \sigma, \tau, \rho) \). Definir\(U = a_1 + b_1 X + c_1 Y\) y\(V = a_2 + b_2 X + c_2 Y\), donde están los coeficientes en\(\R\) y\(b_1 c_2 - c_1 b_2 \ne 0\). Luego\((U, V)\) tiene una distribución normal bivariada con parámetros como sigue:

\(\E(U) = a_1 + b_1 \mu + c_1 \nu\)
\(\E(V) = a_2 + b_2 \mu + c_2 \nu\)
\(\var(U) = b_1^2 \sigma^2 + c_1^2 \tau^2 + 2 b_1 c_1 \rho \sigma \tau\)
\(\var(V) = b_2^2 \sigma^2 + c_2^2 \tau^2 + 2 b_2 c_2 \rho \sigma \tau\)
\(\cov(U, V) = b_1 b_2 \sigma^2 + c_1 c_2 \tau^2 + (b_1 c_2 + b_2 c_1) \rho \sigma \tau \)

Prueba

A partir de nuestra construcción original, podemos escribir\( X = \mu + \sigma Z \) y\( Y = \nu + \tau \rho Z + \tau \sqrt{1 - \rho^2} W \) donde\( (Z, W) \) tiene la distribución normal bivariada estándar. Entonces por simple sustitución,\( U = A_1 + B_1 Z + C_1 W \) y\( V = A_2 + B_2 Z + C_2 W \) donde\(A_i = a_i + b_i \mu + c_i\nu \),\(B_i = b_i \sigma + c_i \tau \rho \),\(C_i = c_i \tau \sqrt{1 - \rho^2} \) para\( i \in \{1, 2\} \). Por álgebra simple,\[ B_1 C_2 - C_1 B_2 = \sigma \tau \sqrt{1 - \rho^2}(b_1 c_2 - c_1 b_2) \ne 0 \] De ahí\( (U, V) \) tiene una distribución normal bivariada del teorema anterior. Las partes (a) — (e) se derivan de las propiedades básicas de valor esperado, varianza y covarianza.

La distribución normal bivariada se conserva con respecto a las sumas de variables independientes.

Supongamos que\( (X_i, Y_i) \) tiene la distribución normal bivariada con parámetros\( (\mu_i, \nu_i, \sigma_i, \tau_i, \rho_i) \) para\( i \in \{1, 2\} \), y que\( (X_1, Y_1) \) y\( (X_2, Y_2) \) son independientes. Luego\( (X_1 + X_2, Y_1 + Y_2) \) tiene la distribución normal bivariada con parámetros dados por

\( \E(X_1 + X_2) = \mu_1 + \mu_2 \)
\( \E(Y_1 + Y_2) = \nu_1 + \nu_2 \)
\( \var(X_1 + X_2) = \sigma_1^2 + \sigma_2^2 \)
\( \var(Y_1 + Y_2) = \tau_1^2 + \tau_2^2 \)
\( \cov(X_1 + X_2, Y_1 + Y_2) \)=\( \rho_1 \sigma_1 \tau_1 + \rho_2 \sigma_2 \tau_2 \)

Prueba

Dejar\( M_i \) denotar el MGF de\( (X_i, Y_i) \) para\( i \in \{1, 2\} \) y dejar\( M \) denotar el MGF de\( (X_1 + X_2, Y_1 + Y_2) \). Por independencia,\( M(s, t) = M_1(s, t) M_2(s, t) \) para\( (s, t) \in \R^2 \). Usando el MGF normal bivariado, y las propiedades básicas de la función exponencial,\[ M(s, t) = \exp\left(\E\left[s(X_1 + X_2) + t(Y_1 + Y_2)\right] + \frac{1}{2} \var\left[s(X_1 + X_2) + t(Y_1 + Y_2)\right]\right), \quad (s, t) \in \R^2 \] Por supuesto a partir de las propiedades básicas del valor esperado, varianza y covarianza,\ begin {align}\ E\ left [s (X_1 + X_2) + t (Y_1 + Y_2)\ right] & = s (\ mu_1 +\ mu_2) + t (\ nu_1 +\ nu_2)\\ var\ izquierda [s (X_1 + X_2) + t (Y_1 + Y_2)\ derecha] & = s (\ sigma_1^2 +\ sigma_2^2) + t (\ tau_1^2 +\ tau_2^2) + 2 s t (\ rho_1\ sigma_1\ tau_1 +\ rho_2\ sigma_2\ tau_2\ tau_2)\ end {align} Sustituyendo da el resultado.

El siguiente resultado es importante en la simulación de variables normales.

Supongamos que\( (Z, W) \) tiene la distribución normal bivariada estándar. Definir las coordenadas polares\((R, \Theta)\) de\((Z, W)\) por las ecuaciones\(Z = R \, \cos \Theta\),\(W = R \, \sin \Theta\) dónde\(R \ge 0\) y\(0 \le \Theta \lt 2 \, \pi\). Entonces

\(R\)tiene función de densidad de probabilidad\( g \) dada por\(g(r) = r \, e^{-\frac{1}{2} r^2}\) for\(r \in [0, \infty)\).
\(\Theta\)se distribuye uniformemente en\([0, 2 \pi)\).
\(R\)y\(\Theta\) son independientes.

Prueba

El jacobiano de la transformación de coordenadas polares que da\( (z, w) \) de\( (r, \theta) \) es\( r \), como todos recordamos del cálculo. De ahí que por el cambio de teorema de variables, el PDF\( g \) de\( (R, \Theta) \) en términos del PDF normal de estándar viene dado por\[ g(r, \theta) = \phi_2(r \cos \theta, r \sin \theta) r = \frac{1}{2 \pi} r e^{-r^2 /2}, \quad (r, \theta) \in [0, \infty) \times [0, 2 \pi) \] El resultado luego\( \phi_2 \) se desprende del teorema de factorización para variables aleatorias independientes.

La distribución de\(R\) se conoce como la distribución estándar de Rayleigh, llamada así por William Strutt, Lord Rayleigh. La distribución de Rayleigh estudió con más detalle en una sección separada.

Dado que la función cuantil\( \Phi^{-1} \) de la distribución normal no se puede dar de forma simple y cerrada, no podemos usar el método de cuantil aleatorio habitual para simular una variable aleatoria normal. Sin embargo, el método cuantil funciona bastante bien para simular una variable Rayleigh, y por supuesto simular variables uniformes es trivial. De ahí que tengamos una forma de simular un vector normal bivariado estándar con un par de números aleatorios (que, recordará son variables aleatorias independientes, cada una con la distribución uniforme estándar, es decir, la distribución uniforme activada\( [0, 1) \)).

Supongamos que\( U \) y\( V \) son variables aleatorias independientes, cada una con la distribución uniforme estándar. Dejar\( R = \sqrt{-2 \ln U} \) y\( \Theta = 2 \pi V \). Definir\( Z = R \cos \Theta \) y\( W = R \sin \Theta \). Después\( (Z, W) \) tiene la distribución normal bivariada estándar.

Prueba

La función de distribución Rayleigh\( F \) viene dada por\( F(r) = 1 - e^{-r^2 / 2} \) for\( r \in [0, \infty) \) y por lo tanto la función cuantil viene dada por\( F^{-1}(p) = \sqrt{-2 \ln(1 - p)} \) for\( p \in [0, 1) \). De ahí\( U \) que si tiene la distribución uniforme estándar, entonces\( \sqrt{-2 \ln (1 - U)} \) tiene la distribución Rayleigh. Pero\( 1 - U \) también tiene la distribución uniforme estándar así que\( R = \sqrt{-2 \ln U } \) también tiene la distribución Rayleigh. Si\( V \) tiene la distribución uniforme estándar entonces, por supuesto,\( 2 \pi V \) se distribuye uniformemente en\( [0, 2 \pi) \). Si\( U \) y\( V \) son independientes, entonces también lo son\( R \) y\( \Theta \). Por el teorema anterior, si\( Z = R \cos \Theta \) y\( W = R \sin \Theta \), entonces\( (Z, W) \) tiene la distribución normal bivariada estándar.

Por supuesto, si podemos simular\( (Z, W) \) con una distribución normal bivariada estándar, entonces podemos simular\( (X, Y) \) con la distribución normal bivariada general, con parámetro\( (\mu, \nu, \sigma, \tau, \rho) \) por definición (5), a saber\( X = \mu + \sigma Z \),\( Y = \nu + \tau \rho Z + \tau \sqrt{1 - \rho^2} W \).

La distribución normal multivariante general

La distribución normal multivariada general es una generalización natural de la distribución normal bivariada estudiada anteriormente. La exposición es muy compacta y elegante utilizando matrices de valor esperado y covarianza, y sería terriblemente compleja sin estas herramientas. Por lo tanto, esta sección requiere algún conocimiento previo del álgebra lineal. En particular, recordemos que\(\boldsymbol{A}^T\) denota la transposición de una matriz\(\boldsymbol{A}\) y que identificamos un vector\(\R^n\) con el vector de\(n \times 1\) columna correspondiente.

La distribución estándar

Supongamos que\(\bs Z = (Z_1, Z_2, \ldots, Z_n)\) es un vector de variables aleatorias independientes, cada una con la distribución normal estándar. Entonces\(\bs Z\) se dice que tiene la distribución normal\(n\) -dimensional estándar.

\(\E(\bs Z) = \bs{0}\)(el vector cero en\(\R^n\)).
\(\vc(\bs Z) = I\)(la matriz de\(n \times n\) identidad).

\(\bs Z\)tiene función de densidad de probabilidad\( \phi_n \) dada por\[ \phi_n(\bs z) = \frac{1}{(2 \pi)^{n/2}} \exp \left( -\frac{1}{2} \bs z \cdot \bs z \right) = \frac{1}{(2 \pi)^{n/2}} \exp\left(-\frac{1}{2} \sum_{i=1}^n z_i^2\right), \quad \bs z = (z_1, z_2, \ldots, z_n) \in \R^n \] donde como de costumbre,\( \phi \) es el PDF normal estándar.

Prueba

Por independencia,\( \phi_n(\bs z) = \phi(z_1) \phi(z_2) \cdots \phi(z_n) \).

\(\bs Z\)tiene función de generación de momento\( m_n \) dada por\[ m_n(\bs t) = \E\left[\exp(\bs t \cdot \bs Z)\right] = \exp\left[\frac{1}{2} \var(\bs t \cdot \bs Z)\right] = \exp \left( \frac{1}{2} \bs t \cdot \bs t \right) = \exp\left(\frac{1}{2} \sum_{i=1}^n t_i^2\right), \quad \bs t = (t_1, t_2, \ldots, t_n) \in \R^n \]

Prueba

Por independencia,\( \E\left[\exp(\bs t \cdot \bs Z)\right] = m(t_1) m(t_2) \cdots m(t_n) \) donde\( m \) está el MGF normal estándar.

La distribución general

Supongamos que\(\bs Z\) tiene la distribución normal estándar\(n\) -dimensional. Supongamos también eso\(\bs \mu \in \R^n\) y eso\(\bs A \in \R^{n \times n}\) es invertible. \(\bs X = \bs \mu + \bs A \bs Z\)Se dice que el vector aleatorio tiene una distribución normal\(n\) -dimensional.

\(\E(\bs X) = \bs \mu\).
\(\vc(\bs X) = \bs A \, \bs A^T\).

Prueba

De la propiedad lineal de valor esperado,\( \E(\bs X) = \bs \mu + \bs A \E(\bs Z) = \bs \mu \).
A partir de las propiedades básicas de la matriz varianza-covarianza,\( \vc(\bs X) = \bs A \bs A^T \vc(\bs Z) = \bs A \bs A^T \).

En el contexto de este resultado, recordemos que la matriz varianza-covarianza\(\vc(\bs X) = \bs A \bs A^T\) es simétrica y positiva definida (y por tanto también invertible). Ahora veremos que la distribución normal multivariada está completamente determinada por el vector de valor esperado\( \bs \mu \) y la matriz varianza-covarianza\( \bs V \), y de ahí estos dan los parámetros básicos de la distribución.

Supongamos que\(\bs X\) tiene una distribución normal\( n \) -dimensional con vector de valor esperado\( \bs \mu \) y matriz de varianza-covarianza\(\bs V \). La función de densidad de probabilidad\( f \) de\( \bs X \) viene dada por

\[ f(\bs x) = \frac{1}{(2 \pi)^{n/2} \sqrt{\det(\bs V)}} \exp \left[ -\frac{1}{2} (\bs x - \bs \mu) \cdot \bs V^{-1} (\bs x - \bs \mu) \right], \quad \bs x \in \R^n \]

Prueba

De la definición se puede suponer que\( \bs X = \bs \mu + \bs A \bs Z \) donde\( \bs A \in \R^{n \times n}\) es invertible y\( \bs Z \) tiene la distribución normal\( n \) -dimensional estándar, de manera que\( \bs V = \bs A \bs A^T \) La inversa de la transformación\( \bs x = \bs \mu + \bs A \bs z \) es\( \bs z = \bs A^{-1}(\bs x - \bs \mu) \) y de ahí la jacobiana de la transformación inversa es \( \det\left(\bs A^{-1}\right) = 1 \big/ \det(\bs A) \). Utilizando el cambio multivariado de las variables teorema,\[ f(\bs x) = \frac{1}{\left|\det(\bs A)\right|} \phi_n\left[\bs A^{-1}(\bs x - \bs \mu)\right] = \frac{1}{(2 \pi)^{n/2} \left|\det(\bs A)\right|} \exp\left[-\frac{1}{2} \bs A^{-1}(\bs x - \bs \mu) \cdot \bs A^{-1}(\bs x - \bs \mu)\right], \quad \bs x \in \R^n \] Pero\( \det(\bs V) = \det\left(\bs A \bs A^T\right) = \det(\bs A) \det\left(\bs A^T\right) = \left[\det(\bs A)\right]^2 \) y por lo tanto\( \left|\det(\bs A)\right| = \sqrt{\det(\bs V)} \). Además,\ begin {align}\ bs A^ {-1} (\ bs x -\ bs\ mu)\ cdot\ bs A^ {-1} (\ bs x -\ bs\ mu) & =\ left [\ bs A^ {-1} (\ bs x -\ bs\ mu)\ derecha] ^T\ bs A^ {-1} (\ bs x -\ bs\ mu) = (\ bs x -\ bs\ mu) ^T\ izquierda (\ bs A^ {-1}\ derecha) ^T\ bs A^ {-1} (\ bs x -\ bs\ mu)\\ & = (\ bs x -\ bs\ mu) ^T\ izquierda (\ bs A^T\ derecha) ^ {-1}\ bs A^ {-1} (\ bs x - \ bs\ mu) = (\ bs x -\ bs\ mu) ^T\ izquierda (\ bs A\ bs A^T\ derecha) ^ {-1} (\ bs x -\ bs\ mu)\\ & = (\ bs x -\ bs\ mu) ^T\ bs V^ {-1} (\ bs x -\ bs\ mu) = (\ bs x -\ bs\ mu)\ cdot\ bs V^ {-1} (\ bs x -\ bs\ mu)\ end {align}

Supongamos nuevamente que\(\bs X\) tiene una distribución normal\( n \) -dimensional con vector de valor esperado\( \bs \mu \) y matriz de varianza-covarianza\(\bs V \). La función de generación de momento\( M \) de\( \bs X \) viene dada por\[ M(\bs t) = \E\left[\exp(\bs t \cdot \bs X)\right] = \exp\left[\E(\bs t \cdot \bs X) + \frac{1}{2} \var(\bs t \cdot \bs X)\right] = \exp \left( \bs t \cdot \bs \mu + \frac{1}{2} \bs t \cdot \bs V \bs t \right), \quad \bs t \in \R^n \]

Prueba

Una vez más comenzamos con la definición y asumimos que\( \bs X = \bs \mu + \bs A \bs X \) donde\( \bs A \in \R^{n \times n} \) es invertible. tenemos\(\E\left[\exp(\bs t \cdot \bs X\right] = \exp(\bs t \cdot \bs \mu) \E\left[\exp(\bs t \cdot \bs A \bs Z)\right] \). Pero\( \bs t \cdot \bs A \bs Z = \left(\bs A^T \bs t\right) \cdot \bs Z \) así usando el MGF de\( \bs Z \) tenemos\[ \E\left[\exp(\bs t \cdot \bs A \bs Z)\right] = \exp\left[\frac{1}{2} \left(\bs A^T \bs t\right) \cdot \left(\bs A^T \bs t\right)\right] = \exp\left[\frac{1}{2} \bs t^T \bs A \bs A^T \bs t\right] = \exp\left[\frac{1}{2} \bs t \cdot \bs V \bs t\right] \]

Por supuesto, la función generadora de momento determina completamente la distribución. Así, si un vector aleatorio\( \bs X \) en\( \R^n \) tiene una función generadora de momento de la forma dada anteriormente, para algunos\( \bs \mu \in \R^n \) y simétrico, positivo definido\( \bs V \in \R^{n \times n} \), entonces\( \bs X \) tiene la distribución\( n \) -dimensional normal con media\( \bs \mu \) y matriz de varianza-covarianza\( \bs V \).

Obsérvese nuevamente que en la representación\( \bs X = \bs \mu + \bs A \bs Z \), la distribución de\( \bs X \) está determinada de manera única por el vector de valor esperado\( \bs \mu \) y la matriz de varianza-covarianza\(\bs V = \bs A \bs A^T\), pero no por\( \bs \mu \) y\( \bs A \). En general, para una matriz definida positiva dada\(\bs V\), hay muchas matrices invertibles\(\bs A\) tales que\( \bs V = \bs A \bs A^T\) (la matriz\( \bs A \) es un poco como una raíz cuadrada de\( \bs V \)). Un teorema en la teoría matricial afirma que existe una matriz triangular inferior única\(\bs L\) con esta propiedad. La representación\( \bs X = \bs \mu + \bs L \bs Z \) se conoce como la representación canónica de\( \bs X \).

Si\( \bs X = (X, Y) \) tiene distribución normal bivariada con parámetros\( (\mu, \nu, \sigma, \tau, \rho) \), entonces la matriz triangular inferior\( \bs L \) tal que\( \bs L \bs L^T = \vc(\bs X) \) es\[ \bs L = \left[\begin{matrix} \sigma & 0 \\ \tau \rho & \tau \sqrt{1 - \rho^2} \end{matrix} \right] \]

Prueba

Tenga en cuenta que\[ \bs L \bs L^T = \left[\begin{matrix} \sigma^2 & \sigma \tau \rho \\ \sigma \tau \rho & \tau^2 \end{matrix}\right] = \vc(X, Y) \]

Obsérvese que la matriz\( \bs L \) anterior da la representación canónica de\( (X, Y) \) en términos del vector normal estándar\( (Z, W) \) en la definición original, a saber\( X = \mu + \sigma Z \),\( Y = \nu + \tau \rho Z + \tau \sqrt{1 - \rho^2} W \).

Si la matriz\( \bs A \in \R^{n \times n} \) en la definición no es invertible, entonces la matriz varianza-covarianza\( \bs V = \bs A \bs A^T\) es simétrica, sino solo positiva semidefinida. El vector aleatorio\( \bs X = \bs \mu + \bs A \bs Z \) toma valores en un subespacio afín dimensional inferior de\( \R^n \) que tiene la medida 0 relativa a la medida\( n \) -dimensional de Lebesgue\( \lambda_n \). Por lo tanto,\( \bs X \) no tiene una función de densidad de probabilidad relativa a\( \lambda_n \), y así la distribución es degenerada. Sin embargo, la fórmula para la función generadora de momento aún se mantiene. Las distribuciones normales degeneradas se discuten con más detalle a continuación.

Transformaciones

La distribución normal multivariada es invariante bajo dos tipos básicos de transformaciones en los vectores aleatorios subyacentes: transformaciones afines (con filas linealmente independientes) y concatenación de vectores independientes. Como simples corolarios de estos dos resultados, la distribución normal también es invariante con respecto a subsecuencias del vector aleatorio, reordenamientos de los términos en el vector aleatorio y sumas de vectores aleatorios independientes. La principal herramienta que utilizaremos es la función de generación de momento. Comenzamos con el primer resultado principal sobre transformaciones afín.

Supongamos que\(\bs X\) tiene la distribución normal\(n\) -dimensional con vector medio\(\bs \mu\) y matriz de varianza-covarianza\(\bs V\). Supongamos también eso\(\bs{a} \in \R^m\) y que\(\bs A \in \R^{m \times n}\) tiene filas linealmente independientes (así,\(m \le n\)). Luego\(\bs{Y} = \bs{a} + \bs A \bs X\) tiene una distribución normal\(m\) -dimensional, con

\(\E(\bs{Y}) = \bs{a} + \bs A \bs \mu\)
\(\vc(\bs{Y}) = \bs A \bs V \bs A^T\)

Prueba

Para\( \bs t \in \R^m \),\( \E\left[\exp(\bs t \cdot \bs{Y})\right] = \exp(\bs t \cdot \bs{a}) \E\left[\bs t \cdot \bs A \bs X\right] \). pero\( \bs t \cdot \bs A \bs X = \left(\bs A^T \bs t\right) \cdot \bs X \), así usando el MGF de\( \bs X \) tenemos\[ \E\left[\exp(\bs t \cdot \bs A \bs X)\right] = \exp\left[\left(\bs A^T \bs t\right) \cdot \bs \mu + \frac{1}{2}\left(\bs A^T \bs t\right) \cdot \bs V \left(\bs A^T \bs t\right)\right] \] Pero\( \left(\bs A^T \bs t\right) \cdot \bs \mu = \bs t \cdot \bs A \bs \mu \) y\(\left(\bs A^T \bs t\right) \cdot \bs V \left(\bs A^T \bs t\right) = \bs t \cdot \left(\bs A \bs V \bs A^T\right) \bs t\), así dejando\( \bs{b} = \bs{a} + \bs A \bs \mu \) y\( \bs{U} = \bs A \bs V \bs A^T\) y juntando las piezas, tenemos\( \E\left[\exp( \bs t \cdot \bs{Y})\right] = \exp\left[ \bs{b} \cdot \bs t + \frac{1}{2} \bs t \cdot \bs{U} \bs t \right] \).

Un caso especial claramente importante es\( m = n \), que generaliza la definición. Así, si\( \bs{a} \in \R^n \) y\( \bs A \in \R^{n \times n}\) es invertible, entonces\( \bs{Y} = \bs{a} + \bs A \bs X\) tiene una distribución normal\( n \) -dimensional. Aquí hay algunos otros corolarios:

Supongamos que\(\bs X = (X_1, X_2, \ldots, X_n)\) tiene una distribución normal\(n\) -dimensional. Si\( \{i_1, i_2, \ldots, i_m\} \) es un conjunto de índices distintos, entonces\( \bs{Y} = \left(X_{i_1}, X_{i_2}, \ldots, X_{i_m}\right) \) tiene una distribución normal\( m \) -dimensional.

Prueba

Dejar\( A \in \R^{m \times n}\) ser la matriz definida por la condición que para\( j \in \{1, 2, \ldots, m\} \), fila\( j \) tiene 1 en posición\( i_j \) y tiene 0 en todas las demás posiciones. Entonces\( \bs A \) tiene filas linealmente independientes (ya que las\( i_j \) son distintas en\( j \)) y\( \bs{Y} = \bs A \bs X \). Así, el resultado se desprende del teorema general sobre las transformaciones afín.

En el contexto del resultado anterior, si\( \bs X \) tiene vector medio\( \bs \mu \) y matriz de varianza-covarianza\( \bs V \), entonces\( \bs{Y} \) tiene vector medio\( \bs A \bs \mu \) y matriz varianza-covarianza\( \bs A \bs V \bs A^T \), donde\( \bs A \) se define la matriz 0-1 en la prueba. Como corolarios simples, tenga en cuenta que si\( \bs X = (X_1, X_2, \ldots, X_n) \) tiene una distribución normal\( n \) -dimensional, entonces cualquier permutación de las coordenadas de\( \bs X \) también tiene una distribución normal\( n \) -dimensional, y\( (X_1, X_2, \ldots, X_m) \) tiene una distribución normal\( m \) -dimensional para cualquiera\( m \le n \). Aquí hay una ligera extensión de la última declaración.

Supongamos que\(\bs X\) es un vector aleatorio en\(\R^m\),\(\bs{Y}\) es un vector aleatorio en\(\R^n\), y que\((\bs X, \bs{Y})\) tiene una distribución normal\((m + n)\) -dimensional. Entonces

\( \bs X \)tiene una distribución normal\( m \) -dimensional.
\( \bs{Y} \)tiene una distribución normal\( n \) -dimensional.
\(\bs X\)y\(\bs{Y}\) son independientes si y sólo si\(\cov(\bs X, \bs{Y}) = \bs{0}\) (la matriz\(m \times n\) cero).

Prueba

Como ya señalamos, las partes (a) y (b) son una simple consecuencia del teorema anterior. Así, solo necesitamos verificar (c). En forma de bloque, tenga en cuenta que\[ \vc(\bs X, \bs{Y}) = \left[\begin{matrix} \vc(\bs X) & \cov(\bs X, \bs{Y}) \\ \cov(\bs{Y}, \bs X) & \vc(\bs{Y})\end{matrix} \right] \] Ahora vamos\( M \) denotar la función de generación de momento de\( (\bs X, \bs{Y}) \),\( M_1 \) el MGF de\( \bs X \), y\( M_2 \) el MGF de\( \bs{Y} \). De la forma del MGF, tenga en cuenta que\( M(\bs{s}, \bs t) = M_1(\bs{s}) M_2(\bs t) \) para todos\( \bs{s} \in \R^m \),\( \bs t \in \R^n \) si y sólo si\( \cov(\bs X, \bs{Y}) = \bs{0} \), la matriz\( m \times n \) cero.

Lo siguiente es lo contrario a la parte (c) del resultado anterior: concatenar vectores independientes distribuidos normalmente produce otro vector normalmente distribuido.

Supongamos que\( \bs X \) tiene la distribución normal\( m \) -dimensional con vector medio\( \bs \mu \) y matriz de varianza-covarianza\( \bs{U} \),\( \bs{Y} \) tiene la distribución normal\( n \) -dimensional con vector medio\( \bs{\nu} \) y matriz de varianza-covarianza\( \bs V \),\( \bs X \) y que \( \bs{Y} \)son independientes. Luego\( \bs Z = (\bs X, \bs{Y})\) tiene la distribución normal\(m + n\) -dimensional con

\( \E(\bs X, \bs{Y}) = (\bs \mu, \bs{\nu}) \)
\( \vc(\bs X, \bs{Y}) = \left[\begin{matrix} \vc(\bs X) & \bs{0} \\ \bs{0}^T & \vc(\bs{Y})\end{matrix}\right]\)donde\( \bs{0} \) está la matriz\( m \times n \) cero.

Prueba

Para\( \bs t \in \R^{m + n} \), escribir\( \bs t \) en forma de bloque como\( \bs t = (\bs{r}, \bs{s}) \) dónde\( \bs{r} \in \R^m \) y\(\bs{s} \in \R^n\). Por independencia, el MGF de\( (\bs X, \bs{Y}) \) está\[ \E\left(\exp\left[\bs t \cdot (\bs X, \bs{Y})\right]\right) = \E\left[\bs{r} \cdot \bs X + \bs{s} \cdot \bs{Y}\right] = \E\left[\exp(\bs{r} \cdot \bs X)\right] \E\left[\exp(\bs{s} \cdot \bs{Y})\right]\] usando la fórmula para el MGF normal que tenemos\[ \E\left(\exp\left[\bs t \cdot (\bs X, \bs{Y})\right]\right) = \exp \left( \bs{r} \cdot \bs \mu + \frac{1}{2} \bs{r} \cdot \bs{U} \, \bs{r} \right) \exp \left( \bs{s} \cdot \bs{\nu} + \frac{1}{2} \bs{s} \cdot \bs V \, \bs{s} \right) = \exp\left[(\bs{r} \cdot \bs \mu + \bs{s} \cdot \bs{\nu}) + \frac{1}{2} (\bs{r} \cdot \bs{U} \bs{r} + \bs{s} \cdot \bs V \bs{s})\right] \] Pero\( \bs{r} \cdot \bs \mu + \bs{s} \cdot \bs{\nu} = \bs t \cdot (\bs \mu, \bs{\nu}) \) y\( \bs{r} \cdot \bs{U} \bs{r} + \bs{s} \cdot \bs V \bs{s} = \bs t \cdot \left[\begin{matrix} \vc(\bs X) & \bs{0} \\ \bs{0}^T & \vc(\bs{Y})\end{matrix}\right] \bs t \) así la prueba es completa

Al igual que en el caso univariado, la familia normal de distribuciones se cierra con respecto a sumas de variables independientes. La prueba se desprende fácilmente del resultado anterior.

Supongamos que\( \bs X \) tiene la distribución normal\( n \) -dimensional con vector medio\( \bs \mu \) y matriz de varianza-covarianza\( \bs{U} \),\( \bs{Y} \) tiene la distribución normal\( n \) -dimensional con vector medio\( \bs{\nu} \) y matriz de varianza-covarianza\( \bs V \),\( \bs X \) y que \( \bs{Y} \)son independientes. Luego\( \bs X + \bs{Y}\) tiene la distribución normal\( n \) -dimensional con

\( \E(\bs X + \bs{Y}) = \bs \mu + \bs{\nu}\)
\( \vc(\bs X + \bs{Y}) = \bs{U} + \bs V \)

Prueba

Del resultado anterior\( (\bs X, \bs{Y}) \) tiene una distribución normal\( 2 n \) -dimensional. Además,\( \bs X + \bs{Y} = \bs A(\bs X, \bs{Y}) \) donde\( \bs A \) está la\( n \times 2 n \) matriz definida por la condición de que para\( i \in \{1, 2, \ldots, n\} \), fila\( i \) tiene 1 en posiciones\( i \) y\( n + i \) y\( 0 \) en todas las demás posiciones. La matriz\( A \) tiene filas linealmente independientes y así el resultado se desprende del teorema general sobre transformaciones afines. Las partes (a) y (b) son resultados estándar para sumas de vectores aleatorios independientes.

Cerramos con un corolario trivial al resultado general sobre la transformación afina, pero este corolario señala el camino hacia una mayor generalización de la distribución normal multivariada que incluye las distribuciones degeneradas.

Supongamos que\(\bs X\) tiene una distribución normal\(n\) -dimensional con vector medio\(\bs \mu\) y matriz de varianza-covarianza\(\bs V\), y que\(\bs{a} \in \R^n\) con\( \bs{a} \ne \bs{0} \). Luego\(Y = \bs{a} \cdot \bs X \) tiene una distribución normal (univariada) con

\(\E(Y) = \bs{a} \cdot \bs \mu\)
\(\var(Y) = \bs{a} \cdot \bs V \bs{a}\)

Prueba

Anote de nuevo eso\( \bs{a} \cdot \bs X = \bs{a}^T \bs X\). Ya que\( \bs{a} \ne \bs{0} \), la única fila de\( \bs{a}^T \) es linealmente independiente y de ahí el resultado se desprende del teorema general sobre transformaciones afines.

Una Generalización Adicional

El último resultado se puede utilizar para dar una definición simple y elegante de la distribución normal multivariada que incluye tanto las distribuciones degeneradas como las que hemos considerado hasta ahora. Primero adoptaremos nuestra definición general de la distribución normal univariada que incluye variables aleatorias constantes.

Una variable aleatoria\( \bs X \) que toma valores en\( \R^n \) tiene una distribución normal\( n \) -dimensional si y solo si\( \bs{a} \cdot \bs X \) tiene una distribución normal univariada para cada\( \bs{a} \in \R^n \).

Aunque una distribución normal\( n \) -dimensional puede no tener una función de densidad de probabilidad con respecto a la medida\( n \) -dimensional de Lebesgue\( \lambda_n \), la forma de la función generadora de momento no cambia.

Supongamos que\( \bs X \) tiene vector medio\( \bs \mu \) y matriz de varianza-covarianza\( \bs V \), y que\( \bs X \) tiene una distribución normal\( n \) -dimensional. La función de generación de momento de\(\bs X\) viene dada por\[ \E\left[\exp(\bs t \cdot \bs X)\right] = \exp\left[\E(\bs t \cdot \bs X) + \frac{1}{2} \var(\bs t \cdot \bs X)\right] = \exp \left( \bs t \cdot \bs \mu + \frac{1}{2} \bs t \cdot \bs V \, \bs t \right), \quad \bs t \in \R^n \]

Prueba

Si\( \bs t \in \R^n \), entonces por definición,\( \bs t \cdot \bs X \) tiene una distribución normal univariada. Así\( \E\left[\exp(\bs t \cdot \bs X)\right] \) es simplemente el momento generando función de\( \bs t \cdot \bs X \), evaluado en el argumento 1. Los resultados luego se derivan del MGF univariado.

Nuestra nueva definición general es realmente una generalización.

Supongamos que\( \bs X \) tiene una distribución normal\( n \) -dimensional en el sentido de la definición general, y que la distribución de\( \bs X \) tiene una función de densidad de probabilidad\( \R^n \) con respecto a la medida de Lebesgue\( \lambda_n \). Entonces\( \bs X \) tiene una distribución normal\( n \) -dimensional en el sentido de nuestra definición original.

Prueba

Esto se desprende de nuestros resultados anteriores, ya que tanto el MGF como el PDF determinan completamente la distribución de\( \bs X \).