4.11: Espacios vectoriales de variables aleatorias

Última actualización
Guardar como PDF

Page ID: 151897

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

\(\newcommand{\var}{\text{var}}\)\(\newcommand{\sd}{\text{sd}}\)\(\newcommand{\cov}{\text{cov}}\)\(\newcommand{\cor}{\text{cor}}\)\(\renewcommand{\P}{\mathbb{P}}\)\(\newcommand{\E}{\mathbb{E}}\)\(\newcommand{\R}{\mathbb{R}}\)\(\newcommand{\N}{\mathbb{N}}\)

Teoría Básica

Muchos de los conceptos de este capítulo tienen interpretaciones elegantes si pensamos en variables aleatorias de valor real como vectores en un espacio vectorial. En particular, la varianza y los momentos superiores están relacionados con el concepto de norma y distancia, mientras que la covarianza se relaciona con el producto interno. Estas conexiones pueden ayudar a unificar e iluminar algunas de las ideas del capítulo desde un punto de vista diferente. Por supuesto, las variables aleatorias de valor real son simplemente medibles, funciones de valor real definidas en el espacio muestral, por lo que gran parte de la discusión en esta sección es un caso especial de nuestra discusión de los espacios funcionales en el capítulo sobre Distribuciones, pero refundido en la notación de probabilidad.

Como es habitual, nuestro punto de partida es un experimento aleatorio modelado por un espacio de probabilidad\( (\Omega, \mathscr{F}, \P) \). Así,\( \Omega \) es el conjunto de resultados,\( \mathscr{F} \) es el\( \sigma \) álgebra de eventos, y\( \P \) es la medida de probabilidad en el espacio muestral\( (\Omega, \mathscr F) \). Nuestro espacio vectorial básico\(\mathscr V\) consiste en todas las variables aleatorias de valor real definidas en\((\Omega, \mathscr{F}, \P)\) (es decir, definidas para el experimento). Recordemos que las variables aleatorias\( X_1 \) y\( X_2 \) son equivalentes si\( \P(X_1 = X_2) = 1 \), en cuyo caso escribimos\( X_1 \equiv X_2 \). Consideramos dos de estas variables aleatorias como el mismo vector, de manera que técnicamente, nuestro espacio vectorial consiste en clases de equivalencia bajo esta relación de equivalencia. El operador de suma corresponde a la suma habitual de dos variables aleatorias de valor real, y la operación de multiplicación escalar corresponde a la multiplicación habitual de una variable aleatoria de valor real por un número real (no aleatorio). Estas operaciones son compatibles con la relación de equivalencia en el sentido de que si\( X_1 \equiv X_2 \) y\( Y_1 \equiv Y_2 \) entonces\( X_1 + Y_1 \equiv X_2 + Y_2 \) y\( c X_1 \equiv c X_2 \) para\( c \in \R \). En definitiva, el espacio vectorial\( \mathscr V \) está bien definido.

Norma

Supongamos que\( k \in [1, \infty) \). La \( k \)norma de\( X \in \mathscr V \) se define por

\[ \|X\|_k = \left[\E\left(\left|X\right|^k\right)\right]^{1 / k} \]

Así,\(\|X\|_k\) es una medida del tamaño de\(X\) en cierto sentido, y por supuesto que es posible eso\( \|X\|_k = \infty \). Los siguientes teoremas establecen las propiedades fundamentales. El primero es la propiedad positiva.

Supongamos otra vez eso\( k \in [1, \infty) \). Para\( X \in \mathscr V \),

\(\|X\|_k \ge 0\)
\(\|X\|_k = 0\)si y sólo si\(\P(X = 0) = 1\) (para que\(X \equiv 0\)).

Prueba

El siguiente resultado es la propiedad de escalado.

Supongamos otra vez eso\( k \in [1, \infty) \). Entonces\(\|c X\|_k = \left|c\right| \, \|X\|_k\) para\( X \in \mathscr V \) y\(c \in \R\).

Prueba

\[ \| c X \|_k = [\E\left(\left|c X\right|^k\right]^{1 / k} = \left[\E\left(\left|c\right|^k \left|X\right|^k\right)\right]^{1/k} = \left[\left|c\right|^k \E\left(\left|X\right|^k\right)\right]^{1/k} = \left|c\right| \left[\E\left(\left|X\right|^k\right)\right]^{1/k} = \left|c\right| \|X\|_k \]

El siguiente resultado es la desigualdad de Minkowski, llamada así por Hermann Minkowski, y también conocida como la desigualdad triangular.

Supongamos otra vez eso\( k \in [1, \infty) \). Entonces\(\|X + Y\|_k \le \|X\|_k + \|Y\|_k\) para\( X, \, Y \in \mathscr V \).

Prueba

El primer cuadrante\(S = \left\{(x, y) \in \R^2: x \ge 0, \; y \ge 0\right\}\) es un conjunto convexo y\(g(x, y) = \left(x ^{1/k} + y^{1/k}\right)^k\) es cóncavo\(S\). De la desigualdad de Jensen, si\(U\) y\(V\) son variables aleatorias no negativas, entonces\[ \E\left[(U^{1/k} + V^{1/k})^k\right] \le \left(\left[\E(U)\right]^{1/k} + \left[\E(V)\right]^{1/k}\right)^k \] Letting\(U = \left|X\right|^k\)\(V = \left|Y\right|^k\) y y simplificando da el resultado. Para demostrar que\( g \) realmente es cóncavo\( S \), podemos calcular las segundas derivadas parciales. Dejemos\( h(x, y) = x^{1/k} + y^{1/k} \) que eso\( g = h^k \). Entonces\ begin {align} g_ {xx} & =\ frac {k-1} {k} h^ {k-2} x^ {1/k - 2}\ izquierda (x^ {1/k} - h\ derecha)\\ g_ {yy} & =\ frac {k-1} {k} {k} h^ {k-2} y^ {1/k - 2}\ izquierda (y^ {1/k} - h\ derecha)\\ g_ {xy} & =\ frac {k-1} {k} h^ {k-2} x^ {1/k - 1} y^ {1/k - 1}\ end {align} Claramente\( h(x, y) \ge x^{1/k} \) y\( h(x, y) \ge y^{1/k} \) para\( x \ge 0 \) y \( y \ge 0 \), así\( g_{xx} \) y\( g_{yy} \), las entradas diagonales de la segunda matriz derivada, son no positivas en\( S \). Un poco de álgebra muestra que el determinante de la segunda matriz derivada\( g_{xx} g_{yy} - g_{xy}^2 = 0\) en\( S \). Así, la segunda matriz derivada de\( g \) es negativa semidefinida.

De los tres últimos resultados se deduce que el conjunto de variables aleatorias (nuevamente, equivalencia de módulo) con\(k\) norma finita forma un subespacio de nuestro espacio vectorial padre\(\mathscr V\), y que la\(k\) norma es realmente una norma en este espacio vectorial.

For\( k \in [1, \infty) \),\( \mathscr L_k \) denota el espacio vectorial de\( X \in \mathscr V \) con\(\|X\|_k \lt \infty\), y con norma\( \| \cdot \|_k \).

En análisis, a menudo\( p \) se usa como índice más que\( k \) como lo hemos usado aquí, pero\( p \) parece demasiado una probabilidad, por lo que hemos roto con la tradición en este punto. El\( \mathscr L \) es en honor a Henri Lebesgue, quien desarrolló gran parte de esta teoría. A veces, cuando necesitamos indicar la dependencia del\( \sigma \) álgebra subyacente\( \mathscr{F} \), escribimos\( \mathscr L_k(\mathscr{F}) \). Nuestro siguiente resultado es la desigualdad de Lyapunov, llamada así por Aleksandr Lyapunov. Esta desigualdad muestra que la\(k\) -norma de una variable aleatoria está aumentando en\(k\).

Supongamos que\( j, \, k \in [1, \infty) \) con\(j \le k\). Entonces\(\|X\|_j \le \|X\|_k\) para\(X \in \mathscr V\).

Prueba

Tenga en cuenta que\(S = \{x \in \R: x \ge 0\}\) es convexo y\(g(x) = x^{k/j}\) es convexo en\(S\). De la desigualdad de Jensen, si\(U\) es una variable aleatoria no negativa entonces\(\left[\E(U)\right]^{k/j} \le \E\left(U^{k/j}\right)\). Dejar\(U = \left|X\right|^j\) y simplificar da el resultado.

La desigualdad de Lyapunov demuestra que si\(1 \le j \le k\) y\( \|X\|_k \lt \infty \) entonces\( \|X\|_j \lt \infty \). Así,\(\mathscr L_k\) es un subespacio de\(\mathscr L_j\).

Métrico

La\(k\) norma, como cualquier norma en un espacio vectorial, se puede utilizar para definir una función métrica, o distancia; simplemente calculamos la norma de la diferencia entre dos vectores.

Para\( k \in [1, \infty) \), la \(k\)distancia (o \(k\)métrica) entre\(X, \, Y \in \mathscr V\) está definida por\[ d_k(X, Y) = \|X - Y\|_k = \left[\E\left(\left|X - Y\right|^k\right)\right]^{1/k} \]

Las siguientes propiedades son análogas a las propiedades de la norma (y por lo tanto se requiere muy poco trabajo adicional para las pruebas). Estas propiedades muestran que la\(k\) métrica realmente es una métrica on\( \mathscr L_k \) (como siempre, equivalencia de módulo). El primero es la propiedad positiva.

Supongamos otra vez eso\( k \in [1, \infty) \)\(X, \; Y \in \mathscr V\). Entonces

\(d_k(X, Y) \ge 0\)
\(d_k(X, Y) = 0\)si y sólo si\(\P(X = Y) = 1\) (para que\(X \equiv Y\) y\(Y\)).

Prueba

Estos resultados siguen directamente de la propiedad positiva.

Lo siguiente es la obvia propiedad de simetría:

\( d_k(X, Y) = d_k(Y, X) \)para\( X, \; Y \in \mathscr V \).

A continuación se presenta la versión a distancia de la desigualdad triangular.

\(d_k(X, Z) \le d_k(X, Y) + d_k(Y, Z)\)para\(X, \; Y, \; Z \in \mathscr V\)

Prueba

De la desigualdad de Minkowski,\[ d_k(X, Z) = \|X - Z\|_k = \|(X - Y) + (Y - Z) \|_k \le \|X - Y\|_k + \|Y - Z\|_k = d_k(X, Y) + d_k(Y, Z) \]

Las últimas tres propiedades significan que de hecho\( d_k \) es una métrica en\( \mathscr L_k \) para\( k \ge 1 \). En particular, tenga en cuenta que la desviación estándar es simplemente la 2-distancia de\(X\) a su media\( \mu = \E(X) \):\[ \sd(X) = d_2(X, \mu) = \|X - \mu\|_2 = \sqrt{\E\left[(X - \mu)^2\right]} \] y la varianza es el cuadrado de ésta. De manera más general, el momento\(k\) th de\(X\) aproximadamente\(a\) es simplemente el\(k\) th poder de la\(k\) -distancia de\(X\) a\(a\). La distancia 2 es especialmente importante por razones que quedarán claras a continuación, en la discusión del producto interno. Esta distancia también se llama distancia cuadrática media.

Centro y propagación revisitados

Las medidas de centro y las medidas de propagación son mejor pensadas juntas, en el contexto de una medida de distancia. Para una variable aleatoria de valor real\(X\), primero intentamos encontrar las constantes\(t \in \R\) que están más cerca\(X\), medidas por la distancia dada; cualquiera de tales\(t\) es una medida del centro relativa a la distancia. La distancia mínima en sí es la medida de propagación correspondiente.

Apliquemos este procedimiento a la distancia 2.

Para\( X \in \mathscr L_2 \), defina la función de error cuadrático medio raíz por\[ d_2(X, t) = \|X - t\|_2 = \sqrt{\E\left[(X - t)^2\right]}, \quad t \in \R \]

Para\( X \in \mathscr L_2 \),\(d_2(X, t)\) se minimiza cuando\(t = \E(X)\) y el valor mínimo es\(\sd(X)\).

Prueba

Tenga en cuenta que el valor mínimo de\(d_2(X, t)\) ocurre en los mismos puntos que el valor mínimo de\(d_2^2(X, t) = \E\left[(X - t)^2\right]\) (esta es la función de error cuadrático medio). Ampliar y tomar los valores esperados término por término da\[ \E\left[(X - t)^2\right] = \E\left(X^2\right) - 2 t \E(X) + t^2 \] Esta es una función cuadrática de\( t \) y por lo tanto la gráfica es una parábola que se abre hacia arriba. El mínimo ocurre en\( t = \E(X) \), y el valor mínimo es\( \var(X) \). De ahí que el valor mínimo de\( t \mapsto d_2(X, t) \) también se produzca en\( t = \E(X) \) y el valor mínimo es\( \sd(X) \).

Hemos visto este cómputo varias veces antes. El mejor predictor constante de\( X \) es\( \E(X) \), con error cuadrático medio\( \var(X) \). La interpretación física de este resultado es que el momento de inercia de la distribución de masa de\(X\) aproximadamente\(t\) se minimiza cuando\(t = \mu\), el centro de masa. A continuación, apliquemos nuestro procedimiento a la 1-distancia.

Para\( X \in \mathscr L_1 \), defina la función de error absoluto medio por\[ d_1(X, t) = \|X - t\|_1 = \E\left[\left|X - t\right|\right], \quad t \in \R \]

Mostraremos que\(d_1(X, t)\) se minimiza cuando\(t\) es cualquier mediana de\(X\). (Recordemos que el conjunto de medianas de\( X \) forma un intervalo cerrado y delimitado.) Empezamos con un caso discreto, porque es más fácil y tiene especial interés.

Supongamos que\(X \in \mathscr L_1\) tiene una distribución discreta con valores en un conjunto finito\(S \subseteq \R\). Entonces\(d_1(X, t)\) se minimiza cuando\(t\) es cualquier mediana de\(X\).

Prueba

Tenga en cuenta primero eso\(\E\left(\left|X - t\right|\right) = \E(t - X, \, X \le t) + \E(X - t, \, X \gt t)\). De ahí\(\E\left(\left|X - t\right|\right) = a_t \, t + b_t\), dónde\(a_t = 2 \, \P(X \le t) - 1\) y dónde\(b_t = \E(X) - 2 \, \E(X, \, X \le t)\). Tenga en cuenta que\(\E\left(\left|X - t\right|\right)\) es una función lineal continua, por partes de\(t\), con esquinas en los valores en\(S\). Es decir, la función es una spline lineal. Dejar\(m\) ser la mediana más pequeña de\(X\). Si\(t \lt m\) y\(t \notin S\), entonces la pendiente de la pieza lineal en\(t\) es negativa. Dejar\(M\) ser la mediana más grande de\(X\). Si\(t \gt M\) y\(t \notin S\), entonces la pendiente de la pieza lineal en\(t\) es positiva. Si\(t \in (m, M)\) entonces la pendiente de la pieza lineal en\(t\) es 0. Así\(\E\left(\left|X - t\right|\right)\) se minimiza para cada uno\(t\) en el intervalo mediano\([m, M]\).

El último resultado muestra que el error medio absoluto tiene un par de deficiencias básicas como medida de error:

La función puede no ser suave (diferenciable).
La función puede no tener un valor de minimización único de\(t\).

En efecto, cuando\(X\) no tiene una mediana única, no hay razón de peso para elegir un valor en el intervalo mediano, como la medida de centro, sobre cualquier otro valor en el intervalo.

Supongamos ahora que\(X \in \mathscr L_1 \) tiene una distribución general en\(\R\). Entonces\(d_1(X, t)\) se minimiza cuando\(t\) es cualquier mediana de\(X\).

Prueba

Vamos\( s, \, t \in \R \). Supongamos primero eso\(s \lt t\). Computar el valor esperado sobre los eventos\(X \le s\),\(s \lt X \le t\), y\(X \ge t\), y simplificar da\[ \E\left(\left|X - t\right|\right) = \E\left(\left|X - s\right|\right) + (t - s) \, \left[2 \, \P(X \le s) - 1\right] + 2 \, \E(t - X, \, s \lt X \le t) \] Supongamos que a continuación eso\(t \lt s\). El uso de métodos similares da\[ \E\left(\left|X - t\right|\right) = \E\left(\left|X - s\right|\right) + (t - s) \, \left[2 \, \P(X \lt s) - 1\right] + 2 \, \E(X - t, \, t \le X \lt s) \] Tenga en cuenta que los últimos términos a la derecha en estas ecuaciones son no negativos. Si tomamos\(s\) como una mediana de\(X\), entonces los términos medios a la derecha en las ecuaciones también son no negativos. De ahí\(s\) que si es una mediana de\(X\) y\(t\) es cualquier otro número entonces\(\E\left(\left|X - t\right|\right) \ge \E\left(\left|X - s\right|\right)\).

Convergencia

Siempre que tenemos una medida de distancia, automáticamente tenemos un criterio de convergencia.

Supongamos que\( X_n \in \mathscr L_k \) para\( n \in \N_+ \) y para eso\( X \in \mathscr L_k \), donde\( k \in [1, \infty) \). Entonces\(X_n \to X\) como\(n \to \infty\) en \(k\)th media si\( X_n \to X \) como\( n \to \infty \) en el espacio vectorial\( \mathscr L_k \). Es decir,\[ d_k(X_n, X) = \|X_n - X\|_k \to 0 \text{ as } n \to \infty \] o equivalentemente\( \E\left(\left|X_n - X\right|^k\right) \to 0\) como\(n \to \infty \).

Cuando\(k = 1\), simplemente decimos eso\(X_n \to X\) como\(n \to \infty\) en la media; cuando\(k = 2\), decimos eso\(X_n \to X\) como\(n \to \infty\) en el cuadrado medio. Estos son los casos especiales más importantes.

Supongamos que\(1 \le j \le k\). Si\(X_n \to X\) como\(n \to \infty\) en la\(k\) media entonces\(X_n \to X\) como\(n \to \infty\) en la media\(j\) th.

Prueba

Esto se desprende de la desigualdad de Lyanpuov. Tenga en cuenta que\( 0 \le d_j(X_n, X) \le d_k(X_n, X) \to 0 \) como\( n \to \infty \).

La convergencia\( k \) en la media implica que las\( k \) normas convergen.

Supongamos que\( X_n \in \mathscr L_k \) para\( n \in \N_+ \) y para eso\( X \in \mathscr L_k \), donde\( k \in [1, \infty) \). Si\( X_n \to X \) como\( n \to \infty \) en\( k \) la media entonces\( \|X_n\|_k \to \|X\|_k \) como\( n \to \infty \). Equivalentemente, si\( \E(|X_n - X|^k) \to 0 \) como\( n \to \infty \) entonces\( \E(|X_n|^k) \to \E(|X|^k) \) como\( n \to \infty \).

Prueba

Esta es una consecuencia simple de la desigualdad del triángulo inverso, que se mantiene en cualquier espacio vectorial normado. El resultado general es que si una secuencia de vectores en un espacio vectorial normalizado converge entonces las normas convergen. En nuestra notación aquí,\[ \left|\|X_n\|_k - \|X\|_k\right| \le \|X_n - X\|_k \] así que si el lado derecho converge a 0 as\( n \to \infty \), entonces también lo hace el lado izquierdo.

Lo contrario no es cierto; a continuación se da un contraejemplo. Nuestro siguiente resultado muestra que la convergencia en media es más fuerte que la convergencia en probabilidad.

Supongamos que\( X_n \in \mathscr L_1 \) para\( n \in \N_+ \) y eso\( X \in \mathscr L_1 \). Si\(X_n \to X\) como\(n \to \infty\) en media, entonces\(X_n \to X\) como\(n \to \infty\) en probabilidad.

Prueba

Esto se desprende de la desigualdad de Markov. Para\( \epsilon \gt 0 \),\(0 \le \P\left(\left|X_n - X\right| \gt \epsilon\right) \le \E\left(\left|X_n - X\right|\right) \big/ \epsilon \to 0 \) como\( n \to \infty \).

Lo contrario no es cierto. Es decir, la convergencia con probabilidad 1 no implica convergencia en la\(k\) media; a continuación se da un contraejemplo. También la convergencia\(k\) en la media no implica convergencia con probabilidad 1; a continuación se da un contraejemplo a esto. En resumen, a continuación se muestran las implicaciones en los distintos modos de convergencia; no hay otras implicaciones en general.

Convergencia con probabilidad 1 implica convergencia en probabilidad.
Convergencia\(k\) en la media implica convergencia en\(j\) la media si\(j \le k\).
La convergencia\(k\) en la media implica convergencia en probabilidad.
La convergencia en probabilidad implica convergencia en la distribución.

Sin embargo, la siguiente sección sobre variables integrables uniformemente da una condición bajo la cual la convergencia en probabilidad implica convergencia en la media.

Producto interno

El espacio vectorial\( \mathscr L_2 \) de variables aleatorias de valor real on\( (\Omega, \mathscr{F}, \P) \) (módulo equivalencia por supuesto) con segundo momento finito es especial, porque es el único en el que la norma corresponde a un producto interno.

El producto interno de\( X, \, Y \in \mathscr L_2 \) se define por\[ \langle X, Y \rangle = \E(X Y) \]

Los siguientes resultados son análogos a las propiedades básicas de la covarianza, y muestran que esta definición realmente da un producto interno en el espacio vectorial

Para\( X, \, Y, \, Z \in \mathscr L_2 \) y\( a \in \R \),

\(\langle X, Y \rangle = \langle Y, X \rangle\), la propiedad simétrica.
\(\langle X, X \rangle \ge 0\)y\(\langle X, X \rangle = 0\) si y sólo si\(\P(X = 0) = 1\) (para que\(X \equiv 0\)), la propiedad positiva.
\(\langle a X, Y \rangle = a \langle X, Y \rangle\), la propiedad de escalado.
\(\langle X + Y, Z \rangle = \langle X, Z \rangle + \langle Y, Z \rangle\), la propiedad aditiva.

Prueba

Esta propiedad es trivial desde la definición.
Tenga en cuenta que\( \E(X^2) \ge 0 \) y\( \E(X^2) = 0 \) si y solo si\( \P(X = 0) = 1 \).
Esto se deduce de la propiedad de escalado del valor esperado:\( \E(a X Y) = a \E(X Y) \)
Esto se desprende de la propiedad aditiva de valor esperado:\( \E[(X + Y) Z] = \E(X Z) + \E(Y Z) \).

De las partes (a), (c) y (d) se deduce que el producto interno es bi-lineal, es decir, lineal en cada variable con el otro fijo. Por supuesto, la bi-linealidad se mantiene para cualquier producto interno en un espacio vectorial. La covarianza y correlación se pueden expresar fácilmente en términos de este producto interno. La covarianza de dos variables aleatorias es el producto interno de las variables centradas correspondientes. La correlación es el producto interno de las puntuaciones estándar correspondientes.

Para\( X, \, Y \in \mathscr L_2 \),

\(\cov(X, Y) = \langle X - \E(X), Y - \E(Y) \rangle\)
\(\cor(X, Y) = \left \langle [X - \E(X)] \big/ \sd(X), [Y - \E(Y)] / \sd(Y) \right \rangle\)

Prueba

Esto es simplemente una reexpresión de la definición de covarianza.
Esto es una reafirmación del hecho de que la correlación de dos variables es la covarianza de sus puntuaciones estándar correspondientes.

Así, las variables aleatorias de valor real\( X \) y no\( Y \) están correlacionadas si y sólo si las variables centradas\( X - \E(X) \) y\( Y - \E(Y) \) son perpendiculares u ortogonales como elementos de\( \mathscr L_2 \).

Para\( X \in \mathscr L_2 \),\(\langle X, X \rangle = \|X\|_2^2 = \E\left(X^2\right)\).

Así, la norma asociada al producto interno es la norma 2 estudiada anteriormente, y corresponde a la operación cuadrática media en una variable aleatoria. Este hecho es una razón fundamental por la cual la norma 2 juega un papel tan especial y honrado; de todas las\(k\) -normas, sólo la 2-norma corresponde a un producto interno. A su vez, esta es una de las razones por las que la diferencia cuadrática media raíz es de fundamental importancia en la probabilidad y la estadística. Técnicamente, el espacio vectorial\( \mathscr L_2 \) es un espacio Hilbert, llamado así por David Hilbert.

El siguiente resultado es la desigualdad de Hölder, llamada así por Otto Hölder.

Supongamos que\(j, \, k \in [1, \infty)\) y\(\frac{1}{j} + \frac{1}{k} = 1\). Para\( X \in \mathscr L_j \) y\( Y \in \mathscr L_k \),\[\langle \left|X\right|, \left|Y\right| \rangle \le \|X\|_j \|Y\|_k \]

Prueba

Tenga en cuenta que\(S = \left\{(x, y) \in \R^2: x \ge 0, \; y \ge 0\right\}\) es un conjunto convexo y\(g(x, y) = x^{1/j} y^{1/k}\) es cóncavo en\(S\). De la desigualdad de Jensen, si\(U\) y\(V\) son variables aleatorias no negativas entonces\(\E\left(U^{1/j} V^{1/k}\right) \le \left[\E(U)\right]^{1/j} \left[\E(V)\right]^{1/k}\). Sustituyendo\(U = \left|X\right|^j\) y\(V = \left|Y\right|^k\) da el resultado.

Para demostrar que\( g \) realmente es cóncavo\( S \), calculamos la segunda matriz derivada:

\[ \left[ \begin{matrix} (1 / j)(1 / j - 1) x^{1 / j - 2} y^{1 / k} & (1 / j)(1 / k) x^{1 / j - 1} y^{1 / k - 1} \\ (1 / j)(1 / k) x^{1 / j - 1} y^{1 / k - 1} & (1 / k)(1 / k - 1) x^{1 / j} y^{1 / k - 2} \end{matrix} \right] \]

Desde\( 1 / j \lt 1 \) y\( 1 / k \lt 1 \), las entradas diagonales son negativas en\( S \). El determinante simplifica

\[ (1 / j)(1 / k) x^{2 / j - 2} y^{2 / k - 2} [1 - (1 / j + 1 / k)] = 0 \]

En el contexto del último teorema,\(j\) y\(k\) se denominan exponentes conjugados. Si dejamos\(j = k = 2\) entrar la desigualdad de Hölder, entonces obtenemos la desigualdad Cauchy-Schwarz, llamada así por Augustin Cauchy y Karl Schwarz: Porque\( X, \, Y \in \mathscr L_2 \),\[ \E\left(\left|X\right| \left|Y\right|\right) \le \sqrt{\E\left(X^2\right)} \sqrt{\E\left(Y^2\right)} \] A su vez, la desigualdad Cauchy-Schwarz es equivalente a las desigualdades básicas para la covarianza y las correlaciones: Porque\( X, \, Y \in \mathscr L_2 \), \[ \left| \cov(X, Y) \right| \le \sd(X) \sd(Y), \quad \left|\cor(X, Y)\right| \le 1 \]

Si\(j, \, k \in [1, \infty)\) son exponentes conjugados entonces

\(k = \frac{j}{j - 1}\).
\(k \downarrow 1\)como\(j \uparrow \infty\).

El siguiente resultado es un equivalente a la identidad\( \var(X + Y) + \var(X - Y) = 2\left[\var(X) + \var(Y)\right] \) que estudiamos en la sección sobre covarianza y correlación. En el contexto de los espacios vectoriales, el resultado se conoce como la regla del paralelogramo:

Si\(X, \, Y \in \mathscr L_2\) entonces\[ \|X + Y\|_2^2 + \|X - Y\|_2^2 = 2 \|X\|_2^2 + 2 \|Y\|_2^2\]

Prueba

Este resultado se desprende de la bi-linealidad del producto interno:\ begin {align}\ |X + Y\ |_2^2 +\ |X - Y\ |_2^2 & =\ langle X + Y, X + Y\ rangle +\ langle X - Y, X - Y\ rangle\\ & =\ left (\ langle X, X\ rangle + 2\ langle X Y,\ rangle +\ langle Y, Y\ rangle\ rangle\ derecha) +\ izquierda (\ langle X, X\ rangle - 2\ langle X, Y\ argolla +\ langle Y, Y\ rangle\ derecha) = 2\ |X\ |^2 + 2\ |Y\ |^2\ end {align}

El siguiente resultado es equivalente a la afirmación de que la varianza de la suma de variables no correlacionadas es la suma de las varianzas, lo que nuevamente probamos en la sección sobre covarianza y correlación. En el contexto de los espacios vectoriales, el resultado es el famoso teorema de Pitágoras, llamado así por Pitágoras por supuesto.

Si\((X_1, X_2, \ldots, X_n)\) es una secuencia de variables aleatorias en\(\mathscr L_2\) con\(\langle X_i, X_j \rangle = 0\) para\(i \ne j\) entonces\[ \left \| \sum_{i=1}^n X_i \right \|_2^2 = \sum_{i=1}^n \|X_i\|_2^2 \]

Prueba

Nuevamente, esto se desprende de la bi-linealidad del producto interno:\[ \left \| \sum_{i=1}^n X_i \right \|_2^2 = \left\langle \sum_{i=1}^n X_i, \sum_{j=1}^n X_j\right\rangle = \sum_{i=1}^n \sum_{j=1}^n \langle X_i, X_j \rangle \] Los términos con\( i \ne j \) son 0 por la suposición de ortogonalidad, entonces\[ \left \| \sum_{i=1}^n X_i \right \|_2^2 = \sum_{i=1}^n \langle X_i, X_i \rangle = \sum_{i=1}^n \|X_i\|_2^2 \]

Proyecciones

El mejor predictor lineal estudiado en la sección sobre covarianza y correlación y los valores esperados condicionales tienen una buena interpretación en términos de proyecciones sobre subespacios de\( \mathscr L_2 \). Primero repasemos los conceptos. Recordemos que\( \mathscr U \) es un subespacio de\( \mathscr L_2 \) si\( \mathscr U \subseteq \mathscr L_2 \) y también\( \mathscr U \) es un espacio vectorial (bajo las mismas operaciones de suma y multiplicación escalar). Para mostrar que\( \mathscr U \subseteq \mathscr L_2 \) es un subespacio, solo necesitamos mostrar las propiedades de cierre (se heredan los otros axiomas de un espacio vectorial).

Si\( U, \; V \in \mathscr U \) entonces\( U + V \in \mathscr U \).
Si\( U \in \mathscr U \) y\( c \in \R \) entonces\( c U \in \mathscr U \).

Supongamos ahora que\( \mathscr U \) es un subespacio de\( \mathscr L_2 \) y eso\( X \in \mathscr L_2 \). Entonces la proyección de\( X \) onto\( \mathscr U \) (si existe) es el vector\( V \in \mathscr U \) con la propiedad que\( X - V \) es perpendicular a\( \mathscr U \):\[ \langle X - V, U \rangle = 0, \quad U \in \mathscr U \]

La proyección tiene dos propiedades críticas: Es única (si existe) y es el vector\( \mathscr U \) más cercano a\( X \). Si miras las pruebas de estos resultados, verás que son esencialmente las mismas que las utilizadas para los mejores predictores de los\( X \) mencionados al inicio de esta subsección. Además, las pruebas utilizan solo conceptos de espacio vectorial; el hecho de que nuestros vectores sean variables aleatorias en un espacio de probabilidad no juega un papel especial.

La proyección de\( X \) sobre\( \mathscr U \) (si existe) es única.

Prueba

Supongamos eso\( V_1 \) y\( V_2 \) satisfacer la definición. entonces\[ \left\|V_1 - V_2\right\|_2^2 = \langle V_1 - V_2, V_1 - V_2 \rangle = \langle V_1 - X + X - V_2, V_1 - V_2 \rangle = \langle V_1 - X, V_1 - V_2 \rangle + \langle X - V_2, V_1 - V_2 \rangle = 0 \] De ahí\( V_1 \equiv V_2 \). La última igualdad en la ecuación mostrada se mantiene por suposición y el hecho de que\( V_1 - V_2 \in \mathscr U \)

Supongamos que\( V \) es la proyección de\( X \) sobre\( \mathscr U \). Entonces

\( \left\|X - V\right\|_2^2 \le \left\|X - U\right\|_2^2\)para todos\( U \in \mathscr U \).
La igualdad se mantiene en (a) si y sólo si\( U \equiv V \)

Prueba

Si\( U \in \mathscr U \) entonces\[ \left\| X - U \right\|_2^2 = \left\| X - V + V - U \right\|_2^2 = \left\| X - V \right\|_2^2 + 2 \langle X - V, V - U \rangle + \left\| V - U \right\|_2^2\] Pero el término medio es 0 así\[ \left\| X - U \right\|_2^2 = \left\| X - V \right\|_2^2 + \left\| V - U \right\|_2^2 \ge \left\| X - V \right\|_2^2\]
La igualdad se mantiene si y solo si\( \left\| V - U \right\|_2^2 = 0\), si y solo si\( V \equiv U \).

Ahora volvamos a nuestro estudio de los mejores predictores de una variable aleatoria.

Si\( X \in \mathscr L_2 \) entonces el conjunto\( \mathscr W_X = \{a + b X: a \in \R, \; b \in \R\} \) es un subespacio de\(\mathscr L_2\). De hecho, es el subespacio generado por\(X\) y 1.

Prueba

Tenga en cuenta que\( \mathscr W_X \) es el conjunto de todas las combinaciones lineales de los vectores\( 1 \) y\( X \). Si\( U, \, V \in \mathscr W_X \) entonces\( U + V \in \mathscr W_X \). Si\( U \in \mathscr W_X \) y\( c \in \R \) entonces\( c U \in \mathscr W_X \).

Recordemos que para\( X, \, Y \in \mathscr L_2 \), el mejor predictor lineal de\( Y \) basado en\( X \) es\[ L(Y \mid X) = \E(Y) + \frac{\cov(X, Y)}{\var(X)} \left[X - \E(X)\right] \] Aquí está el significado del predictor en el contexto de nuestros espacios vectoriales.

Si\( X, \, Y \in \mathscr L_2 \) entonces\( L(Y \mid X) \) es la proyección de\(Y\) sobre\(\mathscr W_X\).

Prueba

Tenga en cuenta primero eso\(L(Y \mid X) \in \mathscr W_X \). Así, sólo tenemos que demostrar que\( Y - L(Y \mid X) \) es perpendicular a\( \mathscr W_X \). Para ello, basta con mostrar

\(\left\langle Y - L(Y \mid X), X \right\rangle = 0\)
\(\left\langle Y - L(Y \mid X), 1 \right\rangle = 0\)

Esto ya lo hemos hecho en las secciones anteriores, pero por integridad, lo volvemos a hacer. Tenga en cuenta que\( \E\left(X \left[X - \E(X)\right]\right) = \var(X) \). De ahí\( \E\left[X L(Y \mid X)\right] = \E(X) \E(Y) + \cov(X, Y) = \E(X Y) \). Esto da (a). Por linealidad,\( \E\left[L(Y \mid X)\right] = \E(Y) \) así que (b) se sostiene también.

El resultado anterior es en realidad solo la versión variable aleatoria de la fórmula estándar para la proyección de un vector en un espacio abarcado por otros dos vectores. Tenga en cuenta que\( 1 \) es un vector unitario y que\( X_0 = X - \E(X) = X - \langle X, 1 \rangle 1 \) es perpendicular a\( 1 \). Así,\( L(Y \mid X) \) es solo la suma de las proyecciones de\( Y \) onto\( 1 \) y\( X_0 \):\[ L(Y \mid X) = \langle Y, 1 \rangle 1 + \frac{\langle Y, X_0 \rangle}{\langle X_0, X_0\rangle} X_0 \]

Supongamos ahora que\( \mathscr{G} \) es un sub\( \sigma \) -álgebra de\( \mathscr{F} \). Por supuesto si\( X: \Omega \to \R \) es\( \mathscr{G} \) -medible entonces\( X \) es\( \mathscr{F} \) -mensurables, también lo\( \mathscr L_2(\mathscr{G}) \) es un subespacio de\( \mathscr L_2(\mathscr{F}) \).

Si\( X \in \mathscr L_2(\mathscr{F}) \) entonces\( \E(X \mid \mathscr{G}) \) es la proyección de\( X \) sobre\( \mathscr L_2(\mathscr{G}) \).

Prueba

Esta es esencialmente la definición de\( \E(X \mid \mathscr{G}) \) como la única (hasta equivalencia) variable aleatoria en\( \mathscr L_2(\mathscr{G}) \) con\( \E\left[\E(X \mid \mathscr{G}) U\right] = \E(X U) \) para cada\( U \in \mathscr L_2(\mathscr{G}) \).

Pero recuerda que\( \E(X \mid \mathscr{G}) \) se define de manera más general para\( X \in \mathscr L_1(\mathscr{F}) \). Nuestro resultado final en esta discusión se refiere a la convergencia.

Supongamos que\( k \in [1, \infty) \) y eso\( \mathscr{G} \) es un sub\( \sigma \) -álgebra de\( \mathscr{F} \).

Si\( X \in \mathscr L_k(\mathscr{F}) \) entonces\( \E(X \mid \mathscr{G}) \in \mathscr L_k(\mathscr{G}) \)
Si\( X_n \in \mathscr L_k(\mathscr{F}) \) por\( n \in \N_+ \),\( X \in \mathscr L_k(\mathscr{F}) \), y\( X_n \to X \) como\( n \to \infty \) en\( \mathscr L_k(\mathscr{F}) \) entonces\( \E(X_n \mid \mathscr{G}) \to \E(X \mid \mathscr{G}) \) como\( n \to \infty \) en\( \mathscr L_k(\mathscr{G}) \)

Prueba

Tenga en cuenta que\( |\E(X \mid \mathscr{G})| \le \E(|X| \mid \mathscr{G}) \). Ya que\( t \mapsto t^k \) es creciente y convexo en\( [0, \infty) \) tenemos\[ |\E(X \mid \mathscr{G})|^k \le [\E(|X| \mid \mathscr{G})]^k \le \E\left(|X|^k \mid \mathscr{G}\right) \] El último paso utiliza la desigualdad de Jensen. Tomando valores esperados da\[ \E[|\E(X \mid \mathscr{G})|^k] \le \E(|X|^k) \lt \infty \]
Usando las mismas ideas,\[ \E\left[\left|\E(X_n \mid \mathscr{G}) - \E(X \mid \mathscr{G})\right|^k\right] = \E\left[\left|\E(X_n - X \mid \mathscr{G})\right|^k\right] \le E[|X_n - X|^k] \] Por supuesto, el lado derecho converge a 0 como\( n \to \infty \) y por lo tanto también lo hace el lado izquierdo.

Ejemplos y Aplicaciones

Ejercicios de App

En la aplicación de función de error, seleccione la función de error cuadrático medio raíz. Haga clic en el\( x \) eje -para generar una distribución empírica, y anote la forma y ubicación de la gráfica de la función de error.

En la aplicación de función de error, seleccione la función de error absoluto medio. Haga clic en el\( x \) eje -para generar una distribución empírica, y anote la forma y ubicación de la gráfica de la función de error.

Ejercicios Computacionales

Supongamos que\(X\) se distribuye uniformemente en el intervalo\([0, 1]\).

Encuentra\(\|X\|_k\) para\( k \in [1, \infty) \).
\(\|X\|_k\)Gráfica en función de\(k \in [1, \infty)\).
Encuentra\(\lim_{k \to \infty} \|X\|_k\).

Contestar

\(\frac{1}{(k + 1)^{1/k}}\)
1

Supongamos que\(X\) tiene función de densidad de probabilidad\(f(x) = \frac{a}{x^{a+1}}\) para\(1 \le x \lt \infty\), donde\(a \gt 0\) es un parámetro. Así,\(X\) tiene la distribución de Pareto con parámetro shape\(a\).

Encuentra\(\|X\|_k\) para\( k \in [1, \infty) \).
\(\|X\|_k\)Gráfica en función de\(k \in (1, a)\).
Encuentra\(\lim_{k \uparrow a} \|X\|_k\).

Contestar

\(\left(\frac{a}{a -k}\right)^{1/k}\)si\(k \lt a\),\(\infty\) si\(k \ge a\)
\(\infty\)

Supongamos que\((X, Y)\) tiene función de densidad de probabilidad\(f(x, y) = x + y\) para\(0 \le x \le 1\),\(0 \le y \le 1\). Verificar la desigualdad de Minkowski.

Contestar

\(\|X + Y\|_k = \left(\frac{2^{k+2} - 2}{(k + 2)(k + 3)}\right)^{1/k}\)
\(\|X\|_k + \|Y\|_k = 2 \left(\frac{1}{k + 2} + \frac{1}{2(k + 1)}\right)^{1/k}\)

Dejar\(X\) ser un indicador variable aleatoria con\(\P(X = 1) = p\), donde\(0 \le p \le 1\). \(\E\left(\left|X - t\right|\right)\)Gráfica en función de\(t \in \R\) en cada uno de los siguientes casos. En cada caso, encuentra el valor mínimo de la función y los valores de\(t\) donde ocurre el mínimo.

\(p \lt \frac{1}{2}\)
\(p = \frac{1}{2}\)
\(p \gt \frac{1}{2}\)

Contestar

El mínimo es\(p\) y ocurre en\(t = 0\).
El mínimo es\(\frac{1}{2}\) y ocurre para\(t \in [0, 1]\)
El mínimo es\(1 - p\) y ocurre en\(t = 1\)

Supongamos que\(X\) se distribuye uniformemente en el intervalo\([0, 1]\). Buscar\(d_1(X, t) = \E\left(\left|X - t\right|\right)\) en función de\(t\) y bosquejar la gráfica. Encuentra el valor mínimo de la función y el valor de\(t\) donde ocurre el mínimo.

Supongamos que\(X\) se distribuye uniformemente en el conjunto\([0, 1] \cup [2, 3]\). Buscar\(d_1(X, t) = \E\left(\left|X - t\right|\right)\) en función de\(t\) y bosquejar la gráfica. Encuentra el valor mínimo de la función y los valores de\(t\) donde ocurre el mínimo.

Supongamos que\((X, Y)\) tiene función de densidad de probabilidad\(f(x, y) = x + y\) para\(0 \le x \le 1\),\(0 \le y \le 1\). Verificar la desigualdad de Hölder en los siguientes casos:

\(j = k = 2\)
\(j = 3\),\(k = \frac{3}{2}\)

Contestar

\(\|X\|_2 \|Y\|_2 = \frac{5}{12}\)
\(\|X\|_3 + \|Y\|_{3/2} \approx 0.4248\)

Contraejemplos

El siguiente ejercicio muestra que la convergencia con probabilidad 1 no implica convergencia en la media.

Supongamos que\((X_1, X_2, \ldots)\) es una secuencia de variables aleatorias independientes con\[ \P\left(X = n^3\right) = \frac{1}{n^2}, \; \P(X_n = 0) = 1 - \frac{1}{n^2}; \quad n \in \N_+ \]

\(X_n \to 0\)como\(n \to \infty\) con probabilidad 1.
\(X_n \to 0\)como\(n \to \infty\) en probabilidad.
\(\E(X_n) \to \infty\)como\(n \to \infty\).

Prueba

Esto se desprende de la caracterización básica de convergencia con probabilidad 1:\( \sum_{n=1}^\infty \P(X_n \gt \epsilon) = \sum_{n=1}^\infty 1 / n^2 \lt \infty \) para\( 0 \lt \epsilon \lt 1 \).
Esto sigue ya que la convergencia con probabilidad 1 implica convergencia en probabilidad.
Tenga en cuenta que\( \E(X_n) = n^3 / n^2 = n \) para\( n \in \N_+ \).

El siguiente ejercicio muestra que la convergencia en media no implica convergencia con probabilidad 1.

Supongamos que\((X_1, X_2, \ldots)\) es una secuencia de variables aleatorias indicadoras independientes con\[ \P(X_n = 1) = \frac{1}{n}, \; \P(X_n = 0) = 1 - \frac{1}{n}; \quad n \in \N_+ \]

\(\P(X_n = 0 \text{ for infinitely many } n) = 1\).
\(\P(X_n = 1 \text{ for infinitely many } n) = 1\).
\(\P(X_n \text{ does not converge as } n \to \infty) = 1\).
\(X_n \to 0\)como\(n \to \infty\) en\(k\) la media para cada\(k \ge 1\).

Prueba

Esto se desprende del segundo lema de Borel-Cantelli desde\( \sum_{n=1}^\infty \P(X_n = 1) = \sum_{n=1}^\infty 1 / n = \infty \)
Esto también se desprende del segundo lema de Borel-Cantelli desde entonces\( \sum_{n=1}^\infty \P(X_n = 0) = \sum_{n=1}^\infty (1 - 1 / n) = \infty \).
Esto se desprende de las partes a) y b).
Tenga en cuenta que\( \E(X_n) = 1 / n \to 0 \) como\( n \to \infty \).

El siguiente ejercicio muestra que la convergencia de las medias\( k \) th no implica convergencia en\( k \) th media.

Supongamos que\( U \) tiene la distribución Bernoulli con parmaeter\( \frac{1}{2} \), así que eso\( \P(U = 1) = \P(U = 0) = \frac{1}{2} \). Dejar\( X_n = U \)\( n \in \N_+ \) y dejar\( X = 1 - U \). Vamos\( k \in [1, \infty) \). Entonces

\( \E(X_n^k) = \E(X^k) = \frac{1}{2} \)para\( n \in \N_+ \), así\( \E(X_n^k) \to \E(X^k) \) como\( n \to \infty \)
\( \E(|X_n - X|^k) = 1 \)pues\( n \in \N \) así\( X_n \) no converge a\( X \) como\( n \to \infty \) en\( \mathscr L_k \).

Prueba

Tenga en cuenta que\( X_n^k = U^k = U \) para\( n \in \N_+ \), ya que\( U \) solo toma valores 0 y 1. También,\( U \) y\( 1 - U \) tienen la misma distribución así\( \E(U) = \E(1 - U) = \frac{1}{2} \).
Tenga en cuenta que\( X_n - X = U - (1 - U) = 2 U - 1 \) para\( n \in \N_+ \). Nuevamente,\( U \) solo toma valores 0 y 1, entonces\( |2 U - 1| = 1 \).