4.10: Valor esperado condicional revisitado
- Page ID
- 151937
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)El valor esperado condicional es mucho más importante de lo que uno podría pensar al principio. De hecho, el valor esperado condicional está en el núcleo de la teoría de probabilidad moderna porque proporciona la forma básica de incorporar información conocida en una medida de probabilidad.
Teoría Básica
Definición
Como es habitual, nuestro punto de partida es un experimento aleatorio modelado por un espacio de probabilidad\((\Omega, \mathscr F, \P)\), por lo que ese\( \Omega \) es el conjunto de resultados,\( \mathscr F \) es el\( \sigma \) -álgebra de eventos, y\( \P \) es la medida de probabilidad en el espacio muestral\( (\Omega, \mathscr F) \). En nuestra primera discusión elemental, estudiamos el valor esperado condicional de una variable aleatoria de valor real\(X\) dada una variable aleatoria general\(Y\). El enfoque más general es condicionar sobre un sub\(\sigma\) álgebra\( \mathscr G \) de\( \mathscr F \). Las secciones sobre\( \sigma \) -álgebras y teoría de medidas son requisitos previos esenciales para esta sección.
Antes de llegar a la definición, necesitamos algunos preliminares. En primer lugar, se asume que todas las variables aleatorias mencionadas son de valor real. siguiente la noción de equivalencia juega un papel fundamental en esta sección. Siguiente recordar que las variables aleatorias\( X_1 \) y\( X_2 \) son equivalentes si\( \P(X_1 = X_2) = 1 \). La equivalencia realmente define una relación de equivalencia en la colección de variables aleatorias definidas en el espacio muestral. Además, a menudo consideramos que las variables aleatorias equivalentes son esencialmente el mismo objeto. Más precisamente desde este punto de vista, los objetos de nuestro estudio no son variables aleatorias individuales sino clases de equivalencia de variables aleatorias bajo esta relación de equivalencia. Por último, para\( A \in \mathscr F \), recordar la notación para el valor esperado de\( X \) sobre el evento\( A \)\[ \E(X; A) = \E(X \bs{1}_A)\] asumiendo por supuesto que el valor esperado existe. Para lo que resta de esta subsección, supongamos que\( \mathscr G \) es un sub\( \sigma \) -álgebra de\( \mathscr F \).
Supongamos que\(X\) es una variable aleatoria con\( \E(|X|) \lt \infty \). El valor esperado condicional de\(X\) dado\(\mathscr G\) es la variable aleatoria\(\E(X \mid \mathscr G)\) definida por las siguientes propiedades:
- \(\E(X \mid \mathscr G)\)es medible con repsect a\(\mathscr G\).
- Si\(A \in \mathscr G\) entonces\(\E[\E(X \mid \mathscr G); A] = \E(X; A)\)
La idea básica es que\( \E(X \mid \mathscr G) \) es el valor esperado de\( X \) dada la información en el\( \sigma \) álgebra\( \mathscr G \). Ojalá esta idea se vuelva más clara durante nuestro estudio. Las condiciones anteriores definen de manera única\( \E(X \mid \mathscr G) \) hasta la equivalencia. La prueba de este hecho es una simple aplicación del teorema de Radón-Nikodym, llamado así por Johann Radon y Otto Nikodym
Supongamos nuevamente que\(X\) es una variable aleatoria con\( \E(|X|) \lt \infty \).
- Existe una variable aleatoria que\( V \) satisface la definición.
- Si\( V_1 \) y\( V_2 \) satisfacer la definición, entonces\( \P(V_1 = V_2) = 1 \) así que eso\( V_1 \) y\( V_2 \) son equivalentes.
Prueba
- Tenga en cuenta que\( \nu(A) = \E(X; A) \) para\( A \in \mathscr G \) define una medida (firmada) en\( \mathscr G \). Además, si\( A \in \mathscr G \) y\( \P(A) = 0 \) entonces\( \nu(A) = 0 \). De ahí\( \nu \) que sea absolutamente continuo con respecto a la restricción de\( \P \) a\( \mathscr G \). Por el teorema de Radón-Nikodym, existe una variable aleatoria\( V \) que es medible con respecto a\( \mathscr G \) tal que\( \nu(A) = \E(V; A) \) para\( A \in \mathscr G \). Es decir,\( V \) es la densidad o derivado de\( \nu \) con respecto a\( \P \) on\( \mathscr G \).
- Esto se desprende de la singularidad del derivado Radon-Nikodym, hasta la equivalencia.
La siguiente caracterización puede parecer más fuerte pero en realidad equivalente a la definición.
Supongamos nuevamente que\(X\) es una variable aleatoria con\( \E(|X|) \lt \infty \). Entonces\( \E(X \mid \mathscr G) \) se caracteriza por las siguientes propiedades:
- \( \E(X \mid \mathscr G) \)es mensurable con respecto a\( \mathscr G \)
- Si\( U \) es medible con respecto a\( \mathscr G \) y\( \E(|U X|) \lt \infty \) luego\( \E[U \E(X \mid \mathscr G)] = \E(U X) \).
Prueba
Tenemos que demostrar que la parte (b) en la definición es equivalente a la parte (b) aquí. Primero (b) aquí implica (b) en la definición ya que\( \bs{1}_A \) es\( \mathscr G \) -medible si\( A \in \mathscr G \). Por el contrario supongamos que (b) en la definición sostiene. Mostraremos que (b) aquí se sostiene por un argumento clásico de bootstrapping. . Primero\( \E[U \E(X \mid \mathscr G)] = \E(U X) \) si\( U = \bs{1}_A \) para algunos\( A \in \mathscr G \). A continuación supongamos que\( U \) es una variable aleatoria simple que es\( \mathscr G \) -medible. Es decir,\( U = \sum_{i \in I} a_i \bs{1}_{A_i} \) donde\( I \) es un conjunto de índices finitos,\( a_i \ge 0 \) para\( i \in I \), y\( A_i \in \mathscr G \) para\( i \in I \). entonces\[ \E[U \E(X \mid \mathscr G)] = \E\left[\sum_{i \in I} a_i \bs{1}_{A_i} \E(X \mid \mathscr G)\right] = \sum_{i \in I} a_i \E[\bs{1}_{A_i} \E(X \mid \mathscr G)] = \sum_{i \in I} a_i \E(\bs{1}_{A_i} X) = \E\left(\sum_{i \in I} a_i \bs{1}_{A_i} X\right) = \E(U X) \] Siguiente supongamos que no\( U \) es negativo y\( \mathscr G \) -medible. Entonces existe una secuencia de variables aleatorias simples\( \mathscr G \) -medibles\( (U_1, U_2, \ldots) \) con\( U_n \uparrow U \) as\( n \to \infty \). Después por el paso anterior,\( \E[U_n \E(X \mid \mathscr G)] = \E(U_n X) \) para cada uno\( n \). Dejar\( n \to \infty \) y usar el teorema de convergencia monótona que tenemos\( \E[U \E(X \mid \mathscr G)] = \E(U X) \). Por último, supongamos que\( U \) es una variable aleatoria\( \mathscr G \) general-mensurable. Entonces\( U = U^+ - U^- \) donde\( U^+ \) y\( U^- \) son las partes positivas y negativas habituales de\( U \). Estas partes son no negativas y\( \mathscr G \) -medibles, así que por el paso anterior,\( \E[U^+ \E(X \mid \mathscr G)] = \E(U^+ X) \) y\( \E[U^- \E(X \mid \mathscr G)] = \E(U^- X) \). por lo tanto\[ \E[U \E(X \mid \mathscr G)] = \E[(U^+ - U^-) \E(X \mid \mathscr G)] = \E[U^+ \E(X \mid \mathscr G)] - \E[U^- \E(X \mid \mathscr G)] = \E(U^+ X) - \E(U^- X) = \E(U X) \]
Propiedades
Nuestra siguiente discusión se refiere a algunas propiedades fundamentales del valor esperado condicional. Se entiende que todas las igualdades y desigualdades tienen equivalencia de módulo, es decir, con probabilidad 1. Tenga en cuenta también que muchas de las pruebas funcionan mostrando que el lado derecho satisface las propiedades en la definición para el valor esperado condicional en el lado izquierdo. Una vez más asumimos que\( \mathscr G \) es un sub\( sigma \) -álgebra de\( \mathscr F \).
Nuestra primera propiedad es una simple consecuencia de la definición:\( X \) y\( \E(X \mid \mathscr G) \) tener la misma media.
Supongamos que\(X\) es una variable aleatoria con\( \E(|X|) \lt \infty \). Entonces\( \E[\E(X \mid \mathscr G)] = \E(X) \).
Prueba
Esto sigue inmediatamente dejando\( A = \Omega \) entrar la definición.
El resultado anterior a menudo se puede utilizar para calcular\( \E(X) \), eligiendo el\( \sigma \) álgebra de una\( \mathscr G \) manera inteligente. Decimos que estamos\( \E(X) \) computando condicionando\( \mathscr G \). Nuestras siguientes propiedades son fundamentales: cada versión del valor esperado debe satisfacer las propiedades de linealidad. La primera parte es la propiedad aditiva y la segunda parte es la propiedad de escalado.
Supongamos que\( X \) y\( Y \) son variables aleatorias con\( \E(|X|) \lt \infty \) y\( \E(|Y|) \lt \infty \), y eso\( c \in \R\). Entonces
- \( \E(X + Y \mid \mathscr G) = \E(X \mid \mathscr G) + \E(Y \mid \mathscr G) \)
- \( \E(c X \mid \mathscr G) = c \E(X \mid \mathscr G) \)
Prueba
- Tenga en cuenta que\( \E(|X + Y|) \le \E(|X|) + \E(|Y|) \lt \infty\) así\( \E(X + Y \mid \mathscr G) \) se define. Demostramos que\( \E(X \mid \mathscr G) + \E(Y \mid \mathscr G) \) satisface las condiciones en la definición para\( \E(X + Y \mid \mathscr G) \). Tenga en cuenta primero que\( \E(X \mid \mathscr G) + \E(Y \mid \mathscr G) \) es\( \mathscr G \) -medible ya que ambos términos lo son. Si\(A \in \mathscr G \) entonces\[ \E\{[\E(X \mid \mathscr G) + \E(Y \mid \mathscr G)]; A\} = \E[\E(X \mid \mathscr G); A] + \E[\E(Y \mid \mathscr G); A] = \E(X; A) + \E(Y; A) = \E[X + Y; A] \]
- Tenga en cuenta que\( \E(|c X|) = |c| \E(|X|) \lt \infty \) así\( \E(c X \mid \mathscr G) \) se define. Demostramos que\( c \E(X \mid \mathscr G) \) satisfacen las condiciones en la definición para\( \E(c X \mid \mathscr G) \). Tenga en cuenta primero que\( c \E(X \mid \mathscr G) \) es\( \mathscr G \) -medible ya que el segundo factor es. Si\(A \in \mathscr G \) entonces\[ \E[c \E(X \mid \mathscr G); A] = c \E[\E(X \mid \mathscr G); A] = c \E(X; A) = \E(c X; A) \]
El siguiente conjunto de propiedades también son fundamentales para toda noción de valor esperado. La primera parte es la propiedad positiva y la segunda parte es la propiedad creciente.
Supongamos de nuevo que\( X \) y\( Y \) son variables aleatorias con\( \E(|X|) \lt \infty \) y\( \E(|Y|) \lt \infty \).
- Si\( X \ge 0 \) entonces\( \E(X \mid \mathscr G) \ge 0 \)
- Si\( X \le Y \) entonces\( \E(X \mid \mathscr G) \le \E(Y \mid \mathscr G) \)
Prueba
- Vamos\( A = \{\E(X \mid \mathscr G) \lt 0\} \). Tenga en cuenta eso\(A \in \mathscr G \) y por lo tanto\( \E(X; A) = \E[\E(X \mid \mathscr G); A] \). Ya que\( X \ge 0 \) con probabilidad 1 tenemos\( E(X; A) \ge 0 \). Por otro lado, si\( \P(A) \gt 0 \) entonces\( \E[\E(X \mid \mathscr G); A] \lt 0 \) que es una contradicción. De ahí que debemos tener\( \P(A) = 0 \).
- Tenga en cuenta que si\( X \le Y \) entonces\( Y - X \ge 0 \). De ahí por (a) y la propiedad aditiva,\( \E(Y - X \mid \mathscr G) = \E(Y \mid \mathscr G) - \E(X \mid \mathscr G) \ge 0 \) así\( \E(Y \mid \mathscr G) \ge \E(X \mid \mathscr G) \).
Las siguientes propiedades se relacionan con la idea central que\( \E(X \mid \mathscr G) \) es el valor esperado de\( X \) dada la información en el\( \sigma \) álgebra\( \mathscr G \).
Supongamos que\( X \) y\( V \) son variables aleatorias con\( \E(|X|) \lt \infty \)\( \E(|X V|) \lt \infty \) y y que\( V \) es medible con respecto a\( \mathscr G \). Entonces\( \E(V X \mid \mathscr G) = V \E(X \mid \mathscr G) \).
Prueba
Mostramos que\( V \E(X \mid \mathscr G) \) satisfacen las propiedades en las que se caracterizan\( \E(V X \mid \mathscr G) \). En primer lugar,\( V \E(X \mid \mathscr G) \) es\( \mathscr G \) -medible ya que ambos factores lo son. Si\( U \) es\( \mathscr G \) -medible con\( \E(|U V X|) \lt \infty \) entonces también\( U V \) es\( \mathscr G \) -mensurable y por lo tanto\[ \E[U V \E(X \mid \mathscr G)] = \E(U V X) = \E[U (V X)] \]
Compare este resultado con la propiedad de escalado. Si\( V \) es medible con respecto a\( \mathscr G \) entonces\( V \) es como una constante en términos del valor esperado condicional dado\( \mathscr G \). Por otro lado, señalar que este resultado implica la propiedad scaling, ya que una constante puede ser vista como una variable aleatoria, y como tal, es medible con respecto a cualquier\( \sigma \) -álgebra. Como corolario de este resultado, señalar que si en\( X \) sí mismo es medible con respecto a\( \mathscr G \) entonces\( \E(X \mid \mathscr G) = X \). El siguiente resultado le da al otro extremo.
Supongamos que\( X \) es una variable aleatoria con\( \E(|X|) \lt \infty \). Si\( X \) y\( \mathscr G \) son independientes entonces\( \E(X \mid \mathscr G) = \E(X) \).
Prueba
Mostramos que\( \E(X) \) satisfacen las propiedades en el definiton para\( \E(X \mid \mathscr G) \). Primero por supuesto,\( \E(X) \) es\( \mathscr G \) -medible como una variable aleatoria constante. Si\( A \in \mathscr G \) entonces\( X \) y\( \bs{1}_A \) son independientes y por lo tanto\[ \E(X; A) = \E(X) \P(A) = \E[\E(X); A] \]
Toda variable aleatoria\( X \) es independiente del\( \sigma \) álgebra trivial\( \{\emptyset, \Omega\} \) por lo que se deduce de eso\( \E(X \mid \{\emptyset, \Omega\}) = \E(X) \).
Las siguientes propiedades son las condiciones de consistencia, también conocidas como las propiedades de la torre. Al condicionar dos veces, con respecto a las\( \sigma \) álgebras anidadas, siempre prevalece la más pequeña (que representa la menor cantidad de información).
Supongamos que\( X \) es una variable aleatoria con\( \E(|X|) \lt \infty \) y que\( \mathscr H \) es un sub\( \sigma \) -álgebra de\( \mathscr G \). Entonces
- \( \E[\E(X \mid \mathscr H) \mid \mathscr G] = \E(X \mid \mathscr H) \)
- \( \E[\E(X \mid \mathscr G) \mid \mathscr H] = \E(X \mid \mathscr H) \)
Prueba
- Tenga en cuenta primero que\( \E(X \mid \mathscr H) \) es\( \mathscr H \) -medible y por lo tanto también\( \mathscr G \) -medible. Así por (7),\( \E[\E(X \mid \mathscr H) \mid \mathscr G] = \E(X \mid \mathscr H) \).
- Demostramos que\( \E(X \mid \mathscr H) \) satisface las coondiciones en la definición de\( \E[\E(X \mid \mathscr G) \mid \mathscr H]\). Tenga en cuenta de nuevo que\( \E(X \mid \mathscr H) \) es\( \mathscr H \) -medible. Si\(A \in \mathscr H \) entonces\( A \in \mathscr G \) y por lo tanto\[ \E[\E(X \mid \mathscr G); A] = \E(X; A) = \E[\E(X \mid \mathscr H); A] \]
El siguiente resultado da la desigualdad de Jensen por el valor esperado condicional, llamado así por Johan Jensen.
Supongamos que\( X \) toma valores en un intervalo\( S \subseteq \R \) y que\( g: S \to \R \) es convexo. Si\( \E(|X|) \lt \infty \) y\( \E(|g(X)| \lt \infty \) entonces\[ \E[g(X) \mid \mathscr G] \ge g[\E(X \mid \mathscr G)] \]
Prueba
Al igual que con la desigualdad de Jensen para el valor esperado ordinario, la mejor prueba utiliza la caracterización de funciones convexas en términos de líneas de soporte: Para cada uno\( t \in S \) existen números\( a \) y\( b \) (dependiendo de\( t \)) tales que
- \( a + b t = g(t) \)
- \( a + b x \le g(x) \)para\( x \in S \)
Variables aleatorias\( X \) y\( \E(X \mid \mathscr G) \) toma valores en\( S \). Podemos construir una línea de soporte aleatoria en\( \E(X \mid \mathscr G) \). Es decir, existen variables aleatorias\( A \) y\( B \), medibles con respecto a\( \mathscr G \), tales que
- \( A + B \E(X \mid \mathscr G) = g[\E(X \mid \mathscr G)] \)
- \( A + B X \le g(X) \)
Tomamos el valor esperado condicional a través de la desigualdad en (b) y luego usamos las propiedades del valor esperado condicional y la propiedad (a):\[ \E[g(X) \mid \mathscr G] \ge \E(A + B X \mid \mathscr G) = A + B \E(X \mid \mathscr G) = g[\E(X \mid \mathscr G] \] Tenga en cuenta que el segundo paso utiliza el hecho de que\( A \) y\( B \) son medibles con respecto a\( \mathscr G \).
Probabilidad Condicional
Para nuestra siguiente discusión, supongamos como de costumbre que\( \mathscr G \) es un sub\( \sigma \) -álgebra de\( \mathscr F \). La probabilidad condicional de un evento\(A\) dado\( \mathscr G \) puede definirse como un caso especial de valor esperado condicional. Como de costumbre, vamos a\(\bs{1}_A\) denotar la variable aleatoria indicadora de\(A\).
Para\( A \in \mathscr F \) definimos\[ \P(A \mid \mathscr G) = \E(\bs 1_A \mid \mathscr G) \]
Así, tenemos las siguientes caracterizaciones de probabilidad condicional, que son casos especiales de la definición y la versión alternativa:
Si\( A \in \mathscr F \) entonces\( \P(A \mid \mathscr G) \) se caracteriza (hasta equivalencia) por las siguientes propiedades
- \( \P(A \mid \mathscr G) \)es medible con respecto a\( \mathscr G \).
- Si\( B \in \mathscr G \) entonces\( \E[\P(A \mid \mathscr G); B] = \P(A \cap B) \)
Prueba
Para la parte b), tenga en cuenta que\[ \E[\bs{1}_B \P(A \mid \mathscr G)] = \E[\bs{1}_B \E(\bs{1}_A \mid \mathscr G)] = \E(\bs{1}_A \bs{1}_B) = \E(\bs{1}_{A \cap B}) = \P(A \cap B) \]
Si\( A \in \mathscr F \) entonces\( \P(A \mid \mathscr G) \) se caracteriza (hasta equivalencia) por las siguientes propiedades
- \( \P(A \mid \mathscr G) \)es medible con respecto a\( \mathscr G \).
- Si\( U \) es medible con respecto a\( \mathscr G \) y\( \E(|U|) \lt \infty \) luego\( \E[U \P(A \mid \mathscr G)] = \E(U; A) \)
Las propiedades anteriores para el valor esperado condicional, por supuesto, tienen casos especiales para la probabilidad condicional. En particular, podemos calcular la probabilidad de un evento condicionando a un\( \sigma \) álgebra:
Si\( A \in \mathscr F \) entonces\(\P(A) = \E[\P(A \mid \mathscr G)]\).
Prueba
Esto es un resultado directo de la propiedad media desde entonces\( \E(\bs{1}_A) = \P(A) \).
Nuevamente, el último teorema suele ser una buena manera de calcular\(\P(A)\) cuando conocemos la probabilidad condicional de\(A\) dado\(\mathscr G\). Se trata de una versión muy compacta y elegante de la ley de probabilidad total dada primero en la sección de Probabilidad Condicional en el capítulo de Espacios de Probabilidad y posteriormente en la sección de Distribuciones Discretas en el Capítulo de Distribuciones. El siguiente teorema da la versión condicional de los axiomas de probabilidad.
Se mantienen las siguientes propiedades (como de costumbre, equivalencia de módulo):
- \( \P(A \mid \mathscr G) \ge 0 \)para cada\( A \in \mathscr F \)
- \( \P(\Omega \mid \mathscr G) = 1 \)
- Si\( \{A_i: i \in I\} \) es un subconjunto disjunta contable de\( \mathscr F \) entonces\( \P(\bigcup_{i \in I} A_i \bigm| \mathscr G) = \sum_{i \in I} \P(A_i \mid \mathscr G) \)
Prueba
- Esto es una consecuencia directa de (6).
- Esto es trivial desde entonces\( \bs{1}_\Omega = 1 \).
- Mostramos que el lado derecho satisface las condiciones en (11) que definen el lado izquierdo. Tenga en cuenta que\( \sum_{i \in I} \P(A_i \mid \mathscr G) \) es\( \mathscr G \) -medible ya que cada término en la suma tiene esta propiedad. Vamos\( B \in \mathscr G \). entonces\[ \E\left[\sum_{i \in I} \P(A_i \mid \mathscr G); B\right] = \sum_{i \in I} \E[\P(A_i \mid \mathscr G); B] = \sum_{i \in I} \P(A_i \cap B) = \P\left(B \cap \bigcup_{i \in I} A_i\right) \]
Del último resultado, se deduce que otras reglas de probabilidad estándar se mantienen para la probabilidad condicional dada\( \mathscr G \) (como siempre, equivalencia de módulo). Estos resultados incluyen
- la regla del complemento
- el aumento de la propiedad
- Desigualdad de Boole
- Desigualdad de Bonferroni
- las leyes de inclusión-exclusión
Sin embargo, no es correcto afirmar que\( A \mapsto \P(A \mid \mathscr G) \) es una medida de probabilidad, porque las probabilidades condicionales solo se definen hasta la equivalencia, y así el mapeo no tiene sentido. Tendríamos que especificar una versión particular de\( \E(A \mid \mathscr G) \) para cada uno\( A \in \mathscr F \) para que el mapeo tenga sentido. Incluso si hacemos esto, el mapeo puede no definir una medida de probabilidad. En la parte (c), los lados izquierdo y derecho son variables aleatorias y la ecuación es un evento que tiene probabilidad 1. Sin embargo este evento depende de la colección\( \{A_i: i \in I\} \). En general, habrá innumerables colecciones de este tipo en\( \mathscr F \), y la intersección de todos los eventos correspondientes bien puede tener una probabilidad inferior a 1 (si es que es mensurable). Resulta que si el espacio de probabilidad subyacente\( (\Omega, \mathscr F, \P) \) es suficientemente agradable
(y la mayoría de los espacios de probabilidad que surgen en las aplicaciones son agradables), entonces de hecho existe una probabilidad condicional regular. Es decir, para cada uno\( A \in \mathscr F \), existe una variable aleatoria que\( \P(A \mid \mathscr G) \) satisface las condiciones en (12) y tal que con probabilidad 1,\( A \mapsto \P(A \mid \mathscr G) \) es una medida de probabilidad.
El siguiente teorema da una versión del teorema de Bayes, llamada así por el inimitable Thomas Bayes.
Supongamos que\( A \in \mathscr G \) y\( B \in \mathscr F \). entonces\[ \P(A \mid B) = \frac{\E[\P(B \mid \mathscr G); A]}{\E[\P(B \mid \mathscr G)]} \]
Prueba
La prueba es absolutamente trivial. Por definición de probabilidad condicional dada\( \mathscr G \), el numerador es\( \P(A \cap B) \) y el denominador es\( P(B) \). Sin embargo, el teorema de Bayes es útil en escenarios donde los valores esperados en el numerador y denominador pueden calcularse directamente
Ejemplos Básicos
El propósito de esta discusión es atar las nociones generales de valor esperado condicional que estamos estudiando aquí a los conceptos más elementales que has visto antes. Supongamos que\( A \) es un evento (es decir, un miembro de\( \mathscr F \)) con\( \P(A) \gt 0 \). Si\( B \) es otro evento, entonces por supuesto, la probabilidad condicional de\( B \) dado\( A \) es\[ \P(B \mid A) = \frac{\P(A \cap B)}{\P(A)} \] Si\( X \) es una variable aleatoria entonces la distribución condicional de\( X \) dado\( A \) es la medida de probabilidad\( \R \) dada por\[ R \mapsto \P(X \in R \mid A) = \frac{\P(\{X \in R\} \cap A)}{\P(A)} \text{ for measurable } R \subseteq \R \] Si\( \E(|X|) \lt \infty \) entonces el valor esperado condicional de\( X \) dado\( A \), denotado\( \E(X \mid A) \), es simplemente la media de esta distribución condicional.
Supongamos ahora que\( \mathscr{A} = \{A_i: i \in I\} \) es una partición contable del espacio\( \Omega \) muestral en eventos con probabilidad positiva. Para revisar la jerga,\( \mathscr A \subseteq \mathscr F \); el conjunto de índices\( I \) es contable;\( A_i \cap A_j = \emptyset \) para distinto\( i, \, j \in I \);\( \bigcup_{i \in I} A_i = \Omega \); y\( \P(A_i) \gt 0 \) para\( i \in I \). Vamos\( \mathscr G = \sigma(\mathscr{A}) \), la\( \sigma \) -álgebra generada por\( \mathscr{A} \). Los elementos de\( \mathscr G \) son de la forma\( \bigcup_{j \in J} A_j \) para\( J \subseteq I \). Además, las variables aleatorias que son medibles con respecto a\( \mathscr G \) son precisamente las variables que son constantes\( A_i \) para cada una\( i \in I \). Se dice que el\( \sigma \) -álgebra\( \mathscr G \) se genera de manera contable.
Si\( B \in \mathscr F \) entonces\( \P(B \mid \mathscr G) \) es la variable aleatoria cuyo valor on\( A_i \) es\( \P(B \mid A_i) \) para cada uno\(i \in I \).
Prueba
Let\( U \) denotar la variable aleatoria que toma\( \P(B \mid A_i) \) el valor\( A_i \) para cada uno\( i \in I \). Primero,\( U \) es medible con respecto a\( \scr G \) ya que\( U \) es constante\( A_i \) para cada uno\( i \in I \). Entonces solo tenemos que demostrar eso\( E(U ; A) = \P(A \cap B) \) para cada uno\( A \in \mathscr G \). Por lo tanto, vamos a\( A = \bigcup_{j \in J} A_j \) dónde\( J \subseteq I \). Entonces\[ \E(U; A) = \sum_{j \in J} \E(U ; A_j) = \sum_{j \in J} \P(B \mid A_j) \P(A_j) = \P(A \cap B)\]
En este escenario, la versión del teorema de Bayes en (15) se reduce a la formulación elemental habitual: Para\( i \in I \),\( \E[\P(B \mid \mathscr G); A_i] = \P(A_i) \P(B \mid A_i) \) y\( \E[\P(B \mid \mathscr G)] = \sum_{j \in I} \P(A_j) \P(B \mid A_j) \). De ahí\[ \P(A_i \mid B) = \frac{\P(A_i) \P(B \mid A_i)}{\sum_{j \in I} \P(A_j) \P(B \mid A_j)} \]
Si\( X \) es una variable aleatoria con\( \E(|X|) \lt \infty \), entonces\( \E(X \mid \mathscr G) \) es la variable aleatoria cuyo valor on\( A_i \) es\( \E(X \mid A_i) \) para cada una\( i \in I \).
Prueba
Let\( U \) denotar la variable aleatoria que toma\( \E(X \mid A_i) \) el valor\( A_i \) para cada uno\( i \in I \). Primero,\( U \) es medible con respecto a\( \scr G \) ya que\( U \) es constante\( A_i \) para cada uno\( i \in I \). Entonces solo tenemos que demostrar eso\( E(U; A) = \E(X; A) \) para cada uno\( A \in \mathscr G \). Por lo tanto, vamos a\( A = \bigcup_{j \in J} A_j \) dónde\( J \subseteq I \). Entonces\[ \E(U; A) = \sum_{j \in J} \E(U; A_j) = \sum_{j \in J} \E(X \mid A_j) \P(A_j) = E(X; A) \]
Los ejemplos anteriores se aplicarían a\( \mathscr G = \sigma(Y) \) if\( Y \) es una variable aleatoria discreta que toma valores en un conjunto contable\( T \). En este caso, la partición es simplemente\( \mathscr{A} = \{ \{Y = y\}: y \in T\} \). Por otro lado, supongamos que\( Y \) es una variable aleatoria tomando valores en un conjunto general\( T \) con\( \sigma \) -álgebra\( \mathscr{T} \). Las variables aleatorias de valor real que son medibles con respecto a\( \mathscr G = \sigma(Y) \) son (hasta equivalencia) las funciones medibles y de valor real de\( Y \).
Especializándose además, Supongamos que\( X \) toma valores en\( S \subseteq \R \),\( Y \) toma valores en\( T \subseteq \R^n \) (donde\( S \) y\( T \) son Lebesgue medibles) y que\( (X, Y) \) tiene una distribución continua conjunta con función de densidad de probabilidad\( f \). Entonces\( Y \) tiene la función de densidad de probabilidad\( h \) dada por\[ h(y) = \int_S f(x, y) \, dx, \quad y \in T \] Supongamos que\( h(y) \gt 0 \) para\( y \in T \). Entonces para\( y \in T \), una función de densidad de probabilidad condicional de\( X \) dado\( Y = y \) se define por\[ g(x \mid y) =\frac{f(x, y)}{h(y)}, \quad x \in S \] Este es precisamente el escenario de nuestra discusión elemental del valor esperado condicional. Si\( \E(|X|) \lt \infty \) entonces solemos escribir\( \E(X \mid Y) \) en lugar del más torpe\( \E[X \mid \sigma(Y)] \).
En esta configuración anterior supongamos que\( \E(|X|) \lt \infty \). Entonces\[ \E(X \mid Y) = \int_S x g(x \mid Y) \, dx \]
Prueba
Una vez más, demostramos que la integral de la derecha satisface las propiedades en la definición para\( \E(X \mid Y) = \E[X \mid \sigma(Y)] \). Primero,\( y \mapsto \int_S x g(x \mid y) \, dx \) es medible como una función desde\( T \) dentro\( \R \) y por lo tanto la variable aleatoria\( \int_x g(x \mid Y) \, dx \) es una función medible de\( Y \) y por lo tanto es medible con respecto a\( \sigma (Y) \). Siguiente supongamos eso\( B \in \sigma(Y) \). Entonces\( B = \{Y \in A\} \) para algunos\( A \in \mathscr F \). Entonces\ comienza {alinear*}\ E\ izquierda [\ int_s x g (x\ mid Y)\, dx; B\ derecha] & =\ E\ izquierda [\ int_s x g (x\ mid Y)\, dx; Y\ en A\ derecha]\\ & =\ E\ izquierda [\ int_s x\ frac {f (x, y)} {h (y)}\, dx; Y\ en A\ derecha] =\ int_a\ int_s x\ frac {f (x, y)} {h (y)} h (y)\, dx\, dy\ & =\ int_ {S\ veces A} x f (x, y)\, d (x, y) =\ E (X; Y\ in A) =\ E (X; B)\ final {alinear*}
Mejor predictor
En nuestro tratamiento elemental del valor esperado condicional, mostramos que el valor esperado condicional de una variable aleatoria de valor real\( X \) dada una variable aleatoria general\( Y \) es el mejor predictor de\( X \), en el sentido de mínimos cuadrados, entre todas las funciones de valor real de\( Y \). Una afirmación más cuidadosa es que\( \E(X \mid Y) \) es el mejor predictor de\( X \) entre todas las variables aleatorias de valor real que son medibles con respecto a\( \sigma(Y) \). Así, no debería sorprender que si\( \mathscr G \) es un sub\( \sigma \) álgebra de\( \mathscr F \), entonces\( \E(X \mid \mathscr G) \) es el mejor predictor de\( X \), en el sentido de mínimos cuadrados, entre todas las variables aleatorias de valor real que son medibles con respecto a\( \mathscr G) \). Demostraremos que efectivamente así ocurre en esta subsección. Las pruebas son muy similares a las que se dan en la sección elemental. Para el resto de esta discusión, asumimos que\( \mathscr G \) es un\( \sigma \) subálgebra de\( \mathscr F \) y que todas las variables aleatorias mencionadas son valoradas reales.
Supongamos que\( X \) y\( U \) son variables aleatorias con\( \E(|X|) \lt \infty \)\( \E(|X U|) \lt \infty \) y y que\( U \) es medible con respecto a\( \mathscr G \). Entonces\( X - \E(X \mid \mathscr G) \) y no\( U \) están correlacionados.
Prueba
Tenga en cuenta que\( X - \E(X \mid \mathscr G) \) tiene media 0 por la propiedad media. Usando las propiedades que caracterizan\( \E(X \mid \mathscr G) \) tenemos\[ \cov[X - \E(X \mid \mathscr G), U] = \E(U [X - \E(X \mid \mathscr G)]) = \E(U X) - \E[U \E(X \mid \mathscr G] = \E(U X) - \E(U X) = 0 \]
El siguiente resultado es el principal:\( \E(X \mid \mathscr G) \) está más cerca\( X \) en el sentido cuadrático medio que cualquier otra variable aleatoria que sea medible con respecto a\( \mathscr G \). Así, si\( \mathscr G \) representa la información que tenemos, entonces\( \E(X \mid \mathscr G) \) es lo mejor que podemos hacer en la estimación\( X \).
Supongamos que\( X \) y\( U \) son variables aleatorias con\( \E(X^2) \lt \infty \)\( \E(U^2) \lt \infty\) y y que\( U \) es medible con respecto a\( \mathscr G \). Entonces
- \( \E([X - \E(X \mid \mathscr G)]^2) \le \E[(X - U)^2] \).
- La igualdad se mantiene si y sólo si\(\P[U = \E(X \mid \mathscr G)] = 1 \), así\( U \) y\( \E(X \mid \mathscr G) \) son equivalentes.
Prueba
- Tenga en cuenta que\ begin {align}\ E [(X - U) ^2] & =\ E ([X -\ E (X\ mid\ mathscr G) +\ E (X\ mid\ mathscr G) - U] ^2)\\ & =\ E ([X -\ E (X\ mid\ mathscr G)] ^2) + 2\ E ([X - E\ (X\ mid\ mathscr G)] [\ E (X\ mid\ mathscr G) - U]) +\ E ([\ E (X\ mid\ mathscr G) - U] ^2)\ end {align} Por propiedad media,\( X - \E(X \mid \mathscr G) \) tiene media 0, por lo que el término medio en la ecuación mostrada es\( 2 \cov[X - \E(X \mid \mathscr G), \E(X \mid \mathscr G) - U] \). Pero\( \E(X \mid \mathscr G) - U \) es\( \mathscr G \) -medible y de ahí esta covarianza es 0 por proerdad no correlacionada. Por lo tanto\[ \E[(X - U)^2] = \E([X - \E(X \mid \mathscr G)]^2) + \E([\E(X \mid \mathscr G) - U]^2 ) \ge \E([X - \E(X \mid \mathscr G)]^2) \]
- La igualdad se mantiene si y solo\( \E([\E(X \mid \mathscr G) - U]^2 ) = 0 \) si y solo si\(\P[U = \E(X \mid \mathscr G)] = 1 \)
Varianza condicional
Una vez más, asumimos que\( \mathscr G \) es un sub\( \sigma \) álgebra de\( \mathscr F \) y que todas las variables aleatorias mencionadas son de valor real, a menos que se indique lo contrario. Es natural definir la varianza condicional de una variable aleatoria dada\( \mathscr G \) de la misma manera que la varianza ordinaria, pero con todos los valores esperados condicionados\( \mathscr G \).
Supongamos que\( X \) es una variable aleatoria con\( \E(X^2) \lt \infty \). La varianza condicional de\( X \) dado\(\mathscr G\) es\[ \var(X \mid \mathscr G) = \E\left([X - \E(X \mid \mathscr G)]^2 \biggm| \mathscr G\right) \]
Al igual que todos los valores esperados condicionales relativos a\( \mathscr G \),\( \var(X \mid \mathscr G) \) es una variable aleatoria que es medible con respecto a\( \mathscr G \) y es única hasta la equivalencia. La primera propiedad es análoga a la fórmula computacional para la varianza ordinaria.
Supongamos nuevamente que\( X \) es una variable aleatoria con\( \E(X^2) \lt \infty \). Entonces\[\var(X \mid \mathscr G) = \E(X^2 \mid \mathscr G) - [\E(X \mid \mathscr G)]^2\]
Prueba
Ampliando el cuadrado en la definición y usando propiedades básicas de expectativa condicional, tenemos
\ begin {align}\ var (X\ mid\ mathscr G) & =\ E (X^2 - 2 X\ E (X\ mid\ mathscr G) + [\ E (X\ mid\ mathscr G)] ^2\ biggm|\ mathscr G) =\ E (X^2\ mid\ mathscr G) - 2\ E [X\ E (X mid\\ mathscr G)\ mediados\ mathscr G] +\ E ([\ E (X\ mediados\ mathscr G)] ^2\ mediados\ mathscr G)\\ & =\ E (X^2\ mediados\ mathscr G) - 2\ E (X\ mediados\ mathscr G)\ E (X\ mediados\ mathscr G) + [\ E (X\ mediados\ mathscr G)] ^2 =\ E (X^2\ mediados\ mathscr G) - [\ E (X\ mediados\ mathscr G)] ^2\ end {align}A continuación se presenta una fórmula para la varianza ordinaria en términos de varianza condicional y valor esperado.
Supongamos nuevamente que\( X \) es una variable aleatoria con\( \E(X^2) \lt \infty \). Entonces\[\var(X) = \E[\var(X \mid \mathscr G)] + \var[\E(X \mid \mathscr G)]\]
Prueba
Del teorema anterior y las propiedades del valor esperado condicional tenemos\( \E[\var(X \mid \mathscr G)] = \E(X^2) - \E([\E(X \mid \mathscr G)]^2) \). Pero\( \E(X^2) = \var(X) + [\E(X)]^2 \) y de manera similar,\(\E([\E(X \mid \mathscr G)]^2) = \var[\E(X \mid \mathscr G)] + (\E[\E(X \mid \mathscr G)])^2 \). Pero también,\( \E[\E(X \mid \mathscr G)] = \E(X) \) así que subsituándonos obtenemos\( \E[\var(X \mid \mathscr G)] = \var(X) - \var[\E(X \mid \mathscr G)] \).
Entonces la varianza de\( X \) es la varianza condicional esperada más la varianza del valor esperado condicional. Este resultado suele ser una buena manera de calcular\(\var(X)\) cuando conocemos la distribución condicional de\(X\) dado\(\mathscr G\). A su vez, esta propiedad conduce a una fórmula para el error cuadrático medio cuando\( \E(X \mid \mathscr G) \) se piensa como un predictor de\( X \).
Supongamos nuevamente que\( X \) es una variable aleatoria con\( \E(X^2) \lt \infty \). \[ \E([X - \E(X \mid \mathscr G)]^2) = \var(X) - \var[\E(X \mid \mathscr G)] \]
Prueba
A partir de la definición y de la fórmula de propiedad media y varianza,\[ \E([X - \E(X \mid \mathscr G)]^2) = \E[\var(X \mid \mathscr G)] = \var(X) - \var[\E(X \mid \mathscr G)] \]
Volvamos al estudio de los predictores de la variable aleatoria de valor real\(X\), y compararlos en términos de error cuadrático medio.
Supongamos nuevamente que\( X \) es una variable aleatoria con\( \E(X^2) \lt \infty \).
- El mejor predictor constante de\(X\) es\(\E(X)\) con error cuadrático medio\(\var(X)\).
- Si\(Y\) es otra variable aleatoria con\( \E(Y^2) \lt \infty \), entonces el mejor predictor de\(X\) entre funciones lineales de\(Y\) es\[ L(X \mid Y) = \E(X) + \frac{\cov(X,Y)}{\var(Y)}[Y - \E(Y)] \] con error cuadrático medio\( \var(X)[1 - \cor^2(X,Y)]\).
- Si\(Y\) es una variable aleatoria (general), entonces el mejor predictor de\(X\) entre todas las funciones de valor real de\(Y\) con varianza finita es\(\E(X \mid Y)\) con error cuadrático medio\( \var(X) - \var[\E(X \mid Y)]\).
- Si\(\mathscr G\) es un sub\( \sigma \) álgebra de\( \mathscr F \), entonces el mejor predictor de\(X\) entre las variables aleatorias con varianza finita que son medibles con respecto a\(\mathscr G\) es\(\E(X \mid \mathscr G)\) con el error cuadrático medio\(\var(X) - \var[\E(X \mid \mathscr G)]\).
Por supuesto, (a) es un caso especial de (d) con\( \mathscr G = \{\emptyset, \Omega\} \) y (c) es un caso especial de (d) con\( \mathscr G = \sigma(Y) \). Sólo (b), el caso lineal, no puede interpretarse en términos de condicionamiento con respecto a\( \sigma \) a-álgebra.
Covarianza condicional
Supongamos nuevamente que\( \mathscr G \) es un sub\( \sigma \) -álgebra de\( \mathscr F \). La covarianza condicional de dos variables aleatorias se define como la covarianza ordinaria, pero con todos los valores esperados condicionados\( \mathscr G \).
Supongamos que\( X \) y\( Y \) son variables aleatorias con\( \E(X^2) \lt \infty \) y\( \E(Y^2) \lt \infty \). La covarianza condicional de\(X\) y\( Y \) dada\(\mathscr G\) se define como\[ \cov(X, Y \mid \mathscr G) = \E\left([X - \E(X \mid \mathscr G)] [Y - \E(Y \mid \mathscr G)] \biggm| \mathscr G \right) \]
Así\( \cov(X, Y \mid \mathscr G) \) es una variable aleatoria que es medible con respecto\( \mathscr G \) y es única hasta la equivalencia. Como debería ser el caso, la covarianza condicional generaliza la varianza condicional.
Supongamos que\( X \) es una variable aleatoria con\( \E(X^2) \lt \infty \). Entonces\( \cov(X, X \mid \mathscr G) = \var(X \mid \mathscr G) \).
Prueba
Esto se desprende inmediatamente de las dos definiciones.
Nuestro siguiente resultado es una fórmula computacional que es análoga a la de la covariación estándar, la covarianza es la media del producto menos el producto de las medias, pero ahora con todos los valores esperados condicionados a\( \mathscr G \):
Supongamos de nuevo que\( X \) y\( Y \) son variables aleatorias con\( \E(X^2) \lt \infty \) y\( \E(Y^2) \lt \infty \). Entonces\[\cov(X, Y \mid \mathscr G) = \E(X Y \mid \mathscr G) - \E(X \mid \mathscr G) E(Y \mid \mathscr G)\]
Prueba
Ampliando el producto en la definición y utilizando propiedades básicas de expectativa condicional, tenemos
\ begin {align}\ cov (X, Y\ mid\ mathscr G) & =\ E\ left (X Y - X\ E (Y\ mid\ mathscr G) - Y E (X\ mid\ mathscr G) +\ E (X\ mid\ mathscr G) E (Y\ mid\ mathscr G)\ biggm|\ mathscr G\ right) =\ E (X Y\ mediados\ mathscr G) -\ E\ izquierda [X\ E (Y\ mediados\ mathscr G)\ mediados\ mathscr G\ derecha] -\ E\ izquierda [Y\ E (X\ mediados\ mathscr G)\ mediados\ mathscr G\ derecha] +\ E\ izquierda [\ E (X\ mid\ mathscr G)\ E (Y\ mid\ mathscr G)\ mid\ mathscr G\ derecha]\\ & =\ E\ izquierda (X Y\ mid\ mathscr G\ derecha) -\ E (X\ mid\ mathscr G)\ E (Y\ mid\ mid mathscr G) -\ E (X\ mediados\ mathscr G)\ E (Y\ mediados\ mathscr G) +\ E (X\ mediados\ mathscr G)\ E (Y\ mediados\ mathscr G) =\ E\ izquierda (X Y\ mediados\ mathscr G\ derecha) -\ E (X\ mediados\ mathscr G) E (Y\ mediados\ mathscr G)\ end {align}Nuestro siguiente resultado muestra cómo calcular la covarianza ordinaria de\( X \) y\( Y \) condicionando sobre\( X \).
Supongamos de nuevo que\( X \) y\( Y \) son variables aleatorias con\( \E(X^2) \lt \infty) \) y\( \E(Y^2 \lt \infty) \). Entonces\[\cov(X, Y) = \E\left[\cov(X, Y \mid \mathscr G)\right] + \cov\left[\E(X \mid \mathscr G), \E(Y \mid \mathscr G) \right]\]
Prueba
De (29) y propiedades de valor esperado condicional tenemos\[ \E\left[\cov(X, Y \mid \mathscr G)\right] = \E(X Y) - \E\left[\E(X\mid \mathscr G) \E(Y \mid \mathscr G) \right] \] Pero\( \E(X Y) = \cov(X, Y) + \E(X) \E(Y)\) y de manera similar,\[\E\left[\E(X \mid \mathscr G) \E(Y \mid \mathscr G)\right] = \cov[\E(X \mid \mathscr G), \E(Y \mid \mathscr G) + \E[\E(X\mid \mathscr G)] \E[\E(Y \mid \mathscr G)]\] Pero también,\( \E\left[\E(X \mid \mathscr G)\right] = \E(X) \) y\( \E[\E(Y \mid \mathscr G)] = \E(Y) \) así subsituando obtenemos\[ \E\left[\cov(X, Y \mid \mathscr G)\right] = \cov(X, Y) - \cov\left[\E(X \mid \mathscr G), \E(Y \mid \mathscr G)\right] \]
Así, la covarianza de\( X \) y\( Y \) es la covarianza condicional esperada más la covarianza de los valores esperados condicionales. Este resultado suele ser una buena manera de calcular\(\cov(X, Y)\) cuando conocemos la distribución condicional de\((X, Y)\) dado\(\mathscr G\).