Saltar al contenido principal
LibreTexts Español

4.7: Valor esperado condicional

  • Page ID
    151940
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)
    \(\newcommand{\var}{\text{var}}\)\(\newcommand{\sd}{\text{sd}}\)\(\newcommand{\cov}{\text{cov}}\)\(\newcommand{\cor}{\text{cor}}\)\(\newcommand{\mse}{\text{MSE}}\)\(\renewcommand{\P}{\mathbb{P}}\)\(\newcommand{\E}{\mathbb{E}}\)\(\newcommand{\R}{\mathbb{R}}\)\(\newcommand{\N}{\mathbb{N}}\)\( \newcommand{\bs}{\boldsymbol} \)

    Como es habitual, nuestro punto de partida es un experimento aleatorio modelado por un espacio de probabilidad\((\Omega, \mathscr F, \P)\). Entonces, para revisar,\( \Omega \) es el conjunto de resultados,\( \mathscr F \) la recolección de eventos, y\( \P \) la medida de probabilidad en el espacio muestral\((\Omega, \mathscr F)\). Supongamos a continuación que\(X\) es una variable aleatoria que toma valores en un conjunto\(S\) y que\(Y\) es una variable aleatoria tomando valores en\(T \subseteq \R\). Suponemos que o bien\(Y\) tiene una distribución discreta, así que eso\(T\) es contable, o que\(Y\) tiene una distribución continua por lo que\(T\) es un intervalo (o quizás una unión de intervalos). En esta sección, estudiaremos el valor esperado condicional de\(Y\) dado\(X\), concepto de importancia fundamental en probabilidad. Como veremos, el valor esperado de\(Y\) dado\(X\) es la función de\(X\) que mejor se aproxime\(Y\) en el sentido cuadrático medio. Tenga en cuenta que\(X\) es una variable aleatoria general, no necesariamente de valor real, pero como de costumbre, asumiremos que o bien\(X\) tiene una distribución discreta, por lo que\(S\) es contable o que\(X\) tiene una distribución continua encendida\(S \subseteq \R^n\) para algunos\(n \in \N_+\). En este último caso,\(S\) es típicamente una región definida por inequalitas que involucran funciones elementales. También asumiremos que todos los valores esperados que se mencionan existen (como números reales).

    Teoría Básica

    Definiciones

    Tenga en cuenta que podemos pensar en una variable aleatoria que toma valores en el conjunto de productos cartesianos\(S \times T\).\((X, Y)\) Necesitamos recordar algunos datos básicos de nuestro trabajo con distribuciones conjuntas y distribuciones condicionales.

    Suponemos que\( (X, Y) \) tiene función de densidad de probabilidad conjunta\( f \) y dejamos\(g\) denotar la función de densidad de probabilidad (marginal)\( X \). Recordemos que si\(Y\) tiene una distribución discrte entonces\[ g(x) = \sum_{y \in T} f(x, y), \quad x \in S \] y si\(Y\) tiene una distribución continua entonces\[ g(x) = \int_T f(x, y) \, dy, \quad x \in S \] En cualquier caso, for\( x \in S \), la función de densidad de probabilidad condicional de\( Y \) dada\( X = x \) se define por\[ h(y \mid x) = \frac{f(x, y)}{g(x)}, \quad y \in T \]

    Ahora estamos listos para las definiciones básicas:

    Para\( x \in S \), el valor esperado condicional de\(Y\) dado\(X = x \in S\) es simplemente la media calculada relativa a la distribución condicional. Así que si\(Y\) tiene una distribución discreta entonces\[E(Y \mid X = x) = \sum_{y \in T} y h(y \mid x), \quad x \in S\] y si\(Y\) tiene una distribución continua entonces\[ \E(Y \mid X = x) = \int_T y h(y \mid x) \, dy, \quad x \in S \]

    1. La función\(v: S \to \R\) definida por\( v(x) = \E(Y \mid X = x)\) for\( x \in S \) es la función de regresión de\(Y\) basado en\(X\).
    2. La variable aleatoria\(v(X)\) se llama el valor esperado condicional de\(Y\) dado\(X\) y se denota\(\E(Y \mid X)\).

    Intuitivamente, tratamos\(X\) como conocidos, y por lo tanto no aleatorios, y luego promediamos\(Y\) con respecto a la distribución de probabilidad que queda. La sección avanzada sobre el valor esperado condicional da una definición mucho más general que unifica las definiciones dadas aquí para los diversos tipos de distribución.

    Propiedades

    La propiedad más importante de la variable aleatoria\(\E(Y \mid X)\) se da en el siguiente teorema. En cierto sentido, este resultado establece que\( \E(Y \mid X) \) se comporta igual que\( Y \) en términos de otras funciones de\( X \), y es esencialmente la única función de\( X \) con esta propiedad.

    La propiedad fundamental

    1. \( \E\left[r(X) \E(Y \mid X)\right] = \E\left[r(X) Y\right] \)para cada función\( r: S \to \R \).
    2. Si\(u: S \to \R\) satisface\(\E[r(X) u(X)] = \E[r(X) Y]\) para cada\(r: S \to \R\) entonces\( \P\left[u(X) = \E(Y \mid X)\right] = 1 \).
    Prueba

    Damos la prueba en el caso continuo. El caso discreto es análogo, con sumas que reemplazan a las integrales.

    1. Del cambio de teorema de variables por valor esperado,\ begin {align}\ E\ left [r (X)\ E (Y\ mid X)\ right] & =\ int_s r (x)\ E (Y\ mid X = x) g (x)\, dx =\ int_s r (x)\ left (\ int_t y h (y\ mid x)\, dy\ right g) (x)\, dx\\ & =\ int_s\ int_t r (x) y h (y\ mediados x) g (x)\, dy\, dx =\ int_ {S\ veces T} r (x) y f (x, y)\ , d (x, y) =\ E [r (X) Y]\ end {align}
    2. Supongamos eso\( u_1: S \to \R \) y\( u_2: S \to \R \) satisfacer la condición en (b). Definir\(r: S \to \R\) por\(r(x) = \bs 1[u_1(x) \gt u_2(x)]\). Entonces por suposición,\(\E\left[r(X) u_1(X)\right] = \E\left[r(X) Y\right] = \E\left[r(X) u_2(X)\right]\) Pero si\( \P\left[u_1(X) \gt u_2(X)\right] \gt 0 \) entonces\( \E\left[r(X) u_1(X)\right] \gt \E\left[r(X) u_2(X)\right] \), una contradicción. De ahí que debemos tener\( \P\left[u_1(X) \gt u_2(X)\right] = 0 \) y por un argumento simétrico,\( \P[u_1(X) \lt u_2(X)] = 0 \).

    Se dice que dos variables aleatorias que son iguales con probabilidad 1 son equivalentes. A menudo pensamos que las variables aleatorias equivalentes son esencialmente el mismo objeto, por lo que la propiedad fundamental anterior caracteriza esencialmente\( \E(Y \mid X) \). Es decir, podemos pensar en\( \E(Y \mid X) \) como cualquier variable aleatoria que sea una función de\( X \) y satisfaga esta propiedad. Además, la propiedad fundamental puede ser utilizada como definición de valor esperado condicional, independientemente del tipo de distribución de\((X, Y)\). Si te interesa, lee el tratamiento más avanzado del valor esperado condicional.

    Supongamos que también\( X \) es de valor real. Recordemos que el mejor predictor lineal de\( Y \) basado en\( X \) se caracterizó por la propiedad (a), pero con solo dos funciones:\( r(x) = 1 \) y\( r(x) = x \). Así, la caracterización en la propiedad fundamental es ciertamente razonable, ya que (como mostramos a continuación)\( \E(Y \mid X) \) es el mejor predictor de\( Y \) entre todas las funciones de\( X \), no solo funciones lineales.

    La propiedad básica también es muy útil para establecer otras propiedades de valor esperado condicional. Nuestra primera consecuencia es el hecho de que\( Y \) y\( \E(Y \mid X) \) tienen la misma media.

    \(\E\left[\E(Y \mid X)\right] = \E(Y)\).

    Prueba

    Dejar\(r\) ser la función constante 1 en la propiedad básica.

    Aparte del interés teórico, este teorema suele ser una buena manera de calcular\(\E(Y)\) cuando conocemos la distribución condicional de\(Y\) dado\(X\). Decimos que estamos calculando el valor esperado de\(Y\) condicionando\(X\).

    Para muchas propiedades básicas de valor esperado ordinario, hay resultados análogos para el valor esperado condicional. Comenzamos con dos de las más importantes: cada tipo de valor esperado debe satisfacer dos propiedades críticas: linealidad y monotonicidad. En los dos teoremas siguientes, las variables aleatorias\( Y \) y\( Z \) son de valor real, y como antes,\( X \) es una variable aleatoria general.

    Propiedades Lineales

    1. \(\E(Y + Z \mid X) = \E(Y \mid X) + \E(Z \mid X)\).
    2. \(\E(c \, Y \mid X) = c \, \E(Y \mid X)\)
    Prueba
    1. Tenga en cuenta que\( \E(Y \mid X) + \E(Z \mid X) \) es una función de\( X \). Si\( r: S \to \R \) entonces\[ \E\left(r(x) \left[\E(Y \mid X) + \E(Z \mid X)\right]\right) = \E\left[r(X) \E(Y \mid X)\right] + \E\left[r(X) \E(Z \mid X)\right] = E\left[r(X) Y\right] + \E\left[r(X) Z\right] = \E\left[r(X) (Y + Z)\right] \] De ahí el resultado se desprende de la propiedad básica.
    2. Tenga en cuenta que\( c \E(Y \mid X) \) es una función de\( X \). Si\( r: S \to \R \) entonces\[ \E\left[r(X) c \E(Y \mid X)\right] = c \E\left[r(X) \E(Y \mid X)\right] = c \E\left[r(X) Y\right] = \E\left[r(X) (c Y)\right] \] De ahí el resultado se desprende de la propiedad básica

    La parte (a) es la propiedad aditiva y la parte (b) es la propiedad de escalado. La propiedad de escalado se generalizará significativamente a continuación en (8).

    Propiedades positivas y crecientes

    1. Si\(Y \ge 0\) entonces\(\E(Y \mid X) \ge 0\).
    2. Si\(Y \le Z\) entonces\(\E(Y \mid X) \le \E(Z \mid X)\).
    3. \( \left|\E(Y \mid X)\right| \le \E\left(\left|Y\right| \mid X\right)\)
    Prueba
    1. Esto se desprende directamente de la definición.
    2. Obsérvese que si\( Y \le Z \) es\( Y - Z \ge 0 \) así por (a) y linealidad,\[ \E(Y - Z \mid X) = \E(Y \mid X) - \E(Z \mid X) \ge 0 \]
    3. Obsérvese eso\( -\left|Y\right| \le Y \le \left|Y\right| \) y por lo tanto por (b) y linealidad,\(-\E\left(\left|Y\right| \mid X \right) \le \E(Y \mid X) \le \E\left(\left|Y\right| \mid X\right)\).

    Nuestras siguientes propiedades se relacionan con la idea de que\( \E(Y \mid X) \) es el valor esperado de\( Y \) dado\( X \). La primera propiedad es esencialmente una reafirmación de la propiedad fundamental.

    Si\(r: S \to \R\), entonces\(Y - \E(Y \mid X)\) y no\(r(X)\) están correlacionados.

    Prueba

    Tenga en cuenta que\( Y - \E(Y \mid X) \) tiene media 0 por la propiedad media. De ahí que, por la propiedad básica,\[ \cov\left[Y - \E(Y \mid X), r(X)\right] = \E\left\{\left[Y - \E(Y \mid X)\right] r(X)\right\} = \E\left[Y r(X)\right] - \E\left[\E(Y \mid X) r(X)\right] = 0 \]

    El siguiente resultado establece que cualquier función (determinista) de\(X\) actúa como una constante en términos del valor esperado condicional con respecto a\(X\).

    Si\(s: S \to \R\) entonces\[ \E\left[s(X)\,Y \mid X\right] = s(X)\,\E(Y \mid X) \]

    Prueba

    Tenga en cuenta que\( s(X) \E(Y \mid X) \) es una función de\( X \). Si\( r: S \to \R \) entonces\[ \E\left[r(X) s(X) \E(Y \mid X)\right] = \E\left[r(X) s(X) Y\right] \] Entonces el resultado ahora sigue de la propiedad básica.

    La siguiente regla generaliza el teorema (8) y a veces es referida como la regla de sustitución para el valor esperado condicional.

    Si\(s: S \times T \to \R\) entonces\[ \E\left[s(X, Y) \mid X = x\right] = \E\left[s(x, Y) \mid X = x\right] \]

    En particular, se desprende de (8) que\(\E[s(X) \mid X] = s(X)\). En el extremo opuesto, tenemos el siguiente resultado: Si\(X\) y\(Y\) son independientes, entonces el conocimiento de no\(X\) da información sobre\(Y\) y así el valor esperado condicional con respecto a\(X\) reduce al valor esperado ordinario (incondicional) de\(Y\).

    Si\(X\) y\(Y\) son independientes entonces\[ \E(Y \mid X) = \E(Y) \]

    Prueba

    Trivialmente,\( \E(Y) \) es una (constante) función de\( X \). Si\( r: S \to \R \) entonces\( \E\left[\E(Y) r(X)\right] = \E(Y) \E\left[r(X)\right] = \E\left[Y r(X)\right] \), la última igualdad por independencia. De ahí que el resultado se deduce de la propiedad básica.

    Supongamos ahora que\(Z\) es de valor real\(X\) y que y\(Y\) son variables aleatorias (todas definidas en el mismo espacio de probabilidad, por supuesto). El siguiente teorema da una condición de consistencia de clases. Los valores esperados condicionales iterados se reducen a un solo valor esperado condicional con respecto a la cantidad mínima de información. Por simplicidad, escribimos\( \E(Z \mid X, Y) \) más que\( \E\left[Z \mid (X, Y)\right] \).

    Consistencia

    1. \(\E\left[\E(Z \mid X, Y) \mid X\right] = \E(Z \mid X)\)
    2. \(\E\left[\E(Z \mid X) \mid X, Y\right] = \E(Z \mid X)\)
    Prueba
    1. Supongamos que\( X \) toma valores adentro\( S \) y\( Y \) toma valores adentro\( T \), así que\( (X, Y) \) toma valores adentro\( S \times T \). Por definición,\( \E(Z \mid X) \) es una función de\( X \). Si\( r: S \to \R \) entonces trivialmente\( r \) puede pensarse como una función\( S \times T \) también. De ahí\[ \E\left[r(X) \E(Z \mid X)\right] = \E\left[r(X) Z\right] = \E\left[r(X) \E(Z \mid X, Y)\right] \] se deduce de la propiedad básica que\(\E\left[\E(Z \mid X, Y) \mid X\right] = \E(Z \mid X) \).
    2. Tenga en cuenta que ya que\( \E(Z \mid X) \) es una función de\( X \), es trivialmente una función de\( (X, Y) \). De ahí a partir de (8),\( \E\left[\E(Z \mid X) \mid X, Y\right] = \E(Z \mid X) \).

    Finalmente mostramos que\( \E(Y \mid X) \) tiene la misma covarianza con\( X \) la que\( Y \), no es sorprendente ya que de nuevo,\( \E(Y \mid X) \) se comporta igual que\( Y \) en sus relaciones con\( X \).

    \(\cov\left[X, \E(Y \mid X)\right] = \cov(X, Y)\).

    Prueba

    \( \cov\left[X, \E(Y \mid X)\right] = \E\left[X \E(Y \mid X)\right] - \E(X) \E\left[\E(Y \mid X)\right] \). Pero\( \E\left[X \E(Y \mid X)\right] = \E(X Y) \) por propiedad básica, y\( \E\left[\E(Y \mid X)\right] = \E(Y) \) por la propiedad media. De ahí\( \cov\left[X, \E(Y \mid X)\right] = \E(X Y) - \E(X) \E(Y) = \cov(X, Y) \).

    Probabilidad Condicional

    La probabilidad condicional de un evento\(A\), dada la variable aleatoria\(X\) (como arriba), se puede definir como un caso especial del valor esperado condicional. Como de costumbre, vamos a\(\bs 1_A\) denotar la variable aleatoria indicadora de\(A\).

    Si\(A\) es un evento, definido\[ \P(A \mid X) = \E\left(\bs{1}_A \mid X\right) \]

    Aquí está la propiedad fundamental para la probabilidad condicional:

    La propiedad fundamental

    1. \( \E\left[r(X) \P(A \mid X)\right] = \E\left[r(X) \bs{1}_A\right] \)para cada función\( r: S \to \R \).
    2. Si\( u: S \to \R \) y\( u(X) \) satisface\( \E[r(X) u(X)] = \E\left[r(X) \bs 1_A\right] \) para cada función\( r: S \to \R \), entonces\( \P\left[u(X) = \P(A \mid X)\right] = 1 \).

    Por ejemplo, supongamos que\( X \) tiene una distribución discreta en un conjunto contable\( S \) con función de densidad de probabilidad\( g \). Entonces (a) se convierte\[ \sum_{x \in S} r(x) \P(A \mid X = x) g(x) = \sum_{x \in S} r(x) \P(A, X = x) \] Pero esto es obvio desde\( \P(A \mid X = x) = \P(A, X = x) \big/ \P(X = x) \) y\( g(x) = \P(X = x) \). Del mismo modo, si\( X \) tiene una distribución continua en\( S \subseteq \R^n \) entonces (a) establece que\[ \E\left[r(X) \bs{1}_A\right] = \int_S r(x) \P(A \mid X = x) g(x) \, dx \]

    Las propiedades anteriores para el valor esperado condicional, por supuesto, tienen casos especiales para probabilidad condicional.

    \(\P(A) = \E\left[\P(A \mid X)\right]\).

    Prueba

    Esto es un resultado directo de la propiedad media, ya que\( \E(\bs{1}_A) = \P(A) \).

    Nuevamente, el resultado en el ejercicio anterior suele ser una buena manera de calcular\(\P(A)\) cuando conocemos la probabilidad condicional de\(A\) dado\(X\). Decimos que estamos calculando la probabilidad de\(A\) condicionando\(X\). Se trata de una versión muy compacta y elegante del resultado de condicionamiento dado primero en la sección de Probabilidad Condicional en el capítulo sobre Espacios de Probabilidad y posteriormente en la sección de Distribuciones Discretas en el Capítulo sobre Distribuciones.

    El siguiente resultado da la versión condicional de los axiomas de probabilidad.

    Axiomas de probabilidad

    1. \( \P(A \mid X) \ge 0 \)para cada evento\( A \).
    2. \( \P(\Omega \mid X) = 1 \)
    3. Si\( \{A_i: i \in I\} \) es una colección contable de eventos disjuntos entonces\( \P\left(\bigcup_{i \in I} A_i \bigm| X\right) = \sum_{i \in I} \P(A_i \mid X)\).
    Detalles

    Hay algunas cuestiones técnicas que involucran la propiedad de aditividad contable (c). Las probabilidades condicionales son variables aleatorias, y así para una colección dada\(\{A_i: i \in I\}\), los lados izquierdo y derecho son los mismos con probabilidad 1. Volveremos a este punto en la sección más avanzada sobre el valor esperado condicional

    Del último resultado, se deduce que otras reglas de probabilidad estándar se mantienen para la probabilidad condicional dada\( X \). Estos resultados incluyen

    • la regla del complemento
    • el aumento de la propiedad
    • Desigualdad de Boole
    • Desigualdad de Bonferroni
    • las leyes de inclusión-exclusión

    El mejor predictor

    El siguiente resultado muestra que, de todas las funciones de\(X\),\(\E(Y \mid X)\) está más cerca\(Y\), en el sentido de error cuadrático medio. Esto es fundamentalmente importante en problemas estadísticos donde se\(X\) puede observar el vector predictor pero no la variable de respuesta\(Y\). En esta subsección y en la siguiente, asumimos que las variables aleatorias de valor real tienen varianza finita.

    Si\(u: S \to \R\), entonces

    1. \(\E\left(\left[\E(Y \mid X) - Y\right]^2\right) \le \E\left(\left[u(X) - Y\right]^2\right)\)
    2. La igualdad se mantiene en (a) si y sólo si\(u(X) = \E(Y \mid X)\) con probabilidad 1.
    Prueba
    1. Tenga en cuenta que\ begin {align}\ E\ left (\ left [Y - u (X)\ right] ^2\ right) & =\ E\ left (\ left [Y -\ E (Y\ mid X) +\ E (Y\ mid X) - u (X)\ right] ^2\ right)\\ & =\ E\ left (\ left [Y -\ E (Y\ mid X)\ derecha] ^2\ derecha) + 2\ E\ izquierda (\ izquierda [Y -\ E (Y\ media X)\ derecha]\ izquierda [\ E (Y\ media X) - u (X)\ derecha]\ derecha) +\ E\ izquierda (\ izquierda [\ E (Y\ media X) - u ( X)\ right] ^2\ right)\ end {align} Pero\( Y - \E(Y \mid X) \) tiene media 0, entonces el término medio a la derecha es\( 2 \cov\left[Y - \E(Y \mid X), \E(Y \mid X) - u(X)\right] \). Además,\( \E(Y \mid X) - u(X) \) es una función de\( X \) y por lo tanto no está correlacionada con\( Y - \E(Y \mid X) \) la propiedad general no correlacionada. De ahí que el término medio sea 0, así\[ \E\left(\left[Y - u(X)\right]^2\right) = \E\left(\left[Y - \E(Y \mid X)\right]^2 \right) + \E\left(\left[\E(Y \mid X) - u(X)\right]^2\right) \] y por lo tanto\( \E\left(\left[Y - \E(Y \mid X)\right]^2 \right) \le \E\left(\left[Y - u(X)\right]^2\right) \).
    2. La igualdad se mantiene si y solo si\( \E\left(\left[\E(Y \mid X) - u(X)\right]^2\right) = 0 \), si y solo si\( \P\left[u(X) = \E(Y \mid X)\right] = 1 \).

    Supongamos ahora que\(X\) es de valor real. En la sección sobre covarianza y correlación, encontramos que el mejor predictor lineal de\(Y\) dado\(X\) es

    \[ L(Y \mid X) = \E(Y) + \frac{\cov(X,Y)}{\var(X)} \left[X - \E(X)\right] \]

    Por otro lado,\(\E(Y \mid X)\) es el mejor predictor de\(Y\) entre todas las funciones de\(X\). De ello se deduce que si\(\E(Y \mid X)\) pasa a ser una función lineal de\(X\) entonces debe ser el caso que\(\E(Y \mid X) = L(Y \mid X)\). No obstante, daremos una prueba directa también:

    Si\(\E(Y \mid X) = a + b X\) por constantes\(a\) y\(b\) entonces\( \E(Y \mid X) = L(Y \mid X) \); es decir,

    1. \(b = \cov(X,Y) \big/ \var(X) \)
    2. \(a = \E(Y) - \E(X) \cov(X,Y) \big/ \var(X) \)
    Prueba

    Primero,\( \E(Y) = \E\left[\E(Y \mid X)\right] = a + b \E(X) \), entonces\( a = \E(Y) - b \E(X) \). Siguiente,\( \cov(X, Y) = \cov[X \E(Y \mid X)] = \cov(X, a + b X) = b \var(X) \) y por lo tanto\( b = \cov(X, Y) \big/ \var(X) \).

    Varianza condicional

    La varianza condicional de\( Y \) dado\( X \) se define como la varianza ordinaria, pero con todos los valores esperados condicionados\( X \).

    La varianza condicional de\(Y\) dado\(X\) se define como\[ \var(Y \mid X) = \E\left(\left[Y - \E(Y \mid X)\right]^2 \biggm| X \right) \]

    Así,\( \var(Y \mid X) \) es una función de\( X \), y en particular, es una variable aleatoria. Nuestro primer resultado es una fórmula computacional que es análoga a la de la variación estándar: la varianza es la media del cuadrado menos el cuadrado de la media, pero ahora con todos los valores esperados condicionados a\( X \):

    \(\var(Y \mid X) = \E\left(Y^2 \mid X\right) - \left[\E(Y \mid X)\right]^2\).

    Prueba

    Ampliando el cuadrado en la definición y usando propiedades básicas de expectativa condicional, tenemos

    \ begin {align}\ var (Y\ mid X) & =\ E\ left (Y^2 - 2 Y\ E (Y\ mid X) +\ left [\ E (Y\ mid X)\ right] ^2\ biggm| X\ right) =\ E (Y^2\ mid X) - 2\ E\ left [Y\ E (Y\ mid X)\ mid X\ right] +\ E\ izquierda (\ izquierda [\ E (Y\ media X)\ derecha] ^2\ media X\ derecha)\\ & =\ E\ izquierda (Y^2\ media X\ derecha) - 2\ E (Y\ media X)\ E (Y\ media X)\ E (Y\ media X) +\ izquierda [\ E (Y\ media X)\ derecha] ^2 =\ E\ izquierda (Y^2\ media X\ derecha) -\ izquierda [\ E (Y\ media X)\ derecha] ^2\ end {align}

    Nuestro siguiente resultado muestra cómo calcular la varianza ordinaria de\( Y \) condicionando\( X \).

    \(\var(Y) = \E\left[\var(Y \mid X)\right] + \var\left[\E(Y \mid X)\right]\).

    Prueba

    Del teorema anterior y las propiedades del valor esperado condicional tenemos\( \E\left[\var(Y \mid X)\right] = \E\left(Y^2\right) - \E\left(\left[\E(Y \mid X)\right]^2\right) \). Pero\( \E\left(Y^2\right) = \var(Y) + \left[\E(Y)\right]^2 \) y de manera similar,\(\E\left(\left[\E(Y \mid X)\right]^2\right) = \var\left[\E(Y \mid X)\right] + \left(\E\left[\E(Y \mid X)\right]\right)^2 \). Pero también,\( \E\left[\E(Y \mid X)\right] = \E(Y) \) así que subsituándonos obtenemos\( \E\left[\var(Y \mid X)\right] = \var(Y) - \var\left[\E(Y \mid X)\right] \).

    Así, la varianza de\( Y \) es la varianza condicional esperada más la varianza del valor esperado condicional. Este resultado suele ser una buena manera de calcular\(\var(Y)\) cuando conocemos la distribución condicional de\(Y\) dado\(X\). Con la ayuda de (21) podemos dar una fórmula para el error cuadrático medio cuando\(\E(Y \mid X)\) se utiliza un predictor de\(Y\).

    Error cuadrático medio\[ \E\left(\left[Y - \E(Y \mid X)\right]^2\right) = \var(Y) - \var\left[E(Y \mid X)\right] \]

    Prueba

    A partir de la definición de varianza condicional, y usando la propiedad media y la fórmula de varianza tenemos\[ \E\left(\left[Y - \E(Y \mid X)\right]^2\right) = \E\left[\var(Y \mid X)\right] = \var(Y) - \var\left[E(Y \mid X)\right] \]

    Volvamos al estudio de los predictores de la variable\(Y\) aleatoria de valor real y comparemos los tres predictores que hemos estudiado en términos de error cuadrático medio.

    Supongamos que\( Y \) es una variable aleatoria de valor real.

    1. El mejor predictor constante de\(Y\) es\(\E(Y)\) con error cuadrático medio\(\var(Y)\).
    2. Si\(X\) es otra variable aleatoria de valor real, entonces el mejor predictor lineal de\(Y\) dado\(X\) es\[ L(Y \mid X) = \E(Y) + \frac{\cov(X,Y)}{\var(X)}\left[X - \E(X)\right] \] con error cuadrático medio\(\var(Y)\left[1 - \cor^2(X,Y)\right]\).
    3. Si\(X\) es una variable aleatoria general, entonces el mejor predictor general de\(Y\) dado\(X\) es\(\E(Y \mid X)\) con error cuadrático medio\(\var(Y) - \var\left[\E(Y \mid X)\right]\).

    Covarianza condicional

    Supongamos que\( Y \) y\( Z \) son variables aleatorias de valor real, y que\( X \) es una variable aleatoria general, todas definidas en nuestro espacio de probabilidad subyacente. Análogamente a la varianza, la covarianza condicional de\( Y \) y\( Z \) dada\( X \) se define como la covarianza ordinaria, pero con todos los valores esperados condicionados\( X \).

    La covarianza condicional de\(Y\) y\( Z \) dada\(X\) se define como\[ \cov(Y, Z \mid X) = \E\left([Y - \E(Y \mid X)] [Z - \E(Z \mid X) \biggm| X \right) \]

    Así,\( \cov(Y, Z \mid X) \) es una función de\( X \), y en particular, es una variable aleatoria. Nuestro primer resultado es una fórmula computacional que es análoga a la de la covariación estándar, la covarianza es la media del producto menos el producto de las medias, pero ahora con todos los valores esperados condicionados a\( X \):

    \(\cov(Y, Z \mid X) = \E\left(Y Z \mid X\right) - \E(Y \mid X) E(Z \mid X)\).

    Prueba

    Ampliando el producto en la definición y utilizando propiedades básicas de expectativa condicional, tenemos

    \ begin {align}\ cov (Y, Z\ mid X) & =\ E\ left (Y Z - Y\ E (Z\ mid X) - Z E (Y\ mid X) +\ E (Y\ mid X) E (Z\ mid X)\ biggm| X\ right) =\ E (Y Z\ mid X) -\ E\ left [Y\ E (Z\ mid X)\ media X\ derecha] -\ E\ izquierda [Z\ E (Y\ media X)\ media X\ derecha] +\ E\ izquierda [\ E (Y\ media X)\ E (Z\ media X)\ media X\ derecha]\\ & =\ E\ izquierda (Y Z\ media X\ derecha) -\ E (Y\ media X)\ E (Z\ media X) -\ E (Y\ media X)\ E (Z\ media X) +\ E (Y\ media X)\ E (Z\ media X) =\ E\ izquierda (Y Z\ media X\ derecha) -\ E (Y\ media X) E (Z\ media X)\ end align {}

    Nuestro siguiente resultado muestra cómo calcular la covarianza ordinaria de\( Y \) y\( Z \) condicionando sobre\( X \).

    \(\cov(Y, Z) = \E\left[\cov(Y, Z \mid X)\right] + \cov\left[\E(Y \mid X), \E(Z \mid X) \right]\).

    Prueba

    De (25) y propiedades de valor esperado condicional tenemos\[ \E\left[\cov(Y, Z \mid X)\right] = \E(Y Z) - \E\left[\E(Y\mid X) \E(Z \mid X) \right] \] Pero\( \E(Y Z) = \cov(Y, Z) + \E(Y) \E(Z)\) y de manera similar,\[\E\left[\E(Y \mid X) \E(Z \mid X)\right] = \cov[\E(Y \mid X), \E(Z \mid X) + \E[\E(Y\mid X)] \E[\E(Z \mid X)]\] Pero también,\( \E[\E(Y \mid X)] = \E(Y) \) y\( \E[\E(Z \mid X)] = \E(Z) \) así subsituando obtenemos\[ \E\left[\cov(Y, Z \mid X)\right] = \cov(Y, Z) - \cov\left[E(Y \mid X), E(Z \mid X)\right] \]

    Así, la covarianza de\( Y \) y\( Z \) es la covarianza condicional esperada más la covarianza de los valores esperados condicionales. Este resultado suele ser una buena manera de calcular\(\cov(Y, Z)\) cuando conocemos la distribución condicional de\((Y, Z)\) dado\(X\).

    Ejemplos y Aplicaciones

    Como siempre, asegúrate de probar las pruebas y cálculos tú mismo antes de leer las que aparecen en el texto.

    Distribuciones Continuas Simples

    Supongamos que\((X,Y)\) tiene la función de densidad de probabilidad\(f\) definida por\(f(x,y) = x + y\) for\(0 \le x \le 1\),\(0 \le y \le 1\).

    1. Encuentra\(L(Y \mid X)\).
    2. Encuentra\(\E(Y \mid X)\).
    3. Gráfica\(L(Y \mid X = x)\) y\(\E(Y \mid X = x)\) como funciones de\(x\), en los mismos ejes.
    4. Encuentra\(\var(Y)\).
    5. Encuentra\(\var(Y)\left[1 - \cor^2(X, Y)\right]\).
    6. Encuentra\(\var(Y) - \var\left[\E(Y \mid X)\right]\).
    Contestar
    1. \(\frac{7}{11} - \frac{1}{11} X\)
    2. \(\frac{3 X + 2}{6 X + 3}\)
    3. \(\frac{11}{144} = 0.0764\)
    4. \(\frac{5}{66} = 0.0758\)
    5. \(\frac{1}{12} - \frac{1}{144} \ln 3 = 0.0757\)

    Supongamos que\((X,Y)\) tiene la función de densidad de probabilidad\(f\) definida por\(f(x,y) = 2 (x + y)\) for\(0 \le x \le y \le 1\).

    1. Encuentra\(L(Y \mid X)\).
    2. Encuentra\(\E(Y \mid X)\).
    3. Gráfica\(L(Y \mid X = x)\) y\(\E(Y \mid X = x)\) como funciones de\(x\), en los mismos ejes.
    4. Encuentra\(\var(Y)\).
    5. Encuentra\(\var(Y)\left[1 - \cor^2(X, Y)\right]\).
    6. Encuentra\(\var(Y) - \var\left[\E(Y \mid X)\right]\).
    Contestar
    1. \(\frac{26}{43} + \frac{15}{43} X\)
    2. \(\frac{5 X^2 + 5 X + 2}{9 X + 3}\)
    3. \(\frac{3}{80} = 0.0375\)
    4. \(\frac{13}{430} = 0.0302\)
    5. \(\frac{1837}{21\;870} - \frac{512}{6561} \ln(2) = 0.0299\)

    Supongamos que\((X,Y)\) tiene la función de densidad de probabilidad\(f\) definida por\(f(x,y) = 6 x^2 y\) for\(0 \le x \le 1\),\(0 \le y \le 1\).

    1. Encuentra\(L(Y \mid X)\).
    2. Encuentra\(\E(Y \mid X)\).
    3. Gráfica\(L(Y \mid X = x)\) y\(\E(Y \mid X = x)\) como funciones de\(x\), en los mismos ejes.
    4. Encuentra\(\var(Y)\).
    5. Encuentra\(\var(Y)\left[1 - \cor^2(X, Y)\right]\).
    6. Encuentra\(\var(Y) - \var\left[\E(Y \mid X)\right]\).
    Contestar

    Tenga en cuenta que\(X\) y\(Y\) son independientes.

    1. \(\frac{2}{3}\)
    2. \(\frac{2}{3}\)
    3. \(\frac{1}{18}\)
    4. \(\frac{1}{18}\)
    5. \(\frac{1}{18}\)

    Supongamos que\((X,Y)\) tiene la función de densidad de probabilidad\(f\) definida por\(f(x,y) = 15 x^2 y\) for\(0 \le x \le y \le 1\).

    1. Encuentra\(L(Y \mid X)\).
    2. Encuentra\(\E(Y \mid X)\).
    3. Gráfica\(L(Y \mid X = x)\) y\(\E(Y \mid X = x)\) como funciones de\(x\), en los mismos ejes.
    4. Encuentra\(\var(Y)\).
    5. Encuentra\(\var(Y)\left[1 - \cor^2(X, Y)\right]\).
    6. Encuentra\(\var(Y) - \var\left[\E(Y \mid X)\right]\).
    Contestar
    1. \(\frac{30}{51} + \frac{20}{51}X\)
    2. \(\frac{2(X^2 + X + 1)}{3(X + 1)}\)
    3. \(\frac{5}{252} = 0.0198\)
    4. \(\frac{5}{357} = 0.0140\)
    5. \(\frac{292}{63} - \frac{20}{3} \ln(2) = 0.0139\)

    Ejercicios sobre Propiedades Básicas

    Supongamos que\(X\)\(Y\),, y\(Z\) son variables aleatorias de valor real con\(\E(Y \mid X) = X^3\) y\(\E(Z \mid X) = \frac{1}{1 + X^2}\). Encuentra\(\E\left(Y\,e^X - Z\,\sin X \mid X\right)\).

    Contestar

    \(X^3 e^X - \frac{\sin X}{1 + X^2}\)

    Distribuciones Uniformes

    Como es habitual, las distribuciones uniformes continuas pueden darnos alguna visión geométrica.

    Recordemos primero que para\( n \in \N_+ \), la medida estándar en\(\R^n\) es\[\lambda_n(A) = \int_A 1 dx, \quad A \subseteq \R^n\] En particular,\(\lambda_1(A)\) es la longitud de\(A \subseteq \R\),\(\lambda_2(A)\) es el área de\(A \subseteq \R^2\), y\(\lambda_3(A)\) es el volumen de\(A \subseteq \R^3\).

    Detalles

    Técnicamente\(\lambda_n\) es Lebesgue medida en los subconjuntos medibles de\(\R^n\). La representación integral es válida para los tipos de conjuntos que ocurren en las aplicaciones. En la discusión a continuación, se supone que todos los subconjuntos son medibles.

    Con nuestra configuración habitual, supongamos que\(X\) toma valores\(S \subseteq \R^n\),\(Y\) toma valores y que\((X, Y)\) se distribuye uniformemente en\(R \subseteq S \times T \subseteq \R^{n+1}\).\(T \subseteq \R\) Entonces\(0 \lt \lambda_{n+1}(R) \lt \infty\), y la función conjunta de densidad de probabilidad\(f\) de\((X, Y)\) está dada por\(f(x, y) = 1 / \lambda_{n+1}(R)\) for\((x, y) \in R\). Recordemos que las distribuciones uniformes, ya sean discretas o continuas, siempre tienen densidades constantes. Por último, recordemos que la sección transversal de\(R\) at\(x \in S\) es\(T_x = \{y \in T: (x, y) \in R\}\).

    En la configuración anterior, supongamos que\( T_x \) es un intervalo delimitado con punto medio\( m(x) \) y longitud\( l(x) \) para cada uno\( x \in S \). Entonces

    1. \( \E(Y \mid X) = m(X) \)
    2. \( \var(Y \mid X) = \frac{1}{12}l^2(X) \)
    Prueba

    Esto se deduce inmediatamente del hecho de que la distribución condicional de\( Y \) dado\( X = x \) se distribuye uniformemente sobre\( T_x \) para cada uno\( x \in S \).

    Entonces, en particular, la curva de regresión\(x \mapsto \E(Y \mid X = x)\) sigue los puntos medios de los intervalos transversales.

    En cada caso a continuación, supongamos que\( (X,Y) \) se distribuye uniformemente en la región de dar. Encuentra\(\E(Y \mid X)\) y\( \var(Y \mid X) \)

    1. La región rectangular\(R = [a, b] \times [c, d]\) donde\(a \lt b\) y\(c \lt d\).
    2. La región triangular\(T = \left\{(x,y) \in \R^2: -a \le x \le y \le a\right\}\) donde\(a \gt 0\).
    3. La región circular\( C = \left\{(x, y) \in \R^2: x^2 + y^2 \le r\right\} \) donde\( r \gt 0 \).
    Contestar
    1. \(\E(Y \mid X) = \frac{1}{2}(c + d)\),\( \var(Y \mid X) = \frac{1}{12}(d - c)^2 \). Tenga en cuenta que\( X \) y\( Y \) son independientes.
    2. \(\E(Y \mid X) = \frac{1}{2}(a + X)\),\( \var(Y \mid X) = \frac{1}{12}(a - X)^2 \)
    3. \( \E(Y \mid X) = 0 \),\( \var(Y \mid X) = 4 (r^2 - X^2) \)

    En el experimento uniforme bivariado, seleccione cada una de las siguientes regiones. En cada caso, ejecute la simulación 2000 veces y anote la relación entre la nube de puntos y la gráfica de la función de regresión.

    1. cuadrado
    2. triángulo
    3. círculo

    Supongamos que\(X\) se distribuye uniformemente en el intervalo\((0, 1)\), y que dado\(X\), la variable aleatoria\(Y\) se distribuye uniformemente en\((0, X)\). Encuentra cada uno de los siguientes:

    1. \(\E(Y \mid X)\)
    2. \(\E(Y)\)
    3. \(\var(Y \mid X)\)
    4. \(\var(Y)\)
    Contestar
    1. \(\frac{1}{2} X\)
    2. \(\frac{1}{4}\)
    3. \(\frac{1}{12} X^2\)
    4. \(\frac{7}{144}\)

    La distribución hipergeométrica

    Supongamos que una población consiste en\(m\) objetos, y que cada objeto es uno de tres tipos. Hay\(a\) objetos de tipo 1,\(b\) objetos de tipo 2 y\(m - a - b\) objetos de tipo 0. Los parámetros\(a\) y\(b\) son enteros positivos con\(a + b \lt m\). Muestreamos\(n\) objetos de la población al azar, y sin reemplazo, donde\( n \in \{0, 1, \ldots, m\} \). Denote el número de objetos tipo 1 y 2 en la muestra por\(X\) y\(Y\), de modo que el número de objetos tipo 0 en la muestra sea\(n - X - Y\). En el capítulo sobre Distribuciones, mostramos que las distribuciones conjuntas, marginales y condicionales de\( X \) y\( Y \) son todas hipergeométricas, solo cambian los parámetros. Aquí está el resultado relevante para esta sección:

    En la configuración anterior,

    1. \( \E(Y \mid X) = \frac{b}{m - a}(n - X) \)
    2. \( \var(Y \mid X) = \frac{b (m - a - b)}{(m - a)^2 (m - a - 1)} (n - X) (m - a - n + X)\)
    3. \( \E\left([Y - \E(Y \mid X)]^2\right) = \frac{n(m - n)b(m - a - b)}{m (m - 1)(m - a)} \)
    Prueba

    Recordemos que\( (X, Y) \) tiene la distribución hipergeométrica (multivariante) con parámetros\( m \),\( a \),\( b \), y\( n \). Marginalmente,\( X \) tiene la distribución hipergeométrica con parámetros\( m \)\( a \),, y\( n \), y\( Y \) tiene la distribución hipergeométrica con parámetros\( m \),\( b \), y\( n \). Dado\( X = x \in \{0, 1, \ldots, n\} \), los\( n - x \) objetos restantes se eligen al azar de una población de\( m - a \) objetos, de los cuales\( b \) son tipo 2 y\( m - a - b \) son tipo 0. Por lo tanto, la distribución condicional de\( Y \) dado\( X = x \) es hipergeométrica con parámetros\( m - a \),\( b \), y\( n - x \). A continuación, las partes (a) y (b) siguen de las fórmulas estándar para la media y varianza de la distribución hipergeométrica, como funciones de los parámetros. La parte (c) es el error cuadrático medio, y en este caso se puede computar más fácilmente ya\[ \var(Y) - \var[\E(Y \mid X)] = \var(Y) - \left(\frac{b}{m - a}\right)^2 \var(X) = n \frac{b}{m} \frac{m - b}{m} \frac{m - n}{m - 1} - \left(\frac{b}{m - a}\right)^2 n \frac{a}{m} \frac{m - a}{m} \frac{m - n}{m - 1} \] que Simplificar da el resultado.

    Tenga en cuenta que\( \E(Y \mid X) \) es una función lineal de\( X \) y por lo tanto\( \E(Y \mid X) = L(Y \mid X) \).

    En una colección de 120 objetos, 50 se clasifican como buenos, 40 como justos y 30 como pobres. Se selecciona una muestra de 20 objetos al azar y sin reemplazo. Dejar\( X \) denotar el número de objetos buenos en la muestra y\( Y \) el número de objetos pobres en la muestra. Encuentra cada uno de los siguientes:

    1. \( \E(Y \mid X) \)
    2. \( \var(Y \mid X) \)
    3. El valor predicho\( Y \) de\( X = 8 \)
    Contestar
    1. \( \E(Y \mid X) = \frac{80}{7} - \frac{4}{7} X \)
    2. \( \var(Y \mid X) = \frac{4}{1127}(20 - X)(50 + X) \)
    3. \( \frac{48}{7} \)

    El Modelo de Ensayos Multinomiales

    Supongamos que tenemos una secuencia de ensayos\( n \) independientes, y que cada ensayo da como resultado uno de tres resultados, denotados 0, 1 y 2. En cada ensayo, la probabilidad de resultado 1 es\( p \), la probabilidad de resultado 2 es\( q \), de manera que la probabilidad de resultado 0 es\( 1 - p - q \). Los parámetros\( p, \, q \in (0, 1) \) con\( p + q \lt 1 \), y por supuesto\( n \in \N_+ \). Vamos a\( X \) denotar el número de ensayos que resultaron en el resultado 1,\( Y \) el número de ensayos que resultaron en el resultado 2, de manera que ese\( n - X - Y \) es el número de ensayos que resultaron en el resultado 0. En el capítulo sobre Distribuciones, mostramos que las distribuciones conjuntas, marginales y condicionales de\( X \) y\( Y \) son todas multinacionales, solo cambian los parámetros. Aquí está el resultado relevante para esta sección:

    En la configuración anterior,

    1. \( \E(Y \mid X) = \frac{q}{1 - p}(n - X) \)
    2. \( \var(Y \mid X) = \frac{q (1 - p - q)}{(1 - p)^2}(n - X)\)
    3. \( \E\left([Y - \E(Y \mid X)]^2\right) = \frac{q (1 - p - q)}{1 - p} n \)
    Prueba

    Recordemos que\( (X, Y) \) tiene la distribución multinomial con parámetros\( n \),\( p \), y\( q \). Marginalmente,\( X \) tiene la distribución binomial con parámetros\( n \) y\( p \), y\( Y \) tiene la distribución binomial con parámetros\( n \) y\( q \). Dado\( X = x \in \{0, 1, \ldots, n\} \), los\( n - x \) ensayos restantes son independientes, pero con solo dos resultados: el resultado 2 ocurre con probabilidad\( q / (1 - p) \) y el resultado 0 ocurre con probabilidad\( 1 - q / (1 - p) \). (Estas son las probabilidades condicionales de los resultados 2 y 0, respectivamente, dado que el resultado 1 no ocurrió). De ahí que la distribución condicional de\( Y \) dado\( X = x \) es binomial con parámetros\( n - x \) y\( q / (1 - p) \). A continuación, las partes (a) y (b) siguen de las fórmulas estándar para la media y varianza de la distribución binomial, como funciones de los parámetros. La parte (c) es el error cuadrático medio y en este caso se puede calcular más fácilmente a partir de\[ \E[\var(Y \mid X)] = \frac{q (1 - p - q)}{(1 - p)^2} [n - \E(X)] = \frac{q (1 - p - q)}{(1 - p)^2} (n - n p) = \frac{q (1 - p - q)}{1 - p} n\]

    Obsérvese nuevamente que\( \E(Y \mid X) \) es una función lineal de\( X \) y por lo tanto\( \E(Y \mid X) = L(Y \mid X) \).

    Supongamos que un dado justo, de 12 lados se lanza 50 veces. Dejar\( X \) denotar el número de lanzamientos que resultaron en un número del 1 al 5, y\( Y \) el número de lanzamientos que resultaron en un número del 6 al 9. Encuentra cada uno de los siguientes:

    1. \( \E(Y \mid X) \)
    2. \( \var(Y \mid X) \)
    3. El valor predicho\( Y \) de\( X = 20 \)
    Contestar
    1. \( \E(Y \mid X) = \frac{4}{7}(50 - X) \)
    2. \( \var(Y \mid X) = \frac{12}{49}(50 - X) \)
    3. \( \frac{120}{7} \)

    La distribución de Poisson

    Recordemos que la distribución de Poisson, llamada así por Simeon Poisson, es ampliamente utilizada para modelar el número de puntos aleatorios en una región de tiempo o espacio, bajo ciertas condiciones ideales. La distribución de Poisson se estudia con más detalle en el capítulo sobre el Proceso de Poisson. La distribución de Poisson con parámetro\( r \in (0, \infty) \) tiene función de densidad de probabilidad\(f\) definida por\[ f(x) = e^{-r} \frac{r^x}{x!}, \quad x \in \N \] El parámetro\( r \) es la media y varianza de la distribución.

    Supongamos que\( X \) y\( Y \) son variables aleatorias independientes, y que\( X \) tiene la distribución de Poisson con parámetro\( a \in (0, \infty) \) y\( Y \) tiene la distribución de Poisson con parámetro\( b \in (0, \infty) \). Vamos\( N = X + Y \). Entonces

    1. \( \E(X \mid N) = \frac{a}{a + b}N\)
    2. \( \var(X \mid N) = \frac{a b}{(a + b)^2} N \)
    3. \( \E\left([X - \E(X \mid N)]^2\right) = \frac{a b}{a + b} \)
    Prueba

    Hemos demostrado antes que la distribución de\( N \) es también Poisson, con parámetro\( a + b \), y que la distribución condicional de\( X \) dado\( N = n \in \N \) es binomial con parámetros\( n \) y\( a / (a + b) \). De ahí que las partes (a) y (b) sigan de las fórmulas estándar para la media y varianza de la distribución binomial, como funciones de los parámetros. La parte (c) es el error cuadrático medio, y en este caso se puede calcular más fácilmente como\[ \E[\var(X \mid N)] = \frac{a b}{(a + b)^2} \E(N) = \frac{ab}{(a + b)^2} (a + b) = \frac{a b}{a + b} \]

    Una vez más,\( \E(X \mid N) \) es una función lineal de\( N \) y así\( \E(X \mid N) = L(X \mid N) \). Si invertimos los roles de las variables, el valor esperado condicional es trivial a partir de nuestras propiedades básicas:\[ \E(N \mid X) = \E(X + Y \mid X) = X + b \]

    Monedas y dados

    Se lanzan un par de dados justos, y se\((X_1, X_2)\) registran los puntajes. Dejar\(Y = X_1 + X_2\) denotar la suma de las puntuaciones y\(U = \min\left\{X_1, X_2\right\}\) la puntuación mínima. Encuentra cada uno de los siguientes:

    1. \(\E\left(Y \mid X_1\right)\)
    2. \(\E\left(U \mid X_1\right)\)
    3. \(\E\left(Y \mid U\right)\)
    4. \(\E\left(X_2 \mid X_1\right)\)
    Contestar
    1. \(\frac{7}{2} + X_1\)
    2. \(x\) 1 2 3 4 5 6
      \(\E(U \mid X_1 = x)\) 1 \(\frac{11}{6}\) \(\frac{5}{2}\) 3 \(\frac{10}{3}\) \(\frac{7}{2}\)
    3. \(u\) 1 2 3 4 5 6
      \(\E(Y \mid U = u)\) \(\frac{52}{11}\) \(\frac{56}{9}\) \(\frac{54}{7}\) \(\frac{46}{5}\) \(\frac{32}{3}\) 12
    4. \(\frac{7}{2}\)

    Una caja contiene 10 monedas, etiquetadas del 0 al 9. La probabilidad de cabezas para la moneda\(i\) es\(\frac{i}{9}\). Una moneda se elige al azar de la caja y se lanza. Encuentra la probabilidad de cabezas.

    Contestar

    \(\frac{1}{2}\)

    Este problema es un ejemplo de la regla de sucesión de Laplace, llamada así por Pierre Simon Laplace.

    Sumas aleatorias de variables aleatorias

    Supongamos que\(\bs{X} = (X_1, X_2, \ldots)\) es una secuencia de variables aleatorias independientes e idénticamente distribuidas de valor real. Denotaremos la media común, varianza, y función generadora de momento, respectivamente\(\mu = \E(X_i)\), por\(\sigma^2 = \var(X_i)\), y\(G(t) = \E\left(e^{t\,X_i}\right)\). Vamos\[ Y_n = \sum_{i=1}^n X_i, \quad n \in \N \] así que ese\((Y_0, Y_1, \ldots)\) es el proceso de suma parcial asociado con\(\bs{X}\). Supongamos ahora que\(N\) es una variable aleatoria tomando valores\(\N\), independiente de\(\bs{X}\). Entonces\[ Y_N = \sum_{i=1}^N X_i \] es una suma aleatoria de variables aleatorias; los términos en la suma son aleatorios, y el número de términos es aleatorio. Este tipo de variable ocurre en muchos contextos diferentes. Por ejemplo,\(N\) podría representar el número de clientes que ingresan a una tienda en un periodo de tiempo determinado, y\(X_i\) la cantidad gastada por el cliente\(i\), por lo que ese\( Y_N \) es el ingreso total de la tienda durante el periodo.

    El valor esperado condicional y ordinario de\(Y_N\) son

    1. \(\E\left(Y_N \mid N\right) = N \mu\)
    2. \(\E\left(Y_N\right) = \E(N) \mu\)
    Prueba
    1. Usando la regla de sustitución y la independencia de\( N \) y\[ \E\left(Y_N \mid N = n\right) = \E\left(Y_n \mid N = n\right) = \E(Y_n) = \sum_{i=1}^n \E(X_i) = n \mu \] así lo\( \bs{X} \) tenemos\(\E\left(Y_N \mid N\right) = N \mu\).
    2. De (a) y acondicionamiento,\( E\left(Y_N\right) = \E\left[\E\left(Y_N \mid N\right)\right] = \E(N \mu) = \E(N) \mu \).

    La ecuación de Wald, llamada así por Abraham Wald, es una generalización del resultado anterior al caso en el que no\(N\) es necesariamente independiente\(\bs{X}\), sino que es un tiempo de parada para\(\bs{X}\). En términos generales, esto quiere decir que el evento\( N = n \) depende únicamente\( (X_1, X_2, \ldots, X_n) \). La ecuación de Wald se discute en el capítulo sobre Muestras Aleatorias. Una prueba elegante y la ecuación de Wald se da en el capítulo sobre Martingales. La sección avanzada sobre tiempos de parada se encuentra en el capítulo sobre Medidas de probabilidad.

    La varianza condicional y ordinaria de\(Y_N\) son

    1. \(\var\left(Y_N \mid N\right) = N \sigma^2\)
    2. \(\var\left(Y_N\right) = \E(N) \sigma^2 + \var(N) \mu^2\)
    Prueba
    1. Usando la regla de sustitución, la independencia de\( N \) y\( \bs{X} \), y el hecho de que\( \bs{X} \) sea una secuencia IID,\[ \var\left(Y_N \mid N = n\right) = \var\left(Y_n \mid N = n\right) = \var\left(Y_n\right) = \sum_{i=1}^n \var(X_i) = n \sigma^2 \] así lo tenemos\( \var\left(Y_N \mid N\right) = N \sigma^2 \).
    2. De (a) y el resultado anterior,\[ \var\left(Y_N\right) = \E\left[\var\left(Y_N \mid N\right)\right] + \var\left[\E(Y_N \mid \N)\right] = \E(\sigma^2 N) + \var(\mu N) = \E(N) \sigma^2 + \mu^2 \var(N)\]

    Dejar\(H\) denotar la probabilidad que genera la función de\(N\). La función generadora de momento condicional y ordinario de\(Y_N\) son

    1. \(\E\left(e^{t Y_N} \mid N\right) = \left[G(t)\right]^N\)
    2. \(\E\left(e^{t N}\right) = H\left(G(t)\right)\)
    Prueba
    1. Usando la regla de sustitución, la independencia de\( N \) y\( \bs{X} \), y el hecho de que\( \bs{X} \) es una secuencia IID, tenemos\[ \E\left(e^{t Y_N} \mid N = n\right) = \E\left(e^{t Y_n} \mid N = n\right) = \E\left(e^{t Y_n}\right) = \left[G(t)\right]^n \] (Recordemos que el MGF de la suma de variables independientes es el producto de los MGF individuales.)
    2. De (a) y acondicionamiento,\( \E\left(e^{t N}\right) = \E\left[\E\left(e^{t N} \mid N\right)\right] = \E\left(G(t)^N\right) = H(G(t)) \).

    Así, la función generadora de momento de\( Y_N \) es\( H \circ G \), la composición de la función generadora de probabilidad de\( N \) con la función generadora de momento común de\( \bs{X} \), un resultado simple y elegante.

    En el experimento de troquelado, se enrolla un dado justo y luego se arroja una moneda justa el número de veces que se muestra en el dado. Dejar\(N\) denotar la puntuación del dado y\(Y\) el número de cabezas. Encuentra cada uno de los siguientes:

    1. La distribución condicional de\(Y\) dado\(N\).
    2. \(\E\left(Y \mid N\right)\)
    3. \(\var\left(Y \mid N\right)\)
    4. \(\E\left(Y_i\right)\)
    5. \(\var(Y)\)
    Contestar
    1. Binomial con parámetros\(N\) y\(p = \frac{1}{2}\)
    2. \(\frac{1}{2} N\)
    3. \(\frac{1}{4} N\)
    4. \(\frac{7}{4}\)
    5. \(\frac{7}{3}\)

    Ejecute el experimento de troquelado 1000 veces y compare la media empírica y la desviación estándar con la media de distribución y la desviación estándar.

    El número de clientes que ingresan a una tienda en una hora determinada es una variable aleatoria con media 20 y desviación estándar 3. Cada cliente, independientemente de los demás, gasta una cantidad aleatoria de dinero con media de $50 y desviación estándar de $5. Encuentra la media y desviación estándar de la cantidad de dinero gastado durante la hora.

    Contestar
    1. \($1000\)
    2. \($30.82\)

    Una moneda tiene una probabilidad aleatoria de cabezas\(V\) y se arroja un número aleatorio de veces\(N\). Supongamos que\(V\) se distribuye uniformemente en\([0, 1]\);\(N\) tiene la distribución de Poisson con parámetro\(a \gt 0\); y\(V\) y\(N\) son independientes. Vamos a\(Y\) denotar el número de cabezas. Compute lo siguiente:

    1. \(\E(Y \mid N, V)\)
    2. \(\E(Y \mid N)\)
    3. \(\E(Y \mid V)\)
    4. \(\E(Y)\)
    5. \(\var(Y \mid N, V)\)
    6. \(\var(Y)\)
    Contestar
    1. \(N V\)
    2. \(\frac{1}{2} N\)
    3. \(a V\)
    4. \(\frac{1}{2} a\)
    5. \(N V (1 - V)\)
    6. \(\frac{1}{12} a^2 + \frac{1}{2} a\)

    Mezclas de Distribuciones

    Supongamos que\(\bs{X} = (X_1, X_2, \ldots)\) es una secuencia de variables aleatorias de valor real. Denotar la media, varianza y función generadora de momento de\( X_i \) por\(\mu_i = \E(X_i)\)\(\sigma_i^2 = \var(X_i)\), y\(M_i(t) = \E\left(e^{t\,X_i}\right)\), para\(i \in \N_+\). Supongamos también que\(N\) es una variable aleatoria que toma valores en\(\N_+\), independiente de\(\bs{X}\). Denote la función de densidad de probabilidad de\(N\) por\(p_n = \P(N = n)\) para\(n \in \N_+\). La distribución de la variable aleatoria\(X_N\) es una mezcla de las distribuciones de\(\bs{X} = (X_1, X_2, \ldots)\), con la distribución de\(N\) como distribución de mezcla.

    El valor esperado condicional y ordinario de\( X_N \) son

    1. \(\E(X_N \mid N) = \mu_N\)
    2. \(\E(X_N) = \sum_{n=1}^\infty p_n\,\mu_n\)
    Prueba
    1. Usando la regla de sustitución y la independencia de\( N \) y\( \bs{X} \), tenemos\( \E(X_N \mid N = n) = \E(X_n \mid N = n) = \E(X_n) = \mu_n \)
    2. De (a) y la regla de condicionamiento,\[ \E\left(X_N\right) = \E\left[\E\left(X_N\right)\right] = \E\left(\mu_N\right) = \sum_{n=1}^\infty p_n \mu_n\]

    La varianza condicional y ordinaria de\( X_N \) son

    1. \(\var\left(X_N \mid N\right) = \sigma_N^2\)
    2. \(\var(X_N) = \sum_{n=1}^\infty p_n (\sigma_n^2 + \mu_n^2) - \left(\sum_{n=1}^\infty p_n\,\mu_n\right)^2\).
    Prueba
    1. Usando la regla de sustitución y la independencia de\( N \) y\(\bs{X}\), tenemos\( \var\left(X_N \mid N = n\right) = \var\left(X_n \mid N = n\right) = \var\left(X_n\right) = \sigma_n^2 \)
    2. De (a) tenemos\ begin {align}\ var\ left (X_N\ right) & =\ E\ left [\ var\ left (X_N\ mid N\ right)\ right] +\ var\ left [\ E\ left (X_N\ mid N\ right)\ right] =\ E\ left (\ Sigma_n^2\ right) +\ var\ left (\ mu_left (\ mu_n\ derecha) =\ E\ izquierda (\ Sigma_n^2\ derecha) +\ E\ izquierda (\ mu_n^2\ derecha) -\ izquierda [\ E\ izquierda (\ Mu_n\ derecha)\ derecha] ^2\\ & =\ sum_ {n=1} ^ \ infty p_n\ sigma_n^2 +\ suma_ {n=1} ^\ infty p_n\ mu_n^2 -\ izquierda (\ suma_ {n=1} ^\ infty p_n\ mu_n\ derecha) ^2\ end {align}

    La función generadora de momento condicional y ordinario de\( X_N \) son

    1. \( \E\left(e^{t X_N} \mid N\right) = M_N(t) \)
    2. \(\E\left(e^{tX_N}\right) = \sum_{i=1}^\infty p_i M_i(t)\).
    Prueba
    1. Usando la regla de sustitución y la independencia de\( N \) y\( \bs{X} \), tenemos\( \E\left(e^{t X_N} \mid N = n\right) = \E\left(e^{t X_n} \mid N = n\right) = \E\left(^{t X_n}\right) = M_n(t) \)
    2. De (a) y la regla de condicionamiento,\( \E\left(e^{t X_N}\right) = \E\left[\E\left(e^{t X_N} \mid N\right)\right] = \E\left[M_N(t)\right] = \sum_{n=1}^\infty p_n M_n(t)\)

    En el experimento de troqueles, una moneda sesgada es arrojada con probabilidad de cabezas\(\frac{1}{3}\). Si la moneda aterriza colas, se enrolla un dado justo; si la moneda aterriza cabezas, se enrolla un dado plano ace-seis (las caras 1 y 6 tienen probabilidad\(\frac{1}{4}\) cada una, y las caras 2, 3, 4, 5 tienen probabilidad\(\frac{1}{8}\) cada una). Encuentra la media y desviación estándar de la puntuación del dado.

    Contestar
    1. \(\frac{7}{2}\)
    2. \(1.8634\)

    Ejecutar el experimento de monedas 1000 veces y anotar la convergencia aparente de la media empírica y la desviación estándar a la media de distribución y desviación estándar.


    This page titled 4.7: Valor esperado condicional is shared under a CC BY 2.0 license and was authored, remixed, and/or curated by Kyle Siegrist (Random Services) via source content that was edited to the style and standards of the LibreTexts platform.