14.1: Expectativa condicional, Regresión

Última actualización
Guardar como PDF

Page ID: 151116

Paul Pfeiffer
Rice University

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

La expectativa condicional, dada un vector aleatorio, juega un papel fundamental en gran parte de la teoría de probabilidad moderna. Diversos tipos de “condicionamiento” caracterizan algunas de las secuencias y procesos aleatorios más importantes. La noción de independencia condicional se expresa en términos de expectativa condicional. La independencia condicional juega un papel esencial en la teoría de los procesos de Markov y en gran parte de la teoría de la decisión.

Primero consideramos una forma elemental de expectativa condicional con respecto a un evento. Entonces consideramos dos casos especiales altamente intuitivos de expectativa condicional, dados una variable aleatoria. Al examinarlos, identificamos una propiedad fundamental que sirve de base para una extensión muy general. Descubrimos que la expectativa condicional es una cantidad aleatoria. La propiedad básica para la expectativa condicional y las propiedades de expectativa ordinaria se utilizan para obtener cuatro propiedades fundamentales que implican el carácter “expectativo” de la expectativa condicional. Una extensión de la propiedad fundamental conduce directamente a la solución del problema de regresión que, a su vez, da una interpretación alternativa de la expectativa condicional.

Acondicionamiento por un evento

Si\(C\) ocurre un evento condicionamiento, modificamos las probabilidades originales introduciendo la medida de probabilidad condicional\(P(\cdot |C)\). Al hacer la forma de cambio

\(P(A)\)a\(P(A|C) = \dfrac{P(AC)}{P(C)}\)

efectivamente hacemos dos cosas:

Limitamos los posibles resultados al evento\(C\)
“Normalizamos” la masa probabilística tomando\(P(C)\) como nueva unidad

Parece razonable hacer una modificación correspondiente de la expectativa matemática cuando\(C\) se conoce la ocurrencia del evento. La expectativa\(E[X]\) es el promedio ponderado de probabilidad de los valores tomados por\(X\). Se sugieren dos posibilidades para realizar la modificación.

Podríamos reemplazar la medida de probabilidad previa por la medida\(P(\cdot)\) de probabilidad condicional\(P(\cdot|C)\) y tomar el promedio ponderado con respecto a estos nuevos pesos.
Podríamos continuar utilizando la medida de probabilidad previa\(P(\cdot)\) y modificar el proceso de promediación de la siguiente manera:
- Considera los valores solo\(P(\omega)\) para aquellos\(\omega \in C\). Esto se puede hacer usando la variable aleatoria\(I_C X\) que tiene valor\(X(\omega)\) para\(\omega \in C\) y cero en otra parte. La expectativa\(E[I_C X]\) es la suma ponderada de probabilidad de esos valores tomados en\(C\).
- El promedio ponderado se obtiene dividiendo por\(P(C)\).

Estos dos enfoques son equivalentes. Para una variable aleatoria simple\(X = sum_{k = 1}^{n} t_k I_{A_k}\) en forma canónica

\(E[I_C X]/P(C) = \sum_{k = 1}^{n} E[t_k I_C I_{A_k}] /P(C) = \sum_{k = 1}^{n} t_k P(CA_k) /P(C) = \sum_{k = 1}^{n} t_k P(A_k |C)\)

La suma final es expectativa con respecto a la medida de probabilidad condicional. Los argumentos que utilizan teoremas básicos sobre la expectativa y la aproximación de variables aleatorias generales por variables aleatorias simples permiten una extensión a una variable aleatoria general\(X\). La noción de distribución condicional, dada\(C\), y tomando promedios ponderados con respecto a la probabilidad condicional es intuitiva y natural en este caso. Sin embargo, este punto de vista es limitado. Para mostrar una relación natural con más el concepto general de condicionamiento con repspecto a un vector aleatorio, adoptamos lo siguiente

Definición

La expectativa condicional de\(X\), dado evento\(C\) con probabilidad positiva, es la cantidad

\(E[X|C] = \dfrac{E[I_C X]}{P(C)} = \dfrac{E[I_C X]}{E[I_C]}\)

OBLIGACIÓN. La forma del producto\(E[X|C] P(C) = E[I_C X]\) suele ser útil.

Ejemplo\(\PageIndex{1}\) A numerical example

Supongamos\(X\) ~ exponencial (\(\lambda\)) y\(C = \{1/\lambda \le X \le 2/\lambda\}\). Ahora\(I_C = I_M (X)\) donde\(M = [1/\lambda, 2/\lambda]\).

\(P(C) = P(X \ge 1/\lambda) - P(X > 2/\lambda) = e^{-1} e^{-2}\)y

\(E[I_C X] = \int I_M (t) t \lambda e^{-\lambda t}\ dt = \int_{1/\lambda}^{2/\lambda} t\lambda e^{-\lambda t}\ dt = \dfrac{1}{\lambda} (2e^{-1} - 3e^{-2})\)

Así

\(E[X|C] = \dfrac{2e^{-1} - 3e^{-2}}{\lambda (e^{-1} - e^{-2})} \approx \dfrac{1.418}{\lambda}\)

Acondicionamiento por un vector aleatorio: caso discreto

Supongamos\(X = \sum_{i = 1}^{n} t_i I_{A_i}\) y\(Y = \sum_{j = 1}^{m} u_j I_{B_j}\) en forma canónica. Suponemos\(P(A_i) = P(X = t_i) > 0\) y\(P(B_j) = P(Y = u_j) > 0\), para cada permisible\(i, j\). Ahora

\(P(Y = u_j |X = t_i) = \dfrac{P(X = t_i, Y = u_j)}{P(X = t_i)}\)

Tomamos la expectativa relativa a la probabilidad condicional\(P(\cdot |X = t_i)\) para obtener

\(E[g(Y) |X =t_i] = \sum_{j = 1}^{m} g(u_j) P(Y = u_j |X = t_i) = e(t_i)\)

Ya que tenemos un valor para cada uno\(t_i\) en el rango de\(X\), la función\(e(\cdot)\) se define en el rango de\(X\). Ahora considere cualquier conjunto razonable\(M\) en la línea real y determine la expectativa

\(E[I_M (X) g(Y)] = \sum_{i = 1}^{n} \sum_{j = 1}^{m} I_M (t_i) g(u_j) P(X = t_i, Y = u_j)\)

\( = \sum_{i = 1}^{n} I_M(t_i) [\sum_{j = 1}^{m} g(u_j) P(Y = u_j|X = t_i)] P(X = t_i)\)

\(= \sum_{i = 1}^{n} I_M (t_i) e(t_i) P(X = t_i) = E[I_M (X) e(X)]\)

Tenemos el patrón

\((A)\)\(E[I_M(X) g(Y)] = E[I_M(X) e(X)]\)donde\(e(t_i) = E[g(Y)|X = t_i]\)

para todos\(t_i\) en el rango de\(X\).

Volvemos a examinar esta propiedad más adelante. Pero primero, consideremos un ejemplo para mostrar la naturaleza del concepto.

Ejemplo\(\PageIndex{2}\) Basic calculations and interpretation

Supongamos que el par\(\{X, Y\}\) tiene la distribución conjunta

\(P(X = t_i, Y = u_j)\)

\(X =\)	0	1	4	9
\(Y = 2\)	0.05	0.04	0.21	0.15
0	0.05	0.01	0.09	0.10
-1	0.10	0.05	0.10	0.05
\(PX\)	0.20	0.10	0.40	0.30

Calcular\(E[Y|X = t_i]\) para cada valor posible\(t_i\) tomado por\(X\)

\(E[Y|X = 0] = -1 \dfrac{0.10}{0.20} + 0 \dfrac{0.05}{0.20} + 2 \dfrac{0.05}{0.20}\)
\(= (-1 \cdot 0.10 + 0 \cdot 0.05 + 2 \cdot 0.05)/0.20 = 0\)
\(E[Y|X = 1] = (-1 \cdot 0.05 + 0 \cdot 0.01 + 2 \cdot 0.04)/0.10 = 0.30\)
\(E[Y|X = 4] = (-1 \cdot 0.10 + 0 \cdot 0.09 + 2 \cdot 0.21)/0.40 = 0.80\)
\(E[Y|X = 9] = (-1 \cdot 0.05 + 0 \cdot 0.10 + 2 \cdot 0.15)/0.10 = 0.83\)

El patrón de operación en cada caso se puede describir de la siguiente manera:

Para la columna\(i\) th, multiplica cada valor\(u_j\) por\(P(X = t_i, Y = u_j)\), suma, luego divide por\(P(X = t_i)\).

La siguiente interpretación ayuda a visualizar la expectativa condicional y apunta a un resultado importante en el caso general.

Para cada uno\(t_i\) utilizamos la masa distribuida “por encima” de ella. Esta masa se distribuye a lo largo de una línea vertical en valores\(u_j\) tomados por\(Y\). El resultado del cálculo es determinar el centro de masa para la distribución condicional anterior\(t = t_i\). Al igual que en el caso de las expectativas ordinarias, ésta debería ser la mejor estimación, en el sentido cuadrático medio, de\(Y\) cuándo\(X = ti\). Examinamos esa posibilidad en el tratamiento del problema de regresión en la Sección: El problema de regresión.

Aunque los cálculos no son difíciles para un problema de este tamaño, el patrón básico se puede implementar simplemente con MATLAB, haciendo bastante fácil el manejo de problemas mucho mayores. Esto es particularmente útil para tratar la simple aproximación a un par absolutamente continuo.

X = [0 1 4 9];             % Data for the joint distribution
Y = [-1 0 2];
P = 0.01*[ 5  4 21 15; 5  1  9 10; 10  5 10  5];
jcalc                      % Setup for calculations
Enter JOINT PROBABILITIES (as on the plane)  P
Enter row matrix of VALUES of X  X
Enter row matrix of VALUES of Y  Y
 Use array operations on matrices X, Y, PX, PY, t, u, and P
EYX = sum(u.*P)./sum(P);   % sum(P) = PX  (operation sum yields column sums)
disp([X;EYX]')             % u.*P = u_j P(X = t_i, Y = u_j) for all i, j
         0         0
    1.0000    0.3000
    4.0000    0.8000
    9.0000    0.8333

Los cálculos se extienden a\(E[g(X, Y)|X = t_i]\). En lugar de valores de\(u_j\) usamos valores de\(g(t_i, u_j)\) en los cálculos. Supongamos\(Z = g(X, Y) = Y^2 - 2XY\).

G = u.^2 - 2*t.*u;         % Z = g(X,Y) = Y^2 - 2XY
EZX = sum(G.*P)./sum(P);   % E[Z|X=x]
disp([X;EZX]')
         0    1.5000
    1.0000    1.5000
    4.0000   -4.0500
    9.0000  -12.8333

Acondicionamiento por un vector aleatorio — caso absolutamente continuo

Supongamos que el par\(\{X, Y\}\) tiene función de densidad conjunta\(f_{XY}\). Buscamos utilizar el concepto de una distribución condicional, dado\(X = t\). El hecho de que\(P(X = t) = 0\) para cada uno\(t\) requiera una modificación del enfoque adoptado en el caso discreto. Intuitivamente, consideramos que la densidad condicional

\(f_{Y|X} (u|t) \ge 0\),\(\int f_{Y|X} (u|t)\ du = \dfrac{1}{f_X (t)} \int f_{XY} (t, u)\ du = f_X (t)/f_X (t) = 1\)

Definimos, en este caso,

\(E[g(Y)|X = t] = \int g(u) f_{Y|X} (u|t)\ du = e(t)\)

La función\(e(\cdot)\) se define para\(f_X (t) > 0\), por lo tanto, efectivamente en el rango de\(X\). Para cualquier conjunto razonable\(M\) en la línea real,

\(E[I_M (X) g(Y)] = \int \int I_M (t) g(u) f_{XY} (t, u)\ dudt = \int I_M (t) [\int g(u) f_{Y|X} (u|t) \ du] f_X (u) \ dt\)

\(= \int I_M (t) e(t) f_X (t) \ dt\), donde\(e(t) = E[g(Y)| X = t]\)

Así tenemos, como en el caso discreto, para cada uno\(t\) en el rango de\(X\).

(\(A\))\(E[I_M(X) g(Y)] = E[I_M(X) e(X)]\) donde\(e(t) = E[g(Y)|X = t]\)

Nuevamente, posponemos el examen de este patrón hasta que consideremos un caso más general.

Ejemplo\(\PageIndex{3}\) Basic calculation and interpretation

Supongamos que el par\(\{X, Y\}\) tiene densidad de articulación\(f_{XY} (t, u) = \dfrac{6}{5} (t + 2u)\) en la región triangular delimitada por\(t = 0\)\(u = 1\),, y\(u = t\) (ver Figura 14.1.1). Entonces

\(f_X (t) = \dfrac{6}{5} \int_{t}^{1} (t + 2u)\ du = \dfrac{6}{5} (1 + t - 2t^2)\),\(0 \le t \le 1\)

Por definición, entonces,

\(f_{Y|X} (u|t) = \dfrac{t+2u}{1+t- 2t^2}\)en el triángulo (cero en otra parte)

Por lo tanto, tenemos

\(E[Y|X = t] = \int u f_{Y|X} (u|t)\ du = \dfrac{1}{1 + t - 2t^2} \int_{t}^{1} (tu + 2u^2)\ du = \dfrac{4 + 3t - 7t^3}{6(1 + t - 2t^2)}\)\((0 \le t < 1)\)

Teóricamente, debemos descartar\(t = 1\) ya que el denominador es cero para ese valor de\(t\). Esto no causa ningún problema en la práctica.

Figura 14.1.1. La función de densidad para el Ejemplo 14.1.3

Somos capaces de hacer una interpretación bastante análoga a la del caso discreto. Esto también señala el camino a cálculos prácticos de MATLAB.

Para cualquiera\(t\) en el rango de\(X\) (entre 0 y 1 en este caso), considere una estrecha franja vertical de ancho\(\Delta t\) con la línea vertical a través\(t\) en su centro. Si la tira es lo suficientemente estrecha, entonces\(f_{XY} (t, u)\) no varía apreciablemente con\(t\) para ninguna\(u\).
La masa en la tira es aproximadamente

\(\text{Mass} \approx \Delta t \int f_{XY} (t, u) \ du = \Delta t f_X (t)\)

El momento de la masa en la franja alrededor de la línea\(u = 0\) es aproximadamente

\(\text{Momemt} \approx \Delta t \int u f_{XY} (t, u)\ du\)

El centro de masa en la tira es

\(\text{Center of mass} = \dfrac{\text{Moment}}{\text{Mass}} \approx \dfrac{\Delta \int u f_{XY} (t, u) \ du}{\Delta t f_X (t)} = \int u f_{Y|X} (u|t)\ du = e(t)\)

Esta interpretación señala el camino hacia el uso de MATLAB para aproximar la expectativa condicional. El éxito del enfoque discreto en la aproximación del valor teórico por turnos apoya la validez de la interpretación. También, esto apunta al resultado general sobre regresión en el apartado, “El problema de la regresión”.

En el manejo MATLAB de variables aleatorias conjuntas absolutamente continuas, dividimos la región en franjas verticales estrechas. Entonces nos ocupamos de cada uno de estos dividiendo las franjas verticales para formar la estructura de la rejilla. El centro de masa de la distribución discreta sobre una de las t elegidas para la aproximación debe estar cerca del centro de masa real de la probabilidad en la tira. Considere el tratamiento MATLAB del ejemplo bajo consideración.

f = '(6/5)*(t + 2*u).*(u>=t)';                  % Density as string variable
tuappr
Enter matrix [a b] of X-range endpoints  [0 1]
Enter matrix [c d] of Y-range endpoints  [0 1]
Enter number of X approximation points  200
Enter number of Y approximation points  200
Enter expression for joint density  eval(f)     % Evaluation of string variable
Use array operations on X, Y, PX, PY, t, u, and P
EYx = sum(u.*P)./sum(P);                        % Approximate values
eYx = (4 + 3*X - 7*X.^3)./(6*(1 + X - 2*X.^2)); % Theoretical expression
plot(X,EYx,X,eYx)
% Plotting details             (see Figure 14.1.2)

— □

Figura 14.1.2. Expectativa condicional teórica y aproximada para arriba.

El acuerdo de los valores teóricos y aproximados es bastante bueno para fines prácticos. También indica que la interpretación es razonable, ya que la aproximación determina el centro de masa de la masa discretizada que se aproxima al centro de la masa real en cada franja vertical.

Extensión al caso general

La mayoría de los ejemplos para los que hacemos cálculos numéricos serán uno de los tipos anteriores. El análisis de estos casos se construye sobre la noción intuitiva de distribuciones condicionales. Sin embargo, estos casos y esta interpretación son bastante limitados y no proporcionan la base para el rango de aplicaciones —teóricas y prácticas— que caracterizan a la teoría moderna de la probabilidad. Buscamos una base para la extensión (que incluye los casos especiales). En cada caso examinado anteriormente, tenemos la propiedad

\((A)\)\(E[I_M (X) g(Y)] = E[I_M (X) e(X)]\)donde\(e(t) = E[g(Y) | X = t]\)

para todos\(t\) en el rango de\(X\).

Tenemos un vínculo con el simple caso de condicionamiento con respecto a un evento. Si\(C = \{X \in M\}\) tiene probabilidad positiva, entonces usando\(I_C = I_M (X)\) tenemos

\((B)\)\(E[I_M(X) g(Y)] = E[g(Y)|X \in M] P(X \in M)\)

wo propiedades de expectativa son cruciales aquí:

Por la propiedad de unicidad (E5), ya que (A) se mantiene para todos los conjuntos razonables (Borel), entonces\(e(X)\) es a.s único (es decir, excepto para un conjunto\(\omega\) de probabilidad cero).
Por el caso especial del teorema de Radón Nikodym (E19), la función\(e(\cdot)\) siempre existe y es tal que la variable aleatoria\(e(X)\) es única a.s.

Hacemos una definición basada en estos hechos.

Definición

La expectativa condicional\(E[g(Y)| Y =t] = e(t)\) es la función única a.s. definida en el rango de\(X\) tal que

\((A)\)\(E[I_M (X) g(Y)] = E[I_M(X) e(X)]\)para todos los juegos de Borel\(M\)

Tenga en cuenta que\(e(X)\) es una variable aleatoria y\(e(\cdot)\) es una función. La expectativa\(E[g(Y)]\) es siempre una constante. El concepto es abstracto. En este punto tiene poca significación aparente, salvo que debe incluir los dos casos especiales estudiados en los apartados anteriores. Además, no está claro por qué se debe utilizar el término expectativa condicional. La justificación descansa en ciertas propiedades formales que se basan en la condición definitoria (A) y otras propiedades de expectativa.

En el Apéndice F tabulamos una serie de propiedades clave de expectativa condicional. La condición (A) se llama propiedad (CE1). Examinamos varias de estas propiedades. Para un tratamiento detallado y pruebas, se puede consultar cualquiera de una serie de libros sobre probabilidad teórica de medidas.

(CE1) Definición de condición. \(e(X) = E[g(Y)|X]\)a.s. iff

\(E[I_M (X) g(Y)] = E[I_M (X) e(X)]\)por cada conjunto de Borel\(M\) en el codominio de\(X\)

Tenga en cuenta que\(X\) y\(Y\) no es necesario que se valore real, aunque\(g(Y)\) es real valorado. Esta extensión a posible vector valorado\(X\) y\(Y\) es sumamente importante. La siguiente condición es solo la propiedad (B) señalada anteriormente.

(CE1a) Si\(P(X \in M) > 0\), entonces\(E[I_M(X) e(X)] = E[g(Y)|X \in M] P(X \in M)\)

El caso especial que se obtiene\(M\) fijando incluir toda la gama de\(X\) manera que\(I_M (X(\omega)) = 1\) para todos\(\omega\) es útil en muchos problemas teóricos y aplicados.

(CE1b) Ley de probabilidad total. \(E[g(Y)] = E\{E[g(Y)|X]\}\)

Puede parecer extraño que se complique el problema de determinar\(E[g(Y)]\) obteniendo primero la expectativa condicional y\(e(X) = E[g(Y)|X]\) luego tomando expectativa de esa función. Frecuentemente, los datos suministrados en un problema hacen de este el procedimiento conveniente.

Ejercicio\(\PageIndex{4}\) Use of the law of total probability

Supongamos que el tiempo hasta el fallo de un dispositivo es una cantidad aleatoria\(X\) ~ exponencial (\(\mu\)), donde el parámetro\(u\) es el valor de una variable aleatoria de parámetro\(H\). Así

\(f_{X|H} (t|u) = u e^{-ut}\)para\(t \ge 0\)

Si el parámetro aleatorio variable\(H\) ~ uniforme\((a, b)\), determinar la vida esperada\(E[X]\) del dispositivo.

Solución

Utilizamos la ley de probabilidad total:

\(E[X] = E\{E[X|H]\} = \int E[X|H = u] f_H (u)\ du\)

Ahora por suposición

\(E[X|H = u] = 1/u\)y\(f_H (u) = \dfrac{1}{b - a}\),\(a < u < b\)

Así

\(E[X] = \dfrac{1}{b -a} \int_{a}^{b} \dfrac{1}{u} du = \dfrac{\text{ln} (b/a)}{b - a}\)

Para\(a =1/100\),\(b = 2/100\),\(E[X] = 100 \text{ln} (2) \approx 69.31\).

Las siguientes tres propiedades, linealidad, positividad/monotonicidad y convergencia monótona, junto con la condición definitoria proporcionan el carácter de “expectativa como”. Estas propiedades para la expectativa producen la mayoría de las otras propiedades esenciales para la expectativa. Un desarrollo similar se sostiene para la expectativa condicional, con alguna reserva por el hecho de que\(e(X)\) es una variable aleatoria, a.s única, esta restricción causa poco problema para las aplicaciones a nivel de este tratamiento.

Para tener alguna idea de cómo estas propiedades se arraigan en las propiedades básicas de expectativa, examinamos una de ellas.

(CE2) Linealidad. Para cualquier constante\(a, b\)

\(E[ag(Y) + bh(Z) |X] = aE[g(Y)|X] + bE[h(Z)|X]\)a.s.

VERIFICACIÓN

Dejar\(e_1 (X) = E[g(Y)|X]\),\(e_2 [X] = E[h(Z)|X]\), y\(e(X) = E[ag(Y) + bh (Z) |X]\) a.s.

\(\begin{array} {lcrlc} {E[I_M (X) e(X)]} & = & {E\{I_M(X)[ag(Y) + bh(Z)]\} \text{ a.s.}} & & {\text{by(CE1)}} \\ {} & = & {aE[I_M (X)g(Y)] + bE[I_M(X) h(Z)] \text{ a.s.}} & & {\text{by linearity of expectation}} \\ {} & = & {aE[I_M (X)e_1(X)] + bE[I_M(X) e_2(X)] \text{ a.s.}} & & {\text{by (CE1)}} \\ {} & = & {E\{I_M(X) [ae_1 (X) + be_2 (X)]\} \text{ a.s.}} & & {\text{by linearity of expectation}}\end{array}\)

Dado que las igualdades se mantienen para cualquier Borel\(M\), la propiedad de singularidad (E5) por expectativa implica

\(e(X)= ae_1 (X) = be_2 (X)\)a.s.

Esta es propiedad (CE2). Una extensión a cualquier combinación lineal finita se establece fácilmente por inducción matemática.

— □

La propiedad (CE5) proporciona otra condición para la independencia.

(CE5) Independencia. \(\{X, Y\}\)es un par independiente

iff\(E[g(Y)|X] = E[g(Y)]\) a.s. para todas las funciones de Borel\(g\)
iff\(E[I_N(Y)|X] = E[I_N (Y)]\) a.s. para todos los conjuntos de Borel\(N\) en el codominio de\(Y\)

Dado que el conocimiento de no\(X\) afecta la probabilidad que\(Y\) asumirá algún conjunto de valores, entonces la expectativa condicional no debe verse afectada por el valor de\(X\). El valor constante resultante de la expectativa condicional debe ser\(E[g(Y)]\) para que se mantenga la ley de probabilidad total. Una prueba formal utiliza la singularidad (E5) y la regla del producto (E18) para la expectativa.

La propiedad (CE6) forma la base para la solución del problema de regresson en la siguiente sección.

(CE6)\(e(X) = E[g(Y)|X]\) a.s. iff\(E[h(X) g(Y)] = E[h(X)e(X)]\) a.s. para cualquier función Borel\(h\)

El examen demuestra que esto es el resultado de sustituir\(I_M (X)\) en (CE1) por arbitrario\(h(X)\). Nuevamente, Una vez más, para obtener una idea de cómo surgen las diversas propiedades, esbozamos las ideas de una prueba de (CE6).

IDEAS DE UNA PRUEBA DE (CE6)

Para\(h(X) = I_M(X)\), esto es (CE1).

Para\(h(X) = \sum_{i = 1}^{n} a_i I_{M_i} (X)\), el resultado sigue por linealidad.

Porque\(h \ge 0\),\(g \ge 0\), hay una seqencia de no negativo, simple\(h_n nearrow h\). Ahora por positividad,\(e(X) \ge 0\). Por convergencia monótona (CE4),

\(E[h_n (X) g(Y)] \nearrow E[h(X) g(Y)]\)y\(E[h_n(X) e(X)] \nearrow E[h(X) e(X)]\)

Dado que los términos correspondientes en las secuencias son iguales, los límites son iguales.
Para\(h = h^{+} - h^{-}\),\(g \ge 0\), el resultado sigue por linealidad (CE2).
Pues\(g = g^{+} - g^{-}\), el resultado vuelve a seguir por linealidad.

— □

Las propiedades (CE8) y (CE9) son peculiares a la expectativa condicional. Desempeñan un papel esencial en muchos desarrollos teóricos. Son esenciales en el estudio de las secuencias de Markov y de una clase de secuencias aleatorias conocidas como submartingales. Los enumeramos aquí (así como en el Apéndice F) para referencia.

(CE8)\(E[h(X) g(Y)|X] = h(X) E[g(Y)|X]\) a.s. para cualquier función Borel\(h\)

Esta propiedad dice que cualquier función del vector aleatorio de acondicionamiento puede tratarse como un factor constante. Esto combinado con (CE10) a continuación proporcionan ayudas útiles para el cálculo.

(CE9) Acondicionamiento repetido

Si\(X = h(W)\), entonces\(E\{E[g(Y)|X|W\} = E\{E[g(Y)|W|X\} = E[g(Y)|X]\) a.s.

Esta propiedad un tanto formal es muy útil en muchos desarrollos teóricos. Brindamos una interpretación después del desarrollo de la teoría de regresión en la siguiente sección.

La siguiente propiedad es altamente intuitiva y muy útil. Es fácil de establecer en los dos casos elementales desarrollados en secciones anteriores. Su prueba en el caso general es bastante sofisticada.

(CE10) En condiciones\(g\) que casi siempre se cumplen en la práctica

\(E[g(X, Y)|X = t] = E[g(t, Y)|X = t]\)a.s.\([P_X]\)
Si\(\{X, Y\}\) es independiente, entonces\(E[g(X, Y) |X = t] = E[g(t, Y)]\) a.s.\([P_X]\)

Ciertamente parece razonable suponer que si\(X = t\), entonces deberíamos ser capaces de sustituir\(X\) por\(t\) adentro\(E[g(X, Y)| X =t]\) para conseguir\(E[g(t, Y)|X =t]\). Propiedad (CE10) lo asegura. Si\(\{X, Y\}\) es un par independiente, entonces el valor de no\(X\) debería afectar el valor de\(Y\), por lo que\(E[g(t, Y)|X = t] = E[g(t, Y)]\) a.s.

Ejemplo\(\PageIndex{5}\) Use of property (CE10)

Consideremos nuevamente la distribución para el Ejemplo 14.1.3. El par\(\{X, Y\}\) tiene densidad

\(f_{XY} (t, u) = \dfrac{6}{5} (t + 2u)\)en la región triangular delimitada por\(t = 0\),\(u = 1\), y\(u = t\)

Mostramos en el Ejemplo 14.1.3 que

\(E[Y|X = t] = \dfrac{4 + 3t - 7 t^3}{6(1 + t - 2t^2)}\)\(0 \le t < 1\)

Vamos\(Z = 3X^2 + 2XY\). Determinar\(E[Z|X = t]\).

Solución

Por linealidad, (CE8) y (CE10)

\(E[Z|X = t] = 3t^2 + 2tE[Y|X =t] = 3t^2 + \dfrac{4t + 3t^2 - 7t^4}{3(1 + t - 2t^2)}\)

Probabilidad condicional

En el tratamiento de la expectativa matemática, observamos que la probabilidad puede expresarse como una expectativa

\(P(E) = E[I_E]\)

Para probabilidad condicional, dado un evento, tenemos

\(E[I_E|C] = \dfrac{E[I_E I_C]}{P(C)} = \dfrac{P(EC)}{P(C)} = P(E|C)\)

De esta manera, ampliamos el concepto expectativa condicional.

Definición

La probabilidad condicional de evento\(E\), dada\(X\), es

\(P(E|X) = E[I_E|X]\)

Por lo tanto, no hay necesidad de una teoría separada de la probabilidad condicional. Podemos definir la función de distribución condicional

\(F_{Y|X} (u|X) = P(Y \le u|X) = E[I_{(-\infty, u]} (Y)|X]\)

Entonces, por la ley de probabilidad total (CE1b),

\(F_Y (u) = E[F_{Y|X} (u|X)] = \int F_{Y|X} (u|t) F_X (dt)\)

Si hay una densidad condicional\(f_{Y|X}\) tal que

\(P(Y \in M|X = t) = \int_M f_{Y|X} (r|t)\ dr\)

entonces

\(F_{Y|X} (u|t) = \int_{-\infty}^{u} f_{Y|X} (r|t)\ dr\)para que\(f_{Y|X} (u|t) = \dfrac{\partial}{\partial u} F_{Y|X} (u|t)\)

Un tratamiento cuidadoso, teórica de medidas muestra que puede no ser cierto que\(F_{Y|X} (\cdot |t)\) sea una función de distribución para todos\(t\) en el rango de\(X\). Sin embargo, en aplicaciones, esto rara vez es un problema. Los supuestos de modelado a menudo comienzan con dicha familia de funciones de distribución o funciones de densidad.

Ejemplo\(\PageIndex{6}\) The conditional distribution function

Al igual que en el Ejemplo 14.1.4, supongamos\(X\) ~ exponencial\((u)\), donde el parámetro\(u\) es el valor de una variable aleatoria de parámetro\(H\). Si el parámetro variable aleatoria\(H\) ~ uniforme\((a, b)\), determine la función de distribución\(F_X\).

Solución

Al igual que en el Ejemplo 14.1.4, tomar la suposición sobre la distribución condicional para significar

\(f_{X|H} (t|u) = ue^{-ut}\)\(t \ge 0\)

Entonces

\(F_{X|H} (t|u) = \int_{0}^{1} u e^{-us}\ ds = 1 - e^{-ut}\)\(0 \le t\)

Por la ley de probabilidad total

\(F_X (t) = \int F_{X|H} (t|u) f_H (u) \ du = \dfrac{1}{b - a} \int_{a}^{b} (1 - e^{-ut}) \ du = 1 - \dfrac{1}{b - a} \int_{a}^{b} e^{-ut} \ du\)

\( = 1 - \dfrac{1}{t(b - a)} [e^{-bt} - e^{-at}]\)

Diferenciación con respecto a\(t\) rinde la expresión para\(f_X (t)\)

\(f_X (t) = \dfrac{1}{b - a} [(\dfrac{1}{t^2} + \dfrac{b}{t}) e^{-bt} - (\dfrac{1}{t^2} + \dfrac{a}{t}) e^{-at}]\)\(t > 0\)

El siguiente ejemplo utiliza una distribución condicional discreta y una distribución marginal para obtener la distribución conjunta para el par.

Ejemplo\(\PageIndex{7}\) A random number \(N\) of Bernoulli trials

Un número\(N\) es elegido por una selección aleatoria de los números enteros del 1 al 20 (digamos, sacando una carta de una caja). Un par de dados se lanzan\(N\) veces. Dejar\(S\) ser el número de “coincidencias” (es decir, ambas, ambas dos, etc.). Determinar la distribución conjunta para\([N, S]\).

Solución

\(N\)~ uniforme en los enteros del 1 al 20. \(P(N = i) = 1/20\)para\(1 \le i \le 20\). Dado que hay 36 pares de números para los dos dados y seis posibles partidos, la probabilidad de un partido en cualquier tiro es de 1/6. Dado que los\(i\) lanzamientos de los dados constituyen una secuencia de Bernoulli con probabilidad 1/6 de un éxito (un partido), tenemos\(S\) condicionalmente binomio (\(i\), 1/6), dado\(N = i\). Para cualquier par\((i, j)\),\(0 \le j \le i\),

\(P(N = i, S = j) = P(S = j|N = i) P(N = i)\)

Ahora\(E[S|N = i) = i/6\), para que

\(E[S] = \dfrac{1}{6} \cdot \dfrac{1}{20} \sum_{i = 1}^{20} i = \dfrac{20 \cdot 21}{6 \cdot 20 \cdot 2} = \dfrac{7}{4} = 1.75\)

El siguiente procedimiento de MATLAB calcula las probabilidades de articulación y las organiza “como en el plano”.

% file randbern.m
p  = input('Enter the probability of success  ');
N  = input('Enter VALUES of N  ');
PN = input('Enter PROBABILITIES for N  ');
n  = length(N);
m  = max(N);
S  = 0:m;
P  = zeros(n,m+1);
for i = 1:n
  P(i,1:N(i)+1) = PN(i)*ibinom(N(i),p,0:N(i));
end
PS = sum(P);
P  = rot90(P);
disp('Joint distribution N, S, P, and marginal PS')
randbern                           % Call for the procedure
Enter the probability of success  1/6
Enter VALUES of N  1:20
Enter PROBABILITIES for N  0.05*ones(1,20)
Joint distribution N, S, P, and marginal PS
ES = S*PS'
ES =  1.7500                          % Agrees with the theoretical value

El problema de regresión

Introducimos el problema de regresión en el tratamiento de la regresión lineal. Aquí nos preocupa una regresión más general. Un par\(\{X, Y\}\) de variables aleatorias reales tiene una distribución conjunta. Se observa\(X(\omega)\) un valor. Deseamos una regla para obtener la “mejor” estimación del valor correspondiente\(Y(\omega)\). Si\(Y(\omega)\) es el valor real y\(r(X(\omega))\) es la estimación, entonces\(Y(\omega) - r(X(\omega))\) es el error de estimación. La mejor regla de estimación (función)\(r(\cdot)\) se toma como aquella para la que el cuadrado promedio del error es mínimo. Es decir, buscamos una función\(r\) tal que

\(E[(Y - r(X))^2]\)es un mínimo

En el tratamiento de la regresión lineal, determinamos la mejor función afín,\(u = at + b\). La función óptima de esta forma define la línea de regresión de\(Y\) on\(X\). Pasamos ahora al problema de encontrar la mejor función\(r\), que en algunos casos puede ser una función afín, pero más a menudo no lo es.

Tenemos algunos indicios de posibilidades. En el tratamiento de la expectativa, encontramos que la mejor constante para aproximar una variable aleatoria en el sentido cuadrático medio es el valor medio, que es el centro de masa para la distribución. En el Ejemplo interpretativo 14.2.1 para el caso discreto, encontramos que la expectativa condicional\(E[Y|X = t_i]\) es el centro de masa para la distribución condicional at\(X = t_i\). Un resultado similar, considerando tiras verticales delgadas, se encuentra en el Ejemplo 14.1.3 para el caso absolutamente continuo. Esto sugiere la posibilidad de que\(e(t) = E[Y|X = t]\) pueda ser la mejor estimación para\(Y\) cuando\(X(\omega) = t\) se observe el valor. Investigamos esta posibilidad. El inmueble (CE6) demuestra ser clave para obtener el resultado.

Vamos\(e(X) = E[Y|X]\). Podemos escribir (CE6) en el formulario\(E[h(X) (Y - e(X))] = 0\) para cualquier función razonable\(h\). Considerar

\(E[(Y - r(X))^2] = E[(Y - e(X) + e(X) - r(X))^2]\)

\(= E[(Y - e(X))^2] + E[(e(X) - r(X))^2] + 2E[(Y - e(X))(r(X) - e(X))]\)

Ahora\(e(X)\) es fijo (a.s.) y para cualquier elección de\(r\) podemos tomar\(h(X) = r(X) - e(X)\) para afirmar que

\(E[Y - e(X)) (r(X) - e(X))] = E[(Y - e(X)) h(X)] = 0\)

Así

\(E[(Y - r(X))^2] = E[(Y - e(X))^2] + E[(e(X) - r(X))^2]\)

El primer término del lado derecho es fijo; el segundo término es no negativo, con un mínimo a cero iff\(r(X) = e(X)\) a.s. Así,\(r = e\) es la mejor regla. Para un valor dado\(X(\omega) = t\) el mejor esitmate cuadrado medio de\(Y\) es

\(u = e(t) = E[Y|X = t]\)

La gráfica de\(u = e(t)\) vs\(t\) se conoce como la curva de regresión de Y sobre X. Esto se define para argumento\(t\) en el rango de\(X\), y es único excepto posiblemente en un conjunto\(N\) tal que\(P(X \in N) = 0\). La determinación de la curva de regresión es así la determinación de la expectativa condicional.

Ejemplo\(\PageIndex{8}\) Regression curve for an independent pair

Si el par\(\{X, Y\}\) es independiente, entonces\(u = E[Y|X = t] = E[Y]\), de manera que la curva de regresión de\(Y\) on\(X\) es la línea horizontal a través\(u = E[Y]\). Esto, por supuesto, concuerda con la línea de regresión, ya que\(\text{Cov} [X, Y] = 0\) y la línea de regresión es\(u = 0 = E[Y]\).

El resultado se extiende a las funciones de\(X\) y\(Y\). Supongamos\(Z = g(X, Y)\). Entonces el par\(\{X, Z\}\) tiene una distribución conjunta, y la mejor estimación cuadrática media de\(Z\) dada\(X = t\) es\(E[Z|X = t]\).

Ejemplo\(\PageIndex{9}\) Estimate of a function of \(\{X, Y\}\)

Supongamos que el par\(\{X, Y\}\) tiene densidad de juntas\(f_{XY} (t, u) = 60t^2 u\) para\(0 \le t \le 1\),\(0 \le u \le 1 - t\). Esta es la región triangular delimitada por\(t = 0\),\(u = 0\), y\(u = 1 - t\) (ver Figura 14.1.3). La integración demuestra que

\(f_X (t) = 30t^2 (1 - t)^2\),\(0 \le t \le 1\) y\(f_{Y|X} (u|t) = \dfrac{2u}{(1 - t)^2}\) en el triángulo

Considerar

\(Z = \begin{cases} X^2 & \text{for } X \le 1/2 \\ 2Y & \text{for } X > 1/2 \end{cases} = I_M(X) X^2 + I_N (X) 2Y\)

donde\(M =\) [0, 1/2] y\(N\) = (1/2, 1]. Determinar\(E[Z|X = t]\).

Figura 14.1.3. La función de densidad para el Ejemplo 14.1.9.

Solución Por linealidad y (CE8).

\(E[Z|X = t] = E[I_M (X) X^2||X = t] + E[I_N (X) 2Y||X = t] = I_M (t) t^2 + I_N (t) 2E[Y|X = t]\)

Ahora

\(E[Y|X = t] = \int u f_{Y|X} (u|t) \ du = \dfrac{1}{(1 - t)^2} \int_{0}^{1 - t} 2u^2\ du = \dfrac{2}{3} \cdot \dfrac{(1 - t)^3}{(1 - t)^2} = \dfrac{2}{3} (1 - t)\),\(0 \le t < 1\)

para que

\(E[Z|X = t] = I_M (t) t^2 + I_N (t) \dfrac{4}{3} (1 - t)\)

Tenga en cuenta que las funciones del indicador separan las dos expresiones. El primero se mantiene en el intervalo\(M =\) [0, 1/2] y el segundo se mantiene en el intervalo\(N =\) (1/2, 1]. No se\(t^2\0 and (4/3)\((1 - t)\) deben agregar las dos expresiones, ya que esto daría una expresión incorrecta para todos t en el rango de\(X\).

APROXIMACIÓN

tuappr
Enter matrix [a b] of X-range endpoints  [0 1]
Enter matrix [c d] of Y-range endpoints  [0 1]
Enter number of X approximation points  100
Enter number of Y approximation points  100
Enter expression for joint density  60*t.^2.*u.*(u<=1-t)
Use array operations on X, Y, PX, PY, t, u, and P
G = (t<=0.5).*t.^2 + 2*(t>0.5).*u;
EZx = sum(G.*P)./sum(P);                       % Approximation
eZx = (X<=0.5).*X.^2 + (4/3)*(X>0.5).*(1-X);   % Theoretical
plot(X,EZx,'k-',X,eZx,'k-.')
% Plotting details                             % See Figure 14.1.4

El ajuste es bastante suficiente para fines prácticos, a pesar del número moderado de puntos de aproximación. La diferencia en las expresiones para los dos intervalos de\(X\) valores es bastante clara.

Figura 14.1.4. Curvas de regresión teóricas y aproximadas para el Ejemplo 14.1.9

Ejemplo\(\PageIndex{10}\) Estimate of a function of \(\{X, Y\}\)

Supongamos que el par\(\{X, Y\}\) tiene densidad de junta\(f_{XY} (t, u) = \dfrac{6}{5} (t^2 + u)\), en el cuadrado unitario\(0 \le t \le 1\),\(0 \le u \le 1\) (ver Figura 14.1.5). La integración habitual muestra

\(f_X (t) = \dfrac{3}{5} (2t^2 + 1)\),\(0 \le t \le 1\), y\(f_{Y|X} (u|t) = 2 \dfrac{t^2 + u}{2t^2 +1}\) en la plaza

Considerar

\(Z = \begin{cases} 2X^2 & \text{for } X \le Y \\ 3XY & \text{for } X > Y \end{cases} I_Q (X, Y) 2X^2 + I_{Q^c} (X, Y) 3XY\), donde\(Q = \{(t, u): u \ge t\}\)

Determinar\(E[Z|X = t]\).

Solución

\(E[Z|X = t] = 2t^2 \int I_Q (t, u) f_{Y|X} (u|t) + 3t\int I_{Q^c} (t, u) u f_{Y|X} (u|t)\ du\)

\(= \dfrac{4t^2}{2t^2+1} \int_{t}^{1} (t^2 + u)\ du + \dfrac{6t}{2t^2 + 1} \int_{0}^{t} (t^2u + u^2)\ du = \dfrac{-t^5 + 4t^4 + 2t^2}{2t^2 + 1}\),\(0 \le t \le 1\)

Figura 14.1.5. La densidad y regiones para el Ejemplo 14.1.10

Observe el papel diferente de las funciones del indicador que en el Ejemplo 14.1.9. Ahí proporcionan una separación de dos partes del resultado. Aquí sirven para establecer los límites efectivos de la integración, pero se necesita la suma de las dos partes para cada una\(t\).

Figura 14.1.6. Curvas de regresión teóricas y aproximadas para el Ejemplo 14.1.10

APROXIMACIÓN

tuappr
Enter matrix [a b] of X-range endpoints  [0 1]
Enter matrix [c d] of Y-range endpoints  [0 1]
Enter number of X approximation points  200
Enter number of Y approximation points  200
Enter expression for joint density  (6/5)*(t.^2 + u)
Use array operations on X, Y, PX, PY, t, u, and P
G = 2*t.^2.*(u>=t) + 3*t.*u.*(u<t);
EZx = sum(G.*P)./sum(P);                        % Approximate
eZx = (-X.^5 + 4*X.^4 + 2*X.^2)./(2*X.^2 + 1);  % Theoretical
plot(X,EZx,'k-',X,eZx,'k-.')
% Plotting details                              % See Figure 14.1.4

Lo teórico y lo aproximado son apenas distinguibles en la trama. Si bien se usa el mismo número de puntos de aproximación que en la Figura 14.1.4 (Ejemplo 14.1.9), el hecho de que toda la región esté incluida en la cuadrícula significa un mayor número de puntos efectivos en este ejemplo.

Dado nuestro enfoque de la expectativa condicional, el hecho de que resuelva el problema de regresión es un asunto que requiere prueba usando propiedades de expectativa condicional. Un enfoque alternativo es simplemente definir la expectativa condicional para que sea la solución al problema de regresión, luego determinar sus propiedades. Esto produce, en particular, nuestra condición definitoria (CE1). Una vez que se establece, las propiedades de expectativa (incluyendo la propiedad de unicidad (E5)) muestran la equivalencia esencial de los dos conceptos. Existen algunas diferencias técnicas que no afectan a la mayoría de las aplicaciones. El enfoque alternativo supone que el segundo momento\(E[X^2]\) es finito. No todas las variables aleatorias tienen esta propiedad. Sin embargo, los que se utilizan normalmente en aplicaciones a nivel de este tratamiento tendrán una varianza, de ahí un segundo momento finito.

Utilizamos la interpretación de\(e(X) = E[g(Y)|X]\) como el mejor estimador cuadrático medio de\(g(Y)\), dado\(X\), para interpretar la propiedad formal (CE9). Examinamos la forma especial

(CE9a)\(E\{E[g(Y)|X]|X, Z\} = E\{E|g(Y)|X, Z]|X\} = E[g(Y)|X]\)

Poner\(e_1 (X,Z) = E[g(Y)|X,Z]\), el mejor estimador cuadrático medio de\(g(Y)\), dado\((X, Z)\). Entonces (CE9b) se puede expresar

\(E[e(X)|X, Z] = e(X)\)a.s. y\(E[e_1 (X, Z)|X] = e(X)\) a.s.

En palabras, si tomamos la mejor estimación de\(g(Y)\), dada\(X\), entonces tomamos la mejor estimación media sqare de eso, dado\((X,Z)\), no cambiamos la estimación de\(g(Y)\). Por otro lado, si primero obtenemos la mejor estimación de cuadrados medios de\(g(Y)\), dada\((X, Z)\), y luego tomamos la mejor estimación cuadrática media de esa, dada\(X\), obtenemos la mejor estimación cuadrática media de\(g(Y)\), dada\(X\).