Saltar al contenido principal
Library homepage
 
LibreTexts Español

14.1: Expectativa condicional, Regresión

  • Page ID
    151116
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    La expectativa condicional, dada un vector aleatorio, juega un papel fundamental en gran parte de la teoría de probabilidad moderna. Diversos tipos de “condicionamiento” caracterizan algunas de las secuencias y procesos aleatorios más importantes. La noción de independencia condicional se expresa en términos de expectativa condicional. La independencia condicional juega un papel esencial en la teoría de los procesos de Markov y en gran parte de la teoría de la decisión.

    Primero consideramos una forma elemental de expectativa condicional con respecto a un evento. Entonces consideramos dos casos especiales altamente intuitivos de expectativa condicional, dados una variable aleatoria. Al examinarlos, identificamos una propiedad fundamental que sirve de base para una extensión muy general. Descubrimos que la expectativa condicional es una cantidad aleatoria. La propiedad básica para la expectativa condicional y las propiedades de expectativa ordinaria se utilizan para obtener cuatro propiedades fundamentales que implican el carácter “expectativo” de la expectativa condicional. Una extensión de la propiedad fundamental conduce directamente a la solución del problema de regresión que, a su vez, da una interpretación alternativa de la expectativa condicional.

    Acondicionamiento por un evento

    Si\(C\) ocurre un evento condicionamiento, modificamos las probabilidades originales introduciendo la medida de probabilidad condicional\(P(\cdot |C)\). Al hacer la forma de cambio

    \(P(A)\)a\(P(A|C) = \dfrac{P(AC)}{P(C)}\)

    efectivamente hacemos dos cosas:

    • Limitamos los posibles resultados al evento\(C\)
    • “Normalizamos” la masa probabilística tomando\(P(C)\) como nueva unidad

    Parece razonable hacer una modificación correspondiente de la expectativa matemática cuando\(C\) se conoce la ocurrencia del evento. La expectativa\(E[X]\) es el promedio ponderado de probabilidad de los valores tomados por\(X\). Se sugieren dos posibilidades para realizar la modificación.

    • Podríamos reemplazar la medida de probabilidad previa por la medida\(P(\cdot)\) de probabilidad condicional\(P(\cdot|C)\) y tomar el promedio ponderado con respecto a estos nuevos pesos.
    • Podríamos continuar utilizando la medida de probabilidad previa\(P(\cdot)\) y modificar el proceso de promediación de la siguiente manera:
      • Considera los valores solo\(P(\omega)\) para aquellos\(\omega \in C\). Esto se puede hacer usando la variable aleatoria\(I_C X\) que tiene valor\(X(\omega)\) para\(\omega \in C\) y cero en otra parte. La expectativa\(E[I_C X]\) es la suma ponderada de probabilidad de esos valores tomados en\(C\).
      • El promedio ponderado se obtiene dividiendo por\(P(C)\).

    Estos dos enfoques son equivalentes. Para una variable aleatoria simple\(X = sum_{k = 1}^{n} t_k I_{A_k}\) en forma canónica

    \(E[I_C X]/P(C) = \sum_{k = 1}^{n} E[t_k I_C I_{A_k}] /P(C) = \sum_{k = 1}^{n} t_k P(CA_k) /P(C) = \sum_{k = 1}^{n} t_k P(A_k |C)\)

    La suma final es expectativa con respecto a la medida de probabilidad condicional. Los argumentos que utilizan teoremas básicos sobre la expectativa y la aproximación de variables aleatorias generales por variables aleatorias simples permiten una extensión a una variable aleatoria general\(X\). La noción de distribución condicional, dada\(C\), y tomando promedios ponderados con respecto a la probabilidad condicional es intuitiva y natural en este caso. Sin embargo, este punto de vista es limitado. Para mostrar una relación natural con más el concepto general de condicionamiento con repspecto a un vector aleatorio, adoptamos lo siguiente

    Definición

    La expectativa condicional de\(X\), dado evento\(C\) con probabilidad positiva, es la cantidad

    \(E[X|C] = \dfrac{E[I_C X]}{P(C)} = \dfrac{E[I_C X]}{E[I_C]}\)

    OBLIGACIÓN. La forma del producto\(E[X|C] P(C) = E[I_C X]\) suele ser útil.

    Ejemplo\(\PageIndex{1}\) A numerical example

    Supongamos\(X\) ~ exponencial (\(\lambda\)) y\(C = \{1/\lambda \le X \le 2/\lambda\}\). Ahora\(I_C = I_M (X)\) donde\(M = [1/\lambda, 2/\lambda]\).

    \(P(C) = P(X \ge 1/\lambda) - P(X > 2/\lambda) = e^{-1} e^{-2}\)y

    \(E[I_C X] = \int I_M (t) t \lambda e^{-\lambda t}\ dt = \int_{1/\lambda}^{2/\lambda} t\lambda e^{-\lambda t}\ dt = \dfrac{1}{\lambda} (2e^{-1} - 3e^{-2})\)

    Así

    \(E[X|C] = \dfrac{2e^{-1} - 3e^{-2}}{\lambda (e^{-1} - e^{-2})} \approx \dfrac{1.418}{\lambda}\)

    Acondicionamiento por un vector aleatorio: caso discreto

    Supongamos\(X = \sum_{i = 1}^{n} t_i I_{A_i}\) y\(Y = \sum_{j = 1}^{m} u_j I_{B_j}\) en forma canónica. Suponemos\(P(A_i) = P(X = t_i) > 0\) y\(P(B_j) = P(Y = u_j) > 0\), para cada permisible\(i, j\). Ahora

    \(P(Y = u_j |X = t_i) = \dfrac{P(X = t_i, Y = u_j)}{P(X = t_i)}\)

    Tomamos la expectativa relativa a la probabilidad condicional\(P(\cdot |X = t_i)\) para obtener

    \(E[g(Y) |X =t_i] = \sum_{j = 1}^{m} g(u_j) P(Y = u_j |X = t_i) = e(t_i)\)

    Ya que tenemos un valor para cada uno\(t_i\) en el rango de\(X\), la función\(e(\cdot)\) se define en el rango de\(X\). Ahora considere cualquier conjunto razonable\(M\) en la línea real y determine la expectativa

    \(E[I_M (X) g(Y)] = \sum_{i = 1}^{n} \sum_{j = 1}^{m} I_M (t_i) g(u_j) P(X = t_i, Y = u_j)\)

    \( = \sum_{i = 1}^{n} I_M(t_i) [\sum_{j = 1}^{m} g(u_j) P(Y = u_j|X = t_i)] P(X = t_i)\)

    \(= \sum_{i = 1}^{n} I_M (t_i) e(t_i) P(X = t_i) = E[I_M (X) e(X)]\)

    Tenemos el patrón

    \((A)\)\(E[I_M(X) g(Y)] = E[I_M(X) e(X)]\)donde\(e(t_i) = E[g(Y)|X = t_i]\)

    para todos\(t_i\) en el rango de\(X\).

    Volvemos a examinar esta propiedad más adelante. Pero primero, consideremos un ejemplo para mostrar la naturaleza del concepto.

    Ejemplo\(\PageIndex{2}\) Basic calculations and interpretation

    Supongamos que el par\(\{X, Y\}\) tiene la distribución conjunta

    \(P(X = t_i, Y = u_j)\)

    \(X =\) 0 1 4 9
    \(Y = 2\) 0.05 0.04 0.21 0.15
    0 0.05 0.01 0.09 0.10
    -1 0.10 0.05 0.10 0.05
    \(PX\) 0.20 0.10 0.40 0.30

    Calcular\(E[Y|X = t_i]\) para cada valor posible\(t_i\) tomado por\(X\)

    \(E[Y|X = 0] = -1 \dfrac{0.10}{0.20} + 0 \dfrac{0.05}{0.20} + 2 \dfrac{0.05}{0.20}\)
    \(= (-1 \cdot 0.10 + 0 \cdot 0.05 + 2 \cdot 0.05)/0.20 = 0\)
    \(E[Y|X = 1] = (-1 \cdot 0.05 + 0 \cdot 0.01 + 2 \cdot 0.04)/0.10 = 0.30\)
    \(E[Y|X = 4] = (-1 \cdot 0.10 + 0 \cdot 0.09 + 2 \cdot 0.21)/0.40 = 0.80\)
    \(E[Y|X = 9] = (-1 \cdot 0.05 + 0 \cdot 0.10 + 2 \cdot 0.15)/0.10 = 0.83\)

    El patrón de operación en cada caso se puede describir de la siguiente manera:

    • Para la columna\(i\) th, multiplica cada valor\(u_j\) por\(P(X = t_i, Y = u_j)\), suma, luego divide por\(P(X = t_i)\).

    La siguiente interpretación ayuda a visualizar la expectativa condicional y apunta a un resultado importante en el caso general.

    • Para cada uno\(t_i\) utilizamos la masa distribuida “por encima” de ella. Esta masa se distribuye a lo largo de una línea vertical en valores\(u_j\) tomados por\(Y\). El resultado del cálculo es determinar el centro de masa para la distribución condicional anterior\(t = t_i\). Al igual que en el caso de las expectativas ordinarias, ésta debería ser la mejor estimación, en el sentido cuadrático medio, de\(Y\) cuándo\(X = ti\). Examinamos esa posibilidad en el tratamiento del problema de regresión en la Sección: El problema de regresión.

    Aunque los cálculos no son difíciles para un problema de este tamaño, el patrón básico se puede implementar simplemente con MATLAB, haciendo bastante fácil el manejo de problemas mucho mayores. Esto es particularmente útil para tratar la simple aproximación a un par absolutamente continuo.

    X = [0 1 4 9];             % Data for the joint distribution
    Y = [-1 0 2];
    P = 0.01*[ 5  4 21 15; 5  1  9 10; 10  5 10  5];
    jcalc                      % Setup for calculations
    Enter JOINT PROBABILITIES (as on the plane)  P
    Enter row matrix of VALUES of X  X
    Enter row matrix of VALUES of Y  Y
     Use array operations on matrices X, Y, PX, PY, t, u, and P
    EYX = sum(u.*P)./sum(P);   % sum(P) = PX  (operation sum yields column sums)
    disp([X;EYX]')             % u.*P = u_j P(X = t_i, Y = u_j) for all i, j
             0         0
        1.0000    0.3000
        4.0000    0.8000
        9.0000    0.8333
    

    Los cálculos se extienden a\(E[g(X, Y)|X = t_i]\). En lugar de valores de\(u_j\) usamos valores de\(g(t_i, u_j)\) en los cálculos. Supongamos\(Z = g(X, Y) = Y^2 - 2XY\).

    G = u.^2 - 2*t.*u;         % Z = g(X,Y) = Y^2 - 2XY
    EZX = sum(G.*P)./sum(P);   % E[Z|X=x]
    disp([X;EZX]')
             0    1.5000
        1.0000    1.5000
        4.0000   -4.0500
        9.0000  -12.8333

    Acondicionamiento por un vector aleatorio — caso absolutamente continuo

    Supongamos que el par\(\{X, Y\}\) tiene función de densidad conjunta\(f_{XY}\). Buscamos utilizar el concepto de una distribución condicional, dado\(X = t\). El hecho de que\(P(X = t) = 0\) para cada uno\(t\) requiera una modificación del enfoque adoptado en el caso discreto. Intuitivamente, consideramos que la densidad condicional

    \(f_{Y|X} (u|t) \ge 0\),\(\int f_{Y|X} (u|t)\ du = \dfrac{1}{f_X (t)} \int f_{XY} (t, u)\ du = f_X (t)/f_X (t) = 1\)

    Definimos, en este caso,

    \(E[g(Y)|X = t] = \int g(u) f_{Y|X} (u|t)\ du = e(t)\)

    La función\(e(\cdot)\) se define para\(f_X (t) > 0\), por lo tanto, efectivamente en el rango de\(X\). Para cualquier conjunto razonable\(M\) en la línea real,

    \(E[I_M (X) g(Y)] = \int \int I_M (t) g(u) f_{XY} (t, u)\ dudt = \int I_M (t) [\int g(u) f_{Y|X} (u|t) \ du] f_X (u) \ dt\)

    \(= \int I_M (t) e(t) f_X (t) \ dt\), donde\(e(t) = E[g(Y)| X = t]\)

    Así tenemos, como en el caso discreto, para cada uno\(t\) en el rango de\(X\).

    (\(A\))\(E[I_M(X) g(Y)] = E[I_M(X) e(X)]\) donde\(e(t) = E[g(Y)|X = t]\)

    Nuevamente, posponemos el examen de este patrón hasta que consideremos un caso más general.

    Ejemplo\(\PageIndex{3}\) Basic calculation and interpretation

    Supongamos que el par\(\{X, Y\}\) tiene densidad de articulación\(f_{XY} (t, u) = \dfrac{6}{5} (t + 2u)\) en la región triangular delimitada por\(t = 0\)\(u = 1\),, y\(u = t\) (ver Figura 14.1.1). Entonces

    \(f_X (t) = \dfrac{6}{5} \int_{t}^{1} (t + 2u)\ du = \dfrac{6}{5} (1 + t - 2t^2)\),\(0 \le t \le 1\)

    Por definición, entonces,

    \(f_{Y|X} (u|t) = \dfrac{t+2u}{1+t- 2t^2}\)en el triángulo (cero en otra parte)

    Por lo tanto, tenemos

    \(E[Y|X = t] = \int u f_{Y|X} (u|t)\ du = \dfrac{1}{1 + t - 2t^2} \int_{t}^{1} (tu + 2u^2)\ du = \dfrac{4 + 3t - 7t^3}{6(1 + t - 2t^2)}\)\((0 \le t < 1)\)

    Teóricamente, debemos descartar\(t = 1\) ya que el denominador es cero para ese valor de\(t\). Esto no causa ningún problema en la práctica.

    La figura uno es una gráfica cartesiana en el primer cuadrante de un triángulo rectángulo sombreado etiquetado. El eje horizontal está etiquetado, t, y el eje vertical está etiquetado, u. El triángulo rectángulo parece tener dos lados de igual longitud. Dos puntos, y por lo tanto un lado del triángulo se asienta sobre el eje vertical, con un punto en el origen, y el otro más arriba de la gráfica. Este lado está etiquetado, t = 0. El segundo lado de igual longitud, que comienza con un punto en la región positiva del eje vertical, y termina en el primer cuadrante de la gráfica en el punto (1, 1), se etiqueta u = 1. La hipotenusa del triángulo, que contiene un punto en el origen y uno en el primer cuadrante de la gráfica en el punto (1, 1), está etiquetada, u = t También hay una leyenda más grande dentro de la gráfica que dice, F_xy (t, u) = (6/5) * (t + 2u).
    Figura 14.1.1. La función de densidad para el Ejemplo 14.1.3

    Somos capaces de hacer una interpretación bastante análoga a la del caso discreto. Esto también señala el camino a cálculos prácticos de MATLAB.

    • Para cualquiera\(t\) en el rango de\(X\) (entre 0 y 1 en este caso), considere una estrecha franja vertical de ancho\(\Delta t\) con la línea vertical a través\(t\) en su centro. Si la tira es lo suficientemente estrecha, entonces\(f_{XY} (t, u)\) no varía apreciablemente con\(t\) para ninguna\(u\).
    • La masa en la tira es aproximadamente

    \(\text{Mass} \approx \Delta t \int f_{XY} (t, u) \ du = \Delta t f_X (t)\)

    • El momento de la masa en la franja alrededor de la línea\(u = 0\) es aproximadamente

    \(\text{Momemt} \approx \Delta t \int u f_{XY} (t, u)\ du\)

    • El centro de masa en la tira es

    \(\text{Center of mass} = \dfrac{\text{Moment}}{\text{Mass}} \approx \dfrac{\Delta \int u f_{XY} (t, u) \ du}{\Delta t f_X (t)} = \int u f_{Y|X} (u|t)\ du = e(t)\)

    Esta interpretación señala el camino hacia el uso de MATLAB para aproximar la expectativa condicional. El éxito del enfoque discreto en la aproximación del valor teórico por turnos apoya la validez de la interpretación. También, esto apunta al resultado general sobre regresión en el apartado, “El problema de la regresión”.

    En el manejo MATLAB de variables aleatorias conjuntas absolutamente continuas, dividimos la región en franjas verticales estrechas. Entonces nos ocupamos de cada uno de estos dividiendo las franjas verticales para formar la estructura de la rejilla. El centro de masa de la distribución discreta sobre una de las t elegidas para la aproximación debe estar cerca del centro de masa real de la probabilidad en la tira. Considere el tratamiento MATLAB del ejemplo bajo consideración.

    f = '(6/5)*(t + 2*u).*(u>=t)';                  % Density as string variable
    tuappr
    Enter matrix [a b] of X-range endpoints  [0 1]
    Enter matrix [c d] of Y-range endpoints  [0 1]
    Enter number of X approximation points  200
    Enter number of Y approximation points  200
    Enter expression for joint density  eval(f)     % Evaluation of string variable
    Use array operations on X, Y, PX, PY, t, u, and P
    EYx = sum(u.*P)./sum(P);                        % Approximate values
    eYx = (4 + 3*X - 7*X.^3)./(6*(1 + X - 2*X.^2)); % Theoretical expression
    plot(X,EYx,X,eYx)
    % Plotting details             (see Figure 14.1.2)
    

    — □

    La figura dos es una gráfica titulada, teórica y expectativa condicional aproximada. El eje horizontal está etiquetado, t, y el eje vertical está etiquetado como E [X | Y = t]. Los valores en el eje horizontal son de 0 a 1 en incrementos de 0.1. Los valores en el eje vertical oscilan entre 0.65 y 1 en incrementos de 0.05. Dentro de la gráfica hay un subtítulo que dice FXy (t, u) = (6/5) * (t + 2u), para 0 ≤ t ≤ u ≤ 1. Hay dos parcelas en esta gráfica. El primero es una línea sólida, suave etiquetada Aproximada. la segunda es una línea lisa, discontinua, etiquetada teórica. Ambas líneas siguen el mismo camino en la gráfica, y están tan ajustadas que son casi indistinguibles. Comienzan por el lado inferior izquierdo, aproximadamente (0, 0.67), y continúan hacia la derecha con una pendiente ligeramente negativa para un segmento muy pequeño, hasta aproximadamente (0.08, 0.66), donde las parcelas comienzan a aumentar gradualmente a un ritmo creciente. A mitad de camino a través de la gráfica, aproximadamente (0.4, 0.74), la pendiente de la gráfica permanece positiva y constante, y continúa de manera lineal desde este punto hasta la esquina superior derecha de la gráfica, en (1, 1).
    Figura 14.1.2. Expectativa condicional teórica y aproximada para arriba.

    El acuerdo de los valores teóricos y aproximados es bastante bueno para fines prácticos. También indica que la interpretación es razonable, ya que la aproximación determina el centro de masa de la masa discretizada que se aproxima al centro de la masa real en cada franja vertical.

    Extensión al caso general

    La mayoría de los ejemplos para los que hacemos cálculos numéricos serán uno de los tipos anteriores. El análisis de estos casos se construye sobre la noción intuitiva de distribuciones condicionales. Sin embargo, estos casos y esta interpretación son bastante limitados y no proporcionan la base para el rango de aplicaciones —teóricas y prácticas— que caracterizan a la teoría moderna de la probabilidad. Buscamos una base para la extensión (que incluye los casos especiales). En cada caso examinado anteriormente, tenemos la propiedad

    \((A)\)\(E[I_M (X) g(Y)] = E[I_M (X) e(X)]\)donde\(e(t) = E[g(Y) | X = t]\)

    para todos\(t\) en el rango de\(X\).

    Tenemos un vínculo con el simple caso de condicionamiento con respecto a un evento. Si\(C = \{X \in M\}\) tiene probabilidad positiva, entonces usando\(I_C = I_M (X)\) tenemos

    \((B)\)\(E[I_M(X) g(Y)] = E[g(Y)|X \in M] P(X \in M)\)

    wo propiedades de expectativa son cruciales aquí:

    Por la propiedad de unicidad (E5), ya que (A) se mantiene para todos los conjuntos razonables (Borel), entonces\(e(X)\) es a.s único (es decir, excepto para un conjunto\(\omega\) de probabilidad cero).
    Por el caso especial del teorema de Radón Nikodym (E19), la función\(e(\cdot)\) siempre existe y es tal que la variable aleatoria\(e(X)\) es única a.s.

    Hacemos una definición basada en estos hechos.

    Definición

    La expectativa condicional\(E[g(Y)| Y =t] = e(t)\) es la función única a.s. definida en el rango de\(X\) tal que

    \((A)\)\(E[I_M (X) g(Y)] = E[I_M(X) e(X)]\)para todos los juegos de Borel\(M\)

    Tenga en cuenta que\(e(X)\) es una variable aleatoria y\(e(\cdot)\) es una función. La expectativa\(E[g(Y)]\) es siempre una constante. El concepto es abstracto. En este punto tiene poca significación aparente, salvo que debe incluir los dos casos especiales estudiados en los apartados anteriores. Además, no está claro por qué se debe utilizar el término expectativa condicional. La justificación descansa en ciertas propiedades formales que se basan en la condición definitoria (A) y otras propiedades de expectativa.

    En el Apéndice F tabulamos una serie de propiedades clave de expectativa condicional. La condición (A) se llama propiedad (CE1). Examinamos varias de estas propiedades. Para un tratamiento detallado y pruebas, se puede consultar cualquiera de una serie de libros sobre probabilidad teórica de medidas.

    (CE1) Definición de condición. \(e(X) = E[g(Y)|X]\)a.s. iff

    \(E[I_M (X) g(Y)] = E[I_M (X) e(X)]\)por cada conjunto de Borel\(M\) en el codominio de\(X\)

    Tenga en cuenta que\(X\) y\(Y\) no es necesario que se valore real, aunque\(g(Y)\) es real valorado. Esta extensión a posible vector valorado\(X\) y\(Y\) es sumamente importante. La siguiente condición es solo la propiedad (B) señalada anteriormente.

    (CE1a) Si\(P(X \in M) > 0\), entonces\(E[I_M(X) e(X)] = E[g(Y)|X \in M] P(X \in M)\)

    El caso especial que se obtiene\(M\) fijando incluir toda la gama de\(X\) manera que\(I_M (X(\omega)) = 1\) para todos\(\omega\) es útil en muchos problemas teóricos y aplicados.

    (CE1b) Ley de probabilidad total. \(E[g(Y)] = E\{E[g(Y)|X]\}\)

    Puede parecer extraño que se complique el problema de determinar\(E[g(Y)]\) obteniendo primero la expectativa condicional y\(e(X) = E[g(Y)|X]\) luego tomando expectativa de esa función. Frecuentemente, los datos suministrados en un problema hacen de este el procedimiento conveniente.

    Ejercicio\(\PageIndex{4}\) Use of the law of total probability

    Supongamos que el tiempo hasta el fallo de un dispositivo es una cantidad aleatoria\(X\) ~ exponencial (\(\mu\)), donde el parámetro\(u\) es el valor de una variable aleatoria de parámetro\(H\). Así

    \(f_{X|H} (t|u) = u e^{-ut}\)para\(t \ge 0\)

    Si el parámetro aleatorio variable\(H\) ~ uniforme\((a, b)\), determinar la vida esperada\(E[X]\) del dispositivo.

    Solución

    Utilizamos la ley de probabilidad total:

    \(E[X] = E\{E[X|H]\} = \int E[X|H = u] f_H (u)\ du\)

    Ahora por suposición

    \(E[X|H = u] = 1/u\)y\(f_H (u) = \dfrac{1}{b - a}\),\(a < u < b\)

    Así

    \(E[X] = \dfrac{1}{b -a} \int_{a}^{b} \dfrac{1}{u} du = \dfrac{\text{ln} (b/a)}{b - a}\)

    Para\(a =1/100\),\(b = 2/100\),\(E[X] = 100 \text{ln} (2) \approx 69.31\).

    Las siguientes tres propiedades, linealidad, positividad/monotonicidad y convergencia monótona, junto con la condición definitoria proporcionan el carácter de “expectativa como”. Estas propiedades para la expectativa producen la mayoría de las otras propiedades esenciales para la expectativa. Un desarrollo similar se sostiene para la expectativa condicional, con alguna reserva por el hecho de que\(e(X)\) es una variable aleatoria, a.s única, esta restricción causa poco problema para las aplicaciones a nivel de este tratamiento.

    Para tener alguna idea de cómo estas propiedades se arraigan en las propiedades básicas de expectativa, examinamos una de ellas.

    (CE2) Linealidad. Para cualquier constante\(a, b\)

    \(E[ag(Y) + bh(Z) |X] = aE[g(Y)|X] + bE[h(Z)|X]\)a.s.

    VERIFICACIÓN

    Dejar\(e_1 (X) = E[g(Y)|X]\),\(e_2 [X] = E[h(Z)|X]\), y\(e(X) = E[ag(Y) + bh (Z) |X]\) a.s.

    \(\begin{array} {lcrlc} {E[I_M (X) e(X)]} & = & {E\{I_M(X)[ag(Y) + bh(Z)]\} \text{ a.s.}} & & {\text{by(CE1)}} \\ {} & = & {aE[I_M (X)g(Y)] + bE[I_M(X) h(Z)] \text{ a.s.}} & & {\text{by linearity of expectation}} \\ {} & = & {aE[I_M (X)e_1(X)] + bE[I_M(X) e_2(X)] \text{ a.s.}} & & {\text{by (CE1)}} \\ {} & = & {E\{I_M(X) [ae_1 (X) + be_2 (X)]\} \text{ a.s.}} & & {\text{by linearity of expectation}}\end{array}\)

    Dado que las igualdades se mantienen para cualquier Borel\(M\), la propiedad de singularidad (E5) por expectativa implica

    \(e(X)= ae_1 (X) = be_2 (X)\)a.s.

    Esta es propiedad (CE2). Una extensión a cualquier combinación lineal finita se establece fácilmente por inducción matemática.

    — □

    La propiedad (CE5) proporciona otra condición para la independencia.

    (CE5) Independencia. \(\{X, Y\}\)es un par independiente

    iff\(E[g(Y)|X] = E[g(Y)]\) a.s. para todas las funciones de Borel\(g\)
    iff\(E[I_N(Y)|X] = E[I_N (Y)]\) a.s. para todos los conjuntos de Borel\(N\) en el codominio de\(Y\)

    Dado que el conocimiento de no\(X\) afecta la probabilidad que\(Y\) asumirá algún conjunto de valores, entonces la expectativa condicional no debe verse afectada por el valor de\(X\). El valor constante resultante de la expectativa condicional debe ser\(E[g(Y)]\) para que se mantenga la ley de probabilidad total. Una prueba formal utiliza la singularidad (E5) y la regla del producto (E18) para la expectativa.

    La propiedad (CE6) forma la base para la solución del problema de regresson en la siguiente sección.

    (CE6)\(e(X) = E[g(Y)|X]\) a.s. iff\(E[h(X) g(Y)] = E[h(X)e(X)]\) a.s. para cualquier función Borel\(h\)

    El examen demuestra que esto es el resultado de sustituir\(I_M (X)\) en (CE1) por arbitrario\(h(X)\). Nuevamente, Una vez más, para obtener una idea de cómo surgen las diversas propiedades, esbozamos las ideas de una prueba de (CE6).

    IDEAS DE UNA PRUEBA DE (CE6)

    Para\(h(X) = I_M(X)\), esto es (CE1).

    Para\(h(X) = \sum_{i = 1}^{n} a_i I_{M_i} (X)\), el resultado sigue por linealidad.

    Porque\(h \ge 0\),\(g \ge 0\), hay una seqencia de no negativo, simple\(h_n nearrow h\). Ahora por positividad,\(e(X) \ge 0\). Por convergencia monótona (CE4),

    \(E[h_n (X) g(Y)] \nearrow E[h(X) g(Y)]\)y\(E[h_n(X) e(X)] \nearrow E[h(X) e(X)]\)

    Dado que los términos correspondientes en las secuencias son iguales, los límites son iguales.
    Para\(h = h^{+} - h^{-}\),\(g \ge 0\), el resultado sigue por linealidad (CE2).
    Pues\(g = g^{+} - g^{-}\), el resultado vuelve a seguir por linealidad.

    — □

    Las propiedades (CE8) y (CE9) son peculiares a la expectativa condicional. Desempeñan un papel esencial en muchos desarrollos teóricos. Son esenciales en el estudio de las secuencias de Markov y de una clase de secuencias aleatorias conocidas como submartingales. Los enumeramos aquí (así como en el Apéndice F) para referencia.

    (CE8)\(E[h(X) g(Y)|X] = h(X) E[g(Y)|X]\) a.s. para cualquier función Borel\(h\)

    Esta propiedad dice que cualquier función del vector aleatorio de acondicionamiento puede tratarse como un factor constante. Esto combinado con (CE10) a continuación proporcionan ayudas útiles para el cálculo.

    (CE9) Acondicionamiento repetido

    Si\(X = h(W)\), entonces\(E\{E[g(Y)|X|W\} = E\{E[g(Y)|W|X\} = E[g(Y)|X]\) a.s.

    Esta propiedad un tanto formal es muy útil en muchos desarrollos teóricos. Brindamos una interpretación después del desarrollo de la teoría de regresión en la siguiente sección.

    La siguiente propiedad es altamente intuitiva y muy útil. Es fácil de establecer en los dos casos elementales desarrollados en secciones anteriores. Su prueba en el caso general es bastante sofisticada.

    (CE10) En condiciones\(g\) que casi siempre se cumplen en la práctica

    \(E[g(X, Y)|X = t] = E[g(t, Y)|X = t]\)a.s.\([P_X]\)
    Si\(\{X, Y\}\) es independiente, entonces\(E[g(X, Y) |X = t] = E[g(t, Y)]\) a.s.\([P_X]\)

    Ciertamente parece razonable suponer que si\(X = t\), entonces deberíamos ser capaces de sustituir\(X\) por\(t\) adentro\(E[g(X, Y)| X =t]\) para conseguir\(E[g(t, Y)|X =t]\). Propiedad (CE10) lo asegura. Si\(\{X, Y\}\) es un par independiente, entonces el valor de no\(X\) debería afectar el valor de\(Y\), por lo que\(E[g(t, Y)|X = t] = E[g(t, Y)]\) a.s.

    Ejemplo\(\PageIndex{5}\) Use of property (CE10)

    Consideremos nuevamente la distribución para el Ejemplo 14.1.3. El par\(\{X, Y\}\) tiene densidad

    \(f_{XY} (t, u) = \dfrac{6}{5} (t + 2u)\)en la región triangular delimitada por\(t = 0\),\(u = 1\), y\(u = t\)

    Mostramos en el Ejemplo 14.1.3 que

    \(E[Y|X = t] = \dfrac{4 + 3t - 7 t^3}{6(1 + t - 2t^2)}\)\(0 \le t < 1\)

    Vamos\(Z = 3X^2 + 2XY\). Determinar\(E[Z|X = t]\).

    Solución

    Por linealidad, (CE8) y (CE10)

    \(E[Z|X = t] = 3t^2 + 2tE[Y|X =t] = 3t^2 + \dfrac{4t + 3t^2 - 7t^4}{3(1 + t - 2t^2)}\)

    Probabilidad condicional

    En el tratamiento de la expectativa matemática, observamos que la probabilidad puede expresarse como una expectativa

    \(P(E) = E[I_E]\)

    Para probabilidad condicional, dado un evento, tenemos

    \(E[I_E|C] = \dfrac{E[I_E I_C]}{P(C)} = \dfrac{P(EC)}{P(C)} = P(E|C)\)

    De esta manera, ampliamos el concepto expectativa condicional.

    Definición

    La probabilidad condicional de evento\(E\), dada\(X\), es

    \(P(E|X) = E[I_E|X]\)

    Por lo tanto, no hay necesidad de una teoría separada de la probabilidad condicional. Podemos definir la función de distribución condicional

    \(F_{Y|X} (u|X) = P(Y \le u|X) = E[I_{(-\infty, u]} (Y)|X]\)

    Entonces, por la ley de probabilidad total (CE1b),

    \(F_Y (u) = E[F_{Y|X} (u|X)] = \int F_{Y|X} (u|t) F_X (dt)\)

    Si hay una densidad condicional\(f_{Y|X}\) tal que

    \(P(Y \in M|X = t) = \int_M f_{Y|X} (r|t)\ dr\)

    entonces

    \(F_{Y|X} (u|t) = \int_{-\infty}^{u} f_{Y|X} (r|t)\ dr\)para que\(f_{Y|X} (u|t) = \dfrac{\partial}{\partial u} F_{Y|X} (u|t)\)

    Un tratamiento cuidadoso, teórica de medidas muestra que puede no ser cierto que\(F_{Y|X} (\cdot |t)\) sea una función de distribución para todos\(t\) en el rango de\(X\). Sin embargo, en aplicaciones, esto rara vez es un problema. Los supuestos de modelado a menudo comienzan con dicha familia de funciones de distribución o funciones de densidad.

    Ejemplo\(\PageIndex{6}\) The conditional distribution function

    Al igual que en el Ejemplo 14.1.4, supongamos\(X\) ~ exponencial\((u)\), donde el parámetro\(u\) es el valor de una variable aleatoria de parámetro\(H\). Si el parámetro variable aleatoria\(H\) ~ uniforme\((a, b)\), determine la función de distribución\(F_X\).

    Solución

    Al igual que en el Ejemplo 14.1.4, tomar la suposición sobre la distribución condicional para significar

    \(f_{X|H} (t|u) = ue^{-ut}\)\(t \ge 0\)

    Entonces

    \(F_{X|H} (t|u) = \int_{0}^{1} u e^{-us}\ ds = 1 - e^{-ut}\)\(0 \le t\)

    Por la ley de probabilidad total

    \(F_X (t) = \int F_{X|H} (t|u) f_H (u) \ du = \dfrac{1}{b - a} \int_{a}^{b} (1 - e^{-ut}) \ du = 1 - \dfrac{1}{b - a} \int_{a}^{b} e^{-ut} \ du\)

    \( = 1 - \dfrac{1}{t(b - a)} [e^{-bt} - e^{-at}]\)

    Diferenciación con respecto a\(t\) rinde la expresión para\(f_X (t)\)

    \(f_X (t) = \dfrac{1}{b - a} [(\dfrac{1}{t^2} + \dfrac{b}{t}) e^{-bt} - (\dfrac{1}{t^2} + \dfrac{a}{t}) e^{-at}]\)\(t > 0\)

    El siguiente ejemplo utiliza una distribución condicional discreta y una distribución marginal para obtener la distribución conjunta para el par.

    Ejemplo\(\PageIndex{7}\) A random number \(N\) of Bernoulli trials

    Un número\(N\) es elegido por una selección aleatoria de los números enteros del 1 al 20 (digamos, sacando una carta de una caja). Un par de dados se lanzan\(N\) veces. Dejar\(S\) ser el número de “coincidencias” (es decir, ambas, ambas dos, etc.). Determinar la distribución conjunta para\([N, S]\).

    Solución

    \(N\)~ uniforme en los enteros del 1 al 20. \(P(N = i) = 1/20\)para\(1 \le i \le 20\). Dado que hay 36 pares de números para los dos dados y seis posibles partidos, la probabilidad de un partido en cualquier tiro es de 1/6. Dado que los\(i\) lanzamientos de los dados constituyen una secuencia de Bernoulli con probabilidad 1/6 de un éxito (un partido), tenemos\(S\) condicionalmente binomio (\(i\), 1/6), dado\(N = i\). Para cualquier par\((i, j)\),\(0 \le j \le i\),

    \(P(N = i, S = j) = P(S = j|N = i) P(N = i)\)

    Ahora\(E[S|N = i) = i/6\), para que

    \(E[S] = \dfrac{1}{6} \cdot \dfrac{1}{20} \sum_{i = 1}^{20} i = \dfrac{20 \cdot 21}{6 \cdot 20 \cdot 2} = \dfrac{7}{4} = 1.75\)

    El siguiente procedimiento de MATLAB calcula las probabilidades de articulación y las organiza “como en el plano”.

    % file randbern.m
    p  = input('Enter the probability of success  ');
    N  = input('Enter VALUES of N  ');
    PN = input('Enter PROBABILITIES for N  ');
    n  = length(N);
    m  = max(N);
    S  = 0:m;
    P  = zeros(n,m+1);
    for i = 1:n
      P(i,1:N(i)+1) = PN(i)*ibinom(N(i),p,0:N(i));
    end
    PS = sum(P);
    P  = rot90(P);
    disp('Joint distribution N, S, P, and marginal PS')
    randbern                           % Call for the procedure
    Enter the probability of success  1/6
    Enter VALUES of N  1:20
    Enter PROBABILITIES for N  0.05*ones(1,20)
    Joint distribution N, S, P, and marginal PS
    ES = S*PS'
    ES =  1.7500                          % Agrees with the theoretical value

    El problema de regresión

    Introducimos el problema de regresión en el tratamiento de la regresión lineal. Aquí nos preocupa una regresión más general. Un par\(\{X, Y\}\) de variables aleatorias reales tiene una distribución conjunta. Se observa\(X(\omega)\) un valor. Deseamos una regla para obtener la “mejor” estimación del valor correspondiente\(Y(\omega)\). Si\(Y(\omega)\) es el valor real y\(r(X(\omega))\) es la estimación, entonces\(Y(\omega) - r(X(\omega))\) es el error de estimación. La mejor regla de estimación (función)\(r(\cdot)\) se toma como aquella para la que el cuadrado promedio del error es mínimo. Es decir, buscamos una función\(r\) tal que

    \(E[(Y - r(X))^2]\)es un mínimo

    En el tratamiento de la regresión lineal, determinamos la mejor función afín,\(u = at + b\). La función óptima de esta forma define la línea de regresión de\(Y\) on\(X\). Pasamos ahora al problema de encontrar la mejor función\(r\), que en algunos casos puede ser una función afín, pero más a menudo no lo es.

    Tenemos algunos indicios de posibilidades. En el tratamiento de la expectativa, encontramos que la mejor constante para aproximar una variable aleatoria en el sentido cuadrático medio es el valor medio, que es el centro de masa para la distribución. En el Ejemplo interpretativo 14.2.1 para el caso discreto, encontramos que la expectativa condicional\(E[Y|X = t_i]\) es el centro de masa para la distribución condicional at\(X = t_i\). Un resultado similar, considerando tiras verticales delgadas, se encuentra en el Ejemplo 14.1.3 para el caso absolutamente continuo. Esto sugiere la posibilidad de que\(e(t) = E[Y|X = t]\) pueda ser la mejor estimación para\(Y\) cuando\(X(\omega) = t\) se observe el valor. Investigamos esta posibilidad. El inmueble (CE6) demuestra ser clave para obtener el resultado.

    Vamos\(e(X) = E[Y|X]\). Podemos escribir (CE6) en el formulario\(E[h(X) (Y - e(X))] = 0\) para cualquier función razonable\(h\). Considerar

    \(E[(Y - r(X))^2] = E[(Y - e(X) + e(X) - r(X))^2]\)

    \(= E[(Y - e(X))^2] + E[(e(X) - r(X))^2] + 2E[(Y - e(X))(r(X) - e(X))]\)

    Ahora\(e(X)\) es fijo (a.s.) y para cualquier elección de\(r\) podemos tomar\(h(X) = r(X) - e(X)\) para afirmar que

    \(E[Y - e(X)) (r(X) - e(X))] = E[(Y - e(X)) h(X)] = 0\)

    Así

    \(E[(Y - r(X))^2] = E[(Y - e(X))^2] + E[(e(X) - r(X))^2]\)

    El primer término del lado derecho es fijo; el segundo término es no negativo, con un mínimo a cero iff\(r(X) = e(X)\) a.s. Así,\(r = e\) es la mejor regla. Para un valor dado\(X(\omega) = t\) el mejor esitmate cuadrado medio de\(Y\) es

    \(u = e(t) = E[Y|X = t]\)

    La gráfica de\(u = e(t)\) vs\(t\) se conoce como la curva de regresión de Y sobre X. Esto se define para argumento\(t\) en el rango de\(X\), y es único excepto posiblemente en un conjunto\(N\) tal que\(P(X \in N) = 0\). La determinación de la curva de regresión es así la determinación de la expectativa condicional.

    Ejemplo\(\PageIndex{8}\) Regression curve for an independent pair

    Si el par\(\{X, Y\}\) es independiente, entonces\(u = E[Y|X = t] = E[Y]\), de manera que la curva de regresión de\(Y\) on\(X\) es la línea horizontal a través\(u = E[Y]\). Esto, por supuesto, concuerda con la línea de regresión, ya que\(\text{Cov} [X, Y] = 0\) y la línea de regresión es\(u = 0 = E[Y]\).

    El resultado se extiende a las funciones de\(X\) y\(Y\). Supongamos\(Z = g(X, Y)\). Entonces el par\(\{X, Z\}\) tiene una distribución conjunta, y la mejor estimación cuadrática media de\(Z\) dada\(X = t\) es\(E[Z|X = t]\).

    Ejemplo\(\PageIndex{9}\) Estimate of a function of \(\{X, Y\}\)

    Supongamos que el par\(\{X, Y\}\) tiene densidad de juntas\(f_{XY} (t, u) = 60t^2 u\) para\(0 \le t \le 1\),\(0 \le u \le 1 - t\). Esta es la región triangular delimitada por\(t = 0\),\(u = 0\), y\(u = 1 - t\) (ver Figura 14.1.3). La integración demuestra que

    \(f_X (t) = 30t^2 (1 - t)^2\),\(0 \le t \le 1\) y\(f_{Y|X} (u|t) = \dfrac{2u}{(1 - t)^2}\) en el triángulo

    Considerar

    \(Z = \begin{cases} X^2 & \text{for } X \le 1/2 \\ 2Y & \text{for } X > 1/2 \end{cases} = I_M(X) X^2 + I_N (X) 2Y\)

    donde\(M =\) [0, 1/2] y\(N\) = (1/2, 1]. Determinar\(E[Z|X = t]\).

    La figura tres es una gráfica cartesiana en el primer cuadrante que contiene un triángulo rectángulo grande sombreado. El eje horizontal está etiquetado, t, y el eje vertical, u. Se etiqueta apropiadamente que ambos lados más cortos del triángulo se asienten en los ejes vertical y horizontal y ambos sean de longitud uno, con el vértice del triángulo que contiene el ángulo recto sentado en el origen. La hipotenusa del triángulo, que está a lo largo de una línea desde el punto (0, 1) hasta el punto (1, 0), es el único lado etiquetado del triángulo, y su etiqueta dice, u = 1 - t Dentro del triángulo hay una ecuación que dice, f_xy (t, u) = 60t^2 u.
    Figura 14.1.3. La función de densidad para el Ejemplo 14.1.9.

    Solución Por linealidad y (CE8).

    \(E[Z|X = t] = E[I_M (X) X^2||X = t] + E[I_N (X) 2Y||X = t] = I_M (t) t^2 + I_N (t) 2E[Y|X = t]\)

    Ahora

    \(E[Y|X = t] = \int u f_{Y|X} (u|t) \ du = \dfrac{1}{(1 - t)^2} \int_{0}^{1 - t} 2u^2\ du = \dfrac{2}{3} \cdot \dfrac{(1 - t)^3}{(1 - t)^2} = \dfrac{2}{3} (1 - t)\),\(0 \le t < 1\)

    para que

    \(E[Z|X = t] = I_M (t) t^2 + I_N (t) \dfrac{4}{3} (1 - t)\)

    Tenga en cuenta que las funciones del indicador separan las dos expresiones. El primero se mantiene en el intervalo\(M =\) [0, 1/2] y el segundo se mantiene en el intervalo\(N =\) (1/2, 1]. No se\(t^2\0 and (4/3)\((1 - t)\) deben agregar las dos expresiones, ya que esto daría una expresión incorrecta para todos t en el rango de\(X\).

    APROXIMACIÓN

    tuappr
    Enter matrix [a b] of X-range endpoints  [0 1]
    Enter matrix [c d] of Y-range endpoints  [0 1]
    Enter number of X approximation points  100
    Enter number of Y approximation points  100
    Enter expression for joint density  60*t.^2.*u.*(u<=1-t)
    Use array operations on X, Y, PX, PY, t, u, and P
    G = (t<=0.5).*t.^2 + 2*(t>0.5).*u;
    EZx = sum(G.*P)./sum(P);                       % Approximation
    eZx = (X<=0.5).*X.^2 + (4/3)*(X>0.5).*(1-X);   % Theoretical
    plot(X,EZx,'k-',X,eZx,'k-.')
    % Plotting details                             % See Figure 14.1.4

    El ajuste es bastante suficiente para fines prácticos, a pesar del número moderado de puntos de aproximación. La diferencia en las expresiones para los dos intervalos de\(X\) valores es bastante clara.

    La Figura cuatro es una gráfica etiquetada, curvas teóricas y aproximadas de regresión. El eje horizontal está etiquetado como t, y el eje vertical con E [Z | X = t]. Los valores en el eje horizontal van de 0 a 1 en incrementos de 0.1, y el eje vertical varía en valor de 0 a 0.7, en incrementos de 1. Hay dos parcelas en esta gráfica. La primera es una línea discontinua etiquetada Teórico, y la segunda es una línea continua etiquetada como aproximada. Ambas líneas siguen el mismo camino y forma en la gráfica, excepto que la línea sólida a veces es un poco menos suave, tiembla pero sigue de cerca la línea discontinua más consistente. La forma de la parcela aparece en tres secciones principales conectadas. La primera sección comienza en la esquina inferior izquierda de la gráfica, y comienza a la derecha con una pendiente poco profunda pero creciente. La parcela aumenta a una tasa creciente hasta la mitad de la gráfica, aproximadamente a (0.5, 0.25). El segundo tramo comienza en este punto, ya que el camino continúa verticalmente de (0.5, 0.25) a (0.5, 0.65). En este punto, comienza la tercera sección, y es más o menos lineal, con una pendiente negativa constante que se mueve hacia la esquina inferior derecha de la gráfica, donde termina en el punto (1, 0).
    Figura 14.1.4. Curvas de regresión teóricas y aproximadas para el Ejemplo 14.1.9

    Ejemplo\(\PageIndex{10}\) Estimate of a function of \(\{X, Y\}\)

    Supongamos que el par\(\{X, Y\}\) tiene densidad de junta\(f_{XY} (t, u) = \dfrac{6}{5} (t^2 + u)\), en el cuadrado unitario\(0 \le t \le 1\),\(0 \le u \le 1\) (ver Figura 14.1.5). La integración habitual muestra

    \(f_X (t) = \dfrac{3}{5} (2t^2 + 1)\),\(0 \le t \le 1\), y\(f_{Y|X} (u|t) = 2 \dfrac{t^2 + u}{2t^2 +1}\) en la plaza

    Considerar

    \(Z = \begin{cases} 2X^2 & \text{for } X \le Y \\ 3XY & \text{for } X > Y \end{cases} I_Q (X, Y) 2X^2 + I_{Q^c} (X, Y) 3XY\), donde\(Q = \{(t, u): u \ge t\}\)

    Determinar\(E[Z|X = t]\).

    Solución

    \(E[Z|X = t] = 2t^2 \int I_Q (t, u) f_{Y|X} (u|t) + 3t\int I_{Q^c} (t, u) u f_{Y|X} (u|t)\ du\)

    \(= \dfrac{4t^2}{2t^2+1} \int_{t}^{1} (t^2 + u)\ du + \dfrac{6t}{2t^2 + 1} \int_{0}^{t} (t^2u + u^2)\ du = \dfrac{-t^5 + 4t^4 + 2t^2}{2t^2 + 1}\),\(0 \le t \le 1\)

    La figura cinco es una gráfica cartesiana que contiene dos triángulos rectos iguales que unidos en su hipotenusa crean un cuadrado grande. El eje horizontal está etiquetado, t, y el eje vertical está etiquetado, u. Cada eje está marcado solo con el valor 1. Los puntos (0, 0), (0, 1), (1, 1) y (1, 0) son vértices del cuadrado. Una línea discontinua diagonal desde el punto (0, 0) hasta el punto (1, 1) se etiqueta u = t y divide el cuadrado en dos triángulos. Los dos lados del triángulo que no se asientan sobre un eje están etiquetados, con el lado horizontal de (0, 1) a (1, 1) etiquetado, u = 1, y el lado vertical de (1, 0) a (1, 1) etiquetado, t = 1. El triángulo sobre la línea diagonal está etiquetado, Q, y el triángulo de abajo está etiquetado Q^C. Una ecuación grande se imprime debajo de la gráfica que dice, F_xy (t, u) = (6/5) * (t^2 + u).
    Figura 14.1.5. La densidad y regiones para el Ejemplo 14.1.10

    Observe el papel diferente de las funciones del indicador que en el Ejemplo 14.1.9. Ahí proporcionan una separación de dos partes del resultado. Aquí sirven para establecer los límites efectivos de la integración, pero se necesita la suma de las dos partes para cada una\(t\).

    La Figura seis es una gráfica etiquetada, curvas teóricas y aproximadas de regresión. El eje horizontal está etiquetado, t, y el eje vertical está etiquetado, E [Z | X = t]. Los valores en el eje horizontal van de 0 a 1 en incrementos de 0.1. Los valores en el eje vertical van de 0 a 1.8 en incrementos de 0.2. Hay dos parcelas en la gráfica, pero ambas siguen la misma forma tan de cerca que son indistinguibles. Una es una línea continua, etiquetada como Aproximada, y la otra es una línea discontinua, etiquetada Teórico. La forma comienza en la esquina inferior derecha de la gráfica en (0, 0). Inicialmente se mueve hacia la derecha en una pendiente positiva poco profunda. A medida que continúa moviéndose hacia la derecha, comienza a aumentar a un ritmo creciente hasta aproximadamente (0.6, 0.7) donde mantiene una pendiente positiva constante. La parcela continúa esta pendiente hasta la esquina superior derecha de la gráfica, donde termina aproximadamente (1, 1.65).
    Figura 14.1.6. Curvas de regresión teóricas y aproximadas para el Ejemplo 14.1.10

    APROXIMACIÓN

    tuappr
    Enter matrix [a b] of X-range endpoints  [0 1]
    Enter matrix [c d] of Y-range endpoints  [0 1]
    Enter number of X approximation points  200
    Enter number of Y approximation points  200
    Enter expression for joint density  (6/5)*(t.^2 + u)
    Use array operations on X, Y, PX, PY, t, u, and P
    G = 2*t.^2.*(u>=t) + 3*t.*u.*(u<t);
    EZx = sum(G.*P)./sum(P);                        % Approximate
    eZx = (-X.^5 + 4*X.^4 + 2*X.^2)./(2*X.^2 + 1);  % Theoretical
    plot(X,EZx,'k-',X,eZx,'k-.')
    % Plotting details                              % See Figure 14.1.4
    

    Lo teórico y lo aproximado son apenas distinguibles en la trama. Si bien se usa el mismo número de puntos de aproximación que en la Figura 14.1.4 (Ejemplo 14.1.9), el hecho de que toda la región esté incluida en la cuadrícula significa un mayor número de puntos efectivos en este ejemplo.

    Dado nuestro enfoque de la expectativa condicional, el hecho de que resuelva el problema de regresión es un asunto que requiere prueba usando propiedades de expectativa condicional. Un enfoque alternativo es simplemente definir la expectativa condicional para que sea la solución al problema de regresión, luego determinar sus propiedades. Esto produce, en particular, nuestra condición definitoria (CE1). Una vez que se establece, las propiedades de expectativa (incluyendo la propiedad de unicidad (E5)) muestran la equivalencia esencial de los dos conceptos. Existen algunas diferencias técnicas que no afectan a la mayoría de las aplicaciones. El enfoque alternativo supone que el segundo momento\(E[X^2]\) es finito. No todas las variables aleatorias tienen esta propiedad. Sin embargo, los que se utilizan normalmente en aplicaciones a nivel de este tratamiento tendrán una varianza, de ahí un segundo momento finito.

    Utilizamos la interpretación de\(e(X) = E[g(Y)|X]\) como el mejor estimador cuadrático medio de\(g(Y)\), dado\(X\), para interpretar la propiedad formal (CE9). Examinamos la forma especial

    (CE9a)\(E\{E[g(Y)|X]|X, Z\} = E\{E|g(Y)|X, Z]|X\} = E[g(Y)|X]\)

    Poner\(e_1 (X,Z) = E[g(Y)|X,Z]\), el mejor estimador cuadrático medio de\(g(Y)\), dado\((X, Z)\). Entonces (CE9b) se puede expresar

    \(E[e(X)|X, Z] = e(X)\)a.s. y\(E[e_1 (X, Z)|X] = e(X)\) a.s.

    En palabras, si tomamos la mejor estimación de\(g(Y)\), dada\(X\), entonces tomamos la mejor estimación media sqare de eso, dado\((X,Z)\), no cambiamos la estimación de\(g(Y)\). Por otro lado, si primero obtenemos la mejor estimación de cuadrados medios de\(g(Y)\), dada\((X, Z)\), y luego tomamos la mejor estimación cuadrática media de esa, dada\(X\), obtenemos la mejor estimación cuadrática media de\(g(Y)\), dada\(X\).


    This page titled 14.1: Expectativa condicional, Regresión is shared under a CC BY 3.0 license and was authored, remixed, and/or curated by Paul Pfeiffer via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.