Saltar al contenido principal
LibreTexts Español

16.1: Independencia condicional, dado un vector aleatorio

  • Page ID
    150898
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    En la unidad de Independencia Condicional, se examina el concepto de independencia condicional de los eventos y se utiliza para modelar una variedad de situaciones comunes. En esta unidad se investiga un concepto más general de independencia condicional, basado en la teoría de la expectativa condicional. Este concepto se encuentra en los fundamentos de la estadística bayesiana, de muchos temas en la teoría de la decisión, y de la teoría de los sistemas de Markov. Examinamos en esta dependencia, muy brevemente, la primera de éstas. En la unidad sobre Secuencias de Markov, brindamos una introducción a la tercera.

    El concepto

    La definición de independencia condicional de eventos se basa en una regla de producto que puede expresarse en términos de expectativa condicional, dado un evento. El par\(\{A, B\}\) es condicionalmente independiente, dado\(C\), iff

    \(E[I_A I_B|C] = P(AB|C) = P(A|C) P(B|C) = E[I_A|C] E[I_B|C]\)

    Si dejamos\(A = X^{-1} (M)\) y\(B = Y^{-1} (N)\), entonces\(I_A = I_M (X)\) y\(I_B = I_N (Y)\). Sería razonable considerar al par\(\{X, Y\}\) condicionalmente independiente, dado evento\(C\), siff la regla del producto

    \(E[I_M(X) I_N (Y)|C] = E[I_M (X)|C] E[I_N (Y) |C]\)

    sostiene para todos razonables\(M\) y\(N\) (técnicamente, todos Borel\(M\) y\(N\)). Esto sugiere una posible extensión a la expectativa condicional, dado un vector aleatorio. Examinamos el siguiente concepto.

    Definición

    El par\(\{X, Y\}\) es condicionalmente independiente, dado Z, designado\(\{X, Y\}\) ci\(|Z\), iff

    \(E[I_M (X) I_N (Y)|Z] = E[I_M(X)|Z] E[I_N (Y)|Z]\)para todos los Borel\(M\). \(N\)

    OBLACIÓN. Ya que no es necesario que\(X\)\(Y\), o\(Z\) sea real valorado, entendemos que los conjuntos\(M\) y\(N\) están en los codominios para\(X\) y\(Y\), respectivamente. Por ejemplo, si\(X\) es un vector aleatorio tridimensional, entonces\(M\) es un subconjunto de\(R^3\).

    Al igual que en el caso de otros conceptos, es útil identificar algunas propiedades clave, a las que nos referimos por los números utilizados en la tabla del Apéndice G. Observamos dos tipos de equivalencias. Por ejemplo, los siguientes son equivalentes.

    (CI1)\(E[I_M(X) I_N (Y)|Z] = E[I_M(X)|Z][E[I_N (Y)|Z]\) a.s. para todos los juegos de Borel\(M, N\)

    (CI5)\(E[g(X, Z) h(Y, Z)|Z] = E[g(X, Z)|Z] E[h(Y,Z)|Z]\) a.s. para todas las funciones de Borel\(g, h\)

    Debido a que las funciones del indicador son funciones especiales de Borel, (CI1) es un caso especial de (CI5). Para demostrar que (CI1) implica (CI5), necesitamos usar linealidad, monotonicidad y convergencia monótona de una manera similar a la utilizada en extender las propiedades (CE1) a (CE6) para la expectativa condicional. Un segundo tipo de equivalencia involucra varios patrones. Las propiedades (CI1), (CI2), (CI3) y (CI4) son equivalentes, siendo (CI1) la condición definitoria para\(\{X, Y\}\) ci\(|Z\).

    (CI1)\(E[I_M(X) I_N (Y)|Z] = E[I_M(X)|Z][E[I_N (Y)|Z]\) a.s. para todos los juegos de Borel\(M, N\)

    (CI2)\(E[I_M (X)|Z, Y] = E[I_M(X)|Z]\) a.s. para todos los juegos de Borel\(M\)

    (CI3)\(E[I_M (X) I_Q (Z)|Z, Y] = E[I_M (X) I_Q (Z)|Z]\) a.s. para todos los juegos de Borel\(M, Q\)

    (CI4)\(E[I_M(X) I_Q (Z)|Y] = E\{E[I_M(X) I_Q (Z)|Z]|Y\}\) a.s. para todos los juegos de Borel\(M, Q\)

    Como ejemplo de los tipos de argumentos necesarios para verificar estas equivalencias, mostramos la equivalencia de (CI1) y (CI2).

    • (CI1) implica (CI2). Establecer\(e_1 (Y, Z) = E[I_M (X) |Z, Y]\) y\(e_2 (Y, Z) = E[I_M (X)|Z]\). Si mostramos

    \(E[I_N (Y) I_Q (Z) e_1 (Y, Z) = E[I_N (Y) I_Q (Z) e_2 (Y,Z)]\)para todos los Borel\(N, Q\)

    entonces por la propiedad de unicidad (E5b) para la expectativa podemos afirmar\(e_1 (Y, Z) = e_2 (Y, Z)\) a.s. Usando la propiedad definitoria (CE1) para la expectativa condicional, tenemos

    \(E\{I_N (Y) I_Q (Z) E[I_M (X) |Z, Y]\} = E[I_N (Y) I_Q (Z) I_M (X)]\)

    Por otro lado, el uso de (CE1), (CE8), (CI1), y (CE1) rendimientos

    \(E\{I_N (Y) I_Q (Z) E[I_M (X)|Z]\} = E\{I_Q (Z) E[I_N(Y) E[I_M (X)|Z]|Z]\}\)

    \(= E\{I_Q (Z) E[I_M (X)|Z] E[I_N (Y)|Z]\} = E\{I_Q (Z0 E[I_M (X) I_N (Y)|Z]\}\)

    \(= E[I_N (Y) I_Q (Z0 I_M (X)\)

    que establece la igualdad deseada.

    • (CI2) implica (CI1). Usando (CE9), (CE8), (CI2) y (CE8), tenemos

    \(E[I_M (X) I_N (Y)|Z] = E\{E[I_M (X) I_N (Y)|Z, Y]|Z\}\)

    \(= E[I_N(Y) E[I_M(X) |Z, Y]|Z\} = E\{I_N (Y) E[I_M (X)|Z]|Z\}\)

    \(= E[I_M(X)|Z] E[I_N(Y)|Z]\)

    El uso de la propiedad (CE8) muestra que (CI2) y (CI3) son equivalentes. Ahora así como (CI1) se extiende a (CI5), también (CI3) es equivalente a

    (CI6)\(E[g(X, Z)|Z, Y] = E[g(X, Z)|Z]\) a.s. para todas las funciones de Borel\(g\)

    La propiedad (CI6) proporciona una interpretación importante de la independencia condicional:

    \(E[g(X, Z)|Z]\)es el mejor estimador cuadrático medio para\(g(X, Z)\), dado conocimiento de\(Z\). La conditon\(\{X, Y\}\) ci\(|Z\) implica que el conocimiento adicional sobre Y no modifica esa mejor estimación. Esta interpretación suele ser la más útil como suposición de modelación.

    Del mismo modo, la propiedad (CI4) es equivalente a

    (CI8)\(E[g(X, Z)|Y] = E\{E[g(X, Z)|Z]|Y\}\) a.s. para todas las funciones de Borel\(g\)

    Las propiedades adicionales en el Apéndice G son útiles en una variedad de contextos, particularmente en el establecimiento de propiedades de los sistemas de Markov. Nos referimos a ellos según sea necesario.

    El enfoque bayesiano de la estadística

    En el enfoque clásico de la estadística, un problema fundamental es obtener información sobre la distribución poblacional a partir de la distribución en una muestra aleatoria simple. Hay una dificultad inherente con este enfoque. Supongamos que se desea determinar la media poblacional\(\mu\). Ahora\(\mu\) es una cantidad desconocida sobre la que hay incertidumbre. No obstante, al ser una constante, no podemos asignar una probabilidad como\(P(a < \mu \le b)\). Esto no tiene sentido.

    El enfoque bayesiano hace un cambio fundamental de punto de vista. Dado que la media poblacional es una cantidad sobre la cual hay incertidumbre, se modela como una variable aleatoria cuyo valor se va a determinar por experimento. En esta visión, la distribución poblacional se concibe como seleccionada aleatoriamente de una clase de tales distribuciones. Una forma de expresar esta idea es referirse a un estado de la naturaleza. La distribución de la población ha sido “seleccionada por naturaleza” de una clase de distribuciones. El valor medio es así una variable aleatoria cuyo valor está determinado por esta selección. Para implementar este punto de vista, asumimos

    El valor del parámetro (digamos\(\mu\) en la discusión anterior) es una “realización” de una variable aleatoria de parámetro\(H\). Si se buscan dos o más parámetros (digamos la media y la varianza), pueden considerarse componentes de un vector aleatorio de parámetros.
    La distribución poblacional es una distribución condicional, dado el valor de\(H\).

    El modelo bayesiano

    Si\(X\) es una variable aleatoria cuya distribución es la distribución poblacional y\(H\) es el parámetro variable aleatoria, entonces\(\{X, H\}\) tener una distribución conjunta.

    Para cada uno\(u\) en el rango de\(H\), tenemos una distribución condicional para\(X\), dada\(H = u\).
    Asumimos una distribución previa para\(H\). Esto se basa en la experiencia previa.
    Tenemos un proceso de muestreo aleatorio, dado\(H\): es decir,\(\{X_i: 1 \le i \le n\}\) es condicionalmente iid, dado\(H\). Dejar\(W = (X_1, X_2, \cdot\cdot\cdot, X_n)\) y considerar la función de distribución condicional conjunta

    \(F_{W|H} (t_1, t_2, \cdot\cdot\cdot, t_n|u) = P(X_1 \le t_1, X_2 \le t_2, \cdot\cdot\cdot, X_n \le t_n|H = u)\)

    \(= E[\prod_{i = 1}^{n} I_{(-\infty, t_i]} (X_i)|H = u]] = \prod_{i = 1}^{n} E[I_{(-\infty, t_i]} (X_i)|H = u] = \prod_{i = 1}^{n} F_{X|H} (t_i|u)\)

    Si\(X\) tiene densidad condicional, dada H, entonces se mantiene una regla de producto similar.

    Proporción poblacional

    Ilustramos estas ideas con uno de los problemas estadísticos más simples pero importantes: el de determinar la proporción de una población que tiene una característica particular. Abundan los ejemplos. Mencionamos sólo unos pocos para indicar la importancia.

    La proporción de una población de electores que planean votar por un determinado candidato.
    La proporción de una población determinada que tiene una determinada enfermedad.
    La fracción de artículos de una línea de producción que cumple con las especificaciones.
    La fracción de mujeres entre los dieciocho y cincuenta y cinco años que tienen trabajos de tiempo completo.

    El parámetro en este caso es la proporción\(p\) que cumplen con el criterio. Si el muestreo es aleatorio, entonces el proceso de muestreo es equivalente a una secuencia de ensayos de Bernoulli. Si\(H\) es el parámetro variable aleatoria y\(S_n\) es el número de “éxitos” en una muestra de tamaño\(n\), entonces la distribución condicional para\(S_n\), dada\(H = u\), es binomial\((n, u)\). Para ver esto, considere

    \(X_i = I_{E_i}\), con\(P(E_i|H = u) = E[X_i|H = u] = e(u) = u\)

    La anaysis se lleva a cabo para cada fijo\(u\) como en el caso ordinario Bernoulli. Si

    \(S_n = \sum_{i = 1}^{n} X_i = \sum_{i = 1}^{n} I_{E_i}\)

    Tenemos el resultado

    \(E[I_{\{k\}} (S_i) |H = u] = P(S_n = k|H = u) = C(n, k) u^k (1 - u)^{n - k}\)y\(E[S_n|H = u] = nu\)

    El objetivo

    Se busca determinar la mejor estimación cuadrática media de\(H\), dada\(S_n = k\).
    Si\(H = u\), ya sabemos\(E[S_n|H] = nu\). Muestreo da\(S_n = k\). Hacemos una reversión bayesiana para conseguir una exressión para\(E[H|S_n = k]\).
    Para completar la tarea, debemos asumir una distribución previa para\(H\) sobre la base del conocimiento previo, en su caso.

    La inversión bayesiana

    Dado que\(\{S_n = k\}\) es un evento con probabilidad positiva, utilizamos la definición de la expectativa condicional, dado un evento, y la ley de probabilidad total (CE1b) para obtener

    \(E[H|S_n = k] = \dfrac{E[HI_{\{k\}} (S_n)]}{E[I_{\{k\}} (S_n)]} = \dfrac{E\{HE[I_{\{k\}} (S_n)|H]\}}{E\{E[I_{\{k\}} (S_n)|H]\}} = \dfrac{\int uE[I_{\{k\}} (S_n)|H = u] f_H (u)\ du}{\int E[I_{\{k\}} (S_n)|H = u] f_H (u)\ du}\)

    \(= \dfrac{C(n, k) \int u^{k + 1} (1 - u)^{n - k} f_{H} (u)\ du}{C(n, k) \int u^{k} (1 - u)^{n - k} f_{H} (u)\ du}\)

    Una distribución previa para\(H\)

    La\((r, s)\) distribución beta (ver Apéndice G), demuestra ser una opción “natural” para este propósito. Su rango es el intervalo unitario, y mediante la elección adecuada de los parámetros\(r, s\), se puede dar a la función de densidad una variedad de formas (ver Figuras 16.1.1 y 16.2.2).

    La Figura uno es una gráfica etiquetada Densidad Beta (r, s) — r = 2. El eje horizontal se etiqueta como t, y el eje vertical como Densidad. Los valores en el eje horizontal van de 0 a 1 en incrementos de 0.1, y los valores en el eje vertical van de 0 a 4.5 en incrementos de 0.5. Hay tres formas trazadas en esta gráfica. El más simple es un camino lineal que comienza en el origen en la esquina inferior izquierda de la gráfica que continúa con una pendiente positiva constante a través de la gráfica y a mitad del eje vertical, terminando en (1, 2). Se etiqueta como s = 1. El segundo es una curva que comienza en el origen con una pendiente positiva, decreciente. Continúa aumentando a lo largo de la página hasta que se aplana en (0.5, 1.5), donde comienza a disminuir a un ritmo creciente. Cumple con la esquina inferior derecha. La forma es simétrica, y se parece más a una pequeña porción de un círculo que a una curva de campana. Esta parcela está etiquetada como s = 2.La tercera es una distribución, nuevamente comenzando en el origen, que comienza con una pendiente marcadamente positiva. La distribución aumenta a una velocidad decreciente muy rápidamente, donde a (0.1, 4.25) alcanza su punto máximo, y comienza a disminuir a una velocidad creciente hasta aproximadamente (0.25, 2), donde comienza a disminuir a una velocidad decreciente hasta que se desvía a una línea horizontal en aproximadamente (0.6, 0) donde es esencialmente un línea horizontal que continúa hasta el borde inferior derecho de la gráfica. Esta parcela está etiquetada como s = 10.
    Figura 16.1.1. La densidad Beta (r, s) para\(r = 2\),\(s = 1, 2, 10\).

    La figura dos es una gráfica etiquetada Densidad Beta (r, s) — r = 5. El eje horizontal se etiqueta como t, y el eje vertical como Densidad. Los valores en el eje horizontal van de 0 a 1 en incrementos de 0.1, y los valores en el eje vertical van de 0 a 3.5 en incrementos de 0.5. Hay tres distribuciones trazadas en la gráfica. Los tres mantienen algún tipo de forma que se asemeja a una curva de campana distorsionada, con colas ahusadas en ambos lados y un pico grande. Una gráfica, etiquetada con s = 5, se asemeja a una curva de campana simétrica, con colas que conducen tanto a la parte inferior derecha como a la parte inferior izquierda de la gráfica, y un pico aproximadamente a (0.5, 2.5) en el centro de la figura. Una segunda parcela, etiquetada con s = 10, no está tan centrada como la gráfica descrita anteriormente, ya que su pico se localiza aproximadamente en (0.3, 3.25). Esta distribución es ligeramente sesgada a la derecha como resultado, y su campana es de forma más delgada que la distribución normal estándar. La tercera parcela, etiquetada con s = 2, está fuertemente sesgada a la izquierda, con su pico localizado aproximadamente en (0.8, 2.5)
    Figura 16.1.2. La densidad Beta (r, s) para\(r = 5\),\(s = 2, 5, 10\).

    Su análisis se basa en las integrales

    \(\int_{0}^{1} u^{r - 1} (1 - u)^{s - 1}\ du = \dfrac{\Gamma (r) \Gamma (s)}{\Gamma (r + s)}\)con\(\Gamma (a + 1) = a \Gamma (a)\)

    Para\(H\) ~ beta (\(r, s\)), la densidad viene dada por

    \(f_H (t) = \dfrac{\Gamma (r + s)}{\Gamma (r) \Gamma (s)} t^{r - 1} (1 - t)^{s - 1} = A(r, s) t^{r - 1} (1 - t)^{s - 1}\)\(0 < t < 1\)

    Para\(r \ge 2\),\(s \ge 2\),\(f_{H}\) tiene un máximo en\((r - 1)/(r + s - 2)\). Para enteros\(r, s\) positivos,\(f_H\) es un polinomio en [0, 1], por lo que la determinación de la función de distribución es fácil. En cualquier caso, la integración directa, utilizando la fórmula integral anterior, muestra

    \(E[H] = \dfrac{r}{r + s}\)y\(\text{Var} [H] = \dfrac{rs}{(r + s)^2 (r + s + 1)}\)

    Si la distribución previa para\(H\) es beta\((r, s)\), podemos completar la determinación de\(E[H|S_n = k]\) lo siguiente.

    \(E[H|S_n = k] = \dfrac{A(r, s) \int_{0}^{1} u^{k + 1} (1 - u)^{n - k} u^{r - 1} (1 - u)^{s - 1}\ du}{A(r, s) \int_{0}^{1} u^{k} (1 - u)^{n - k} u^{r - 1} (1 - u)^{s - 1}\ du} = \dfrac{\int_{0}^{1} u^{k + r} (1 - u)^{n + s - k - 1}\ du}{\int_{0}^{1} u^{k + r - 1} (1 - u)^{n + s - k - 1}\ du}\)

    \(= \dfrac{\Gamma (r + k + 1) \Gamma (n + s - k)}{\Gamma(r + s + n + 1)} \cdot \dfrac{\Gamma (r + s + n)}{\Gamma (r + k) \Gamma (n + s - k)} = \dfrac{k + r}{n + r + s}\)

    Podemos adaptar el análisis anterior para mostrar que\(H\) es condicionalmente beta\((r + k, s + n - k)\), dado\(S_n = k\).

    \(F_{H|S} (t|k) = \dfrac{E[I_t (H) I_{\{k\}} (S_n)}{E[I_{\{k\}} (S_n)}\)donde\(I_t (H) = I_{[0, t]} (H)\)

    El análisis pasa exactamente como para\(E[H|S_n = k]\), excepto que\(H\) se sustituye por\(I_t (H)\). En la expresión integral para el numerador,\(u\) se sustituye un factor por\(I_t (u)\). Para\(H\) ~ beta\((r, s)\), obtenemos

    \(F_{H|S} (t|k) = \dfrac{\Gamma (r + s + n)}{\Gamma (r + k) \Gamma (n + s - k)} \int_{0}^{t} u^{k + r - 1} (1 - u)^{n + s - k - 1} \ du = \int_{0}^{t} f_{H|S} (u|k)\ du\)

    El integrando es la densidad para beta\((r + k, n + s - k)\).

    Cualquier información previa sobre la distribución para se\(H\) puede utilizar para seleccionar adecuado\(r, s\). Si no hay información previa, simplemente tomamos\(r = 1\),\(s = 1\), que corresponde a

    \(H\)~ uniforme encendido (0, 1). Es tan probable que el valor esté en cualquier subintervalo de una longitud dada como en cualquier otro de la misma longitud. La información en la muestra sirve para modificar la distribución para\(H\), condicionada a esa información.

    Ejemplo\(\PageIndex{1}\) Population proportion with a beta prior

    Se desea estimar la porción del cuerpo estudiantil que favorezca un aumento propuesto en el impuesto general estudiantil para financiar la estación de radio del campus. Se toma una muestra\(n = 20\) de tamaño. Catorce responden a favor del incremento. Asumiendo la ignorancia previa (es decir, esa\(H\) beta (1,1)), ¿cuál es la distribución condicional dada\(s_{20} = 14\)? Después de tomar la primera muestra, se toma una segunda muestra de tamaño\(n = 20\), con trece respuestas favorables. El análisis se realiza utilizando la distribución condicional para la primera muestra como la previa para la segunda. Hacer una nueva estimación de\(H\).

    La Figura tres es una gráfica etiquetada, Densidades de condición beta (15, 7) y beta (28, 14). El eje horizontal se etiqueta como t, y el eje vertical se etiqueta, densidad condicional. Los valores en el eje horizontal van de 0 a 1 en incrementos de 0.1, y los valores en el eje vertical van de 0 a 6 en incrementos de uno. Hay dos parcelas en esta figura. Ambos son similares en forma, reflejando dos distribuciones beta, con colas largas, de estructura relativamente simétrica, y alcanzando solo un pico de distribución. La primera distribución, etiquetada como beta (15, 7), se centra horizontalmente en 0.7, y alcanza un valor vertical de densidad condicional de cuatro. Está ligeramente sesgada a la izquierda, pero no hay significación vertical visible más a la izquierda en el eje horizontal más allá del valor 0.3. De igual manera, no hay significancia vertical más allá de aproximadamente 0.92 en la cola de la derecha. La segunda parcela, etiquetada como beta (28, 14), es una distribución más fuerte, centrada en aproximadamente 0.68, pero alcanzando una densidad condicional respecto al eje vertical de aproximadamente 5.5. La gráfica nuevamente está ligeramente sesgada a la izquierda, y no se puede ver ninguna porción significativa de la gráfica en las colas más allá de 0.4 a la izquierda y 0.88 a la derecha.
    Figura 16.1.3. Densidades condicionales para muestreo repetido, Ejemplo 16.1.1.

    Solución

    Para la primera muestra los parámetros son\(r = s = 1\). De acuerdo con el tratamiento anterior,\(H\) es condicionalmente beta\((k + r, n + s - k) = (15, 7)\). La densidad tiene un máximo de at\((r + k - 1)/(r + k + n + s - k - 2) = k/n\). La expectativa condicional, sin embargo, lo es\((r + k)/(r + s + n) = 15/22 \approx 0.6818\).

    Para la segunda muestra, con la distribución condicional como la nueva previa, debemos esperar una mayor nitidez de la densidad sobre la nueva estimación cuadrática media. Para la nueva muestra,\(n = 20\),\(k = 13\), y la anterior\(H\) ~ beta (15, 7). La nueva distribución condicional tiene parámetros\(r^* = (28 - 1)/(28 + 14 - 2) = 27/40 = 0.6750\). La mejor estimación de\(H\) es 28/ (28 + 14) = 2/3. Las densidades conditonales en los dos casos se pueden graficar con MATLAB (ver Figura 16.1.1).

    t = 0:0.01:1;
    plot(t,beta(15,7,t),'k-',t,beta(28,14,t),'k--')
    

    Como era de esperar, el máximo para el segundo es algo mayor y ocurre en un poco más pequeño\(t\), reflejando el más pequeño\(k\). Y la densidad en el segundo caso muestra menor dispersión, resultante de que la información previa de la primera muestra se incorpora al análisis de la segunda muestra.

    Se obtiene el mismo resultado si las dos muestras se combinan en una muestra de tamaño 40.

    Puede ser bueno comparar el resultado del análisis bayesiano con el de las estadísticas clásicas. Dado que en este último caso no se utiliza información previa, hacemos la comparación con el caso de no tener conocimiento previo\((r = s = 1)\). Para el caso clásico, el estimador para\(\mu\) es el promedio muestral; para el caso bayesiano con beta previa, la estimación es la expectativa condicional de\(H\), dada\(S_n\).

    Si\(S_n = k\): Estimación clásica = Estimación\(k/n\) bayesiana =\((k + 1)/(n + 2)\)

    Para el tamaño de muestra grande\(n\), estos no difieren significativamente. Para muestras pequeñas, la diferencia puede ser bastante importante. La estimación bayesiana a menudo se conoce como la estimación de muestra pequeña, aunque no hay nada en el procedimiento bayesiano que requiera muestras pequeñas. En cualquier caso, la estimación bayesiana parece preferible para muestras pequeñas, y tiene la ventaja de que se puede utilizar información previa. El procedimiento de muestreo mejora la distribución previa.

    La idea esencial del enfoque bayesiano es la visión de que un parámetro desconocido sobre el que hay incertidumbre se modela como el valor de una variable aleatoria. El nombre Bayesiano proviene del papel de la inversión bayesiana en el análisis.

    La aplicación del análisis bayesiano a la proporción poblacional requirió una inversión bayesiana en el caso de discreto\(S_n\). Consideramos, a continuación, este proceso de inversión cuando todas las variables aleatorias son absolutamente continuas.

    La inversión bayesiana para un par conjunto absolutamente continuo

    En el tratamiento anterior, utilizamos el hecho de que la variable aleatoria de condicionamiento\(S_n\) es discreta. Supongamos que el par\(\{W, H\}\) es conjuntamente absolutamente continuo, y\(f_{W|H} (t|u)\) y\(f_H (u)\) se especifican. Determinar

    \(E[H|W = t] = \int u f_{H|W} (u|t)\ du\)

    necesitamos\(f_{H|W} (u|t)\). Esto requiere una inversión bayesiana de las densidades condicionales. Ahora por definición

    \(f_{H|W} (u|t) = \dfrac{f_{WH} (t, u)}{f_W (t)}\)y\(f_{WH} (t, u) = f_{W|H} (t|u) f_H (u)\)

    Dado que por la regla para determinar la densidad marginal

    \(f_W (t) = \int f_{WH} (t, u)\ du = \int f_{W|H} (t|u) f_H (u)\ du\)

    tenemos

    \(f_{H|W} (u|t) = \dfrac{f_{W|H} (t|u) f_H(u)}{\int f_{W|H} (t|u) f_H(u) \ du}\)y\(E[H|W = t] = \dfrac{\int u f_{W|H} (t|u) f_H(u)\ du}{\int f_{W|H} (t|u) f_H(u)\ du}\)

    Ejemplo\(\PageIndex{2}\) A Bayesian reversal

    Supongamos\(H\) ~ exponencial\((\lambda)\) y el\(X_i\) son condicionalmente iid, exponencial (\(u\)), dado\(H = u\). Se toma una muestra\(n\) de tamaño. Poner\(W = (X_1, X_2, \cdot\cdot\cdot, X_n)\), y\(t^* = t_1 + t_2 + \cdot\cdot\cdot + t_n\). Determinar la mejor estimación cuadrática media de\(H\), dada\(W = t\).

    Solución

    \(f_{X|H} (t_i|u) = ue^{-ut_i}\)para que\(f_{W|H} (t|u) = \prod_{i = 1}^{n} ue^{-ut_i} = u^n e^{-ut^*}\)

    De ahí

    \(E[H|W = t] = \int uf_{H|W} (u|t)\ du = \dfrac{\int_{0}^{\infty} u^{n + 1} e^{-ut^*} \lambda e^{-\lambda u}\ du}{\int_{0}^{\infty} u^{n} e^{-ut^*} \lambda e^{-\lambda u}\ du}\)

    \(= \dfrac{\int_{0}^{\infty} u^{n + 1} e^{-(\lambda + t^*)u}\ du}{\int_{0}^{\infty} u^{n} e^{-(\lambda + t^*)u}\ du} = \dfrac{(n + 1)!}{(\lambda + t^*)^{n + 2}} \cdot \dfrac{(\lambda + t^*)^{n + 1}}{n!} = \dfrac{n + 1}{(\lambda + t^*)}\)donde\(t^* = \sum_{i = 1}^{n} t_i\)


    This page titled 16.1: Independencia condicional, dado un vector aleatorio is shared under a CC BY 3.0 license and was authored, remixed, and/or curated by Paul Pfeiffer via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.