8.5: Estimación de conjuntos bayesianos

Última actualización
Guardar como PDF

Page ID: 151948

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

\(\newcommand{\R}{\mathbb{R}}\)\(\newcommand{\N}{\mathbb{N}}\)\(\newcommand{\Z}{\mathbb{Z}}\)\(\newcommand{\P}{\mathbb{P}}\)\(\newcommand{\E}{\mathbb{E}}\)\(\newcommand{\var}{\text{var}}\)\(\newcommand{\sd}{\text{sd}}\)\(\newcommand{\cov}{\text{cov}}\)\(\newcommand{\bs}{\boldsymbol}\)

Teoría Básica

Como es habitual, nuestro punto de partida es un experimento aleatorio con un espacio muestral subyacente y una medida de probabilidad\(\P\). En el modelo estadístico básico, tenemos una variable aleatoria observable\(\bs{X}\) tomando valores en un conjunto\(S\). En general,\(\bs{X}\) puede tener una estructura bastante complicada. Por ejemplo, si el experimento consiste en muestrear\(n\) objetos de una población y registrar diversas mediciones de interés, entonces\[ \bs{X} = (X_1, X_2, \ldots, X_n) \] dónde\(X_i\) está el vector de mediciones para el objeto\(i\) th.

Supongamos también que la distribución de\(\bs{X}\) depende de que un parámetro\(\theta\) tome valores en un espacio de parámetros\(\Theta\). El parámetro también puede ser de valor vectorial, en cuyo caso\(\Theta \subseteq \R^k\) para algunos\(k \in \N_+\) y el parámetro tiene la forma\(\bs{\theta} = (\theta_1, \theta_2, \ldots, \theta_k)\).

La formulación bayesiana

Recordemos que en el análisis bayesiano, el parámetro desconocido\(\theta\) se trata como una variable aleatoria. Específicamente, supongamos que la función de densidad de probabilidad condicional del vector de datos\(\bs{X}\) dado\(\theta\ \in \Theta\) se denota\( f(\bs{x} \mid \theta) \) para\( \bs{x} \in S \). Además, al parámetro\(\theta\) se le da una distribución previa con la función de densidad de probabilidad\(h\) activada\(\Theta\). (La distribución previa suele ser subjetiva, y se elige para reflejar nuestro conocimiento, si lo hay, del parámetro). La función de densidad de probabilidad conjunta del vector de datos y el parámetro es\[ (\bs{x}, \theta) \mapsto h(\theta) f(\bs{x} \mid \theta); \quad (\bs{x}, \theta) \in S \times \Theta \] Siguiente, la función de densidad de probabilidad (incondicional) de\(\bs{X}\) es la función\(f\) dada por\[ f(\bs{x}) = \sum_{\theta \in \Theta} h(\theta) f(\bs{x} \mid \theta), \quad \bs{x} \in S \] si el parámetro tiene una distribución discreta, o por\[ f(\bs{x}) = \int_\Theta h(\theta) f(\bs{x} \mid \theta) \, d\theta, \quad \bs{x} \in S \] si el parámetro tiene una continua distribución. Finalmente, según el teorema de Bayes, la función de densidad de probabilidad posterior de\(\theta\) dado\(\bs{x} \in S\) es\[ h(\theta \mid \bs{x}) = \frac{h(\theta) f(\bs{x} \mid \theta)}{f(\bs{x})}, \quad \theta \in \Theta \]

En algunos casos, podemos reconocer la distribución posterior a partir de la forma funcional de\(\theta \mapsto h(\theta) f(\bs{x} \mid \theta)\) sin tener que calcular realmente la constante normalizadora\(f(\bs{x})\), reduciendo así la carga computacional significativamente. En particular, este suele ser el caso cuando tenemos una familia paramétrica conjugada de distribuciones de\(\theta\). Recordemos que esto significa que cuando la distribución previa de\(\theta\) pertenece a la familia, también lo hace la distribución posterior dada\(\bs{x} \in S\).

Conjuntos de confianza

Ahora deja\(C(\bs{X})\) ser un conjunto de confianza (es decir, un subconjunto del espacio de parámetros que depende de la variable de datos\(\bs{X}\) pero no de parámetros desconocidos). Una posible definición de un conjunto de confianza bayesiana de\(1 - \alpha\) nivel requiere que\[ \P\left[\theta \in C(\bs{x}) \mid \bs{X} = \bs{x}\right] = 1 - \alpha \] En esta definición, solo\(\theta\) es aleatorio y así la probabilidad anterior se calcula usando la función de densidad de probabilidad posterior\(\theta \mapsto h(\theta \mid \bs{x})\). Otra posible definición requiere que\[ \P\left[\theta \in C(\bs{X})\right] = 1 - \alpha \] en esta definición,\(\bs{X}\) y\(\theta\) sean ambas aleatorias, y así la probabilidad anterior se calcularía utilizando la función de densidad de probabilidad conjunta\((\bs{x}, \theta) \mapsto h(\theta) f(\bs{x} \mid \theta)\). Cualesquiera que sean los argumentos filosóficos, la primera definición es sin duda la más fácil desde un punto de vista computacional, y por lo tanto es la más utilizada.

Comparemos los enfoques clásico y bayesiano. En el enfoque clásico, el parámetro\(\theta\) es determinista, pero desconocido. Antes de que se recojan los datos, el conjunto de confianza\(C(\bs{X})\) (que es aleatorio en virtud de\(\bs{X}\)) contendrá el parámetro con probabilidad\(1 - \alpha\). Después de recopilar los datos, el conjunto de confianza calculado contiene\(C(\bs{x})\)\(\theta\) o no, y por lo general nunca sabremos cuál. Por el contrario, en un conjunto de confianza bayesiana, el parámetro aleatorio\(\theta\) cae en el conjunto de confianza determinista calculado\(C(\bs{x})\) con probabilidad\(1 - \alpha\).

Parámetros reales

Supongamos que eso\(\theta\) es real valorado, así que eso\(\Theta \subseteq \R\). Para\(r \in (0, 1)\), podemos calcular el\(1 - \alpha\) nivel de intervalo de confianza bayesiano como\(\left[U_{(1 - r) \alpha}(\bs{x}), U_{1 - r \alpha}(\bs{x})\right]\) donde\(U_p(\bs{x})\) está el cuantil de orden\(p\) para la distribución posterior de\(\theta\) dado\(\bs{X} = \bs{x}\). Al igual que en secciones pasadas,\(r\) es la fracción de\(\alpha\) en la cola derecha de la distribución posterior y\(1 - r\) es la fracción de\(\alpha\) en la cola izquierda de la distribución posterior. Como de costumbre,\(r = \frac{1}{2}\) da el intervalo de confianza simétrico, de dos lados; dejar\(r \to 0\) da el límite inferior de confianza; y dejar\(r \to 1\) da el límite superior de confianza.

Muestras Aleatorias

En cuanto a nuestro vector de datos\(\bs{X}\) el caso especial más importante surge cuando tenemos una variable básica\(X\) con valores en un conjunto\(R\), y dado\(\theta\),\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de tamaño\(n\) de\(X\). Es decir, dada\(\theta\),\(\bs{X}\) es una secuencia de variables independientes, distribuidas idénticamente, cada una con la misma distribución\(X\) dada\(\theta\). Así\(S = R^n\) y si\(X\) tiene función de densidad de probabilidad condicional\(g(x \mid \theta)\), entonces\[f(\bs{x} \mid \theta) = g(x_1 \mid \theta) g(x_2 \mid \theta) \cdots g(x_n \mid \theta), \quad \bs{x} = (x_1, x_2, \ldots, x_n) \in S\]

Aplicaciones

La distribución de Bernoulli

Supongamos que\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de tamaño\(n\) de la distribución de Bernoulli con parámetro de éxito desconocido\(p \in (0, 1)\). En el lenguaje habitual de confiabilidad,\(X_i = 1\) significa éxito en el juicio\(i\) y\(X_i = 0\) significa fracaso en juicio\(i\). La distribución lleva el nombre de Jacob Bernoulli. Recordemos que la distribución de Bernoulli tiene función de densidad de probabilidad (dada\(p\))\[ g(x \mid p) = p^x (1 - p)^{1-x}, \quad x \in \{0, 1\} \] Tenga en cuenta que el número de éxitos en los\(n\) ensayos es\(Y = \sum_{i=1}^n X_i\). Dado\(p\), la variable aleatoria\(Y\) tiene la distribución binomial con parámetros\(n\) y\(p\).

En nuestra discusión previa sobre la estimación bayesiana, demostramos que la distribución beta es conjugada para\(p\). Específicamente, si la distribución previa de\(p\) es beta con parámetro izquierdo\(a \gt 0\) y parámetro derecho\(b \gt 0\), entonces la distribución posterior de\(p\) dado\(\bs{X}\) es beta con parámetro izquierdo\(a + Y\) y parámetro derecho\(b + (n - Y)\); el parámetro izquierdo se incrementa en el número de éxitos y el parámetro correcto por el número de fracasos. De ello se deduce que un\(1 - \alpha\) nivel de intervalo de confianza bayesiano para\(p\)\(U_r(y)\) es\(\left[U_{\alpha/2}(y), U_{1-\alpha/2}(y)\right]\) donde está el cuantil de orden\(r\) para la distribución beta posterior. En el caso especial\(a = b = 1\) la distribución previa es uniforme\((0, 1)\) y refleja una falta de conocimiento previo sobre\(p\).

Supongamos que tenemos una moneda con una probabilidad desconocida\(p\) de cabezas, y que damos\(p\) el uniforme previo, reflejando nuestro desconocimiento sobre\(p\). Luego arrojamos la moneda 50 veces, observando 30 cabezas.

Encontrar la distribución posterior de\(p\) dados los datos.
Construir el intervalo de confianza bayesiano del 95%.
Construir el intervalo de confianza clásico de Wald al nivel de 95%.

Contestar

Beta con parámetro izquierdo 31 y parámetro derecho 21.
\([0.461, 0.724\)
\([0.464, 0.736]\)

La distribución de Poisson

Supongamos que\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de tamaño\(n\) de la distribución de Poisson con parámetro\(\lambda \in (0, \infty)\). Recordemos que la distribución de Poisson se utiliza a menudo para modelar el número de puntos aleatorios en una región de tiempo o espacio y se estudia con más detalle en el capítulo sobre el Proceso de Poisson. La distribución se nombra por el inimitable Simeon Poisson y dado\(\lambda\), tiene función de densidad de probabilidad\[ g(x \mid \theta) = e^{-\lambda} \frac{\lambda^x}{x!}, \quad x \in \N \] Como de costumbre, denotaremos la suma de los valores de la muestra por\(Y = \sum_{i=1}^n X_i\). Dado\(\lambda\), la variable aleatoria\(Y\) también tiene una distribución de Poisson, pero con parámetro\(n \lambda\).

En nuestra discusión previa sobre la estimación bayesiana, demostramos que la distribución gamma es conjugada para\(\lambda\). Específicamente, si la distribución anterior de\(\lambda\) es gamma con parámetro de forma\(k \gt 0\) y parámetro de tasa\(r \gt 0\) (de manera que el parámetro de escala es\(1 / r\)), entonces la distribución posterior de\(\lambda\) dada\(\bs{X}\) es gamma con parámetro de forma\(k + Y\) y parámetro de tasa\(r + n\). De ello se deduce que un intervalo de confianza bayesiano de\(1 - \alpha\) nivel para\(\lambda\)\(U_p(y)\) es\(\left[U_{\alpha/2}(y), U_{1-\alpha/2}(y)\right]\) donde está el cuantil de orden\(p\) para la distribución gamma posterior.

Consideremos los datos de emisiones alfa, que creemos provienen de una distribución de Poisson con parámetro desconocido\(\lambda\). Supongamos que a priori, creemos que\(\lambda\) es aproximadamente 5, por lo que damos\(\lambda\) una distribución gamma previa con el parámetro shape\(5\) y el parámetro rate 1. (Así, la media es 5 y la desviación estándar\(\sqrt{5} = 2.236\).)

Encontrar la distribución posterior de\(\lambda\) dados los datos.
Construir el intervalo de confianza bayesiano del 95%.
Construir el intervalo de\(t\) confianza clásico en el nivel de 95%.

Contestar

Gamma con parámetro de forma 10104 y parámetro de velocidad 1208.
\((8.202, 8.528)\)
\((8.324, 8.410)\)

La distribución normal

Supongamos que\(\bs{x} = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de tamaño\(n\) de la distribución normal con media desconocida\(\mu \in \R\) y varianza conocida\(\sigma^2 \in (0, \infty)\). Por supuesto, la distribución normal juega un papel especialmente importante en la estadística, en parte por el teorema del límite central. La distribución normal es ampliamente utilizada para modelar cantidades físicas sujetas a numerosos errores pequeños y aleatorios. Recordemos que la función de densidad de probabilidad normal (dados los parámetros) es\[ g(x \mid \mu, \sigma) = \frac{1}{\sqrt{2 \pi} \sigma} \exp\left[-\left(\frac{x - \mu}{\sigma}\right)^2 \right], \quad x \in \R \] Denotamos la suma de los valores de la muestra por\(Y = \sum_{i=1}^n X_i\). Recordemos que\(Y\) también tiene una distribución normal (dada\(\mu\) y\(\sigma\)), pero con media\(n \mu\) y varianza\(n \sigma^2\).

En nuestra discusión previa sobre la estimación bayesiana, demostramos que la distribución normal es conjugada para\(\mu\) (con\(\sigma\) conocida). Específicamente, si la distribución previa de\(\mu\) es normal con media\(a \in \R\) y desviación estándar\(b \in (0, \infty)\), entonces la distribución posterior de\(\mu\) dado también\(\bs{X}\) es normal, con\[\E(\mu \mid \bs{X}) = \frac{Y b^2 + a \sigma^2}{\sigma^2 + n b^2}, \quad \var(\mu \mid \bs{X}) = \frac{\sigma^2 b^2}{\sigma^2 + n b^2}\] Se deduce que un\(1 - \alpha\) nivel de intervalo de confianza bayesiano para\(\mu\) es \(\left[U_{\alpha/2}(y), U_{1-\alpha/2}(y)\right]\)donde\(U_p(y)\) está el cuantil de orden\(p\) para la distribución normal posterior. Un caso especial interesante es cuándo\(b = \sigma\), de manera que la desviación estándar de la distribución previa de\(\mu\) es la misma que la desviación estándar de la distribución muestral. En este caso, la media posterior es\((Y + a) \big/ (n + 1)\) y la varianza posterior es\(\sigma^2 \big/ (n + 1)\)

Se supone que la longitud de cierta pieza mecanizada es de 10 centímetros pero debido a las imperfecciones en el proceso de fabricación, la longitud real se distribuye normalmente con media\(\mu\) y varianza\(\sigma^2\). La varianza se debe a factores inherentes al proceso, que se mantienen bastante estables a lo largo del tiempo. A partir de datos históricos, se sabe que\(\sigma = 0.3\). Por otro lado, se\(\mu\) puede establecer ajustando diversos parámetros en el proceso y por lo tanto puede cambiar a un valor desconocido con bastante frecuencia. Así, supongamos que damos\(\mu\) con una distribución normal previa con media 10 y desviación estándar 0.03 Una muestra de 100 partes tiene media 10.2.

Encontrar la distribución posterior de\(\mu\) dados los datos.
Construir el intervalo de confianza bayesiano del 95%.
Construir el intervalo de\(z\) confianza clásico en el nivel de 95%.

Contestar

Normal con media 10.198 y desviación estándar 0.0299.
\((10.14, 10.26)\)
\((10.14, 10.26)\)

La distribución beta

Supongamos que\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de tamaño\(n\) de la distribución beta con parámetro de forma izquierda desconocida\(a \in (0, \infty)\) y parámetro de forma derecha\(b = 1\). La distribución beta es ampliamente utilizada para modelar proporciones y probabilidades aleatorias y otras variables que toman valores en intervalos acotados. Recordemos que la función de densidad de probabilidad (dada\(a\)) es\[ g(x \mid a) = a x^{a-1}, \quad x \in (0, 1) \] Denotamos el producto de los valores de la muestra por\(W = X_1 X_2 \cdots X_n\).

En nuestra discusión previa sobre la estimación bayesiana, demostramos que la distribución gamma es conjugada para\(a\). Específicamente, si la distribución anterior de\(a\) es gamma con parámetro de forma\(k \gt 0\) y parámetro de velocidad\(r \gt 0\), entonces la distribución posterior de\(a\) dado también\(\bs{X}\) es gamma, con parámetro de forma\(k + n\) y parámetro de velocidad\(r - \ln(W)\). De ello se deduce que un intervalo de confianza bayesiano de\(1 - \alpha\) nivel para\(a\)\(U_p(w)\) es\(\left[U_{\alpha/2}(w), U_{1-\alpha/2}(w)\right]\) donde está el cuantil de orden\(p\) para la distribución gamma posterior. En el caso especial que\(k = 1\), la distribución previa de\(a\) es exponencial con parámetro de tasa\(r\).

Supongamos que la resistencia de un componente eléctrico (en Ohmios) tiene la distribución beta con parámetro izquierdo desconocido\(a\) y parámetro derecho\(b = 1\). Creemos que\(a\) puede ser alrededor de 10, por lo que damos\(a\) la distribución gamma anterior con el parámetro de forma 10 y el parámetro de tasa 1. Muestreamos 20 componentes y observamos los datos\[0.98, 0.93, 0.99, 0.89, 0.79, 0.99, 0.92, 0.97, 0.88, 0.97, 0.86, 0.84, 0.96, 0.97, 0.92, 0.90, 0.98, 0.96, 0.96, 1.00\]

Encuentra la distribución posterior de\(a\).
Construir el intervalo de confianza bayesiano del 95% para\(a\).

Contestar

Gamma con parámetro de forma 30 y parámetro de velocidad 2.424.
\((8.349, 17.180)\)

La distribución de Pareto

Supongamos que\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una muestra aleatoria de tamaño\(n\) de la distribución de Pareto con parámetro shape\(a \in (0, \infty)\) y parámetro scale\(b = 1\). La distribución de Pareto se utiliza para modelar ciertas variables financieras y otras variables con distribuciones de cola pesada, y se denomina así por Vilfredo Pareto. Recordemos que la función de densidad de probabilidad (dada\(a\)) es\[ g(x \mid a) = \frac{a}{x^{a+1}}, \quad x \in [1, \infty) \] Denotamos el producto de los valores de la muestra por\(W = X_1 X_2 \cdots X_n\).

En nuestra discusión previa sobre la estimación bayesiana, demostramos que la distribución gamma es conjugada para\(a\). Específicamente, si la distribución anterior de\(a\) es gamma con parámetro de forma\(k \gt 0\) y parámetro de velocidad\(r \gt 0\), entonces la distribución posterior de\(a\) dado también\(\bs{X}\) es gamma, con parámetro de forma\(k + n\) y parámetro de velocidad\(r + \ln(W)\). De ello se deduce que un intervalo de confianza bayesiano de\(1 - \alpha\) nivel para\(a\)\(U_p(w)\) es\(\left[U_{\alpha/2}(w), U_{1-\alpha/2}(w)\right]\) donde está el cuantil de orden\(p\) para la distribución gamma posterior. En el caso especial que\(k = 1\), la distribución previa de\(a\) es exponencial con parámetro de tasa\(r\).

Supongamos que una variable financiera tiene la distribución de Pareto con parámetro de forma\(a\) y parámetro de escala desconocidos\(b = 1\). Creemos que\(a\) puede ser de aproximadamente 4, por lo que damos\(a\) la distribución gamma anterior con el parámetro de forma 4 y el parámetro de tasa 1. Una muestra aleatoria de tamaño 20 de la variable da los datos\[1.09, 1.13, 2.00, 1.43, 1.26, 1.00, 1.36, 1.03, 1.46, 1.18, 2.16, 1.16, 1.22, 1.06, 1.28, 1.23, 1.11, 1.03, 1.04, 1.05\]

Encuentra la distribución posterior de\(a\).
Construir el intervalo de confianza bayesiano del 95% para\(a\).

Contestar

Gamma con parámetro de forma 24 y parámetro de velocidad 5.223.
\((2.944, 6.608)\)