7.4: Estimación bayesiana

Última actualización
Guardar como PDF

Page ID: 152031

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

\(\newcommand{\R}{\mathbb{R}}\)\(\newcommand{\N}{\mathbb{N}}\)\(\newcommand{\Z}{\mathbb{Z}}\)\(\newcommand{\E}{\mathbb{E}}\)\(\newcommand{\P}{\mathbb{P}}\)\(\newcommand{\var}{\text{var}}\)\(\newcommand{\sd}{\text{sd}}\)\(\newcommand{\cov}{\text{cov}}\)\(\newcommand{\cor}{\text{cor}}\)\(\newcommand{\bias}{\text{bias}}\)\(\newcommand{\mse}{\text{mse}}\)\(\newcommand{\bs}{\boldsymbol}\)

Teoría Básica

El Método General

Supongamos nuevamente que tenemos una variable aleatoria observable\(\bs{X}\) para un experimento, que toma valores en un conjunto\(S\). Supongamos también que la distribución de\(\bs{X}\) depende de que un parámetro\(\theta\) tome valores en un espacio de parámetros\(T\). Por supuesto, nuestra variable de datos\(\bs{X}\) es casi siempre vectorizada, por lo que normalmente\( S \subseteq \R^n \) para algunos\( n \in \N_+ \). Dependiendo de la naturaleza del espacio muestral\( S \), la distribución de\( \bs X \) puede ser discreta o continua. El parámetro también\(\theta\) puede ser vectorizado, de modo que normalmente\( T \subseteq \R^k \) para algunos\( k \in \N_+ \).

En el análisis bayesiano, llamado así por el famoso Thomas Bayes, modelamos el parámetro determinista, pero desconocido\(\theta\) con una variable aleatoria\( \Theta \) que tiene una distribución especificada en el espacio de parámetros\( T \). Dependiendo de la naturaleza del espacio de parámetros, esta distribución también puede ser discreta o continua. Se llama distribución previa de\(\Theta\) y se pretende reflejar nuestro conocimiento del parámetro\( \theta \), antes de recopilar datos. Después de observar\(\bs X = \bs x \in S\), utilizamos entonces el teorema de Bayes, para calcular la distribución condicional de\( \Theta \) dado\( \bs X = \bs x \). Esta distribución se denomina distribución posterior de\( \Theta \), y es una distribución actualizada, dada la información en los datos. Aquí está la descripción matemática, expresada en términos de funciones de densidad de probabilidad.

Supongamos que la distribución anterior de\( \Theta \) on\( T \) tiene función de densidad de probabilidad\( h \), y eso dado\( \Theta = \theta \in T \), la función de densidad de probabilidad condicional de\( \bs X \) on\( S \) es\( f(\cdot \mid \theta) \). Entonces la función de densidad de probabilidad de la distribución posterior de\( \Theta \) dado\( \bs X = \bs x \in S \) es\[ h(\theta \mid \bs x) = \frac{h(\theta) f(\bs x \mid \theta)}{f(\bs x)}, \quad \theta \in T \] donde la función en el denominador se define de la siguiente manera, en los casos discretos y continuos, respectivamente:\ begin {align*} f (\ bs x) & =\ sum_ {\ theta\ in T} h (\ theta) f (\ bs x |\ theta),\ cuádruple\ bs x\ en S\\ f (\ bs x) & =\ int_t h (\ theta) f (\ bs {x}\ mediados\ theta)\, d\ theta,\ quad\ bs x\ en S\ final {alinear*}

Prueba

Esto es solo el teorema de Bayes con nueva terminología. Recordemos que la función conjunta de densidad de probabilidad de\((\bs{X}, \Theta)\) es el mapeo en\(S \times T\) dado por\[ (\bs{x}, \theta) \mapsto h(\theta) f(\bs{x} \mid \theta) \] Entonces la función en el denominador es la función de densidad de probabilidad marginal de\( \bs X \). Entonces, por definición,\( h(\theta \mid x) = h(\theta) f(\bs x \mid \theta) / f(\bs x) \) para\( \theta \in T \) es la función de densidad de probabilidad condicional de\( \Theta \) dado\( \bs X = \bs x \).

Porque\( \bs x \in S \), tenga en cuenta que\(f(\bs{x})\) es simplemente la constante normalizadora para la función\(\theta \mapsto h(\theta) f(\bs{x} \mid \theta)\). Puede que no sea necesario computar explícitamente\(f(\bs{x})\), si se puede reconocer la forma funcional de\(\theta \mapsto h(\theta) f(\bs{x} \mid \theta)\) como la de una distribución conocida. De hecho, este será el caso en varios de los ejemplos que se exploran a continuación.

Si el espacio de parámetros\( T \) tiene medida finita\( c \) (medida de conteo en el caso discreto o medida de Lebesgue en el caso continuo), entonces una posible distribución previa es la distribución uniforme en\( T \), con función de densidad de probabilidad\( h(\theta) = 1 / c \) para\( \theta \in T \). Esta distribución no refleja ningún conocimiento previo sobre el parámetro, y así se llama distribución previa no informativa.

Muestras Aleatorias

Por supuesto, un caso especial importante y esencial ocurre cuando\(\bs{X} = (X_1, X_2, \ldots, X_n)\) se trata de una muestra aleatoria de tamaño\(n\) a partir de la distribución de una variable básica\(X\). Específicamente, supongamos que\(X\) toma valores en un conjunto\(R\) y tiene función de densidad de probabilidad\(g(\cdot \mid \theta)\) para un dado\(\theta \in T\). En este caso,\(S = R^n\) y la función de densidad de probabilidad\( f(\cdot \mid \theta) \) de\(\bs{X}\) dado\(\theta\) es\[ f(x_1, x_2, \ldots, x_n \mid \theta) = g(x_1 \mid \theta) g(x_2 \mid \theta) \cdots g(x_n \mid \theta), \quad (x_1, x_2, \ldots, x_n) \in S \]

Parámetros reales

Supongamos que\( \theta \) es un parámetro de valor real, así que eso\( T \subseteq \R \). Aquí está nuestra definición principal.

El valor esperado condicional\(\E(\Theta \mid \bs{X})\) es el estimador bayesiano de\(\theta\).

Si\( \Theta \) tiene una distribución discreta en\( T \) entonces\[\E(\Theta \mid \bs X = \bs x) = \sum_{\theta \in T} \theta h(\theta \mid \bs x), \quad \bs x \in S \]
Si\( \Theta \) tiene una distribución continua en\( T \) entonces\[\E(\Theta \mid \bs X = \bs x) = \int_T \theta h(\theta \mid \bs x) d\theta, \quad \bs x \in S\]

Recordemos que\(\E(\Theta \mid \bs{X})\) es una función de\(\bs{X}\) y, entre todas las funciones de\(\bs{X}\), está más cerca\(\Theta\) en el sentido cuadrático medio. Por supuesto, una vez que recogemos los datos y observamos\(\bs{X} = \bs{x}\), la estimación bayesiana de\(\theta\) es\(\E(\Theta \mid \bs{X} = \bs{x})\). Como siempre, el término estimador se refiere a una variable aleatoria, antes de que se recojan los datos, y el término estimación se refiere a un valor observado de la variable aleatoria después de que se recopilen los datos. Las definiciones de sesgo y error cuadrático medio son como antes, pero ahora condicionadas\( \Theta = \theta \in T\).

Supongamos que ese\( U \) es el estimador Bayes de\( \theta \).

El sesgo de\( U \) es\(\bias(U \mid \theta) = \E(U - \theta \mid \Theta = \theta) \) para\( \theta \in T \).
El error cuadrático medio de\( U \) es\( \mse(U \mid \theta) = \E[(U - \theta)^2 \mid \Theta = \theta] \) para\( \theta \in T \).

Como antes,\( \bias(U \mid \theta) = \E(U \mid \theta) - \theta \) y\( \mse(U \mid \theta) = \var(U \mid \theta) + \bias^2(U \mid \theta) \). Supongamos ahora que observamos las variables aleatorias\( (X_1, X_2, X_3, \ldots) \) secuencialmente, y calculamos el estimador Bayes\( U_n \) de\( \theta \) basado en\( (X_1, X_2, \ldots, X_n) \) para cada una\( n \in \N_+ \). Nuevamente, el caso más común es cuando estamos muestreando a partir de una distribución, de manera que la secuencia es independiente e idéntica distribuida (dada\( \theta \)). Tenemos las propiedades asintóticas naturales que hemos visto antes.

\( \bs U = (U_n: n \in \N_+) \)Sea la secuencia de estimadores Bayes de\( \theta \) como arriba.

\( \bs U \)es asintóticamente imparcial si\( \bias(U_n \mid \theta) \to 0 \) como\( n \to \infty \) para cada uno\( \theta \in T \).
\( \bs U \)es consistente en la media cuadrática si\( \mse(U_n \mid \theta) \to 0 \) como\( n \to \infty \) para cada uno\( \theta \in T \).

Muchas veces no podemos construir estimadores bayesianos imparciales, pero sí esperamos que nuestros estimadores sean al menos asintóticamente imparciales y consistentes. Resulta que la secuencia de estimadores bayesianos\( \bs U \) es una martingala. La teoría de las martingales proporciona algunas herramientas poderosas para estudiar estos estimadores.

Desde la perspectiva bayesiana, la distribución posterior de\( \Theta \) dados los datos\( \bs X = \bs x \) es de primordial importancia. Las estimaciones puntuales de\( \theta \) derivadas de esta distribución son de importancia secundaria. En particular, la función de error cuadrático medio\( u \mapsto \E[(\Theta - u)^2 \mid \bs X = \bs x) \), minimizada como hemos señalado en\( \E(\Theta \mid \bs X = \bs x) \), no es la única función de pérdida que se puede utilizar. (Aunque es el único que consideramos.) Otra posible función de pérdida, entre muchas, es la función de error absoluto medio\( u \mapsto \E(|\Theta - u| \mid \bs X = \bs x) \), que sabemos que se minimiza en la (s) mediana (s) de la distribución posterior.

Familias Conjugadas

A menudo, la distribución previa de\( \Theta \) es en sí misma un miembro de una familia paramétrica, con los parámetros especificados para reflejar nuestro conocimiento previo de\( \theta \). En muchos casos especiales importantes, se puede elegir la familia paramétrica para que la distribución posterior de\(\Theta\) dado\(\bs{X} = \bs{x}\) pertenezca a la misma familia para cada uno\( \bs x \in S \). En tal caso, se dice que la familia de distribuciones de\( \Theta \) está conjugada con la familia de distribuciones de\(\bs{X}\). Las familias conjugadas son agradables desde el punto de vista computacional, ya que muchas veces podemos calcular la distribución posterior a través de una fórmula simple que involucra los parámetros de la familia, sin tener que usar directamente el teorema de Bayes. De igual manera, en el caso de que el parámetro sea de valor real, a menudo podemos calcular el estimador bayesiano a través de una fórmula simple que involucra los parámetros de la familia conjugada.

Distribuciones especiales

La distribución de Bernoulli

Supongamos que\(\bs X = (X_1, X_2, \ldots)\) es secuencia de variables independientes, teniendo cada una la distribución de Bernoulli con parámetro de éxito desconocido\(p \in (0, 1)\). En definitiva,\( \bs X \) es una secuencia de ensayos de Bernoulli, dada\( p \). En el lenguaje habitual de confiabilidad,\(X_i = 1\) significa éxito en juicio\(i\) y\(X_i = 0\) significa fracaso en juicio\(i\). Recordemos que dado\( p \), la distribución de Bernoulli tiene función de densidad de probabilidad\[ g(x \mid p) = p^x (1 - p)^{1-x}, \quad x \in \{0, 1\} \] Tenga en cuenta que el número de éxitos en los primeros\(n\) ensayos es\(Y_n = \sum_{i=1}^n X_i\). Dado\(p\), la variable aleatoria\(Y_n\) tiene la distribución binomial con parámetros\(n\) y\(p\).

Supongamos ahora que\(p\) modelizamos con una variable aleatoria\( P \) que tiene una distribución beta previa con parámetro izquierdo\(a \in (0, \infty)\) y parámetro derecho\(b \in (0, \infty)\), donde\(a\) y\(b\) se eligen para reflejar nuestra información inicial sobre\(p\). Así\( P \) tiene la función de densidad de probabilidad\[ h(p) = \frac{1}{B(a, b)} p^{a-1} (1 - p)^{b-1}, \quad p \in (0, 1) \] y tiene media\( a / (a + b) \). Por ejemplo, si no sabemos nada sobre\(p\), podríamos dejar\(a = b = 1\), para que la distribución previa sea uniforme en el espacio de parámetros\((0, 1)\) (el previo no informativo). Por otro lado, si creemos que\(p\) se trata de\(\frac{2}{3}\), podríamos dejar\(a = 4\) y\(b = 2\), para que la distribución previa sea unimodal, con media\(\frac{2}{3}\). Como proceso aleatorio, la secuencia\( \bs X \) con\( p \) aleatorizado por\( P \), se conoce como el proceso beta-Bernoulli, y es muy interesante por sí sola, fuera del contexto de la estimación bayesiana.

Para\( n \in \N_+ \), la distribución posterior de\(P\) dado\(\bs{X}_n = (X_1, X_2, \ldots, X_n)\) es beta con parámetro izquierdo\(a + Y_n\) y parámetro derecho\(b + (n - Y_n)\).

Prueba

Arreglar\( n \in \N_+ \). Vamos\( \bs x = (x_1, x_2, \ldots, x_n) \in \{0, 1\}^n \), y vamos\( y = \sum_{i=1}^n x_i \). Entonces\[ f(\bs x \mid p) = g(x_1 \mid p) g(x_2 \mid p) \cdots g(x_n \mid p) = p^y (1 - p)^{n-y} \] De ahí\[ h(p) f(\bs x \mid p) = \frac{1}{B(a, b)} p^{a-1} (1 - p)^{b-1} p^y (1 - p)^{n-y} = \frac{1}{B(a, b)}p^{a + y - 1} (1 - p)^{b + n - y - 1}, \quad p \in (0, 1) \] En función de\( p \) esta expresión es proporcional al PDF beta con parámetros\( a + y \),\( b + n - y \). Tenga en cuenta que no es necesario computar el factor de normalización\( f(\bs x) \).

Así, la distribución beta es conjugada con la distribución de Bernoulli. Obsérvese también que la distribución posterior depende del vector de datos\(\bs{X}_n\) solo a través del número de éxitos\(Y_n\). Esto es cierto porque\(Y_n\) es una estadística suficiente para\(p\). En particular, tenga en cuenta que el parámetro beta izquierdo se incrementa por el número de éxitos\(Y_n\) y el parámetro beta derecho se incrementa por el número de fallas\(n - Y_n\).

El estimador bayesiano de\(p\) dado\(\bs{X}_n\) es\[ U_n = \frac{a + Y_n}{a + b + n} \]

Prueba

Recordemos que la media de la distribución beta es el parámetro izquierdo dividido por la suma de los parámetros, por lo que este resultado se desprende del resultado anterior.

En el experimento de monedas beta, set\(n = 20\) y\(p = 0.3\), y set\(a = 4\) y\(b = 2\). Ejecute la simulación 100 veces y anote la estimación\(p\) y la forma y ubicación de la función de densidad de probabilidad posterior de\(p\) en cada ejecución.

A continuación, calculemos las funciones de sesgo y error cuadrático medio.

Para\( n \in \N_+ \),\[ \bias(U_n \mid p) = \frac{a(1 - p) - b p}{a + b + n}, \quad p \in (0, 1) \] La secuencia\( \bs U = (U_n: n \in \N_+) \) es asintóticamente imparcial.

Prueba

Dado\( p \),\( Y_n \) tiene la distribución binomial con parámetros\( n \) y\( p \) así\( E(Y_n \mid p) = n p \). De ahí\[ \bias(U_n \mid p) = \E(U_n \mid p) - p = \frac{a + n p}{a + b + n} - p\] Simplificar da la fórmula anterior. Claramente\( \bias(U_n \mid p) \to 0 \) como\( n \to \infty \).

Obsérvese también que no podemos elegir\(a\) y\(b\) hacer\(U_n\) imparciales, ya que tal elección implicaría el verdadero valor de\(p\), que desconocemos.

En el experimento de monedas beta, variar los parámetros y anotar el cambio en el sesgo. Ahora establece\(n = 20\) y\(p = 0.8\), y establece\(a = 2\) y\(b = 6\). Ejecute la simulación 1000 veces. Anote la estimación\(p\) y la forma y ubicación de la función de densidad de probabilidad posterior de\(p\) en cada actualización. Comparar el sesgo empírico con el sesgo verdadero.

Para\( n \in \N_+ \),\[ \mse(U_n \mid p) = \frac{p [n - 2 \, a (a + b)] + p^2[(a + b)^2 - n] + a^2}{(a + b + n)^2}, \quad p \in (0, 1) \] La secuencia\( (U_n: n \in \N_+) \) es media cuadrática consistente.

Prueba

Una vez más, dado\( p \),\( Y_n \) tiene la distribución binomail con parámetros\( n \) y\( p \) así\[ \var(U_n \mid p) = \frac{n p (1 - p)}{(a + b + n)^2} \] por lo tanto\[ \mse(U_n \mid p) = \frac{n p (1 - p)}{(a + b + n)^2} + \left[\frac{a (1 - p) - b p}{a + b + n}\right]^2 \] Simplifying da el resultado. Claramente\( \mse(U_n \mid p) \to 0 \) como\( n \to \infty \).

En el experimento de monedas beta, variar los parámetros y anotar el cambio en el error cuadrático medio. Ahora establece\(n = 10\) y\(p = 0.7\), y establece\(a = b = 1\). Ejecute la simulación 1000 veces. Anote la estimación\(p\) y la forma y ubicación de la función de densidad de probabilidad posterior de\(p\) en cada actualización. Comparar el error cuadrático medio empírico con el verdadero error cuadrático medio.

Curiosamente, podemos elegir\(a\) y\(b\) así que\(U\) tiene un error cuadrático medio que es independiente del parámetro desconocido\(p\):

Dejar\( n \in \N_+ \) y dejar\(a = b = \sqrt{n} / 2\). Entonces

\[ \mse(U_n \mid p) = \frac{n}{4 \left(n + \sqrt{n}\right)^2}, \quad p \in (0, 1) \]

En el experimento de monedas beta, set\(n = 36\) y\(a = b = 3\). Varíe\(p\) y tenga en cuenta que el error cuadrático medio no cambia. Ahora configura\(p = 0.8\) y ejecuta la simulación 1000 veces. Anote la estimación\(p\) y la forma y ubicación de la función de densidad de probabilidad posterior en cada actualización. Comparar el sesgo empírico y el error cuadrático medio con los valores verdaderos.

Recordemos que el método de estimador de momentos y el estimador de máxima verosimilitud de\(p\) (en el intervalo\( (0, 1) \)) es la media muestral (la proporción de éxitos):\[ M_n = \frac{Y}{n} = \frac{1}{n} \sum_{i=1}^n X_i \] Este estimador tiene error cuadrático medio\(\mse(M_n \mid p) = \frac{1}{n} p (1 - p)\). Para ver la conexión entre los estimadores, anote de (6)\[ U_n = \frac{a + b}{a + b + n} \frac{a}{a + b} + \frac{n}{a + b + n} M_n \] que So\( U_n \) es un promedio ponderado de\( a / (a + b) \) (la media de la distribución anterior) y\( M_n \) (el estimador de máxima verosimilitud).

Otra distribución de Bernoulli

La estimación bayesiana, al igual que otras formas de estimación paramétrica, depende críticamente del espacio de parámetros. Supongamos nuevamente que\( (X_1, X_2, \ldots) \) es una secuencia de ensayos de Bernoulli, dado el parámetro de éxito desconocido\( p \), pero supongamos ahora que el espacio de parámetros es\( \left\{\frac{1}{2}, 1\right\} \). Esta configuración corresponde al lanzar una moneda que sea justa o de dos cabezas, pero no sabemos cuál. Modelamos\( p \) con una variable aleatoria\(P\) que tiene la función de densidad de probabilidad previa\(h\) dada por\(h(1) = a\),\(h\left(\frac{1}{2}\right) = 1 - a\), donde\(a \in (0, 1)\) se elige para reflejar nuestro conocimiento previo de la probabilidad de que la moneda sea de dos cabezas. Si somos completamente ignorantes, podríamos dejar\( a = \frac{1}{2} \) (el previo no informativo). Si con pensar es más probable que la moneda sea de dos cabezas, podríamos dejar\( a = \frac{3}{4} \). Nuevamente dejemos\( Y_n = \sum_{i=1}^n X_i \) para\( n \in \N_+ \).

La distribución posterior de\(P\) dado\(\bs{X}_n = (X_1, X_2, \ldots, X_n)\) es

\(h(1 \mid \bs{X}_n) = \frac{2^n a}{2^n a + (1 - a)}\)si\(Y_n = n\) y\(h(1 \mid \bs{X}_n) = 0\) si\(Y_n \lt n \)
\(h\left(\frac{1}{2} \mid \bs{X}_n\right) = \frac{1 - a}{2^n a + (1 - a)}\)si\(Y_n = n\) y\(h\left(\frac{1}{2} \mid \bs{X}_n\right) = 1\) si\(Y_n \lt n\)

Prueba

Arreglar\( n \in \N_+ \). Vamos\( \bs x = (x_1, x_2, \ldots, x_n) \in \{0, 1\}^n \), y vamos\( y = \sum_{i=1}^n x_i \). Como antes,\[ f(\bs x \mid p) = p^y (1 - p)^{n-y} \] adoptamos las convenciones habituales (lo que da las matemáticas correctas) que\( 0^k = 0 \) si\( k \in \N_+ \) pero\( 0^0 = 1 \). Así que del teorema de Bayes,\ begin {align} h (1\ mid\ bs x) & =\ frac {h (1) f (\ bs x\ mid 1)} {h (1/2) f (\ bs x\ mid 1/2) + h (1) f (\ bs x\ mid 1)}\\ & =\ frac {a 1^y 0^ {n-y}} {(1 - a) (1/2) ^n + a 1^y 0^ {n-y}}\ end {align} Así que si\( y \lt n \) entonces\( h(1 \mid \bs x) = 0 \) mientras que si Por\( y = n \)\[ h(1 \mid \bs x) = \frac{a}{(1 - a)(1/2)^n + a} \] supuesto,\( h\left(\frac{1}{2} \mid \bs x\right) = 1 - h(1 \mid \bs x) \). Los resultados siguen ahora después de un poco de álgebra.

Ahora vamos\[ p_n = \frac{2^{n+1} a + (1 - a)}{2^{n+1} a + 2 (1 - a)} \]

El estimador de Bayes\(p\) dado\( \bs{X}_n \) el estadístico\(U_n\) definido por

\(U_n = p_n\)si\(Y_n = n\)
\(U_n = \frac{1}{2}\)si\(Y_n \lt n\)

Prueba

Por definición, el estimador de Bayes es\( U_n = E(P \mid \bs{X}_n) \). Del resultado anterior, si\( Y_n = n \) entonces\[ U_n = 1 \cdot \frac{2^n a}{2^n a + (1 - a)} + \frac{1}{2} \cdot \frac{1 - a}{2^n a + (1 - a)} \] lo que simplifica a\( p_n \). Si\( Y_n \lt n \) entonces\( U = 1 \cdot 0 + \frac{1}{2} \cdot 1 = \frac{1}{2} \).

Si observamos\( Y_n \lt n \) entonces\( U_n \) da la respuesta correcta\( \frac{1}{2} \). Esto ciertamente tiene sentido ya que sabemos que no tenemos la moneda de dos cabezas. Por otro lado, si observamos\( Y_n = n \) entonces no estamos seguros de qué moneda tenemos, ¡y la estimación bayesiana ni siquiera\( p_n \) está en el espacio de parámetros! Pero tenga en cuenta que\( p_n \to 1 \) como\( n \to \infty \) exponencialmente rápido. A continuación vamos a calcular el sesgo y el error cuadrático medio para un dado\( p \in \left\{\frac{1}{2}, 1\right\} \).

Para\( n \in \N_+ \),

\(\bias(U_n \mid 1) = p_n - 1\)
\(\bias\left(U_n \mid \frac{1}{2}\right) = \left(\frac{1}{2}\right)^n \left(p_n - \frac{1}{2}\right)\)

La secuencia de estimadores\( (U_n: n \in \N_+) \) es asintóticamente imparcial.

Prueba

Por definición,\( \bias(U_n \mid p) = E(U - p \mid p) \). De ahí del resultado anterior,\ begin {align}\ bias (U\ mid p) & = (p_n - p)\ P (Y = n\ mid p) +\ left (\ frac {1} {2} - p\ right)\ P (Y\ lt n\ mid p)\\ & = (p_n - p) p^n +\ left (\ frac {1} {2} - p\ right) (1 - p^n)\ end {align} Sustituyendo\( p = 1 \) y\( p = \frac{1}{2} \) da los resultados. En ambos casos,\( \bias(U_n \mid p) \to 0 \) como\( n \to \infty \) desde\( p_n \to 1 \) y\( \left(\frac{1}{2}\right)^n \to 0 \) como\( n \to \infty \).

Si\( p = 1 \), el estimador\( U_n \) está sesgado negativamente; esto lo notamos antes. Si\( p = \frac{1}{2} \), entonces\( U_n \) está sesgado positivamente para suficientemente grande\( n \) (dependiendo de\( a \)).

Para\( n \in \N_+ \),

\(\mse(U_n \mid 1) = (p_n - 1)^2\)
\(\mse\left(U_n \mid \frac{1}{2}\right) = \left(\frac{1}{2}\right)^n \left(p_n - \frac{1}{2}\right)^2\)

La secuencia de estimadores\( \bs U = (U_n: n \in \N_+) \) es de media cuadrática consistente.

Prueba

Por definición,\( \mse(U_n \mid p) = \E[(U_n - p)^2 \mid p] \). De ahí\ begin {align}\ mse (U_n\ mid p) & = (p_n - p) ^2\ P (Y_n = n\ mid p) +\ left (\ frac {1} {2} - p\ right) ^2\ P (Y_n\ lt n\ mid p)\\ & = (p_n - p) ^2 p^n +\ left (\ frac {1} {2} - p\ right) ^2 (1 - p^n)\ end {align} Sustituyendo\( p = 1 \) y\( p = \frac{1}{2} \) da los resultados. En ambos casos,\( \mse(U_n \mid p) \to 0 \) como\( n \to \infty \) desde\( p_n \to 1 \) y\( \left(\frac{1}{2}\right)^n \to 0 \) como\( n \to \infty \).

La distribución geométrica

Supongamos que\(\bs{X} = (X_1, X_2, \ldots)\) es una secuencia de variables aleatorias independientes, teniendo cada una la distribución geométrica encendida\(\N_+\) con parámetro de éxito desconocido\(p \in (0, 1)\). Recordemos que estas variables pueden interpretarse como el número de ensayos entre éxitos sucesivos en una secuencia de ensayos de Bernoulli. Dado\(p\), la distribución geométrica tiene función de densidad de probabilidad\[ g(x \mid p) = p (1 - p)^{x-1}, \quad x \in \N_+ \] Una vez más para\( n \in \N_+ \), let\(Y_n = \sum_{i=1}^n X_i\). En este escenario,\(Y_n\) se encuentra el número de prueba del éxito\(n\) th, y dado\(p\), tiene la distribución binomial negativa con parámetros\(n\) y\(p\).

Supongamos ahora que\(p\) modelamos con una variable aleatoria\( P \) que tiene una distribución beta previa con parámetro izquierdo\(a \in (0, \infty)\) y parámetro derecho\(b \in (0, \infty)\). Como es habitual,\(a\) y\(b\) son elegidos para reflejar nuestro conocimiento previo de\(p\).

La distribución posterior de\(P\) dado\(\bs{X}_n = (X_1, X_2, \ldots, X_n)\) es beta con parámetro izquierdo\(a + n\) y parámetro derecho\(b + (Y_n - n)\).

Prueba

Arreglar\( n \in \N_+ \). Dejar\( \bs x = (x_1, x_2, \ldots, x_n) \in \N_+^n \) y dejar\( y = \sum_{i=1}^n x_i \). Entonces\[ f(\bs x \mid p) = g(x_1 \mid p) g(x_2 \mid p) \cdots g(x_n \mid p) = p^n (1 - p)^{y - n} \] De ahí\[ h(p) f( \bs x \mid p) = \frac{1}{B(a, b)} p^{a-1} (1 - p)^{b-1} p^n (1 - p)^{y - n} = \frac{1}{B(a, b)} p^{a + n - 1} (1 - p)^{b + y - n - 1}, \quad p \in (0, 1) \] En función de\( p \in (0, 1) \) esta expresión es proporcional al PDF beta con parámetros\( a + n \) y\( b + y - n \). Tenga en cuenta que no es necesario calcular la constante normalizadora\(f(\bs{x})\).

Así, la distribución beta es conjugada con la distribución geométrica. Por otra parte, señalar que en la distribución beta posterior, el parámetro izquierdo se incrementa por el número de éxitos\(n\) mientras que el parámetro derecho se incrementa por el número de fallas\(Y - n\), al igual que en el modelo de Bernoulli. En particular, el parámetro posterior izquierdo es determinista y depende de los datos solo a través del tamaño de la muestra\( n \).

El estimador bayesiano de\(p\) basado en\( \bs{X}_n \) es\[ V_n = \frac{a + n}{a + b + Y_n} \]

Prueba

Por definición, el estimador bayesiano es la media de la distribución posterior. Recordemos nuevamente que la media de la distribución beta es el parámetro izquierdo dividido por la suma de los parámetros, por lo que el resultado se desprende de nuestro teorema anterior.

Recordemos que el método de estimador de momentos de\( p \), y el estimador de máxima verosimilitud de\(p\) en el intervalo\( (0, 1) \) son ambos\(W_n = 1 / M_n = n / Y_n\). Para ver la conexión entre los estimadores, anote de (19)\[ \frac{1}{V_n} = \frac{a}{a + n} \frac{a + b}{a} + \frac{n}{a + n} \frac{1}{W_n} \] que So\( 1 / V_n \) (el recíproco del estimador bayesiano) es un promedio ponderado de\( (a + b) / a \) (el recíproco de la media de la distribución anterior) y\( 1 / W_n \) (el recíproco del estimador de máxima verosimilitud).

La distribución de Poisson

Supongamos que\(\bs{X} = (X_1, X_2, \ldots)\) es una secuencia de variable aleatoria cada una teniendo la distribución de Poisson con parámetro desconocido\(\lambda \in (0, \infty)\). Recordemos que la distribución de Poisson se utiliza a menudo para modelar el número de puntos aleatorios en una región de tiempo o espacio y se estudia con más detalle en el capítulo sobre el Proceso de Poisson. La distribución lleva el nombre de la inimitable Simeon Poisson y dada\(\lambda\), tiene función de densidad de probabilidad\[ g(x \mid \lambda) = e^{-\lambda} \frac{\lambda^x}{x!}, \quad x \in \N \] Una vez más, para\( n \in \N_+ \), let\(Y_n = \sum_{i=1}^n X_i\). Dado\(\lambda\), la variable aleatoria\(Y_n\) también tiene una distribución de Poisson, pero con parámetro\(n \lambda\).

Supongamos ahora que modelamos\(\lambda\) con una variable aleatoria\( \Lambda \) que tiene una distribución gamma anterior con el parámetro shape\(k \in (0, \infty)\) y el parámetro rate\(r \in (0, \infty)\). Como de costumbre\(k\) y\(r\) son elegidos para reflejar nuestro conocimiento previo de\(\lambda\). Así, la función de densidad de probabilidad previa de\(\Lambda\) es\[ h(\lambda) = \frac{r^k}{\Gamma(k)} \lambda^{k-1} e^{-r \lambda}, \quad \lambda \in (0, \infty) \] y la media es\( k / r \). El parámetro scale de la distribución gamma es\(b = 1/r\), pero las fórmulas funcionarán mejor si usamos el parámetro rate.

La distribución posterior de\(\Lambda\) dado\(\bs{X}_n = (X_1, X_2, \ldots, X_n)\) es gamma con parámetro de forma\(k + Y_n\) y parámetro de velocidad\(r + n\).

Prueba

Arreglar\( n \in \N_+ \). Dejar\( \bs x = (x_1, x_2, \ldots, x_n) \in \N^n \) y\( y = \sum_{i=1}^n x_i \). Entonces\[ f(\bs x \mid \lambda) = g(x_1 \mid \lambda) g(x_2 \mid \lambda) \cdots g(x_n \mid \lambda) = e^{-n \lambda} \frac{\lambda^y}{x_1! x_2! \cdots x_n!} \] De ahí\ begin {align} h (\ lambda) f (\ bs x\ mid\ lambda) & =\ frac {r^k} {\ Gamma (k)}\ lambda^ {k-1} e^ {-r\ lambda} e^ {-n\ lambda}\ frac {\ lambda^y} {x_1! x_2! \ cdots x_n!} \\ & =\ frac {r^k} {\ Gamma (k) x_1! x_2! \ cdots x_n!} e^ {- (r + n)\ lambda}\ lambda^ {k + y - 1},\ quad\ lambda\ in (0,\ infty)\ end {align} Como función de\( \lambda \in (0, \infty) \) la última expresión es proporcional a la gamma PDF con parámetro shape\( k + y \) y parámetro rate\( r + n \). Observe nuevamente que no es necesario computar la constante normalizadora\(f(\bs{x})\).

De ello se deduce que la distribución gamma es conjugada con la distribución de Poisson. Tenga en cuenta que el parámetro de tasa posterior es determinista y depende de los datos solo a través del tamaño de la muestra\( n \).

El estimador bayesiano de\(\lambda\) basado en\( \bs{X}_n = (X_1, X_2, \ldots, X_n) \) es\[ V_n = \frac{k + Y_n}{r + n} \]

Prueba

Por definición, el estimador de Bayes es la media de la distribución posterior. Recordemos que la media de la distribución gamma es el parámetro shape dividido por el parámetro rate.

Dado que\( V_n \) es una función lineal de\( Y_n \), y conocemos la distribución de\( Y_n \) dado\( \lambda \in (0, \infty) \), podemos calcular las funciones de sesgo y error cuadrático medio.

Para\( n \in \N_+ \),\[ \bias(V_n \mid \lambda) = \frac{k - r \lambda}{r + n}, \quad \lambda \in (0, \infty) \] La secuencia de estimadores\( \bs V = (V_n: n \in \N_+) \) es asintóticamente imparcial.

Prueba

El cálculo es sencillo, ya que la distribución de\( Y_n \) dado\( \lambda \) es Poisson con parámetro\( n \lambda \). \[ \bias(V_n \mid \lambda) = \E(V_n \mid \lambda) - \lambda = \frac{k + n \lambda}{r + n} - \lambda = \frac{k - r \lambda}{r + n} \]Claramente\( \bias(V_n \mid \lambda) \to 0 \) como\( n \to \infty \).

Obsérvese que, como antes, no podemos elegir\(k\) y\(r\) hacer\(V_n\) imparciales, sin conocimiento de ello\(\lambda\).

Para\( n \in \N_+ \),\[ \mse(V_n \mid \lambda) = \frac{n \lambda + (k - r \lambda)^2}{(r + n)^2}, \quad \lambda \in (0, \infty) \] La secuencia de estimadores\( \bs V = (V_n: n \in \N_+) \) es de media cuadrática consistente.

Prueba

Nuevamente, el cálculo es fácil ya que la distribución de\( Y_n \) dado\( \lambda \) es Poisson con parámetro\( n \lambda \). \[ \mse(V \mid \lambda) = \var(V_n \mid \lambda) + \bias^2(V_n \mid \lambda) = \frac{n \lambda}{(r + n)^2} + \left(\frac{k - r \lambda}{r + n}\right)^2 \]Claramente\( \mse(V_n \mid \lambda) \to 0 \) como\( n \to \infty \).

Recordemos que el método de estimador de momentos de\( \lambda \) y el estimador de máxima verosimilitud de\(\lambda\) en el intervalo\( (0, \infty) \) son ambos\(M_n = Y_n / n\), la media muestral. Este estimador es imparcial y tiene un error cuadrático medio\(\lambda / n\). Para ver la conexión entre los estimadores, anote de (21)\[ V_n = \frac{r}{r + n} \frac{k}{r} + \frac{n}{r + n} M_n \] que So\( V_n \) es un promedio ponderado de\( k / r \) (la media de la distribución anterior) y\( M_n \) (el estimador de máxima verosimilitud).

La distribución normal

Supongamos que\(\bs X = (X_1, X_2, \ldots)\) es una secuencia de variables aleatorias independientes, teniendo cada una la distribución normal con media desconocida\(\mu \in \R\) pero varianza conocida\(\sigma^2 \in (0, \infty)\). Por supuesto, la distribución normal juega un papel especialmente importante en la estadística, en parte por el teorema del límite central. La distribución normal es ampliamente utilizada para modelar cantidades físicas sujetas a numerosos errores pequeños y aleatorios. En muchas aplicaciones estadísticas, la varianza de la distribución normal es más estable que la media, por lo que la suposición de que se conoce la varianza no es del todo artificial. Recordemos que la función de densidad de probabilidad normal (dada\( \mu \)) es\[ g(x \mid \mu) = \frac{1}{\sqrt{2 \, \pi} \sigma} \exp\left[-\frac{1}{2}\left(\frac{x - \mu}{\sigma}\right)^2 \right], \quad x \in \R \] De nuevo, para\( n \in \N_+ \) let\(Y_n = \sum_{i=1}^n X_i\). Recordemos que\(Y_n\) también tiene una distribución normal (dada\(\mu\)) pero con media\(n \mu\) y varianza\(n \sigma^2\).

Supongamos ahora que\(\mu\) es modelada por una variable aleatoria\( \Psi \) que tiene una distribución normal previa con media\(a \in \R\) y varianza\(b^2 \in (0, \infty)\). Como es habitual,\(a\) y\(b\) son elegidos para reflejar nuestro conocimiento previo de\(\mu\). Un caso especial interesante es cuando tomamos\(b = \sigma\), por lo que la varianza de la distribución previa de\(\Psi\) es la misma que la varianza de la distribución muestral subyacente.

Para\( n \in \N_+ \), la distribución posterior de\(\Psi\) dado\(\bs{X}_n = (X_1, X_2, \ldots, X_n)\) es normal con media y varianza dada por\ begin {align}\ E (\ Psi\ mid\ bs {X} _n) & =\ frac {Y_n b^2 + a\ sigma^2} {n b^2 +\ sigma^2}\\ var (\ Psi\ mid\ bs {X} _n) & =\ frac {\ sigma^2 b^2} {n b^2 +\ sigma^2}\ end {align}

Prueba

Arreglar\( n \in \N_+ \). Supongamos\( \bs x = (x_1, x_2, \ldots, x_n) \in \R \) y vamos\( y = \sum_{i=1}^n x_i \) y\( w^2 = \sum_{i=1}^n x_i^2 \). Entonces\ begin {align} f (\ bs x\ mid\ mu) & = g (x_1\ mid\ mu) g (x_2\ mid\ mu)\ cdots g (x_n\ mid\ mu) =\ frac {1} {(2\ pi) ^ {n/2}\ sigma^n}\ exp\ left [-\ frac {1} {2}\ sum_ {i_ =1} ^n\ izquierda (\ frac {x_i -\ mu} {\ sigma}\ derecha) ^2\ derecha]\\ & =\ frac {1} {(2\ pi) ^ {n/2}\ sigma^n}\ exp\ izquierda [-\ frac {1} {2\ sigma^2} (w^2 - 2\ mu y + n\ mu^2)\ derecha]\ end {align} Por otro lado, por supuesto\[ h(\mu) = \frac{1}{\sqrt{2 \pi} b} \exp\left[-\frac{1}{2}\left(\frac{\mu - a}{b}\right)^2\right] = \frac{1}{\sqrt{2 \pi}b} \exp\left[-\frac{1}{2 b^2}(\mu^2 - 2 a \mu + a^2)\right]\] Por lo tanto,\[ h(\mu) f(\bs x \mid \mu) = C \exp\left\{-\frac{1}{2}\left[\left(\frac{1}{b^2} + \frac{n}{\sigma^2}\right) \mu^2 - 2 \left(\frac{a}{b^2} + \frac{y}{\sigma^2}\right) \mu\right]\right\} \] donde\( C \) depende de\( n \),,,\( \sigma \),\( a \)\( b \)\( \bs x \), pero lo que es importante no de\( \mu \). Entonces realmente no nos importa lo que\( C \) sea. Completar el cuadrado\( \mu \) en la expresión anterior da\[ h(\mu) f(\bs x \mid \mu) = K \exp\left[-\frac{1}{2}\left(\frac{1}{b^2} + \frac{n}{\sigma^2}\right) \left(\mu - \frac{a / b^2 + y / \sigma^2}{1 / b^2 + n / \sigma^2}\right)^2\right] \] dónde\( K \) está otro factor que depende de muchas cosas, pero no\( \mu \). En función de\( \mu \), esta expresión es proporcional a la distribución normal con media y varianza, respectivamente, dada por\ begin {align} &\ frac {a/b^2 + y/\ sigma^2} {1/b^2 + n/\ sigma^2} =\ frac {y b^2 + a\ sigma^2} {n b^2 +\ sigma^2}\ &\ frac {1} {1/b^2 + n/\ sigma^2} =\ frac {\ sigma^2 b^2} {\ sigma^2 + n b^2}\ end {align} Una vez más, no fue necesario calcular la constante normalizadora\(f(\bs{x})\), que habría sido otro factor más que no nos importa.

Por lo tanto, la distribución normal es conjugada con la distribución normal con media desconocida y varianza conocida. Tenga en cuenta que la varianza posterior es determinista, y depende de los datos solo a través del tamaño de la muestra\( n \). En el caso especial que\(b = \sigma\), la distribución posterior de\(\Psi\) dado\(\bs{X}_n\) es normal con media\((Y_n + a) / (n + 1)\) y varianza\(\sigma^2 / (n + 1)\).

El estimador bayesiano de\(\mu\) es\[ U_n = \frac{Y_n b^2 + a \sigma^2}{n b^2 + \sigma^2} \]

Prueba

Esto se deduce inmediatamente del resultado anterior.

Tenga en cuenta que\(U_n = (Y_n + a) / (n + 1)\) en el caso especial que\(b = \sigma\).

Para\( n \in \N_+ \),\[ \bias(U_n \mid \mu) = \frac{\sigma^2 (a - \mu)}{\sigma^2 + n \, b^2}, \quad \mu \in \R \] La secuencia de estimadores\( \bs U = (U_n: n \in \N_+) \) es asintóticamente imparcial.

Prueba

Recordemos que\( Y_n \) ha significado\( n \mu \) dado\( \mu \). De ahí\[ \bias(U_n \mid \mu) = \E(U_n \mid \mu) - \mu = \frac{n b^2 \mu + a \sigma^2}{n b^2 + \sigma^2} - \mu = \frac{(a - \mu) \sigma^2}{n b^2 + \sigma^2} \] Claramente\( \bias(U_n \mid \mu) \to 0 \) como\( n \to \infty \) para cada\( \mu \in \R \).

Cuando\(b = \sigma\),\(\bias(U_n \mid \mu) = (a - \mu) / (n + 1)\).

Para\( n \in \N_+ \),\[ \mse(U_n \mid \mu) = \frac{n \sigma^2 b^4 + \sigma^4 (a - \mu)^2}{(\sigma^2 + n \, b^2)^2}, \quad \mu \in \R \] La secuencia de estimadores\( \bs U = (U_n: n \in \N_+) \) es de media cuadrática consistente.

Prueba

Recordemos eso\( Y_n \) como varianza\( n \sigma^2 \). De ahí\[ \mse(U_n \mid \mu) = \var(U_n \mid \mu) + \bias^2(U_n \mid \mu) = \left(\frac{b^2}{n b^2 + \sigma^2}\right)^2 n \sigma^2 + \left(\frac{(a - \mu) \sigma^2}{n b^2 + \sigma^2}\right)^2 \] Claramente\( \mse(U_n \mid \mu) \to 0 \) como\( n \to \infty \) para cada\( \mu \in \R \).

Cuando\(b = \sigma\),\(\mse(U \mid \mu) = [n \sigma^2 + (a - \mu)^2] / (n + 1)^2\). Recordemos que el método de estimador de momentos de\( \mu \) y el estimador de máxima verosimilitud de\(\mu\) on\( \R \) son ambos\(M_n = Y_n / n\), la media muestral. Este estimador es imparcial y tiene un error cuadrático medio\(\var(M) = \sigma^2 / n\). Para ver la conexión entre los estimadores, anote de (25)\[ U_n = \frac{\sigma^2}{n b^2 + \sigma^2} a + \frac{n b^2}{n b^2 + \sigma^2} M_n \] que So\( U_n \) es un promedio ponderado de\( a \) (la media de la distribución anterior) y\( M_n \) (el estimador de máxima verosimilitud).

La distribución beta

Supongamos que\(\bs{X} = (X_1, X_2, \ldots)\) es una secuencia de variables aleatorias independientes cada una teniendo la distribución beta con el parámetro de forma izquierda desconocido\(a \in (0, \infty)\) y el parámetro de forma derecha\(b = 1\). La distribución beta es ampliamente utilizada para modelar proporciones y probabilidades aleatorias y otras variables que toman valores en intervalos acotados (escalados para tomar valores en\( (0, 1) \)). Recordemos que la función de densidad de probabilidad (dada\(a\)) es\[ g(x \mid a) = a \, x^{a-1}, \quad x \in (0, 1) \] Supongamos ahora que\(a\) es modelada por una variable aleatoria\( A \) que tiene una distribución gamma anterior con parámetro shape\(k \in (0, \infty)\) y parámetro rate\(r \in (0, \infty)\). Como es habitual,\(k\) y\(r\) son elegidos para reflejar nuestro conocimiento previo de\(a\). Así, la función de densidad probabiltiy previa de\(A\) es\[ h(a) = \frac{r^k}{\Gamma(k)} a^{k-1} e^{-r a}, \quad a \in (0, \infty) \] La media de la distribución anterior es\( k / r \).

La distribución posterior de\(A\) dado\(\bs{X}_n = (X_1, X_2, \ldots, X_n)\) es gamma, con parámetro de forma\(k + n\) y parámetro de velocidad\(r - \ln(X_1 X_2 \cdots X_n)\).

Prueba

Arreglar\( n \in \N_+ \). Let\( \bs x = (x_1, x_2, \ldots, x_n) \in (0, 1)^n \) and let\( z = x_1 x_2 \cdots x_n \) Entonces\[ f(\bs x \mid a) = g(x_1 \mid a) g(x_2 \mid a) \cdots g(x_n \mid a) = a^n z^{a - 1} = \frac{a^n}{z} e^{a \ln z} \] De ahí\[ h(a) f(\bs x \mid a) = \frac{r^k}{z \Gamma(k)} a^{n + k - 1} e^{-a (r - \ln z)}, \quad a \in (0, \infty) \] En función de\( a \in (0, \infty) \) esta expresión es proporcional a la gamma PDF con parámetro shape\( n + k \) y parámetro scale\( r - \ln z \). Una vez más, no es necesario calcular la constante normalizadora\( f(\bs x) \).

Así, la distribución gamma se concuerda con la distribución beta con el parámetro izquierdo desconocido y el parámetro derecho 1. Tenga en cuenta que el parámetro de forma posterior es determinista y depende de los datos solo a través del tamaño de la muestra\( n \).

El estimador bayesiano de\(a\) basado en\( \bs{X}_n \) es\[ U_n = \frac{k + n}{r - \ln(X_1 X_2 \cdots X_n)} \]

Prueba

La media de la distribución gamma es el parámetro shape dividido por el parámetro rate, por lo que esto se desprende del teorema anterior.

Dada la complicada estructura, el sesgo y el error cuadrático medio de\(U_n\) dado\(a \in (0, \infty)\) serían difíciles de calcular explícitamente. Recordemos que el estimador de máxima verosimilitud de\(a\) es\(W_n = -n / \ln(X_1 \, X_2 \cdots X_n)\). Para ver la conexión entre los estimadores, anote de (29)\[ \frac{1}{U_n} = \frac{k}{k + n} \frac{r}{k} + \frac{n}{k + n} \frac{1}{W_n}\] que So\( 1 / U_n \) (el recíproco del estimador bayesiano) es un promedio ponderado de\( r / k \) (el recíproco de la media de la distribución anterior) y\( 1 / W_n \) (el recíproco del estimador de máxima verosimilitud).

La distribución de Pareto

Supongamos que\(\bs{X} = (X_1, X_2, \ldots)\) es una secuencia de variables aleatorias independientes cada una de las cuales tiene la distribución de Pareto con parámetro de forma desconocido\(a \in (0, \infty)\) y parámetro escala\(b = 1\). La distribución de Pareto se utiliza para modelar ciertas variables financieras y otras variables con distribuciones de cola pesada, y se denomina así por Vilfredo Pareto. Recordemos que la función de densidad de probabilidad (dada\(a\)) es\[ g(x \mid a) = \frac{a}{x^{a+1}}, \quad x \in [1, \infty) \] Supongamos ahora que\(a\) es modelada por una variable aleatoria\( A \) que tiene una distribución gamma anterior con parámetro shape\(k \in (0, \infty)\) y parámetro rate\(r \in (0, \infty)\). Como es habitual,\(k\) y\(r\) son elegidos para reflejar nuestro conocimiento previo de\(a\). Por lo tanto, la función de densidad probabiltiy previa de\(A\) es\[ h(a) = \frac{r^k}{\Gamma(k)} a^{k-1} e^{-r a}, \quad a \in (0, \infty) \]

Para\( n \in \N_+ \), la distribución posterior de\(A\) dado\(\bs{X}_n = (X_1, X_2, \dots, X_n)\) es gamma, con parámetro de forma\(k + n\) y parámetro de velocidad\(r + \ln(X_1 X_2 \cdots X_n)\).

Prueba

Arreglar\( n \in \N_+ \). Let\( \bs x = (x_1, x_2, \ldots, x_n) \in [1, \infty)^n \) and let\( z = x_1 x_2 \cdots x_n \) Entonces\[ f(\bs x \mid a) = g(x_1 \mid a) g(x_2 \mid a) \cdots g(x_n \mid a) = \frac{a^n}{z^{a + 1}} = \frac{a^n}{z} e^{- a \ln z} \] De ahí\[ h(a) f(\bs x \mid a) = \frac{r^k}{z \Gamma(k)} a^{n + k - 1} e^{-a (r + \ln z)}, \quad a \in (0, \infty) \] En función de\( a \in (0, \infty) \) esta expresión es proporcional a la gamma PDF con parámetro shape\( n + k \) y parámetro scale\( r + \ln z \). Una vez más, no es necesario calcular la constante normalizadora\( f(\bs x) \).

Así, la distribución gamma es conjugada a la distribución de Pareto con un parámetro de forma desconocido. Tenga en cuenta que el parámetro de forma posterior es determinista y depende de los datos solo a través del tamaño de la muestra\( n \).

El estimador bayesiano de\(a\) basado en\( \bs{X}_n \) es\[ U_n = \frac{k + n}{r + \ln(X_1 X_2 \cdots X_n)} \]

Prueba

Una vez más, la media de la distribución gamma es el parámetro shape dividido por el parámetro rate, por lo que esto se desprende del teorema anterior.

Dada la complicada estructura, el sesgo y el error cuadrático medio de\(U\) dado\(a \in (0, \infty)\) serían difíciles de calcular explícitamente. Recordemos que el estimador de máxima verosimilitud de\(a\) es\(W_n = n / \ln(X_1 \, X_2 \cdots X_n)\). Para ver la conexión entre los estimadores, anote de (31)\[ \frac{1}{U_n} = \frac{k}{k + n} \frac{r}{k} + \frac{n}{k + n} \frac{1}{W_n} \] que So\( 1 / U_n \) (el recíproco del estimador bayesiano) es un promedio ponderado de\( r / k \) (el recíproco de la media de la distribución anterior) y\( 1 / W_n \) (el estimador de máxima verosimilitud).