Saltar al contenido principal

# 11.7: El Proceso Beta-Bernoulli

$$\newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$$

$$\newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}}$$

$$\newcommand{\id}{\mathrm{id}}$$ $$\newcommand{\Span}{\mathrm{span}}$$

( \newcommand{\kernel}{\mathrm{null}\,}\) $$\newcommand{\range}{\mathrm{range}\,}$$

$$\newcommand{\RealPart}{\mathrm{Re}}$$ $$\newcommand{\ImaginaryPart}{\mathrm{Im}}$$

$$\newcommand{\Argument}{\mathrm{Arg}}$$ $$\newcommand{\norm}[1]{\| #1 \|}$$

$$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$$

$$\newcommand{\Span}{\mathrm{span}}$$

$$\newcommand{\id}{\mathrm{id}}$$

$$\newcommand{\Span}{\mathrm{span}}$$

$$\newcommand{\kernel}{\mathrm{null}\,}$$

$$\newcommand{\range}{\mathrm{range}\,}$$

$$\newcommand{\RealPart}{\mathrm{Re}}$$

$$\newcommand{\ImaginaryPart}{\mathrm{Im}}$$

$$\newcommand{\Argument}{\mathrm{Arg}}$$

$$\newcommand{\norm}[1]{\| #1 \|}$$

$$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$$

$$\newcommand{\Span}{\mathrm{span}}$$ $$\newcommand{\AA}{\unicode[.8,0]{x212B}}$$

$$\newcommand{\vectorA}[1]{\vec{#1}} % arrow$$

$$\newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow$$

$$\newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$$

$$\newcommand{\vectorC}[1]{\textbf{#1}}$$

$$\newcommand{\vectorD}[1]{\overrightarrow{#1}}$$

$$\newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}}$$

$$\newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}}$$

$$\newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$$

$$\newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}}$$

$$\newcommand{\avec}{\mathbf a}$$ $$\newcommand{\bvec}{\mathbf b}$$ $$\newcommand{\cvec}{\mathbf c}$$ $$\newcommand{\dvec}{\mathbf d}$$ $$\newcommand{\dtil}{\widetilde{\mathbf d}}$$ $$\newcommand{\evec}{\mathbf e}$$ $$\newcommand{\fvec}{\mathbf f}$$ $$\newcommand{\nvec}{\mathbf n}$$ $$\newcommand{\pvec}{\mathbf p}$$ $$\newcommand{\qvec}{\mathbf q}$$ $$\newcommand{\svec}{\mathbf s}$$ $$\newcommand{\tvec}{\mathbf t}$$ $$\newcommand{\uvec}{\mathbf u}$$ $$\newcommand{\vvec}{\mathbf v}$$ $$\newcommand{\wvec}{\mathbf w}$$ $$\newcommand{\xvec}{\mathbf x}$$ $$\newcommand{\yvec}{\mathbf y}$$ $$\newcommand{\zvec}{\mathbf z}$$ $$\newcommand{\rvec}{\mathbf r}$$ $$\newcommand{\mvec}{\mathbf m}$$ $$\newcommand{\zerovec}{\mathbf 0}$$ $$\newcommand{\onevec}{\mathbf 1}$$ $$\newcommand{\real}{\mathbb R}$$ $$\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}$$ $$\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}$$ $$\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}$$ $$\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}$$ $$\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}$$ $$\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}$$ $$\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}$$ $$\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}$$ $$\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}$$ $$\newcommand{\laspan}[1]{\text{Span}\{#1\}}$$ $$\newcommand{\bcal}{\cal B}$$ $$\newcommand{\ccal}{\cal C}$$ $$\newcommand{\scal}{\cal S}$$ $$\newcommand{\wcal}{\cal W}$$ $$\newcommand{\ecal}{\cal E}$$ $$\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}$$ $$\newcommand{\gray}[1]{\color{gray}{#1}}$$ $$\newcommand{\lgray}[1]{\color{lightgray}{#1}}$$ $$\newcommand{\rank}{\operatorname{rank}}$$ $$\newcommand{\row}{\text{Row}}$$ $$\newcommand{\col}{\text{Col}}$$ $$\renewcommand{\row}{\text{Row}}$$ $$\newcommand{\nul}{\text{Nul}}$$ $$\newcommand{\var}{\text{Var}}$$ $$\newcommand{\corr}{\text{corr}}$$ $$\newcommand{\len}[1]{\left|#1\right|}$$ $$\newcommand{\bbar}{\overline{\bvec}}$$ $$\newcommand{\bhat}{\widehat{\bvec}}$$ $$\newcommand{\bperp}{\bvec^\perp}$$ $$\newcommand{\xhat}{\widehat{\xvec}}$$ $$\newcommand{\vhat}{\widehat{\vvec}}$$ $$\newcommand{\uhat}{\widehat{\uvec}}$$ $$\newcommand{\what}{\widehat{\wvec}}$$ $$\newcommand{\Sighat}{\widehat{\Sigma}}$$ $$\newcommand{\lt}{<}$$ $$\newcommand{\gt}{>}$$ $$\newcommand{\amp}{&}$$ $$\definecolor{fillinmathshade}{gray}{0.9}$$
$$\newcommand{\P}{\mathbb{P}}$$$$\newcommand{\E}{\mathbb{E}}$$$$\newcommand{\R}{\mathbb{R}}$$$$\newcommand{\N}{\mathbb{N}}$$$$\newcommand{\bs}{\boldsymbol}$$$$\newcommand{\var}{\text{var}}$$$$\newcommand{\cov}{\text{cov}}$$$$\newcommand{\cor}{\text{cor}}$$

Algo interesante que hacer en casi cualquier modelo de probabilidad paramétrico es aleatorizar uno o más de los parámetros. Hecho de una manera inteligente, esto a menudo conduce a nuevos modelos interesantes y conexiones inesperadas entre modelos. En esta sección aleatorizaremos el parámetro de éxito en el proceso de ensayos de Bernoulli. Esto lleva a conexiones interesantes y sorprendentes con el proceso de urna de Pólya.

## Teoría Básica

### Definiciones

Primero, recordemos que la distribución beta con parámetro izquierdo$$a \in (0, \infty)$$ y parámetro derecho$$b \in (0, \infty)$$ es una distribución continua en el intervalo$$(0, 1)$$ con función de densidad de probabilidad$$g$$ dada por$g(p) = \frac{1}{B(a, b)} p^{a-1} (1 - p)^{b-1}, \quad p \in (0, 1)$ donde$$B$$ está la función beta. Así$$B(a, b)$$ es simplemente la constante normalizadora para la función$$p \mapsto p^{a-1} (1 - p)^{b-1}$$ en el intervalo$$(0, 1)$$. Aquí está nuestra definición principal:

Supongamos que$$P$$ tiene la distribución beta con parámetro izquierdo$$a \in (0, \infty)$$ y parámetro derecho$$b \in (0, \infty)$$. Siguiente supongamos que$$\bs{X} = (X_1, X_2, \ldots)$$ es una secuencia de variables aleatorias indicadoras con la propiedad que da$$P = p \in (0, 1)$$,$$\bs{X}$$ es una secuencia condicionalmente independiente con$\P(X_i = 1 \mid P = p) = p, \quad i \in \N_+$ Entonces$$\bs{X}$$ es el proceso beta-Bernoulli con parámetros$$a$$ y$$b$$.

En resumen, dada$$P = p$$, la secuencia$$\bs{X}$$ es una secuencia de ensayos de Bernoulli con parámetro de éxito$$p$$. En el lenguaje habitual de la confiabilidad,$$X_i$$ se encuentra el resultado del ensayo$$i$$, donde 1 denota éxito y 0 denota fracaso. Para una aplicación específica, supongamos que seleccionamos una probabilidad aleatoria de cabezas de acuerdo con la distribución beta con parámetros$$a$$ y$$b$$, para luego lanzar una moneda con esta probabilidad de cabezas repetidamente.

¿Cuál es nuestro primer paso? Bueno, claro que necesitamos calcular las distribuciones dimensionales finitas de$$\bs{X}$$. Recordemos que para$$r \in \R$$ y$$j \in \N$$,$$r^{[j]}$$ denota el poder ascendente$$r (r + 1) \cdots [r + (j - 1)]$$. Por convención, un producto sobre un conjunto de índices vacío es 1, entonces$$r^{[0]} = 1$$.

Supongamos que$$n \in \N_+$$ y$$(x_1, x_2, \ldots, x_n) \in \{0, 1\}^n$$. Vamos$$k = x_1 + x_2 + \cdots + x_n$$. Entonces$\P(X_1 = x_1, X_2 = x_2, \ldots, X_n = x_n) = \frac{a^{[k]} b^{[n-k]}}{(a + b)^{[n]}}$

Prueba

Primero, señalar que$$\P(X_1 = x_1, X_2 = x_2, \ldots, X_n = x_n \mid P = p) = p^k (1 - p)^{n-k}$$ por la independencia condicional. Así, condicionar$$P$$ da\ begin {align}\ P (X_1 = x_1, X_2 = x_2,\ ldots, x_n = x_n) & =\ E [\ P (X_1 = x_1, X_2 = x_2,\ ldots, x_n = x_n\ mid P)]\\ & =\ int_0^1 p^k (1 - p) ^ {n-k}\ frac {1} {B (a, b)} p^ {a-1} (1 - p) ^ {b-1}\, dp\\ & =\ frac {B [a + k, b + (n -k)]} {B (a, b)} =\ frac {a^ {[k]} b^ {[n -k]}} {(a + b) ^ {[n]}}\ end {align} El último paso utiliza una propiedad de la función beta.

De este resultado, se deduce que el proceso de urna de Pólya con parámetros$$a, \, b, \, c \in \N_+$$ es equivalente al proceso beta-Bernoulli con parámetros$$a / c$$ y$$b / c$$, un resultado bastante interesante. Tenga en cuenta que como la distribución conjunta anterior depende únicamente de$$x_1 + x_2 + \cdots + x_n$$, la secuencia$$\bs{X}$$ es intercambiable. Por último, es interesante señalar que el proceso beta-Bernoulli con parámetros$$a$$ y$$b$$ podría definirse simplemente como la secuencia con las distribuciones finito-dimensionales anteriores, ¡sin referencia a la distribución beta! Resulta que cada secuencia intercambiable de variables aleatorias indicadoras se puede obtener aleatorizando el parámetro de éxito en una secuencia de ensayos de Bernoulli. Este es el teorema de Finetti, llamado así por Bruno de Finetti, que se estudia en la sección sobre martingales al revés.

Para cada$$i \in \N_+$$

1. $$\E(X_i) = \frac{a}{a + b}$$
2. $$\var(X_i) = \frac{a}{a + b} \frac{b}{a + b}$$
Prueba

Dado que la secuencia es intercambiable,$$X_i$$ tiene la misma distribución que$$X_1$$, entonces$$\P(X_i = 1) = \frac{a}{a + b}$$. La media y varianza se derivan ahora de los resultados estándar para las variables indicadoras.

Así$$\bs{X}$$ es una secuencia de variables distribuidas idénticamente, bastante sorprendente al principio pero por supuesto inevitable para cualquier secuencia intercambiable. Comparar la distribución conjunta con las distribuciones marginales. Claramente las variables son dependientes, así que vamos a calcular la covarianza y correlación de un par de variables de resultado.

Supongamos que$$i, \; j \in \N_+$$ son distintos. Entonces

1. $$\cov(X_i, X_j) = \frac{a \, b}{(a + b)^2 (a + b + 1)}$$
2. $$\cor(X_i, X_j) = \frac{1}{a + b + 1}$$
Prueba

Dado que las variables son intercambiables,$$\P(X_i = 1, X_j = 1) = \P(X_1 = 1, X_2 = 1) = \frac{a}{a + b} \frac{a + 1}{a + b + 1}$$. Los resultados se derivan ahora de fórmulas estándar para covarianza y correlación.

Así, las variables están correlacionadas positivamente. Resulta que en cualquier secuencia infinita de variables intercambiables, las variables deben estar correlacionadas no negativamente. Aquí hay otro resultado que explora cómo se relacionan las variables.

Supongamos que$$n \in \N_+$$ y$$(x_1, x_2, \ldots, x_n) \in \{0, 1\}^n$$. Vamos$$k = \sum_{i=1}^n x_i$$. Entonces$\P(X_{n+1} = 1 \mid X_1 = x_1, X_2 = x_2, \ldots X_n = x_n) = \frac{a + k}{a + b + n}$

Prueba

Usando la distribución conjunta,\ begin {align*}\ P (X_ {n+1} = 1\ mid X_1 = x_1, X_2 = x_2,\ ldots x_n = x_n) & =\ frac {\ P (X_1 = x_1, X_2 = x_2,\ ldots x_n = x_n, X_ {n+1} = 1)}\ P (X_1 = x_1, X_2 = x_2,\ ldots x_n = x_n)}\\ & =\ frac {a^ {[k+1]} b^ {[n-k]}} {(a + b) ^ {[n + 1]}}\ frac {(a + b) ^ {[n]}} {a ^ {[k]} b^ {[n-k]}} =\ frac {a + k} {a + b + n}\ end {align*}

El modelo beta-Bernoulli inicia con la distribución condicional de$$\bs X$$ dado$$P$$. Encontremos la distribución condicional en la otra dirección.

Supongamos que$$n \in \N_+$$ y$$(x_1, x_2, \ldots, x_n) \in \{0, 1\}^n$$. Vamos$$k = \sum_{i=1}^n x_i$$. Entonces la distribución condicional de$$P$$ dado$$(X_1 = x_1, X_2, = x_2, \ldots, X_n = x_n)$$ es beta con parámetro izquierdo$$a + k$$ y parámetro derecho$$b + (n - k)$$. De ahí$\E(P \mid X_1 = x_1, X_2 = x_2, \ldots, X_n = x_n) = \frac{a + k}{a + b + k}$

Prueba

Esto se desprende del teorema de Bayes. El PDF$$g(\cdot \mid x_1, x_2, \ldots, x_n)$$ condicional viene dado por$g(p \mid X_1, x_2, \ldots, x_n) = \frac{g(p) \P(X_1 = x_1, X_2 = x_2, \ldots, X_n = x_n) \mid P = p)}{\int_0^1 g(t) \P(X_1 = x_1, X_2 = x_2, \ldots, X_n = x_n \mid P = t) dt}, \quad p \in (0, 1)$ El numerador es$\frac{1}{B(a, b)} p^{a-1} (1 - p)^{b-1} p^k (1 - p)^{n-k} = \frac{1}{B(a, b)} p^{a + k - 1} (1 - p)^{b + n - k - 1}$ El denominador es simplemente la constante normalizadora para la expresión, en función de$$p$$ y es$$B(a + k, b + n - k) / B(a, b)$$. De ahí sigue$g(p \mid k) = \frac{1}{B(a + k, b + n - k)} p^{a + k - 1} (1 - p)^{b + n - k - 1}, \quad p \in (0, 1)$ el último resultado ya que la media de la distribución beta es el parámetro izquierdo dividido por la suma de los parámetros.

Así, el parámetro izquierdo aumenta por el número de éxitos mientras que el parámetro derecho aumenta por el número de fallas. En el lenguaje de la estadística bayesiana, la distribución original de$$P$$ es la distribución previa, y la distribución condicional de los datos$$P$$ dados$$(x_1, x_2, \ldots, x_n)$$ es la distribución posterior. El hecho de que la distribución posterior sea beta siempre que la distribución anterior sea beta significa que las distribuciones beta se conjugan con la distribución de Bernoulli. El valor esperado condicional en el último teorema es la estimación bayesiana de$$p$$ cuándo$$p$$ es modelada por la variable aleatoria$$P$$. Estos conceptos se estudian con más generalidad en la sección sobre Estimadores Bayes en el capítulo de Estimación puntual. También es interesante señalar que los valores esperados en los dos últimos teoremas son los mismos: Si$$n \in \N$$,$$(x_1, x_2, \ldots, x_n) \in \{0, 1\}^n$$ y$$k = \sum_{i=1}^n x_i$$ luego$\E(X_{n+1} \mid X_1 = x_1, \ldots, X_n = x_n) = \E(P \mid X_1 = x_1, \ldots, X_n = x_n) = \frac{a + k}{a + b + n}$

Ejecute la simulación del experimento de monedas beta para varios valores del parámetro. Observe cómo la función de densidad de probabilidad posterior cambia de la función de densidad de probabilidad anterior, dado el número de cabezas.

### El número de éxitos

Ya está claro que el número de éxitos en un número determinado de ensayos juega un papel importante, así que estudiemos estas variables. Para$$n \in \N_+$$, vamos a$Y_n = \sum_{i=1}^n X_i$ denotar el número de éxitos en los primeros$$n$$ ensayos. Por supuesto,$$\bs{Y} = (Y_0, Y_1, \ldots)$$ es el proceso de suma parcial asociado con$$\bs{X} = (X_1, X_2, \ldots)$$.

$$Y_n$$tiene la función de densidad de probabilidad dada por$\P(Y_n = k) = \binom{n}{k} \frac{a^{[k]} b^{[n-k]}}{(a + b)^{[n]}}, \quad k \in \{0, 1, \ldots, n\}$

Prueba

Cada cadena de bits de longitud$$n$$ con 1 ocurriendo exactamente$$k$$ veces tiene la probabilidad dada en la distribución conjunta anterior. Hay$$\binom{n}{k}$$ tales cadenas de bits.

La distribución de$$Y_n$$ se conoce como la distribución beta-binomial con parámetros$$n$$,$$a$$, y$$b$$.

En la simulación del experimento beta-binomial, varíe los parámetros y observe cómo la forma de la función de densidad de probabilidad de$$Y_n$$ (discreta) es paralela a la forma de la función de densidad de probabilidad de$$P$$ (continua). Para diversos valores de los parámetros, ejecute la simulación 1000 veces y compare la función de densidad empírica con la función de densidad de probabilidad.

El caso donde los parámetros son ambos 1 es interesante.

Si$$a = b = 1$$, de manera que$$P$$ se distribuye uniformemente en$$(0, 1)$$, entonces$$Y_n$$ se distribuye uniformemente en$$\{0, 1, \ldots, n\}$$.

Prueba

Tenga en cuenta que$$1^{[j]} = j!$$ y$$2^{[j]} = (j + 1)!$$ para$$j \in \N$$. De ahí que a partir del PDF general$$Y_n$$ anterior$\P(Y_n = k) = \frac{n!}{k! (n - k)!} \frac{k! (n - k)!}{(n + 1)!} = \frac{1}{n + 1}, \quad k \in \{0, 1, \ldots, n\}$

A continuación, calculemos la media y varianza de$$Y_n$$.

La media y varianza$$Y_n$$ de

1. $$\E(Y_n) = n \frac{a}{a + b}$$
2. $$\var(Y_n) = n \frac{a b}{(a + b)^2} \left[1 + (n - 1) \frac{1}{a + b + 1} \right]$$
Prueba

Estos resultados se derivan de los resultados de media y covarianza dados anteriormente:\ begin {align}\ E (Y_n) & =\ sum_ {i=a} ^n\ E (x_i) = n\ frac {a} {a + b}\\\ var (Y_n) & =\ sum_ {i=1} ^n\ sum_ {j=1} ^n\ cov (x_i, x_j) = n\ frac {a\, b} {(a + b) ^2} + n (n - 1)\ frac {a\, b} {(a + b) ^2 (a + b + 1)}\ fin {alinear}

En la simulación del experimento beta-binomial, varíe los parámetros y anote la ubicación y el tamaño de la barra de desviación media estándar. Para diversos valores de los parámetros, ejecute la simulación 1000 veces y compare los momentos empíricos con los momentos verdaderos.

Podemos reafirmar las distribuciones condicionales en la última subsección con más elegancia en términos de$$Y_n$$.

Vamos$$n \in \N$$.

1. La distribución condicional de$$X_{n+1}$$ dado$$Y_n$$ es$\P(X_{n+1} = 1 \mid Y_n) = \E(X_{n+1} \mid Y_n) = \frac{a + Y_n}{a + b + n}$
2. La distribución condicional de$$P$$ dado$$Y_n$$ es beta con parámetro izquierdo$$a + Y_n$$ y parámetro derecho$$b + (n - Y_n)$$. En particular$\E(P \mid Y_n) = \frac{a + Y_n}{a + b + n}$
Prueba

La prueba es fácil usando la propiedad de anidamiento de valor esperado condicional y el hecho de que las distribuciones condicionales dadas$$(X_1, X_2, \ldots, X_n)$$ dependen únicamente de$$Y_n = \sum_{i=1}^n X_i$$.

1. Tenga en cuenta que\ begin {align}\ E (X_ {n+1}\ mid Y_n) & =\ E [\ E (X_ {n+1}\ mid y_n)\ mid X_1, X_2,\ ldots, X_n]\\ & =\ E [E (X_ {n+1}\ mid X_1, X_2,\ ldots, X_n)\ mid Y_n] =\ E\ izquierda (\ frac {a + y_n} {a + b + n}\ biggm| Y_n\ derecha) =\ frac {a + y_n} {a + b + n}\ end {align}
2. Del mismo modo, si$$A \subseteq (0, 1)$$ es medible entonces$$\P(P \in A \mid X_1, X_2, \ldots, X_n)$$ depende solo de$$Y_n$$ y así\ begin {align}\ P (P\ in A\ mid Y_n) & =\ E [\ P (P\ in A\ mid y_N)\ mid X_1, X_2,\ ldots, X_n]\\ & =\ E [\ P (P\ in A\ mid X_1, X_2,\ ldots, x_n)\ Y_n medio] =\ P (P\ en A\ mediados de Y_n)\ final {alinear}

Una vez más, el valor esperado condicional$$\E(P \mid Y_n)$$ es el estimador bayesiano de$$p$$. En particular, si$$a = b = 1$$, así que$$P$$ tiene la distribución uniforme encendida$$(0, 1)$$, entonces$$\P(X_{n+1} = 1 \mid Y_n = n) = \frac{n + 1}{n + 2}$$. Esta es la regla de sucesión de Laplace, otra conexión interesante. La regla lleva el nombre de Pierre Simon Laplace, y se estudia desde un punto de vista diferente en la sección sobre Independencia.

### La Proporción de Éxitos

Para$$n \in \N_+$$, que$M_n = \frac{Y_n}{n} = \frac{1}{n} \sum_{i=1}^n X_i$ así$$M_n$$ sea esa es la media muestral de$$(X_1, X_2, \ldots, X_n)$$, o equivalentemente la proporción de éxitos en los primeros$$n$$ ensayos. Propiedades de$$M_n$$ seguir fácilmente de las propiedades correspondientes de$$Y_n$$. En particular,$$\P(M_n = k / n) = \P(Y_n = k)$$ para$$k \in \{0, 1, \ldots, n\}$$ como se ha dado anteriormente, así que pasemos a la media y varianza.

Para$$n \in \N_+$$, la media y varianza de$$M_n$$ son

1. $$\E(M_n) = \frac{a}{a + b}$$
2. $$\var(M_n) = \frac{1}{n} \frac{a b}{(a + b)^2} + \frac{n-1}{n} \frac{a b}{(a + b)^2 (a + b + 1)}$$
Prueba

Estos resultados se derivan de la media y varianza de$$Y_n$$ lo anterior y las propiedades del valor esperado y varianza:

1. $$\E(M_n) = \frac{1}{n} \E(Y_n)$$
2. $$\var(M_n) = \frac{1}{n^2} \var(Y_n)$$

Así$$\E(M_n)$$ es constante en$$n \in \N_+$$ mientras$$\var(M_n) \to a b / (a + b)^2 (a + b + 1)$$ como$$n \to \infty$$. Estos resultados sugieren que tal vez$$M_n$$ tiene un límite, en cierto sentido, como$$n \to \infty$$. Para una secuencia ordinaria de ensayos de Bernoulli con parámetro de éxito$$p \in (0, 1)$$, sabemos por la ley de números grandes que$$M_n \to p$$ como$$n \to \infty$$ con probabilidad 1 y en media (y por lo tanto también en distribución). ¿Qué sucede aquí cuando la probabilidad de éxito$$P$$ ha sido aleatorizada con la distribución beta? La respuesta es lo que podríamos esperar.

$$M_n \to P$$como$$n \to \infty$$ con probabilidad 1 y en cuadrado medio, y por lo tanto también en distribución.

Prueba

Vamos a$$g$$ denotar el PDF de$$P$$. Para convergencia con probabilidad 1, condicionamos$$P$$\ begin {align}\ P (m_n\ a P\ text {as} n\ a\ infty) & =\ E [\ P (m_N\ a P\ text {as} n\ a\ infty)\ mid P]\\ & =\ int_0^1\ P (m_n\ a p\ text {as} n\ a\ infty mid\ P = p) g (p) dp =\ int_0^1 g (p) dp = 1\ end {align} Para convergencia en media cuadrado, una vez más condicionamos$$P$$. $\E[(M_n - P)^2 \mid P = p] = \E[(M_n - p)^2 \mid P = p] = \frac{p (1 - p)}{n} \to 0\ \text{ as } n \to \infty$Obsérvese que por el teorema de convergencia dominado,$\E[(M_n - P)^2] = \int_0^1 \frac{p (1 - p)}{n} g(p) dp \to 0 \text{ as } n \to \infty$

Prueba de convergencia en la distribución

Convergencia con probabilidad 1 implica convergencia en la distribución, pero es interesante obtener una prueba directa. Para$$x \in (0, 1)$$, tenga en cuenta que$\P(M_n \le x) = \P(Y_n \le n x) = \sum_{k=0}^{\lfloor nx \rfloor} \binom{n}{k} \frac{a^{[k]} b^{[n-k]}}{(a + b)^{[n]}}$ dónde$$\lfloor \cdot \rfloor$$ está la función floor. Pero recordemos que$\frac{a^{[k]} b^{[n-k]}}{(a + b)^{[n]}} = \frac{B(a + k, b + n - k)}{B(a, b)} = \frac{1}{B(a, b)} \int_0^1 p^{a + k - 1} (1 - p)^{b + n - k - 1} dp$ Sustituyendo y haciendo algo de álgebra obtenemos$\P(M_n \le x) = \frac{1}{B(a, b)} \int_0^1 \left[\sum_{k=0}^{\lfloor nx \rfloor} \binom{n}{k} p^k (1 - p)^{n-k}\right] p^{a - 1}(1 - p)^{b - 1} dp$ La suma entre corchetes es$$\P(W_n \le n x) = \P(W_n / n \le x)$$ donde$$W_n$$ tiene la distribución binomial ordinaria con parámetros$$n$$ y$$p$$. Pero$$W_n / n$$ converge (en todos los sentidos) a$$p$$ como$$n \to \infty$$ así$$\P(W_n / n \le x) \to \bs{1}(p \le x)$$ como$$n \to \infty$$. Entonces, por el teorema de convergencia dominado,$\P(M_n \le x) \to \frac{1}{B(a, b)} \int_0^x p^{a - 1} (1 - p)^{b - 1} dp = \P(P \le x)$

Recordemos nuevamente que el estimador bayesiano de$$p$$ basado en$$(X_1, X_2, \ldots, X_n)$$ es$\E(P \mid Y_n) = \frac{a + Y_n}{a + b + n} = \frac{a / n + M_n}{a / n + b / n + 1}$ Se deduce del último teorema que$$\E(P \mid Y_n) \to P$$ con probabilidad 1, en cuadrado medio, y en distribución. El proceso estocástico$$\bs Z = \{Z_n = (a + Y_n) / (a + b + n): n \in \N\}$$ que hemos visto varias veces ahora es de fundamental importancia, y resulta ser una martingala. La teoría de las martingales proporciona poderosas herramientas para estudiar la convergencia en el proceso beta-Bernoulli.

### El número de prueba de un éxito

Para$$k \in \N_+$$, vamos a$$V_k$$ denotar el número de prueba del éxito$$k$$ th. Como hemos visto antes en circunstancias similares, el proceso$$\bs{V} = (V_1, V_2, \ldots)$$ puede definirse en términos del proceso$$\bs{Y}$$:$V_k = \min\{n \in \N_+: Y_n = k\}, \quad k \in \N_+$ Tenga en cuenta que$$V_k$$ toma valores en$$\{k, k + 1, \ldots\}$$. Los procesos aleatorios$$\bs{V} = (V_1, V_2, \ldots)$$ y$$\bs{Y} = (Y_0, Y_1, \ldots)$$ son inversos el uno del otro en cierto sentido.

Para$$k \in \N$$ y$$n \in \N_+$$ con$$k \le n$$,

1. $$V_k \le n$$si y solo si$$Y_n \ge k$$
2. $$V_k = n$$si y solo si$$Y_{n-1} = k - 1$$ y$$X_n = 1$$

La función de denisty de probabilidad$$V_k$$ está dada por$\P(V_k = n) = \binom{n - 1}{k - 1} \frac{a^{[k]} b^{[n-k]}}{(a + b)^{[n]}}, \quad n \in \{k, k + 1, \ldots\}$

Prueba 1

Como de costumbre, podemos condicionar$$P$$ y usar resultados conocidos para los ensayos ordinarios de Bernoulli. Dado$$P = p$$, la variable aleatoria$$V_k$$ tiene la distribución binomial negativa con parámetros$$k$$ y$$p$$. De ahí\ begin {alinear*}\ P (v_k = n) & =\ int_0^1\ P (v_k = n\ mid P = p) g (p) dp =\ int_0^1\ binom {n - 1} {k - 1} p^k (1 - p) ^ {n-k}\ frac {1} {B (a, b)} p^ a-1} (1 - p) ^ {b - 1} dp\\ & =\ binom {n - 1} {k - 1}\ frac {1} {B (a, b)}\ int_0^1 p^ {a + k - 1} (1 - p) ^ {b + n - k - 1} dp\\ & =\ binom {n - 1} {k - 1} ac { B (a + k, b + n - k)} {B (a, b)} =\ binom {n - 1} {k - 1}\ frac {a^ {[k]} b^ {[n-k]}} {(a + b) ^ {[n]}}\ end {align*}

Prueba 2

En esta prueba, condicionamos$$Y_{n-1}$$. Usando el PDF de$$Y_{n-1}$$ y el resultado anterior,\ begin {align*}\ P (V_k = n) & =\ P (Y_ {n-1} = k - 1, x_n = 1) =\ P (Y_ {n-1} = k - 1)\ P (x_n = 1\ mid Y_ {n-1} = k - 1)\\ & =\ binom {n - 1} {k - 1}\ frac {a^ {[k - 1]} b^ {[(n - 1) - (k - 1)]}} {(a + b) ^ {[n-1]}}\ frac {a + k - 1} {a + b + (n - 1)} =\ binom {n - 1} {k - 1}\ frac {a^ {[k]} b^ {[n-k]}} {(a + b) ^ {[n]}}\ final {alinear*}

La distribución de$$V_k$$ se conoce como la distribución binomial beta negativa con parámetros$$k$$,$$a$$, y$$b$$.

Si es$$a = b = 1$$ así que$$P$$ se distribuye uniformemente en$$(0, 1)$$, entonces$\P(V_k = n) = \frac{k}{n (n + 1)}, \quad n \in \{k, k + 1, k + 2, \ldots\}$

Prueba

Recordemos de nuevo eso$$1^{[j]} = j!$$ y$$2^{[j]} = (j + 1)!$$ para$$j \in \N$$. De ahí que a partir del resultado anterior,$\P(V_k = n) = \frac{(n - 1)!}{(k - 1)! (n - k)!} \frac{k! (n - k)!}{(n + 1)!} = \frac{k}{n (n + 1)}, \quad n \in \{k, k + 1, \ldots\}$

En la simulación del experimento binomial beta-negativo, variar los parámetros y anotar la forma de la función de densidad de probabilidad. Para diversos valores de los parámetros, ejecute la simulación 1000 veces y compare la función de densidad empírica con la función de densidad de probabilidad.

La media y varianza$$V_k$$ de

1. $$\E(V_k) = k \frac{a + b - 1}{a - 1}$$si$$a \gt 1$$.
2. $$\var(V_k) = k \frac{a + b - 1}{(a - 1)(a - 2)} [b + k (a + b - 2)] - k^2 \left(\frac{a + b - 1}{a - 1}\right)^2$$
Prueba

De nuestro trabajo con la distribución binomial negativa lo sabemos$$\E(V_k | P = p) = k \frac{1}{p}$$ y$$\E(V_k^2 | P = p) = k \frac{1 - p}{p^2} + \frac{k^2}{p^2}$$. Así, condicionamiento sobre$$P$$ nosotros$\E(V_k) = \E[\E(V_k | P)] = \int_0^1 \frac{k}{p} \frac{p^{a-1} (1 - p)^{b - 1}}{B(a, b)} = k \frac{B(a - 1, b)}{B(a, b)} = k \frac{a + b - 1}{a - 1}$ lo que da parte (a). De manera similar\ begin {align}\ E (v_k^2) & =\ E [\ E (v_k^2 | P)] =\ int_0^1\ left (k\ frac {1 - p} {p^2} +\ frac {k^2} {p^2}\ derecha)\ frac {p^ {a - 1} (1 - p) ^ {b - 1}} {B (a, b)}\\ & = k\ frac {B (a - 2, b + 1)} {B (a, b)} + k^2\ frac {B (a - 2, b)} {B (a, b)} = k\ frac {b (a + b - 2)} {(a - 1) (a - 2)} + k^2\ frac {(a + b - 1) (a + b - 2)} {(a - 1) (a - 2)}\ end {align} Simplificar y usar la parte (a) da parte (b).

En la simulación del experimento binomial beta negativo, varíe los parámetros y anote la ubicación y el tamaño de la barra de desviación$$\pm$$ estándar media. Para diversos valores de los parámetros, ejecute la simulación 1000 veces y compare los momentos empíricos con los momentos verdaderos.

This page titled 11.7: El Proceso Beta-Bernoulli is shared under a CC BY 2.0 license and was authored, remixed, and/or curated by Kyle Siegrist (Random Services) via source content that was edited to the style and standards of the LibreTexts platform.