17.5: Convergencia

Última actualización
Guardar como PDF

Page ID: 151820

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

\(\renewcommand{\P}{\mathbb{P}}\)\(\newcommand{\E}{\mathbb{E}}\)\(\newcommand{\R}{\mathbb{R}}\)\(\newcommand{\N}{\mathbb{N}}\)\(\newcommand{\Q}{\mathbb{Q}}\)\(\newcommand{\bs}{\boldsymbol}\)\(\newcommand{\var}{\text{var}}\)

Teoría Básica

Supuestos básicos

Al igual que en la Introducción, comenzamos con un proceso estocástico\( \bs{X} = \{X_t: t \in T\} \) en un espacio de probabilidad subyacente\( (\Omega, \mathscr{F}, \P) \), teniendo espacio de estado\( \R \), y donde el conjunto de índices\( T \) (que representa el tiempo) es\( \N \) (tiempo discreto) o\( [0, \infty) \) (tiempo continuo). A continuación, tenemos una filtración\(\mathfrak{F} = \{\mathscr{F}_t: t \in T\} \), y asumimos que\( \bs{X} \) se adapta a\( \mathfrak{F} \). Así\( \mathfrak{F} \) es una familia creciente de sub\( \sigma \) -álgebras de\( \mathscr{F} \) y\( X_t \) es medible con respecto a\( \mathscr{F}_t \) for\( t \in T \). Pensamos en\( \mathscr{F}_t \) como la colección de eventos hasta el momento\( t \in T \). Suponemos que\( \E\left(\left|X_t\right|\right) \lt \infty \), para que la media de\( X_t \) exista como número real, para cada uno\( t \in T \). Finalmente, en tiempo continuo donde\( T = [0, \infty) \), necesitamos los supuestos adicionales que\( t \mapsto X_t \) es correcto continuo y tiene límites izquierdos, y que la filtración\( \mathfrak F \) es estándar (es decir, derecha continua y completa). Recordemos también eso\( \mathscr{F}_\infty = \sigma\left(\bigcup_{t \in T} \mathscr{F}_t\right) \), y este es el\( \sigma \) -álgebra que codifica nuestra información a lo largo de todos los tiempos.

Los teoremas de convergencia de la martingala

Si\( \bs X \) es una sub-martingala relativa a\( \mathfrak F \) entonces\( \bs X \) tiene una propiedad creciente de clases:\( E(X_t \mid \mathscr{F}_s) \ge X_s\) para\( s, \, t \in T \) con\( s \le t \). De igual manera, si\( \bs X \) es una super-martingala relativa a\( \mathfrak F \) entonces\( \bs X \) tiene una propiedad decreciente de clases, ya que se invierte la última desigualdad. Así, existe la esperanza de que si esta propiedad creciente o decreciente se combina con una propiedad de boundedness apropiada, entonces la sub-martingala o super-martingala podría converger, en algún sentido, como\( t \to \infty \). Este es efectivamente el caso, y es el tema de esta sección. Los teoremas de convergencia martingala, formulados por primera vez por Joseph Doob, se encuentran entre los resultados más importantes en la teoría de las martingales. El primer teorema de convergencia martingala establece que si el valor absoluto esperado se limita en el tiempo, entonces el proceso martingala converge con probabilidad 1.

Supongamos que\( \bs{X} = \{X_t: t \in T\} \) es una sub-martingala o una super-martingala con respecto a\( \mathfrak{F} = \{\mathscr{F}_t: t \in T\} \) y que\( \E\left(\left|X_t\right|\right) \) está acotada en\( t \in T \). Entonces existe una variable aleatoria\( X_\infty \) que es medible con respecto a\( \mathscr{F}_\infty \) tal que\( \E(\left|X_\infty\right|) \lt \infty \) y\( X_t \to X_\infty \) como\( t \to \infty \) con probabilidad 1.

Prueba

La prueba es simple usando la desigualdad de cruce. Dejemos\( T_t = \{s \in T: s \le t\} \) para\( t \in T \). Para\( a, b \in \R \) con\( a \lt b \), vamos\( U_t(a, b) \) denotar el número de cruces ascendentes del intervalo\( [a, b] \) por el proceso\( \bs X \) encendido\( T_t \), y let\( U_\infty(a, b) \) denotar el número de cruces ascendentes de\( [a, b] \) por\( \bs X \) on\( T \). Recordemos que\( U_t \uparrow U_\infty \) como\( t \to \infty \). Supongamos que\( \E(|X_t|) \lt c \) para\( t \in T \), donde\( c \in (0, \infty) \). Por la desigualdad ascendente,\[ \E[U_t(a, b)] \le \frac{1}{b - a}[|a| + \E(|X_t|)] \le \frac{|a| + c}{b - a}, \quad n \in \N\] Por el teorema de convergencia monótona, se deduce que\[ \E[U_\infty(a, b)] \lt \frac{|a| + c}{b - a} \lt \infty \] De ahí\( \P[U_\infty(a, b) \lt \infty] = 1 \). Por lo tanto con probabilidad 1,\( U_\infty(a, b) \lt \infty \) para cada\( a, \, b \in \Q \) con\( a \lt b \). Por nuestra caracterización de convergencia en términos de cruces ascendentes, se deduce que existe una variable aleatoria\( X_\infty \) con valores en\( \R^* = \R \cup \{-\infty, \infty\} \) tal que con probabilidad 1,\( X_t \to X_\infty \) como\( t \to \infty \). Tenga en cuenta que\( X \) es medible con respecto a\( \mathscr{F}_\infty \). Por el lema de Fatou,\[ \E(|X_\infty|) \le \liminf_{t \to \infty} \E(|X_t|) \lt \infty \] De ahí\( \P(X_\infty \in \R) = 1 \).

La condición de límite significa que\( \bs X \) está delimitado (en norma) como un subconjunto del espacio vectorial\( \mathscr{L}_1 \). Aquí hay un corolario muy simple, pero útil:

Si\( \bs X = \{X_t: t \in T\} \) es una super-martingala no negativa con respecto a\( \mathfrak F = \{\mathscr{F}_t: t \in T\} \) entonces existe una variable aleatoria\( X_\infty \), medible con respecto a\( \mathscr{F}_\infty \), tal que\( X_t \to X_\infty \) con probabilidad 1.

Prueba

Ya que\( \bs X \) es un super-martinagle no negativo,\( \E(|X_t|) = \E(X_t) \le \E(X_0) \) para\( t \in T \). De ahí que se aplique el teorema de convergencia de martingala anterior.

Por supuesto, el corolario se aplica a una martingala no negativa como caso especial. Para el segundo teorema de convergencia martingala necesitarás revisar variables integrables de manera uniforme. Recordemos también que para\( k \in [1, \infty) \), la\( k \) -norma de una variable aleatoria\( X \) es\[ \|X\|_k = \left[\E\left(|X|^k\right)\right]^{1/k} \] y\( \mathscr{L}_k \) es el espacio vectorial normado de todas las variables aleatorias de valor real para las cuales esta norma es finita. Convergencia en media se refiere a la convergencia en\( \mathscr{L}_1 \) y más generalmente, convergencia en\( k \) la media se refiere a la convergencia en\( \mathscr{L}_k \).

Supongamos que\( \bs X \) es una integrable uniformemente y es una sub-martingala o super-martingala con respecto a\( \mathfrak F \). Entonces existe una variable aleatoria\( X_\infty \), medible con respecto a\( \mathscr{F}_\infty \) tal que\( X_t \to X_\infty \) como\( t \to \infty \) con probabilidad 1 y en media. Además, si\( \bs X \) es una martingala con respecto a\( \mathfrak F \) entonces\( X_t = \E(X_\infty \mid \mathscr{F}_t) \) para\( t \in T \).

Prueba

Dado que\( \bs X = \{X_t: t \in T\} \) es integrable uniformemente,\( \E(|X_t|) \) está acotado en\( t \in T \). De ahí el por el primer teorema de convergencia martingala, existe\( X_\infty \) que es medible con respecto a\( \mathscr{F}_\infty \) tal que\( \E(|X_\infty|) \lt \infty \) y\( X_t \to X_\infty \) como\( t \to \infty \) con probabilidad 1. Por el teorema de integrabilidad uniforme, la convergencia también está en media, de manera que\( \E(|X_t - X|) \to 0 \) como\( t \to \infty \). Supongamos ahora que\( \bs X \) es una martingala con respecto a\( \mathfrak F \) Para fijo\( s \in T \) sabemos que\( \E(X_t \mid \mathscr{F}_s) \to \E(X_\infty \mid \mathscr{F}_s) \) como\( t \to \infty \) (con probabilidad 1). Pero\( \E(X_t \mid \mathscr{F}_s) = X_s \) para\( t \ge s \) eso se deduce que\( X_s = \E(X_\infty \mid \mathscr{F}_s) \).

Como simple corolario, recordemos que si\( \|X_t\|_k \) está acotado en\( t \in T \) para algunos\( k \in (1, \infty) \) entonces\( \bs X \) es uniformemente integrable, y de ahí se aplica el segundo teorema de convergencia martingala. Pero podemos hacerlo mejor.

Supongamos nuevamente que\( \bs X = \{X_t: t \in T\} \) es una sub-martingala o super-martingala con respecto a\( \mathfrak F = \{\mathscr{F}_t: t \in T\} \) y eso\( \|X_t\|_k \) está acotado en\( t \in T \) para algunos\( k \in (1, \infty) \). Entonces existe una variable aleatoria\( X_\infty \in \mathscr{L}_k \) tal que\( X_t \to X_\infty \) como\( t \to \infty \) en\( \mathscr{L}_k \).

Prueba

Supongamos que\( \|X_t\|_k \le c \) para\( t \in T \) donde\( c \in (0, \infty) \). Ya que\( \|X\|_1 \le \|X\|_k \), hemos\( \E(|X_t|) \) acotado en\( t \in T \) lo que se aplica el primer teorema de convergencia martingala. De ahí que exista\( X_\infty \), medible con respecto a\( \mathscr{F}_\infty \), tal que\( X_t \to X_\infty \) como\( t \to \infty \) con probabilidad 1. Equivalentemente, con probabilidad 1,\[ |X_t - X_\infty|^k \to 0 \text{ as } t \to \infty \] Next, for\( t \in T \), let\( T_t = \{s \in T: s \le t\} \) define\( W_t = \sup\{|X_s|: s \in T_t\} \). por la versión norma de la desigualdad máxima,\[ \|W_t\|_k \le \frac{k}{k-1}\|X_t\| \le \frac{k c}{k - 1}, \quad t \in T \] Si dejamos\( W_\infty = \sup\{|X_s|: s \in T\} \), entonces por el teorema de convergencia montone\[ \|W_\infty\|_k = \lim_{t \to \infty} \|W_t\|_k \le \frac{c k}{k - 1} \] So\( W_\infty \in \mathscr{L}_k \). Pero\( |X_\infty| \le W_\infty \) así\( X_\infty \in \mathscr{L}_k \) también. Además,\( |X_t - X_\infty|^k \le 2^k W^k_\infty \), aplicando el teorema de convergencia dominada a la primera ecuación mostrada arriba, tenemos\( \E(|X_t - X_\infty|^k) \to 0 \) como\( t \to \infty \).

Ejemplo y Aplicaciones

En esta subsección, consideramos una serie de aplicaciones de los teoremas de convergencia martingala. Un indicio de la importancia de la teoría martingala es el hecho de que muchos de los teoremas clásicos de la probabilidad tienen pruebas simples y elegantes cuando se formulan en términos de martingales.

Simple Caminata Aleatoria

Supongamos ahora que esa\( \bs{V} = \{V_n: n \in \N\} \) es una secuencia de variables aleatorias independientes con\( \P(V_i = 1) = p \) y\( \P(V_i = -1) = 1 - p \) para\( i \in \N_+ \), donde\( p \in (0, 1) \). Dejar\( \bs{X} = \{X_n: n \in \N\} \) ser el proceso de suma parcial asociado\( \bs{V} \) para que\[ X_n = \sum_{i=0}^n V_i, \quad n \in \N \] Recall ese\( \bs{X} \) es el simple paseo aleatorio con parámetro\( p \). De nuestro estudio de las cadenas de Markov, sabemos que\( p \gt \frac{1}{2} \) entonces\( X_n \to \infty \) como\( n \to \infty \) y si\( p \lt \frac{1}{2} \) entonces\( X_n \to -\infty \) como\( n \to \infty \). La cadena es transitoria en estos dos casos. Si\( p = \frac{1}{2} \), la cadena es (nula) recurrente y así visita cada estado\( \N \) infinitamente a menudo. En este caso\( X_n \) no converge como\( n \to \infty \). Pero claro\( \E(X_n) = n (2 p - 1) \) para\( n \in \N \), así no se aplican los teoremas de convergencia martingala.

Martingala de Doob

Recordemos que si\( X \) es una variable aleatoria con\( \E(|X|) \lt \infty \) y definimos\( X_t = \E(X \mid \mathscr{F}_t) \) para\( t \in T \), entonces\( \bs X = \{X_t: t \in T\} \) es una martingala relativa a\( \mathfrak F \) y es conocida como una martingala Doob, llamada así por usted sabe a quién. Entonces el segundo teorema de convergencia martingala afirma que toda martingala integrable uniformemente es una martingala Doob. Además, sabemos que la martingala Doob\( \bs X \) construida a partir de\( X \) y\( \mathfrak F \) es integrable uniformemente, por lo que se aplica el teorema de convergencia de la segunda martingala. La última pregunta restante es la relación entre\( X \) y la variable aleatoria limitante\( X_\infty \). La respuesta puede llegar como ninguna sorpresa.

Que\( \bs X = \{X_t: t \in T\} \) sea la martingala Doob construida a partir de\( X \) y\( \mathfrak F \). Entonces\( X_t \to X_\infty \) como\( t \to \infty \) con probabilidad 1 y en media, donde\[ X_\infty = \E(X \mid \mathscr{F}_\infty) \]

Por supuesto si\( \mathscr{F}_\infty = \mathscr{F} \), lo cual es bastante posible, entonces\( X_\infty = X \). En el otro extremo, si\( \mathscr{F}_t = \{\emptyset, \Omega\}\), el trivial\( \sigma \) -álgebra para todos\( t \in T \), entonces\( X_\infty = \E(X) \), una constante.

Kolmogorov Ley Zero-Uno

Supongamos que\( \bs X = (X_n: n \in \N_+) \) es una secuencia de variables aleatorias con valores en un espacio de estado general\( (S, \mathscr{S}) \). Vamos\( \mathscr{G}_n = \sigma\{X_k: k \ge n\} \) por\( n \in \N_+ \), y vamos\( \mathscr{G}_\infty = \bigcap_{n=1}^\infty \mathscr{G}_n \). Así\( \mathscr{G}_\infty \) es la cola\( \sigma \) -álgebra de\( \bs X \), la colección de eventos que dependen sólo de los términos de la secuencia con índices arbitrariamente grandes. Por ejemplo, si la secuencia es de valor real (o más generalmente toma valores en un espacio métrico), entonces el evento que\( X_n \) tiene un límite como\( n \to \infty \) es un evento de cola. Si\( B \in \mathscr{S} \), entonces el evento que\( X_n \in B \) para infinitamente muchos\( n \in \N_+ \) es otro evento cola. La ley de Kolmogorov cero-uno, llamada así por Andrei Kolmogorov, establece que si\( \bs X \) es una secuencia independiente, entonces los eventos de cola son esencialmente deterministas.

Supongamos que\( \bs X \) es una secuencia de variables aleatorias independientes. Si\( A \in \mathscr{G}_\infty \) entonces\( \P(A) = 0 \) o\( \P(A) = 1 \).

Prueba

Dejar\( \mathscr{F}_n = \sigma\{X_k: k \le n\} \) para\( n \in \N_+ \) que esa\( \mathfrak F = \{\mathscr{F}_n: n \in \N_+\} \) sea la filtración natural asociada con\( \bs X \). Al igual que con nuestra notación anterior, vamos\( \mathscr{F}_\infty = \sigma\left(\bigcup_{n \in \N_+} \mathscr{F}_n\right) \). Ahora vamos a\( A \in \mathscr{G}_\infty \) ser un evento de cola. Entonces\( \{\E(\bs{1}_A \mid \mathscr{F}_n): n \in \N_+\} \) es la martingala Doob asociada a la variable indicadora\( \bs{1}_A \) y\( \mathfrak F \). Por nuestros resultados anteriores,\( \E(\bs{1}_A \mid \mathscr{F}_n) \to \E(\bs{1}_A \mid \mathscr{F}_\infty) \) como\( n \to \infty \) con probabilidad 1. Pero\( A \in \mathscr{F}_\infty \) así\( \E(\bs{1}_A \mid \mathscr{F}_\infty) = \bs{1}_A \). Por otro lado,\( A \in \mathscr{G}_{n+1} \) y las\( \sigma \) -álgebras\( \mathscr{G}_{n+1} \) y\( \mathscr{F}_n \) son independientes. Por lo tanto\( \E(\bs{1}_A \mid \mathscr{F}_n) = \P(A) \) para cada uno\( n \in \N_+ \). Por lo tanto\( \P(A) = \bs{1}_A \).

Los eventos de cola y la ley Kolmogorov cero-uno se estudiaron anteriormente en la sección sobre la medida en el capítulo sobre espacios de probabilidad. Una variable aleatoria que es medible con respecto a\( \mathscr{G}_\infty \) es una variable aleatoria de cola. A partir de la ley de Kolmogorov cero-uno, una variable aleatoria de cola de valor real para una secuencia independiente debe ser una constante (con probabilidad 1).

Procesos de ramificación

Recordemos la discusión del proceso de ramificación simple desde la Introducción. La suposición fundamental es que las partículas actúan de manera independiente, cada una con la misma distribución de descendencia\( \N \). Como antes, dejaremos\( f \) denotar la función de densidad de probabilidad (discreta) del número de crías de una partícula,\( m \) la media de la distribución y\( q \) la probabilidad de extinción comenzando con una sola partícula. Suponemos que\( f(0) \gt 0 \) y\( f(0) + f(1) \lt 1 \) para que una partícula tenga una probabilidad positiva de morir sin hijos y una probabilidad positiva de producir más de 1 hijo.

El proceso estocástico de interés es\( \bs{X} = \{X_n: n \in \N\} \) donde\( X_n \) está el número de partículas en la generación\( n \) th para\( n \in \N \). Recordemos que\( \bs{X} \) es una cadena de Markov en tiempo discreto\( \N \). Dado que 0 es un estado absorbente, y todos los estados positivos conducen a 0, sabemos que los estados positivos son transitorios y por lo tanto se visitan solo finitamente a menudo con probabilidad 1. De ello se deduce que ya sea\( X_n \to 0 \) como\( n \to \infty \) (extinción) o\( X_n \to \infty \) como\( n \to \infty \) (explosión). Tenemos bastante información sobre cuál de estos eventos ocurrirá a partir de nuestro estudio de las cadenas de Markov, pero los teoremas de convergencia de la martingala dan más información.

Extinción y explosión

Si\( m \le 1 \) entonces\( q = 1 \) y la extinción es cierta.
Si\( m \gt 1 \) entonces\( q \in (0, 1) \). Ya sea\( X_n \to 0 \) como\( n \to \infty \) o\( X_n \to \infty \) como\( n \to \infty \) a una tasa exponencial.

Prueba

La nueva información es la tasa de divergencia a\( \infty \) in (b). Las otras afirmaciones son de nuestro estudio de las cadenas de Markov que ramifican en el tiempo discreto. Mostramos en la Introducción que\( \{X_n / m^n: n \in \N\} \) es una martingala. Dado que esta martingala no es negativa, tiene un límite as\( n \to \infty \), y la variable aleatoria limitante toma valores adentro\( \R \). Entonces, si\( m \gt 1 \) y\( X_n \to \infty \) como\( n \to \infty \), entonces la divergencia a\( \infty \) debe ser esencialmente al mismo ritmo que\( m^n. \)

El proceso Beta-Bernoulli

Recordemos que el proceso beta-Bernoulli se construye aleatorizando el parámetro de éxito en un proceso de ensayos de Bernoulli con una distribución beta. Específicamente, comenzamos con una variable aleatoria\( P \) que tiene la distribución beta con parámetros\( a, \, b \in (0, \infty) \). A continuación tenemos una secuencia\( \bs X = (X_1, X_2, \ldots) \) de variables indicadoras con la propiedad que\( \bs X \) es condicionalmente independiente dada\( P = p \in (0, 1) \) con\( \P(X_i = 1 \mid P = p) = p \) for\( i \in \N_+ \). Dejar\( \bs{Y} = \{Y_n: n \in \N\} \) denotar el proceso de suma parcial asociado con\( \bs{X} \), de manera que una vez más,\( Y_n = \sum_{i=1}^n X_i\) para\(n \in \N \). A continuación vamos\( M_n = Y_n / n \) para\( n \in \N_+ \) así que esa\( M_n \) es la media de la muestra de\( (X_1, X_2, \ldots, X_n) \). Finalmente dejamos\[ Z_n = \frac{a + Y_n}{a + b + n}, \quad n \in \N\] Mostramos en la Introducción que\( \bs Z = \{Z_n: n \in \N\} \) es una martingala con respecto a\( \bs X \).

\( M_n \to P \)y\( Z_n \to P \) como\( n \to \infty \) con probabilidad 1 y en media.

Prueba

Mostramos en la sección sobre el proceso beta-Bernoulli que al\( Z_n \to P \) igual que\( n \to \infty \) con la probabilidad 1. Tenga en cuenta que\( 0 \le Z_n \le 1 \) para\( n \in \N \), por lo que la martingala\( \bs Z \) es uniformemente integrable. De ahí que se aplique el segundo teorema de convergencia martingala, y la convergencia también está en media.

Este es un resultado muy agradable y es una reminiscencia del hecho de que para la secuencia ordinaria de ensayos de Bernoulli con parámetro de éxito\( p \in (0, 1) \) tenemos la ley de números grandes que\( M_n \to p \) como\( n \to \infty \) con probabilidad 1 y en media.

Proceso de urna de Pólya

Recordemos que en la versión más simple del proceso de urna de Pólya, comenzamos con una urna que contiene bolas\( a \) rojas y\( b \) verdes. En cada paso de tiempo discreto, seleccionamos una bola al azar de la urna y luego reemplazamos la bola y agregamos\( c \) nuevas bolas del mismo color a la urna. Para los parámetros, necesitamos\( a, \, b \in \N_+ \) y\( c \in \N \). Para\( i \in \N_+ \), vamos a\( X_i \) denotar el color de la bola seleccionada en el\( i \) th sorteo, donde 1 significa rojo y 0 significa verde. Para\( n \in \N \), let\( Y_n = \sum_{i=1}^n X_i \), así que ese\( \bs Y = \{Y_n: n \in \N\} \) es el proceso de suma parcial asociado con\( \bs X = \{X_i: i \in \N_+\} \). Ya que\( Y_n \) es el número de bolas rojas en la urna en el momento\( n \in \N_+ \), el número promedio de bolas a la vez\( n \) es\( M_n = Y_n / n \). Por otro lado, el número total de bolas en la urna en el momento\( n \in \N \) es\( a + b + c n \) así que la proporción de bolas rojas en la urna en el momento\( n \) es\[ Z_n = \frac{a + c Y_n}{a + b + c n} \] Mostramos en la Introducción,\( \bs Z = \{Z_n: n \in \N\} \) es decir una martingala. Ahora nos interesa el comportamiento limitante de\( M_n \) y\( Z_n \) como\( n \to \infty \). Cuando\( c = 0 \), la respuesta es fácil. En este caso,\( Y_n \) tiene la distribución binomial con parámetro de ensayo\( n \) y parámetro de éxito\( a / (a + b) \), así por la ley de números grandes,\( M_n \to a / (a + b) \) como\( n \to \infty \) con probabilidad 1 y en media. Por otro lado,\( Z_n = a / (a + b) \) cuando\( c = 0 \). Entonces el caso interesante es cuándo\( c \gt 0 \).

Supongamos que\( c \in \N_+ \). Entonces existe una variable aleatoria\( P \) tal que\( M_n \to P \) y\( Z_n \to P \) como\( n \to \infty \) con probabilidad 1 y en media. Además,\( P \) tiene la distribución beta con parámetro izquierdo\( a / c \) y parámetro derecho\( b / c \).

Prueba

En nuestro estudio del proceso de urna de Póyla mostramos que cuando\( c \in \N_+ \) el proceso\( \bs X \) es un proceso beta-Bernoulli con parámetros\( a / c \) y\( b / c \). Entonces el resultado se desprende de nuestro teorema anterior.

Pruebas de Relación de Probabilidad

Recordemos la discusión de las pruebas de razón de verosimilitud en la Introducción Para revisar, supongamos que\( (S, \mathscr{S}, \mu) \) es un espacio de medida general, y que\( \bs{X} = \{X_n: n \in \N\} \) es una secuencia de variables aleatorias independientes, distribuidas idénticamente, tomando valores y teniendo una función de densidad de probabilidad común con respecto a\( \mu \).\( S \) La prueba de razón de verosimilitud es una prueba de hipótesis, donde las hipótesis nula y alternativa son

\( H_0 \): la función de densidad de probabilidad es\( g_0 \).
\( H_1 \): la función de densidad de probabilidad es\( g_1 \).

Asumimos eso\( g_0 \) y\( g_1 \) somos positivos en\( S \). Además, no tiene sentido\( g_1 \) para\( g_0 \) y ser lo mismo, por lo que suponemos que\( g_0 \ne g_1 \) sobre un conjunto de medida positiva. La prueba se basa en el estadístico de prueba de razón de verosimilitud\[ L_n = \prod_{i=1}^n \frac{g_0(X_i)}{g_1(X_i)}, \quad n \in \N \] Mostramos que bajo la hipótesis alternativa\( H_1 \),\( \bs{L} = \{L_n: n \in \N\} \) es una martingala con respecto a\( \bs{X} \), conocida como la razón de verosimilitud martingala.

Bajo\( H_1 \),\( L_n \to 0 \) como\( n \to \infty \) con probabilidad 1.

Prueba

Supongamos que eso\( H_1 \) es cierto. \( \bs L \)es una martingala no negativa, por lo que se aplica el teorema de convergencia de la primera martingala, y por lo tanto existe una variable aleatoria\( L_\infty \) con valores en\( [0, \infty) \) tal que\( L_n \to L_\infty \) como\( n \to \infty \) con probabilidad 1. Siguiente nota que\[ \ln(L_n) = \sum_{i=1}^n \ln\left[\frac{g_0(X_i)}{g_1(X_i)}\right] \] Las variables\( \ln[g_0(X_i) / g_1(X_i)] \) para también\( i \in \N_+ \) son independientes e idénticamente distribuidas, así que vamos a\( m \) denotar la media común. El logaritmo natural es cóncavo y la martingala\( \bs L \) tiene media 1, así que por la desigualdad de Jensen,\[ m = \E\left(\ln\left[\frac{g_0(X)}{g_1(X)}\right]\right) \lt \ln\left(\E\left[\frac{g_0(X)}{g_1(X)}\right]\right) = \ln(1) = 0 \] De ahí\( m \in [-\infty, 0) \). Por la fuerte ley de los grandes números,\( \frac{1}{n} \ln(L_n) \to m \) como\( n \to \infty \) con la probabilidad 1. De ahí que debemos tener\( \ln(L_n) \to -\infty \) como\( n \to \infty \) con probabilidad 1. Pero por continuidad,\( \ln(L_n) \to \ln(L_\infty) \) como\( n \to \infty \) con probabilidad 1, así\( L_\infty = 0 \) con probabilidad 1.

Este resultado es una buena noticia, estadísticamente hablando. Valores pequeños de\( L_n \) son evidencia a favor de\( H_1 \), por lo que la regla de decisión es rechazar\( H_0 \) a favor de\( H_1 \) si\( L_n \le l \) por un valor crítico elegido\( l \in (0, \infty) \). Si\( H_1 \) es cierto y el tamaño de la muestra\( n \) es suficientemente grande, rechazaremos\( H_0 \). En la prueba, anotar que\( \ln(L_n) \) debe divergir al\( -\infty \) menos tan rápido como\( n \) diverge a\( \infty \). De ahí\( L_n \to 0 \) como\( n \to \infty \) exponencialmente rápido, al menos. También vale la pena señalar que\( \bs L \) es una martingala media 1 (bajo\( H_1 \)) tan trivialmente\( \E(L_n) \to 1 \) como\( n \to \infty \) aunque\( L_n \to 0 \) como\( n \to \infty \) con probabilidad 1. Entonces la razón de verosimilitud martingala es un buen ejemplo de una secuencia donde el intercambio de límite y valor esperado no es válido.

Productos Parciales

Supongamos que\( \bs X = \{X_n: n \in \N_+\} \) es una secuencia independiente de variables aleatorias no negativas con\( \E(X_n) = 1 \) for\( n \in \N_+ \). Que\[Y_n = \prod_{i=1}^n X_i, \quad n \in \N\] así\( \bs Y = \{Y_n: n \in \N\} \) sea el proceso parcial del producto asociado con\( \bs X \). De nuestra discusión de este proceso en la Introducción, sabemos que\( \bs Y \) es una martingala con respecto a\( \bs X \). Dado que no\( \bs Y \) es negativo, se aplica el segundo teorema de convergencia martingala, por lo que existe una variable aleatoria\( Y_\infty \) tal que\( Y_n \to Y_\infty \) como\( n \to \infty \) con probabilidad 1. ¿Qué más podemos decir? El siguiente resultado, conocido como el teorema de la martingala del producto Kakutani, se debe a Shizuo Kakutani.

Dejar\( a_n = \E\left(\sqrt{X_n}\right) \)\( n \in \N_+ \) y dejar\( A = \prod_{i=1}^\infty a_i \).

Si\( A \gt 0 \) entonces\( Y_n \to Y_\infty \) como\( n \to \infty \) en media y\( \E(Y_\infty) = 1 \).
Si\( A = 0 \) entonces\( Y_\infty = 0 \) con probabilidad 1.

Prueba

Tenga en cuenta que\( a_n \gt 0 \) para\( n \in \N_+ \) ya no\( X_n \) es negativo y\( \P(X_n \gt 0) \gt 0 \). También, ya que\( x \mapsto \sqrt{x} \) es cóncavo en\( (0, \infty) \) ello se desprende de la desigualdad de Jensen que\[ a_n = \E\left(\sqrt{X_n}\right) \le \sqrt{\E(X_n)} = 1 \] Let\( A_n = \prod_{i=1}^n a_i \) for\( n \in \N \). Ya que\( a_n \in (0, 1] \) para\( n \in \N_+ \), se deduce que\( A_n \in (0, 1] \) para\( n \in \N \) y eso\( A_n \) está disminuyendo en\( n \in \N \) con límite\( A = \prod_{i=1}^\infty a_i \in [0, 1] \). A continuación vamos\(Z_n = \prod_{i=1}^n \sqrt{X_i} / a_i\) para\( n \in \N \), así que ese\( \bs Z = \{Z_n: n \in \N\} \) es el proceso parcial del producto asociado con\( \{\sqrt{X_n} / a_n: n \in \N\} \). Ya que\( \E\left(\sqrt{X_n} / a_n\right) = 1 \) para\( n \in \N_+ \), el proceso también\( \bs Z \) es una martingala no negativa, por lo que existe una variable aleatoria\( Z_\infty \) tal que\( Z_n \to Z_\infty \) como\( n \to \infty \) con probabilidad 1. Tenga en cuenta que\( Z_n^2 = Y_n / A_n^2 \)\( Y_n = A_n^2 Z_n^2 \),, y\( Y_n \le Z_n^2 \) para\( n \in \N \).

Supongamos que\( A \gt 0 \). Dado que la martingala\( \bs Y \) tiene media 1,\[ \E\left(Z_n^2\right) = \E(Y_n / A_n^2) = 1 / A_n^2 \le 1 / A^2 \lt \infty, \quad n \in \N \] Let\( W_n = \max\{Z_k: k \in \{0, 1, \ldots, n\}\} \) for\( n \in \N \) así que ese\( \bs W = \{W_n: n \in \N\} \) es el proceso máximo asociado con\( \bs Z \). También, vamos\( W_\infty = \sup\{Z_k: k \in \N\} \) a anotar que\( W_n \uparrow W_\infty \) como\( n \to \infty \). Por la desigualdad\( \mathscr{L}_2 \) máxima,\[ \E(W_n^2) \le 4 \E(Z_n^2) \le 4 / A^2, \quad n \in \N \] Por el teorema de convergencia monótona,\( \E(W_\infty^2) = \lim_{n \to \infty} \E(W_n^2) \le 4 / A^2 \). Ya que\( x \to x^2 \) está aumentando estrictamente\( [0, \infty) \),\( W_\infty^2 = \sup\{Z_n^2: n \in \N\} \) y así\( Y_n \le W_\infty^2 \) para\( n \in \N \). Ya que\( \E(W_\infty^2) \lt \infty \), se deduce que la martingala\( \bs Y \) es uniformemente integrable. De ahí que por el tercer teorema de convergencia martingala anterior,\( Y_n \to Y_\infty \) sea media. Dado que la convergencia en la media implica que los medios convergen,\( \E(Y_\infty) = \lim_{n \to \infty} \E(Y_n) = 1 \).
Supongamos que\( A = 0 \). Entonces\( Y_n = A_n^2 Z_n^2 \to 0 \cdot Z_\infty^2 = 0\) como\( n \to \infty \) con probabilidad 1. Obsérvese que en este caso, la convergencia no está en la media, y trivialmente\( \E(Y_\infty) = 0 \).

Funciones de Densidad

Esta discusión continúa la de las funciones de densidad en la Introducción. Para revisar, comenzamos con nuestro espacio de probabilidad\( (\Omega, \mathscr{F}, \P) \) y una filtración\( \mathfrak F = \{\mathscr{F}_n: n \in \N\} \) en tiempo discreto. Recordemos de nuevo eso\( \mathscr{F}_\infty = \sigma \left(\bigcup_{n=0}^\infty \mathscr{F}_n\right) \). Supongamos ahora que\( \mu \) es una medida finita en el espacio muestral\( (\Omega, \mathscr{F}) \). Para cada uno\( n \in \N \cup \{\infty\} \), la restricción de\( \mu \) a\( \mathscr{F}_n \) es una medida sobre\( (\Omega, \mathscr{F}_n) \) y de manera similar la restricción de\( \P \) a\( \mathscr{F}_n \) es una medida de probabilidad en\( (\Omega, \mathscr{F}_n) \). Para guardar notación y terminología, nos referiremos a estas como \( \mu \)y\( \P \) sucesivamente\(\mathscr{F}_n\), respectivamente. Supongamos ahora que\( \mu \) es absolutamente continuo con respecto a\( \P \) on\(\mathscr{F}_n\) para cada uno\( n \in \N \). Por el teorema de Radón-Nikodym,\( \mu \) tiene una función de densidad (o derivado de Radón-Nikodym)\( X_n: \Omega \to \R \) con respecto a\( \P \) on\( \mathscr{F}_n \) para cada uno\( n \in \N \). El teorema y la derivada llevan el nombre de Johann Radon y Otto Nikodym. En la Introducción mostramos que\( \bs X = \{X_n: n \in \N\} \) es una martingala con respecto a\( \mathfrak F\). Aquí está el resultado de la convergencia:

Existe una variable aleatoria\( X_\infty \) tal que\( X_n \to X_\infty \) como\( n \to \infty \) con probabilidad 1.

Si\( \mu \) es absolutamente continuo con respecto a\( \P \) on\( \mathscr{F}_\infty \) entonces\( X_\infty \) es una función de densidad de\( \mu\) con respecto a\( \P \) on\(\mathscr{F}_\infty\).
Si\( \mu \) y\( \P \) son mutuamente singulares\( \mathscr{F}_\infty \) entonces\( X_\infty = 0 \) con probabilidad 1.

Prueba

Nuevamente, como se muestra en la Introducción,\( \bs X \) es una martingala con respecto a\( \mathfrak F \). Además,\( \E(|X_n|) = \|\mu\| \) (la variación total de\( \mu \)) para cada uno\( n \in \N \). Ya que\( \mu \) es una medida finita,\( \|\mu\| \lt \infty \) por lo que se aplica el primer teorema de convergencia martingala. De ahí que exista una variable aleatoria\( X_\infty \), medible con respecto a\( \mathscr{F}_\infty \), tal que\( X_n \to X_\infty \) como\( n \to \infty \).

Si\( \mu \) es absolutamente continuo con respecto a\( \P \) on\( \mathscr{F}_\infty \), entonces\( \mu \) tiene una función de densidad\( Y_\infty \) con respecto a\( \P \) on\( \mathscr{F}_\infty \). Nuestro objetivo es demostrar que\( X_\infty = Y_\infty \) con probabilidad 1. Por definición,\( Y_\infty \) es medible con respecto a\( \mathscr{F}_\infty \) y\[ \int_A Y_\infty d\P = \E(Y_\infty; A) = \mu(A), \quad A \in \mathscr{F}_\infty \] Supongamos ahora que\( n \in \N \) y\( A \in \mathscr{F}_n \). Entonces otra vez por definición,\( \E(X_n; A) = \mu(A)\). Pero\( A \in \mathscr{F}_\infty \) también, así\( \E(Y_\infty; A) = \mu(A) \). Entonces para resumir,\( X_n \) es\( \mathscr{F}_n \) -medible y\( E(X_n: A) = \E(Y_\infty; A) \) para cada uno\( A \in \mathscr{F}_n \). Por definición, esto significa que\( X_n = \E(Y_\infty \mid \mathscr{F}_n) \), también lo\( \bs X \) es la martingala Doob asociada a\( Y_\infty \). Dejar\( n \to \infty \) y usar el resultado anterior da\( X_\infty = \E(Y_\infty \mid \mathscr{F}_\infty) = Y_\infty \) (con probabilidad 1, por supuesto).
Supongamos que\( \mu \) y\( \P \) son mutuamente singulares en\( \mathscr{F}_\infty \). Supongamos primero que\( \mu \) es una medida positiva, así que eso no\( X_n \) es negativo para\( n \in \N \cup \{\infty\}\). Por la definición de singularidad mutua, existe\( B \in \mathscr{F}_\infty \) tal que\( \mu_\infty(B) = 0 \) y\( \P_\infty(B^c) = 0 \), así que\( \P(B) = 1 \). Nuestro objetivo es mostrar eso\( \E(X_\infty; A) \le \mu(A) \) para cada\( A \in \mathscr{F}_\infty \). Hacia ese fin, vamos\[ \mathscr{M} = \left\{A \in \mathscr{F}_\infty: \E(X_\infty ; A) \le \mu(A)\right\} \] Supongamos eso\( A \in \bigcup_{k=0}^\infty \mathscr{F}_k \), así que\( A \in \mathscr{F}_k \) para algunos\( k \in \N \). Entonces\( A \in \mathscr{F}_n \) para todos\( n \ge k \) y por lo tanto\( \E(X_n; A) = \mu(A) \) para todos\( n \ge k \). Por los lemmas de Fatou,\[ \E(X_\infty; A) \le \liminf_{n \to \infty} \E(X_n; A) \le \mu(A) \] entonces\( A \in \mathscr{M} \). A continuación, supongamos que\( \{A_n: n \in \N\} \) es una secuencia creciente o decreciente en\( \mathscr{M} \), y let\( A_\infty = \lim_{n \to \infty} A_n \) (la unión en el primer caso y la intersección en el segundo caso). Entonces\( \E(X_\infty; A_n) \le \mu(A_n) \) para cada uno\( n \in \N \). Por los teoremas de continuidad,\( \E(X_\infty; A_n) \to \E(X_\infty; A_\infty) \) y\( \mu(A_n) \to \mu(A_\infty) \) como\( n \to \infty \). Por lo tanto\( \E(X_\infty; A_\infty) \le \mu(A_\infty) \) y así\( A_\infty \in \mathscr{M} \). De ello se deduce que\( \mathscr{M} \) es una clase monótona. Ya que\( \mathscr{M} \) contiene el álgebra\( \bigcup_{n=0}^\infty \mathscr{F}_n \), se deduce entonces del teorema de la clase monótona que\( \mathscr{F}_\infty \subseteq \mathscr{M} \). En particular\( B \in \mathscr{M} \), así\( \E(X_\infty) = \E(X_\infty; B) \le \mu(B) = 0 \) y por lo tanto\( X_\infty = 0 \) con probabilidad 1. Si\( \mu \) es una medida finita general, entonces por el teorema de descomposición de Jordania, se\( \mu \) puede escribir de manera única en la forma\( \mu = \mu^+ - \mu^- \) donde\( \mu^+ \) y\( \mu^- \) son medidas positivas finitas. Además,\( X_n^+ \) es la función de densidad de\( \mu^+ \) on\(\mathscr{F}_n\) y\( X_n^- \) es la función de densidad de\( \mu^- \) on\( \mathscr{F}_n \). Por la primera parte de la prueba,\( X^+ = 0 \),\( X^- = 0 \), y también\( X = 0 \), todos con probabilidad 1.

El enfoque martingala puede ser utilizado para dar una prueba probabilística del teorema de Radon-Nikodym, al menos en ciertos casos. Comenzamos con un conjunto de muestras\( \Omega \). Supongamos que\( \mathscr{A}_n = \{A^n_i: i \in I_n\} \) es una partición contable de\( \Omega \) para cada uno\( n \in \N \). Así\( I_n \) es contable,\( A^n_i \cap A^n_j = \emptyset \) para distinto\( i, \, j \in I_n \), y\( \bigcup_{i \in I_n} A^n_i = \Omega \). Supongamos también que\( \mathscr{A}_{n+1} \) refina\( \mathscr{A}_n \) para cada uno\( n \in \N \) en el sentido de que\( A^n_i \) es una unión de conjuntos en\( \mathscr{A}_{n+1} \) para cada uno\( i \in I_n \). Vamos\( \mathscr{F}_n = \sigma(\mathscr{A}_n) \). Así\( \mathscr{F}_n \) es generado por una partición contable, y así los conjuntos en\( \mathscr{F}_n \) son de la forma\( \bigcup_{j \in J} A^n_j \) donde\( J \subseteq I_n \). Además, por la propiedad de refinamiento\( \mathscr{F}_n \subseteq \mathscr{F}_{n+1} \) para\( n \in \N \), por lo que\( \mathfrak F = \{\mathscr{F}_n: n \in \N\} \) es una filtración. Vamos\( \mathscr{F} = \mathscr{F}_\infty = \sigma\left(\bigcup_{n=0}^\infty \mathscr{F}_n\right) = \sigma\left(\bigcup_{n=0}^\infty \mathscr{A}_n\right) \), para que nuestro espacio de muestra sea\( (\Omega, \mathscr{F}) \). Por último, supongamos que\( \P \) es una medida de probabilidad\( (\Omega, \mathscr{F}) \) con la propiedad que\( \P(A^n_i) \gt 0 \) para\( n \in \N \) y\( i \in I_n \). Ahora tenemos un espacio de probabilidad\( (\Omega, \mathscr{F}, \P) \). Los espacios de probabilidad interesantes que ocurren en las aplicaciones son de esta forma, por lo que la configuración no es tan especializada como se podría pensar.

Supongamos ahora que\( \mu \) una medida finte sobre\( (\Omega, \mathscr{F}) \). De nuestros supuestos, el único conjunto nulo para\( \P \) on\(\mathscr{F}_n\) es\( \emptyset \), por lo que\( \mu \) es automáticamente absolutamente continuo con respecto a\( \P \) on\( \mathscr{F}_n \). Además, para\( n \in \N \), podemos dar la función de densidad de\( \mu \) con respecto a\( \P \) on\(\mathscr{F}_n\) explícitamente:

La función de densidad de\( \mu \) con respecto a\( \P \) on\( \mathscr F_n \) es la variable aleatoria\( X_n \) cuyo valor on\( A^n_i \) es\(\mu(A^n_i)/ \P(A^n_i) \) para cada una\( i \in I_n \). Equivalentemente,\[ X_n = \sum_{i \in I_n} \frac{\mu(A^n_i)}{\P(A^n_i)} \bs{1}(A^n_i) \]

Prueba

Tenemos que demostrar eso\( \mu(A) = \E(X_n; A) \) para cada uno\( A \in \mathscr F_n \). Entonces, supongamos\( A = \bigcup_{j \in J} A^n_j \) dónde\( J \subseteq I_n \). Entonces\[ \E(X_n; A) = \sum_{j \in J} \E(X_n; A^n_j) = \sum_{j \in J} \frac{\mu(A^n_j)}{\P(A^n_j)} \P(A^n_j) = \sum_{j \in J} \mu(A^n_j) = \mu(A)\]

Por nuestro teorema anterior, existe una variable aleatoria\( X \) tal que\( X_n \to X \) como\( n \to \infty \) con probabilidad 1. Si\( \mu \) es absolutamente continuo con respecto a\( \P \) on\( \mathscr{F} \), entonces\( X \) es una función de densidad de\( \mu \) con respecto a\( \P \) on\(\mathscr{F}\). El punto es que hemos dado una construcción más o menos explícita de la densidad.

Para un ejemplo concreto, considere\( \Omega = [0, 1) \). Para\( n \in \N \), let\[ \mathscr{A}_n = \left\{\left[\frac{j}{2^n}, \frac{j + 1}{2^n}\right): j \in \{0, 1, \ldots, 2^n - 1\}\right\} \] Esta es la partición de\( [0, 1) \) en\( 2^n \) subintervalos de igual longitud\( 1/2^n \), basados en los racionales diádicos (o racionales binarios) de rango\( n \) o menos. Tenga en cuenta que cada intervalo en\( \mathscr{A}_n \) es la unión de dos intervalos adyacentes en\( \mathscr{A}_{n+1} \), por lo que la propiedad de refinamiento se mantiene. Que\( \P \) sea ordinaria medida Lebesgue sobre\( \P(A^n_i) = 1 / 2^n \) para\( [0, 1) \) que para\( n \in \N \) y\( i \in \{0, 1, \ldots, 2^n - 1\} \). Como arriba, vamos\( \mathscr{F}_n = \sigma(\mathscr{A}_n) \) y\( \mathscr{F} = \sigma\left(\bigcup_{n=0}^\infty \mathscr{F}_n\right) = \sigma\left(\bigcup_{n=0}^\infty \mathscr{A}_n\right) \). Los racionales diádicos son densos en\( [0, 1) \), así\( \mathscr{F} \) es el\( \sigma \) álgebra ordinaria de Borel en\( [0, 1) \). Así nuestro espacio de probabilidad\( (\Omega, \mathscr{F}, \P) \) es simplemente\( [0, 1) \) con las estructuras euclidianas habituales. Si\( \mu \) es una medida finita on\( ([0, 1), \mathscr{F}) \) entonces la función de densidad de\( \mu \) on\( \mathscr{F}_n \) es la variable aleatoria\( X_n \) cuyo valor en el intervalo\( [j / 2^n, (j + 1) / 2^n) \) es\(2^n \mu[j / 2^n, (j + 1) / 2^n) \). Si\( \mu \) es absolutamente continuo con respecto a\( \P \) on\( \mathscr{F} \) (tan absolutamente continuo en el sentido habitual), entonces una función de densidad de\( \mu \) es\( X = \lim_{n \to \infty} X_n \).