17.6: Martingales al revés
- Page ID
- 151804
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)Teoría Básica
Una martingala al revés es un proceso estocástico que satisface la propiedad martingala invertida en el tiempo, en cierto sentido. De alguna manera, las martingales atrasadas son más simples que sus contrapartes adelantadas, y en particular, satisfacen un teorema de convergencia similar al teorema de convergencia para las martingales ordinarias. La importancia de las martingales atrasadas deriva de sus numerosas aplicaciones. En particular, algunos de los teoremas fundamentales de la probabilidad clásica pueden formularse en términos de martingales atrasadas.
Definiciones
Como es habitual, comenzamos con un proceso estocástico\( \bs{Y} = \{Y_t: t \in T\} \) en un espacio de probabilidad subyacente\( (\Omega, \mathscr{F}, \P) \), teniendo espacio de estado\( \R \), y donde el conjunto de índices\( T \) (que representa el tiempo) es\( \N \) (tiempo discreto) o\( [0, \infty) \) (tiempo continuo). Entonces, para revisar lo que todo esto significa,\( \Omega \) es el espacio\( \mathscr{F} \) muestral, la\( \sigma \) -álgebra de eventos,\( \P \) la medida de probabilidad on\( (\Omega, \mathscr{F}) \), y\( Y_t \) es una variable aleatoria con valores en\( \R \) para cada uno\( t \in T \). Pero en este punto nuestra formulación diverge. Supongamos que\( \mathscr{G}_t \) es un sub\( \sigma \) -álgebra de\( \mathscr{F} \) para cada uno\( t \in T \), y eso\( \mathfrak G = \{\mathscr{G}_t: t \in T\} \) es decreciente para que si\( s, \, t \in T \) con\( s \le t \) entonces\( \mathscr{G}_t \subseteq \mathscr{G}_s \). Vamos\( \mathscr{G}_\infty = \bigcap_{t \in T} \mathscr{G}_t \). Asumimos que\( Y_t \) es medible con respecto a\( \mathscr{G}_t \) y eso\( \E(|Y_t|) \lt \infty \) para cada uno\( t \in T \).
El proceso\( \bs Y = \{Y_t: t \in T\} \) es una martingala al revés (o martingala invertida) con respecto a\( \mathfrak G = \{\mathscr{G}_t: t \in T\} \) si\(\E(Y_s \mid \mathscr{G}_t) = Y_t\) para todos\(s, \, t \in T\) con\(s \le t\).
Una martingala al revés se puede formular como una martingala ordinaria usando tiempos negativos como índices. Let\( T^- = \{-t: t \in T\} \), de manera que si\( T = \N \) (el caso discreto) entonces\( T^- \) es el conjunto de enteros no positivos, y if\( T = [0, \infty) \) (el caso continuo) entonces\( T^- = (-\infty, 0] \). Recordemos también que las definiciones estándar de martingala tienen sentido para cualquier conjunto de índices totalmente ordenado.
Supongamos nuevamente que\( \bs Y = \{Y_t: t \in T\} \) es una martingala al revés con respecto a\( \mathfrak G = \{\mathscr{G}_t: t \in T\} \). Dejar\( X_t = Y_{-t} \) y\( \mathscr{F}_t = \mathscr{G}_{-t} \) para\( t \in T^- \). Entonces\( \bs X = \{X_t: t \in T^-\} \) es una martingala con respecto a\( \mathfrak F = \{\mathscr{F}_t: t \in T^-\} \).
Prueba
Dado que\( \mathfrak G \) es una familia decreciente de sub\( \sigma \) -álgebras de\( \mathscr{F} \), la colección\( \mathfrak F \) es una familia creciente de sub\( \sigma \) -álgebras de\( \scr F \), y por lo tanto es una filtración. A continuación,\( X_t = Y_{-t} \) es medible con respecto a\( \mathscr{G}_{-t} = \mathscr{F}_t \) for\( t \in T^- \), así\( \bs X \) se adapta a\( \mathfrak F \). Por último, si\( s, \, t \in T^- \) con\( s \le t \) entonces\( -t \le -s \) así\[ \E(X_t \mid \mathscr{F}_s) = \E(Y_{-t} \mid \mathscr{G}_{-s}) = Y_{-s} = X_s \]
La mayoría de los autores definen martingales al revés con índices negativos, como anteriormente, en primer lugar. Hay buenas razones para hacerlo, ya que algunos de los teoremas fundamentales de las martingales se aplican inmediatamente a las martingales al revés. Sin embargo, para las aplicaciones de martingales al revés, esta notación es artificial y torpe, por lo que en su mayor parte, usaremos nuestra definición original. El siguiente resultado es otra forma de ver una martingala al revés como una martingala ordinaria. Éste conserva el tiempo no negativo, pero introduce un horizonte temporal finito. Para\( t \in T \), let\( T_t = \{s \in T: s \le t\} \), una notación que hemos usado muchas veces antes.
Supongamos nuevamente que\( \bs Y = \{Y_t: t \in T\} \) es una martingala al revés con respecto a\( \mathfrak G = \{\mathscr{G}_t: t \in T\} \). Fijar\( t \in T \) y definir\( X^t_s = Y_{t-s} \) y\( \mathscr{F}^t_s = \mathscr{G}_{t-s} \) para\( s \in T_t \). Entonces\( \bs{X}^t = \{X^t_s: s \in T_t\} \) es una martingala relativa a\( \mathfrak{F}^t = \{\mathscr{F}^t_s: s \in T_t\} \).
Prueba
La prueba es esencialmente la misma que para el resultado anterior. Dado que\( \mathfrak G \) es una familia decreciente de sub\( \sigma \) -álgebras de\( \mathscr{F} \), la colección\( \mathfrak{F}^t \) es una familia creciente de sub\( \sigma \) -álgebras de\( \scr F \), y por lo tanto es una filtración. A continuación,\( X^t_s = Y_{t-s} \) es medible con respecto a\( \mathscr{G}_{t-s} = \mathscr{F}^t_s \) for\( s \in T_t \), así\( \bs{X}^t \) se adapta a\( \mathfrak{F}^t \). Por último, si\( r, \, s \in T_t \) con\( r \le s \) entonces\( t - s \le t - r \) así\[ \E(X^t_s \mid \mathscr{F}^t_r) = \E(Y_{t-s} \mid \mathscr{G}_{t-r}) = Y_{t-r} = X^t_r \]
Propiedades
Las martingales al revés satisfacen una propiedad sencilla e importante.
Supongamos que\( \bs Y = \{Y_t: t \in T\} \) es una martingala al revés con repsect a\( \mathfrak G = \{\mathscr{G}_t: t \in T\} \). Entonces\( Y_t = \E(Y_0 \mid \mathscr{G}_t) \) para\( t \in T \) y por lo tanto\( \bs Y \) es uniformemente integrable.
Prueba
El hecho de que\( Y_t = \E(Y_0 \mid \mathscr{G}_t) \) para\( t \in T \) se desprende directamente de la definición de una martingala al revés. Ya que hemos asumido eso\( \E(|Y_0|) \lt \infty \), se desprende de una propiedad básica que\( \bs Y \) es uniformemente integrable.
Aquí está la martingala al revés de Doob, análoga a la martingala ordinaria de Doob, y por supuesto llamada así por Joseph Doob. En cierto sentido, esto es lo contrario al resultado anterior.
Supongamos que\( Y \) es una variable aleatoria en nuestro espacio de probabilidad\( (\Omega, \mathscr{F}, \P) \) con\( \E(|Y|) \lt \infty \), y que\(\mathfrak G = \{\mathscr{G}_t: t \in T\} \) es una familia decreciente de sub\( \sigma \) -álgebras de\( \mathscr{F} \), como arriba. Dejemos\( Y_t = \E(Y \mid \mathscr{G}_t) \) para\( t \in T \). Entonces\( \bs Y = \{Y_t: t \in T\} \) es una martingala al revés con respecto a\( \mathfrak G \).
Prueba
Por definición,\( Y_t = \E(Y \mid \mathscr{G}_t) \) es medible con respecto a\( \mathscr{G}_t \). También,\[ \E(|Y_t|) = \E[|\E(Y \mid \mathscr{G}_t)|] \le \E[\E(|Y| \mid \mathscr{G}_t)] = \E(|Y|) \lt \infty, \quad t \in T \] Siguiente, supongamos que\( s, \, t \in T \) con\( s \le t \). Entonces\( \mathscr{G}_t \subseteq \mathscr{G}_s \) así por la propiedad torre de valor esperado condicional,\[ \E(Y_s \mid \mathscr{G}_t) = \E[\E(Y \mid \mathscr{G}_s) \mid \mathscr{G}_t] = \E(Y \mid \mathscr{G}_t) = Y_t \]
Los teoremas de convergencia son los resultados más importantes para las aplicaciones de martingales al revés. Recordemos una vez más que for\( k \in [1, \infty) \), la k -norma de una variable aleatoria de valor real\( X \) es\[ \|X\|_k = \left[\E\left(|X|^k\right)\right]^{1/k} \] y el espacio vectorial normado\( \mathscr{L}_k \) consiste en todos\( X \) con\( \|X\|_k \lt \infty \). La convergencia en el espacio también\( \mathscr{L}_1 \) se conoce como convergencia en la media, y la convergencia en el espacio\( \mathscr{L}_2 \) se denomina convergencia en el cuadrado medio. Aquí está el teorema principal de convergencia de martingala al revés:
Supongamos nuevamente que\( \bs Y = \{Y_t: t \in T\} \) es una martingala al revés con respecto a\( \mathfrak G = \{\mathscr{G}_t: t \in T\} \). Entonces existe una variable aleatoria\( Y_\infty \) tal que
- \( Y_t \to Y_\infty \)como\( t \to \infty \) con probabilidad 1.
- \( Y_t \to Y_\infty \)como\( t \to \infty \) en media.
- \( Y_\infty = \E(Y_0 \mid \mathscr{G}_\infty) \).
Prueba
La prueba es esencialmente la misma que el teorema de convergencia de la martingala ordinaria si usamos la martingala construida desde\( \bs Y \) arriba. Entonces,\( t \in T \) arregla y deja\( T_t = \{s \in T: s \le t\} \). Dejar\( X^t_s = Y_{t - s} \) y\( \mathscr{F}^t_s = \mathscr{G}_{t - s} \) para\( s \in T_t \), así que\( \bs{X}^t = \{X^t_s: s \in T_t\} \) es una martingala relativa a\( \mathfrak{F}^t = \{\mathscr{F}^t_s: s \in T_t\} \). Ahora, para\( a, \, b \in \R \) con\( a \lt b \), vamos a\( U_t(a, b) \) denotar el número de cruces ascendentes de\( [a, b] \) por\( \bs{X}^t \) el\( T_t \). Tenga en cuenta que también\( U_t(a, b) \) es el número de cruces descendentes de\( [a, b] \) por\( \bs Y \) on\( T_t \). Por la desigualdad ascendente aplicada a la martingala\( \bs{X}^t \),\[\E[U_t(a, b)] \le \frac{1}{b - a}[\E(|X_t|) + |a|] = \frac{1}{b - a} [\E(|Y_0|) + |a|] \] Ahora vamos a\( U_\infty(a, b) \) denotar el número de cruces descendentes de\( [a, b] \) por\( \bs Y \) sobre todos\( T \). Ya que\( U_t \uparrow U_\infty \) como\( t \to -\infty \) se desprende del teorema de convergencia monótona que\[ E[U_\infty(a, b)] \le \frac{1}{b - a} [\E(|Y_0|) + |a|]\] De ahí con probabilidad 1,\( U_\infty(a, b) \lt \infty \) para cada\( a, \, b \in \Q \) con\( a \lt b \). Por la caracterización de la convergencia en términos de cruces descendentes (completamente análoga a la de los cruces ascendentes), existe una variable aleatoria\( Y_{\infty} \) con valores en\( \R^* = \R \cup \{-\infty, \infty\} \) tales que\( Y_t \to Y_{\infty} \) como\( t \to \infty \). Por el lema de Fatou,\[ \E(|Y_\infty|) \le \liminf_{t \to \infty} \E(|Y_t|) \le \E(|Y_0|) \lt \infty \] En particular,\( \P(Y_\infty \in \R) = 1 \). Ya que\( \bs Y \) es integrable de manera uniforme, y\( Y_\infty \in \mathscr{L}_1 \), se deduce que\( Y_t \to Y_\infty \) como\( t \to \infty \) en\( \mathscr{L}_1 \) también.
Queda por demostrarlo\( Y_\infty = \E(Y_0 \mid \mathscr{G}_\infty) \). Vamos\( A \in \mathscr{G}_\infty \). Entonces\( A \in \mathscr{G}_t \) para cada\( t \in T \). Ya que\( Y_t = \E(Y_0 \mid \mathscr{G}_t) \) se deduce por definición que\( \E(Y_t; A) = \E(Y_0; A) \) para cada\( t \in T \). Dejar\( t \to \infty \) y usar el teorema de convergencia dominada, da\( \E(Y_\infty ; A) = \E(Y_0; A) \). De ahí\( Y_\infty = \E(Y_0 \mid \mathscr{G}_\infty) \).
Como simple extensión del último resultado, si\( Y_0 \in \mathscr{L}_k \) para algunos\( k \in [1, \infty) \) entonces la convergencia está en\( \mathscr{L}_k \) también.
Supongamos nuevamente que\( \bs Y = \{Y_t: t \in T\} \) es una martingala al revés relativa a\( \mathfrak G = \{\mathscr{G}_t: t \in T\} \). Si\( Y_0 \in \mathscr{L}_k \) para algunos\( k \in [1, \infty) \) entonces\( Y_t \to Y_\infty \) como\( t \to \infty \) en\(\mathscr{L}_k\).
Prueba
El resultado anterior aplica, por supuesto, por lo que sabemos que existe una variable aleatoria\( Y_\infty \in \mathscr{L}_1 \) tal que\( Y_t \to Y_\infty \) como\( t \to \infty \) con probabilidad 1 y en\( \mathscr{L}_1 \). La función\( x \mapsto |x|^k \) es convexa\( \R \) así por la desigualdad de Jensen para el valor esperado condicional,\[ \E(|Y_t|^k) = \E[|\E(Y_0 \mid \mathscr{G}_t)|^k] \le \E[\E(|Y_0|^k \mid \mathscr{G}_t] = \E(|Y_0|^k) \lt \infty \] así\( Y_t \in \mathscr{L}_k \) para cada\( t \in T \). Por el lema de Fatou,\[ \E(|Y_\infty|^k) \le \liminf_{t \to \infty} \E(|Y_t|^k) \le \E(|Y_0|^k) \lt \infty \] así\( Y_\infty \in \mathscr{L}_k \) también. A continuación, ya que\( Y_t = \E(Y_0 \mid \mathscr{G}_t) \) y\( Y_\infty \) es medible con respecto a\( \mathscr{G}_t \), podemos volver a utilizar la desigualdad de Jensen para obtener De\[ |Y_t - Y_\infty|^k = |\E(Y_0 - Y_\infty \mid \mathscr{G}_t)|^k \le \E(|Y_0 - Y_\infty|^k \mid \mathscr{G}_t) \] ello se deduce que la familia de variables aleatorias\( \{|Y_t - Y_\infty|^k: t \in T\} \) es uniformemente integrable, y por lo tanto\( \E(|Y_t - Y_\infty|^k) \to 0 \) como\( t \to \infty \).
Aplicaciones
La fuerte ley de los grandes números
La fuerte ley de los grandes números es uno de los teoremas fundamentales de la probabilidad clásica. Nuestra prueba previa requería que la distribución subyacente tuviera varianza finita. Aquí presentamos una elegante prueba utilizando martingales al revés que no requiere esta suposición extra. Entonces, supongamos que\( \bs X = \{X_n: n \in \N_+\} \) es una secuencia de variables aleatorias independientes, distribuidas idénticamente con media común\( \mu \in \R \). En términos estadísticos,\( \bs X \) corresponde al muestreo de la distribución subyacente. A continuación vamos\[ Y_n = \sum_{i=1}^n X_i, \quad n \in \N \] así que ese\( \bs Y = \{Y_n: n \in \N\} \) es el proceso de suma parcial asociado con\( \bs X \). Recordemos que la secuencia\( \bs Y \) es también una caminata aleatoria en tiempo discreto. Por último, dejemos\( M_n = Y_n / n \) que\( n \in \N_+ \) así\( \bs M = \{M_n: n \in \N_+\} \) sea la secuencia de medias de muestra.
La ley de los grandes números
- \( M_n \to \mu \)como\( n \to \infty \) con probabilidad 1.
- \( M_n \to \mu \)como\( n \to \infty \) en media.
Prueba
Como de costumbre, vamos a\( (\Omega, \mathscr{F}, \P) \) denotar el espacio de probabilidad subyacente. Además, se supone que las igualdades que involucran variables aleatorias (y particularmente los valores esperados condicionales) se mantienen con probabilidad 1. Ahora, para\( n \in \N \), vamos\[ \mathscr{G}_n = \sigma\{Y_n, Y_{n+1}, Y_{n+2}, \ldots\} = \sigma\{Y_n, X_{n+1}, X_{n+2} \ldots\}\] así que\( \mathfrak G = \{\mathscr{G}_n: n \in \N\} \) es una familia decreciente de sub\( \sigma \) -álgebras de\( \mathscr{F} \). El núcleo de la prueba es demostrar que\( \bs M \) es una martingala al revés relativa a\( \mathfrak G \). Vamos\( n \in \N_+ \). Claramente\( M_n \) es medible con respecto a\( \mathscr{G}_n \). Por independencia,\( \E(X_i \mid \mathscr{G}_n) = \E(X_i \mid Y_n) \) para\( i \in \{1, 2, \ldots, n\} \). Por simetría (la secuencia\( \bs X \) es intercambiable),\( \E(X_i \mid Y_n) = \E(X_j \mid Y_n) \) para\( i, \, j \in \{1, 2, \ldots, n\} \). De ahí para\( i \in \{1, 2, \ldots, n\} \)\[ Y_n = \E(Y_n \mid \mathscr{G}_n) = \sum_{j=1}^n E(X_j \mid \mathscr{G}_n) = \sum_{j=1}^n \E(X_i \mid \mathscr{G}_n) = n \E(X_i \mid \mathscr{G}_n) \] así que\( \E(X_i \mid \mathscr{G}_n) = Y_n / n = M_n \) para cada uno\( i \in \{1, 2, \ldots, n\} \). A continuación,\[ \E(Y_n \mid \mathscr{G}_{n+1}) = \E(Y_{n+1} - X_{n+1} \mid \mathscr{G}_{n+1}) = Y_{n+1} - \E(X_{n+1} \mid \mathscr{G}_{n+1}) = Y_{n+1} - \frac{1}{n+1} Y_{n+1} = \frac{n}{n + 1} Y_{n+1} \] Dividiendo por\( n \) da\( \E(M_n \mid \mathscr{G}_{n+1}) = M_{n+1} \) y por lo tanto\( \bs M \) es una martingala al revés con respecto a\( \mathfrak G \). Del teorema de convergencia de martingala al revés, existe\( M_\infty \) tal que\( M_n \to M_\infty \) como\( n \to \infty \) con probabilidad 1 y en media. A continuación, para álgebra\( n, \, k \in \N_+ \) simple da\[ M_{n+k} = \frac{1}{n + k} \sum_{i=1}^k X_i + \frac{n}{n + k} \frac{1}{n} \sum_{i = k + 1}^{k + n} X_i \] Dejar\( n \to \infty \) luego muestra que\[ M_\infty = \lim_{n \to \infty} \frac{1}{n} \sum_{i = k + 1}^{k + n} X_i \] para cada\( k \in \N_+ \). Por lo tanto,\( M_\infty \) es una variable aleatoria de cola para la secuencia IID\( \bs X \). De la ley 0-1 de Kolmogorov,\( M_\infty \) debe ser una constante. Por último, la convergencia en la media implica que los medios convergen, y ya que\( \E(M_n) = \mu \) para cada uno\( n \), se deduce de ello\( M_\infty = \mu \).
Variables intercambiables
Comenzamos con un espacio de probabilidad\( (\Omega, \mathscr F, \P) \) y otro espacio medible\( (S, \mathscr S) \). Supongamos que\( \bs X = (X_1, X_2, \ldots) \) es una secuencia de variables aleatorias cada una tomando valores en\( S \). Recordemos que\( \bs X \) es intercambiable si por cada\( n \in \N \), cada permutación de\( (X_1, X_2, \ldots, X_n) \) tiene la misma distribución en\( (S^n, \mathscr{S}^n) \) (donde\( \mathscr{S}^n \) está el\( n \) -fold producto\( \sigma \) -álgebra). Claramente si\( \bs X \) es una secuencia de variables independientes, distribuidas idénticamente, entonces\( \bs X \) es intercambiable. Por el contrario, si\( \bs X \) es intercambiable entonces las variables se distribuyen de manera idéntica (por definición), pero no son necesariamente independientes. El ejemplo más famoso de una secuencia que es intercambiable pero no independiente es el proceso de urna de Pólya, llamado así por George Pólya. Por otro lado, las secuencias condicionalmente independientes e idénticamente distribuidas son intercambiables. Por lo tanto, supongamos que\( (T, \mathscr{T}) \) es otro espacio medible y que\( \Theta \) es una variable aleatoria que toma valores\( T \).
Si\( \bs X \) es condicionalmente independiente y se distribuye de manera idéntica dada\( \Theta \), entonces\( \bs X \) es intercambiable.
Prueba
Implícito en la sentencia es que las variables en la secuencia tienen una distribución condicional regular\( \mu_\Theta \) dada\( \Theta \). Entonces para cada\( n \in \N_+ \), la distribución condicional de cada permutación de\( (X_1, X_2, \ldots, X_n) \), dada\( \Theta \), está\( \mu^n_\Theta \) encendida\( (S^n, \mathscr{S}^n) \), donde\( \mu_\Theta^n \) está la medida del producto\( n \) -fold. Incondicionalmente, la distribución de cualquier permutación es\( B \mapsto \E[\mu^n_\Theta(B)] \) para\( B \in \mathscr{S}^n \).
A menudo el ajuste de este teorema surge cuando comenzamos con una secuencia de variables aleatorias independientes, distribuidas idénticamente que se rigen por una distribución paramétrica, y luego aleatorizamos uno de los parámetros. En cierto sentido, siempre podemos pensar en el escenario de esta manera: Imagínese que\( \theta \in T \) es un parámetro para una distribución en\( S \). Un caso especial es el proceso beta-Bernoulli, en el que el parámetro de éxito\( p \) en secuencia de ensayos de Bernoulli se aleatoriza con la distribución beta. Por otro lado, el proceso de urna de Pólya es un ejemplo de una secuencia intercambiable que al principio no parece tener nada que ver con la aleatorización de parámetros. Pero de hecho, sabemos que el proceso de urna de Pólya es un caso especial del proceso beta-Bernoulli. Esta conexión da un indicio del teorema de Finetti, llamado así por Bruno de Finetti, que consideramos a continuación. Este teorema establece que cualquier secuencia intercambiable de variables aleatorias indicadoras corresponde a la aleatorización del parámetro de éxito en una secuencia de ensayos de Bernoulli.
Teorema de Finetti. Supongamos que\( \bs X = (X_1, X_2, \ldots) \) es una secuencia intercambiable de variables aleatorias, cada una tomando valores\( \{0, 1\} \). Entonces existe una variable aleatoria\( P \) con valores en\( [0, 1] \), tal que dado\( P = p \in [0, 1] \),\( \bs X \) es una secuencia de ensayos de Bernoulli con parámetro de éxito\( p \).
Prueba
Como es habitual, necesitamos alguna notación. Primero recordar la notación de poder descendente\( r^{(j)} = r (r - 1) \cdots (r - j + 1) \) para\( r \in \R \) y\( j \in \N \). Siguiente para\( n \in \N_+ \) y\( k \in \{0, 1, \ldots, n\} \), let Es\[ B^n_k = \left\{(x_1, x_2, \ldots, x_n) \in \{0, 1\}^n: \sum_{i=0}^n x_i = k\right\} \] decir,\( B^n_k \) es el conjunto de cadenas de bits de longitud\( n \) con 1 ocurriendo exactamente\( k \) veces. Por supuesto,\( \#(B^n_k) = \binom{n}{k} = n^{(k)} / k! \).
Supongamos ahora que\( \bs X = (X_1, X_2, \ldots) \) es una secuencia intercambiable de variables con valores en\( \{0, 1\} \). Para\( n \in \N_+ \) dejar\( Y_n = \sum_{i=1}^n X_i \) y\( M_n = Y_n / n \). Así\( \bs Y = \{Y_n: n \in \N_+\} \) es el proceso de suma parcial asociado con\( \bs X \) y\( \bs M = \{M_n: n \in \N_+\} \) la secuencia de medias de muestra. Dejar\( \mathscr{G}_n = \sigma\{Y_n, Y_{n+1}, \ldots\} \) y\( \mathscr{G}_\infty = \bigcap_{n=0}^\infty \mathscr{G}_n \). La familia de\( \sigma \) -álgebras\( \mathfrak G = \{\mathscr{G}_n: n \in \N_+\} \) está disminuyendo. La clave de la prueba es encontrar dos martingales al revés y utilizar el teorema de convergencia de martingala al revés.
Let\( m \in \N_+ \) y\( k \in \{0, 1, \ldots m\} \) La visión crucial es que por intercambiabilidad, dada\( Y_m = k \), el vector aleatorio\( (X_1, X_2, \ldots, X_m) \) se distribuye uniformemente en\( B^m_k \). Entonces si\( n \in \N_+ \) y\( n \le m \), el vector aleatorio\( (X_1, X_2, \ldots, X_n) \), nuevamente dado\( Y_m = k \), se ajusta al modelo hipergeométrico: una muestra de tamaño\( n \) elegida al azar y sin reemplazo de una población de\( m \) objetos de los cuales\( k \) son tipo 1 y\( m - k \) son tipo 0. Así, si\( j \in \{0, 1, \ldots, n\} \) y\( (x_1, x_2, \ldots, x_n) \in B^n_j \) luego\[ \P(X_1 = x_1, X_2 = x_2, \ldots, X_n = x_n \mid Y_m = k) = \frac{k^{(j)} (m - k)^{(n - j)}}{m^{(n)}} \] Equivalentemente,\[ \P(X_1 = x_1, X_2 = x_2, \ldots, X_n = x_n \mid Y_m) = \frac{Y_m^{(j)} (m - Y_m)^{(n - j)}}{m^{(n)}} \] Dado\( Y_m \), las variables no\( (Y_{m+1}, Y_{m+2}, \ldots) \) dan información adicional sobre la distribución de\( (X_1, X_2, \ldots, X_n) \) y por lo tanto\[ \P(X_1 = x_1, X_2 = x_2, \ldots, X_n = x_n \mid \mathscr{G}_m) =\E[\bs{1}(X_1 = x_1, X_2 = x_2, \ldots, X_n = x_n) \mid \mathscr{G}_n] = \frac{Y_m^{(j)} (m - Y_m)^{(n - j)}}{m^{(n)}} \] Para fijo\( n \)\( j \),, y\( (x_1, x_2, \ldots, x_n) \in B^n_j \), el valor esperado condicional en el centro de la ecuación mostrada, en función de\( m \), es una martingala hacia atrás Doob con respecto a\( \mathfrak G \) y por lo tanto converge a\( \P(X_1 = x_1, X_2 = x_2, \ldots, X_n = x_n \mid \mathscr{G}_\infty) \) as\( m \to \infty \).
A continuación mostramos que\( \bs M \) es una martingala al revés con respecto a\( \mathfrak G \). Trivialmente\( M_n \) es medible con respecto a\( \mathscr{G}_n \) y\( \E(M_n) \le 1 \) para cada uno\( n \in \N \). Por lo tanto, tenemos que demostrar eso\( \E(M_n \mid \mathscr{G}_m) = M_m \) para\( m, \, n \in \N_+ \) con\( n \le m \). De nuestro trabajo anterior con\( (X_1, X_2, \ldots, X_n) \) sabemos que la distribución condicional de\( Y_n \) dado\( Y_m = k \) es hipergeométrica con parámetros\( m \),\( k \), y\( n \):\[\P(Y_n = j \mid Y_m = k) = \binom{n}{j} \frac{k^{(j)} (m - k)^{(n - j)}}{m^{(n)}}, \quad j \in \{0, 1, \ldots, n\}\] Recordemos que la media de la distribución hipergeométrica es el tamaño de la muestra multiplicado por la proporción de tipo 1 objetos en la población. Así,\[ \E(M_n \mid Y_m = k) = \frac{1}{n} \E(Y_n \mid Y_m = k) = \frac{1}{n} n \frac{k}{m} = \frac{k}{m} \] O equivalentemente,\( \E(M_n \mid Y_m) = Y_m / m = M_m \). Una vez más, dado\( Y_m \), las variables no\( Y_{m+1}, Y_{m+2} \) dan información adicional y así\( \E(Y_n \mid \mathscr{G}_m) = Y_m \). De ahí\( \bs M \) que sea una martingala al revés con respecto a\( \mathfrak G \). Del teorema de convergencia de martingala al revés, existe una variable aleatoria\( P \) tal que\( M_n \to P \) como\( n \to \infty \) con la probabilidad 1.
Sólo queda por conectar los puntos. Supongamos ahora eso\( n \in \N_+ \)\( j \in \{0, 1, \ldots n\} \) y y eso\( m \in \N_+ \) y\( k_m \in \{0, 1, \ldots, m\} \). A partir del cálculo simple, si\( n \) y\( j \) son fijos y\( k_m / m \to p \in [0, 1] \) como\( m \to \infty \) entonces\[ \frac{k_m^{(j)} (m - k_m)^{(n - j)}}{m^{(n)}} \to p^j (1 - p)^{n - j} \text{ as } m \to \infty \] (Puede recordar que este cálculo se utiliza en la prueba de la convergencia de la distribución hipergeométrica al binomio.) Volviendo a la distribución conjunta, recordemos que si\( (x_1, x_2, \ldots, x_n) \in B^n_j \) entonces\[ \P(X_1 = x_1, X_2 = x_2, \ldots, X_n = x_n \mid \mathscr{G}_m) = \frac{Y_m^{(j)} (m - Y_m)^{(n - j)}}{m^{(n)}} \] Let\( m \to \infty \). Ya que a\( Y_m / m \to P \) medida que\( m \to \infty \) obtenemos la variable\[ \P(X_1 = x_1, X_2 = x_2, \ldots, X_n = x_n \mid \mathscr{G}_\infty) = P^j (1 - P)^{n - j} \] aleatoria\( P \) es medible con respecto a\( \mathscr{G}_\infty \) lo\[ \P(X_1 = x_1, X_2 = x_2, \ldots, X_n = x_n \mid P) = P^j (1 - P)^{n - j} \text{ as } m \to \infty \] Given\( P = p \in [0, 1] \),\( \bs X \) es una secuencia de ensayos de Bernoulli con parámetro de éxito\( p \).
El teorema de De Finetti se ha extendido a secuencias mucho más generales de variables intercambiables. Básicamente, si\( \bs X = (X_1, X_2, \ldots) \) es una secuencia intercambiable de variables aleatorias, cada una tomando valores en un espacio medible significativamente agradable\( (S, \mathscr{S}) \) entonces existe una variable aleatoria\( \Theta \) tal que\( \bs X \) es independiente e idéntica distribuida dada\( \Theta \). En la prueba, el resultado que al\( M_n \to P \) igual que\( n \to \infty \) con la probabilidad 1\( M_n = \frac{1}{n} \sum_{i=1}^n X_i \), donde, se conoce como la fuerte ley de números grandes de Finetti. El teorema de De Finetti y sus generalizaciones son importantes en la inferencia estadística bayesiana. Para una secuencia intercambiable de variables aleatorias (nuestras observaciones en un experimento estadístico), hay un parámetro oculto aleatorio\( \Theta \). Dado\( \Theta = \theta \), las variables son independientes e idénticamente distribuidas. Obtenemos información sobre\( \Theta \) imponiendo una distribución previa\( \Theta \) y luego actualizándola, con base en nuestras observaciones y utilizando el teorema de Baye, a una distribución posterior.
Dicho más en términos de distribuciones, el teorema de Finetti afirma que la distribución de\( n \) distintas variables en la secuencia intercambiable es una mezcla de medidas de producto. Es decir, si\( \mu_\theta \) es la distribución de un genérico\( X \) on\( (S, \mathscr{S}) \) dado\( \Theta = \theta \), y\( \nu \) es la distribución de\( \Theta \) on\( (T, \mathscr{T}) \), entonces la distribución\( n \) de las variables on\( (S^n \mathscr{S}^n) \) es\[ B \mapsto \int_T \mu_\theta^n(B) \, d\nu(\theta) \]