16.1: Introducción a los procesos de Markov

Última actualización
Guardar como PDF

Page ID: 151962

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\id}{\mathrm{id}}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\kernel}{\mathrm{null}\,}\)

\( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\)

\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\)

\( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)

\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)

\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vectorC}[1]{\textbf{#1}} \)

\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)

\(\newcommand{\P}{\mathbb{P}}\)\(\newcommand{\E}{\mathbb{E}}\)\(\newcommand{\R}{\mathbb{R}}\)\(\newcommand{\N}{\mathbb{N}}\)\(\newcommand{\Z}{\mathbb{Z}}\)\(\newcommand{\bs}{\boldsymbol}\)\(\newcommand{\var}{\text{var}}\)

Un proceso de Markov es un proceso aleatorio indexado por el tiempo, y con la propiedad de que el futuro es independiente del pasado, dado el presente. Los procesos de Markov, llamados así por Andrei Markov, se encuentran entre los más importantes de todos los procesos aleatorios. En cierto sentido, son los análogos estocásticos de ecuaciones diferenciales y relaciones de recurrencia, que por supuesto se encuentran, entre los procesos deterministas más importantes.

La complejidad de la teoría de los procesos de Markov depende en gran medida de si el espacio de tiempo\( T \) es\( \N \) (tiempo discreto) o\( [0, \infty) \) (tiempo continuo) y de si el espacio de estado es discreto (contable, con todos los subconjuntos medibles) o un espacio topológico más general. Cuando\( T = [0, \infty) \) o cuando el espacio estatal es un espacio general, los supuestos de continuidad suelen necesitar imponerse para descartar diversos tipos de comportamientos extraños que de otro modo complicarían la teoría.

Cuando el espacio estatal es discreto, los procesos de Markov se conocen como cadenas de Markov. La teoría general de las cadenas de Markov es matemáticamente rica y relativamente simple.

Cuando\( T = \N \) y el espacio estatal es discreto, los procesos de Markov se conocen como cadenas de Markov de tiempo discreto. La teoría de tales procesos es matemáticamente elegante y completa, y es comprensible con una mínima dependencia de la teoría de medidas. En efecto, las principales herramientas son la probabilidad básica y el álgebra lineal. En este capítulo se estudian las cadenas de Markov de tiempo discreto, junto con una serie de modelos especiales.
Cuando\( T = [0, \infty) \) y el espacio estatal es discreto, los procesos de Markov se conocen como cadenas de Markov de tiempo continuo. Si evitamos algunas dificultades técnicas (creadas, como siempre, por el espacio temporal continuo), la teoría de estos procesos también es razonablemente simple y matemáticamente muy agradable. La propiedad de Markov implica que el proceso, muestreado en los momentos aleatorios en que el estado cambia, forma una cadena incrustada de Markov de tiempo discreto, por lo que podemos aplicar la teoría que ya habremos aprendido. El inmueble de Markov implica también que el tiempo de tenencia en un estado tiene la propiedad sin memoria y así debe tener una distribución exponencial, una distribución que conocemos bien. En términos de lo que quizás ya hayas estudiado, el proceso de Poisson es un ejemplo sencillo de una cadena de Markov en tiempo continuo.

Para un espacio estatal general, la teoría es más complicada y técnica, como se señaló anteriormente. Sin embargo, podemos distinguir un par de clases de procesos de Markov, dependiendo nuevamente de si el espacio temporal es discreto o continuo.

Cuando\( T = \N \) y\( S \ = \R \), un ejemplo simple de un proceso de Markov es el proceso de suma parcial asociado a una secuencia de variables aleatorias de valor real independientes, distribuidas idénticamente. Dichas secuencias se estudian en el capítulo sobre muestras aleatorias (pero no como procesos de Markov), y se revisan a continuación.
En el caso de que\( T = [0, \infty) \) y\( S = \R\) o de manera más general\(S = \R^k \), los procesos de Markov más importantes son los procesos de difusión. Generalmente, tales procesos se pueden construir a través de ecuaciones diferenciales estocásticas a partir del movimiento browniano, lo que sirve como ejemplo por excelencia de un proceso de Markov en tiempo y espacio continuos.

El objetivo de esta sección es dar un bosquejo amplio de la teoría general de los procesos de Markov. Algunas de las declaraciones no son completamente rigurosas y algunas de las pruebas se omiten o son bocetos, porque queremos enfatizar las ideas principales sin empantanarse en tecnicismos. Si eres un nuevo estudiante de probabilidad tal vez quieras simplemente navegar por esta sección, para obtener las ideas básicas y la notación, pero omitiendo las pruebas y detalles técnicos. Entonces salta adelante al estudio de las cadenas de Markov en tiempo discreto. Por otro lado, para entender esta sección con mayor profundidad, será necesario revisar topcis en el capítulo sobre fundaciones y en el capítulo sobre procesos estocásticos.

Teoría Básica

Preliminares

Como es habitual, nuestro punto de partida es un espacio de probabilidad\( (\Omega, \mathscr{F}, \P) \), por lo que ese\( \Omega \) es el conjunto de resultados,\( \mathscr{F} \) el\( \sigma \) álgebra de eventos y\( \P \) la medida de probabilidad en\( (\Omega, \mathscr{F}) \). El tiempo establecido\( T \) es\( \N \) (tiempo discreto) o\( [0, \infty) \) (tiempo continuo). En el primer caso,\( T \) se le da la topología discreta y en el segundo\( T \) se le da la topología euclidiana habitual. En ambos casos,\( T \) se le da la\( \sigma \) -álgebra de Borel\( \mathscr{T} \), la\( \sigma \) -álgebra generada por los conjuntos abiertos. En el caso discreto cuando\( T = \N \), esto es simplemente el conjunto de potencias de\( T \) manera que cada subconjunto de\( T \) es medible; cada función de\( T \) a otro espacio medible es medible; y cada función de\( T \) a otro espacio topológico es continua. El espacio temporal\( (T, \mathscr{T}) \) tiene una medida natural; medida de conteo\( \# \) en el caso discreto y Lebesgue en el caso continuo.

El conjunto de estados\( S \) también tiene un\( \sigma \) -álgebra\( \mathscr{S} \) de subconjuntos admisibles, por lo que ese\( (S, \mathscr{S}) \) es el espacio estatal. Por lo general\( S \) tiene una topología y\( \mathscr{S} \) es el\( \sigma \) álgebra de Borel generado por los conjuntos abiertos. Un conjunto típico de suposiciones es que la topología\( S \) es LCCB: localmente compacta, Hausdorff, y con una base contable. Estos supuestos particulares son lo suficientemente generales como para capturar todos los procesos más importantes que ocurren en las aplicaciones y, sin embargo, son lo suficientemente restrictivos para una buena teoría matemática. Por lo general, hay una medida positiva natural\( \lambda \) sobre el espacio estatal\( (S, \mathscr{S}) \). Cuando\( S \) tiene una topología LCCB y\( \mathscr{S} \) es el\( \sigma \) álgebra de Borel, la medida\( \lambda \) generalmente será una medida de Borel satisfactoria\( \lambda(C) \lt \infty \) si\( C \subseteq S \) es compacta. El término espacio de estado discreto significa que\( S \) es contable con\( \mathscr{S} = \mathscr{P}(S) \), la colección de todos los subconjuntos de\( S \). Así, cada subconjunto de\( S \) es medible,\( S \) al igual que cada función desde otro espacio medible. Este es el\( \sigma \) álgebra de Borel para la topología discreta en\( S \), de manera que cada función de\( S \) a otro espacio topológico es continua. Los conjuntos compactos son simplemente los conjuntos finitos, y la medida de referencia es\( \# \), medida de conteo. Si\( S = \R^k \) para algunos\( k \in S \) (otro caso común), entonces usualmente damos\( S \) la topología euclidiana (que es LCCB) así que esa\( \mathscr{S} \) es la habitual\( \sigma \) álgebra de Borel. Los conjuntos compactos son los conjuntos cerrados, acotados, y la medida de referencia\( \lambda \) es la medida de Lebesgue\( k \) -dimensional.

Claramente, las estructuras topológicas y de medida no\( T \) son realmente necesarias cuando\( T = \N \), y de manera similar estas estructuras no\( S \) son necesarias cuando\( S \) es contable. Pero el punto principal es que los supuestos unifican los casos discretos y los comunes continuos. Además, cabe señalar que son posibles espacios estatales mucho más generales (y más espacios de tiempo generales), pero la mayoría de los procesos importantes de Markov que ocurren en las aplicaciones se ajustan al entorno que hemos descrito aquí.

Diversos espacios de funciones de valor real\( S \) juegan un papel importante. Dejar\( \mathscr{B} \) denotar la colección de funciones delimitadas y medibles\( f: S \to \R \). Con la suma habitual (puntual) y la multiplicación escalar,\( \mathscr{B} \) es un espacio vectorial. Damos\( \mathscr{B} \) la norma suprema, definida por\( \|f\| = \sup\{\left|f(x)\right|: x \in S\} \).

Supongamos ahora que\( \bs{X} = \{X_t: t \in T\} \) es un proceso estocástico sobre el\( (\Omega, \mathscr{F}, \P) \) espacio estatal\( S \) y el espacio temporal\( T \). Así,\( X_t \) es una variable aleatoria que toma valores\( S \) para cada uno\( t \in T \), y pensamos en\( X_t \in S \) como el estado de un sistema en el momento\( t \in T\). También asumimos que tenemos una colección\(\mathfrak{F} = \{\mathscr{F}_t: t \in T\}\) de\( \sigma \) -álgebras con las propiedades que\( X_t \) es medible con respecto a\( \mathscr{F}_t \) for\( t \in T \), y the\( \mathscr{F}_s \subseteq \mathscr{F}_t \subseteq \mathscr{F} \) for\( s, \, t \in T \) with\( s \le t \). Intuitivamente,\( \mathscr{F}_t \) es la colección de eventos hasta el momento\( t \in T \). Técnicamente, los supuestos significan que\( \mathfrak{F} \) es una filtración y a la que\( \bs{X} \) se adapta el proceso\( \mathfrak{F} \). La filtración más básica (y más tosca) es la filtración natural\( \mathfrak{F}^0 = \left\{\mathscr{F}^0_t: t \in T\right\} \) donde\( \mathscr{F}^0_t = \sigma\{X_s: s \in T, s \le t\} \), la\( \sigma \) -álgebra generada por el proceso hasta el tiempo\( t \in T \). En tiempo continuo, sin embargo, a menudo es necesario usar\( \sigma \) álgebras ligeramente más finas para tener una teoría matemática agradable. En particular, a menudo necesitamos asumir que la filtración\( \mathfrak{F} \) es correcta continua en el sentido de que\( \mathscr{F}_{t+} = \mathscr{F}_t \) para\( t \in T \) dónde\(\mathscr{F}_{t+} = \bigcap\{\mathscr{F}_s: s \in T, s \gt t\} \). Podemos lograr esto tomando\( \mathscr{F}_t = \mathscr{F}^0_{t+} \) para\( \mathfrak{F} = \mathfrak{F}^0_+ \) que para\( t \in T \), y en este caso,\( \mathfrak{F} \) se refiere como el refinamiento continuo correcto de la filtración natural. También a veces necesitamos asumir que\( \mathfrak{F} \) está completo con respecto a\( \P \) en el sentido de que si\( A \in \mathscr{S} \) con\( \P(A) = 0 \) y\( B \subseteq A \) luego\( B \in \mathscr{F}_0 \). Es decir,\( \mathscr{F}_0 \) contiene todos los eventos nulos (y por lo tanto también todos los eventos casi ciertos), y por lo tanto también lo hace\( \mathscr{F}_t \) para todos\( t \in T \).

Definiciones

El proceso aleatorio\( \bs{X} \) es un proceso de Markov si\[ \P(X_{s+t} \in A \mid \mathscr{F}_s) = \P(X_{s+t} \in A \mid X_s) \] para todos\( s, \, t \in T \) y\( A \in \mathscr{S} \).

La condición definitoria, conocida adecuadamente como la propiedad de Markov, establece que la distribución condicional de\( X_{s+t} \) dado\( \mathscr{F}_s \) es la misma que la distribución condicional de\( X_{s+t} \) solo dado\( X_s \). \( s \)Piense en el tiempo presente, así que ese\( s + t \) es un tiempo en el futuro. Si conocemos el estado presente\( X_s \), entonces cualquier conocimiento adicional de los eventos del pasado es irrelevante en términos de predecir el estado futuro\( X_{s + t} \). Técnicamente, las probabilidades condicionales en la definición son variables aleatorias, y la igualdad debe interpretarse como mantener con probabilidad 1. Como recordarás, el valor esperado condicional es un concepto más general y útil que la probabilidad condicional, por lo que el siguiente teorema puede no ser una sorpresa.

El proceso aleatorio\( \bs{X} \) es un proceso de Markov si y solo si\[ \E[f(X_{s+t}) \mid \mathscr{F}_s] = \E[f(X_{s+t}) \mid X_s] \] por todos\( s, \, t \in T \) y cada uno\( f \in \mathscr{B} \).

Bosquejo de prueba

La condición en este teorema implica claramente la propiedad de Markov, al dejar\( f = \bs{1}_A \), la función indicadora de\( A \in \mathscr{S} \). Lo contrario es un argumento clásico de bootstrapping: la propiedad Markov implica la condición de valor esperado

Primero cuando\( f = \bs{1}_A \) para\( A \in \mathscr{S} \) (por definición).
Siguiente cuando\( f \in \mathscr{B} \) es una función simple, por linealidad.
Siguiente cuando no\( f \in \mathscr{B}\) es negativo, por el teorema de convergencia monótona.
Finalmente para general\( f \in \mathscr{B} \) considerando partes positivas y negativas.

Técnicamente, deberíamos decir que\( \bs{X} \) es un proceso de Markov relativo a la filtración\( \mathfrak{F} \). Si\( \bs{X} \) satisface la propiedad de Markov en relación con una filtración, entonces satisface la propiedad de Markov en relación con cualquier filtración más tosca.

Supongamos que el proceso estocástico\( \bs{X} = \{X_t: t \in T\} \) está adaptado a la filtración\( \mathfrak{F} = \{\mathscr{F}_t: t \in T\} \) y que\( \mathfrak{G} = \{\mathscr{G}_t: t \in T\} \) es una filtración que es más fina que\( \mathfrak{F} \). Si\( \bs{X} \) es un proceso de Markov relativo a\( \mathfrak{G} \) entonces\( \bs{X} \) es un proceso de Markov relativo a\( \mathfrak{F} \).

Prueba

Primer recuerdo al que\( \bs{X} \) se adapta\( \mathfrak{G} \) ya que\( \bs{X} \) se adapta a\( \mathfrak{F} \). Si\( s, \, t \in T \) y\( f \in \mathscr{B} \) entonces\[ \E[f(X_{s+t}) \mid \mathscr{F}_s] = \E\left(\E[f(X_{s+t}) \mid \mathscr{G}_s] \mid \mathscr{F}_s\right)= \E\left(\E[f(X_{s+t}) \mid X_s] \mid \mathscr{F}_s\right) = \E[f(X_{s+t}) \mid X_s] \] La primera igualdad es una propiedad básica de valor esperado condicional. El segundo utiliza el hecho de que\( \bs{X} \) es Markov relativo a\( \mathfrak{G} \), y el tercero sigue ya que\( X_s \) es medible con respecto a\( \mathscr{F}_s \).

En particular, si\( \bs{X} \) es un proceso de Markov, entonces\( \bs{X} \) satisface la propiedad de Markov en relación con la filtración natural\( \mathfrak{F}^0 \). La teoría de los procesos de Markov se simplifica considerablemente si agregamos una suposición adicional.

Un proceso de Markov\( \bs{X} \) es homogéneo en el tiempo si\[ \P(X_{s+t} \in A \mid X_s = x) = \P(X_t \in A \mid X_0 = x) \] para cada\( s, \, t \in T \),\( x \in S \) y\( A \in \mathscr{S} \).

Entonces si\( \bs{X} \) es homogéneo (normalmente no nos molestamos con el adjetivo tiempo), entonces el proceso\( \{X_{s+t}: t \in T\} \) dado\( X_s = x \) es equivalente (en distribución) al proceso\( \{X_t: t \in T\} \) dado\( X_0 = x \). Por esta razón, la distribución inicial a menudo no se especifica en el estudio de los procesos de Markov, si el proceso está en estado en un\( x \in S \) momento determinado\( s \in T \), entonces realmente no importa cómo llegó a estar el proceso\( x \); el proceso esencialmente comienza de nuevo, independientemente de la pasado. A veces se usa el término estacionario en lugar de homogéneo.

A partir de ahora, usualmente asumiremos que nuestros procesos de Markov son homogéneos. Esto no es una pérdida de generalidad tan grande como se podría pensar. Un proceso no homogéneo se puede convertir en un proceso homogéneo mediante la ampliación del espacio de estado, como se muestra a continuación. Para un proceso homogéneo de Markov, si\( s, \, t \in T \),\( x \in S \), y\( f \in \mathscr{B}\), entonces\[ \E[f(X_{s+t}) \mid X_s = x] = \E[f(X_t) \mid X_0 = x] \]

Procesos de Feller

En tiempo continuo, o con espacios estatales generales, los procesos de Markov pueden ser muy extraños sin suposiciones adicionales de continuidad. Supongamos (como suele ser el caso) que\( S \) tiene una topología LCCB y que\( \mathscr{S} \) es el\( \sigma \) álgebra de Borel. Dejar\( \mathscr{C} \) denotar la colección de funciones delimitadas y continuas\( f: S \to \R \). Dejar\( \mathscr{C}_0 \) denotar la colección de funciones continuas\( f: S \to \R \) que desaparecen en\(\infty\). La última frase significa que para cada\( \epsilon \gt 0 \), existe un conjunto compacto\( C \subseteq S \) tal que\( \left|f(x)\right| \lt \epsilon \) si\( x \notin C \). Con las operaciones habituales (puntuales) de suma y multiplicación escalar,\( \mathscr{C}_0 \) es un subespacio vectorial de\( \mathscr{C} \), que a su vez es un subespacio vectorial de\( \mathscr{B} \). Al igual que con\( \mathscr{B} \), la norma suprema se utiliza para\( \mathscr{C} \) y\( \mathscr{C}_0 \).

Un proceso de Markov\( \bs{X} = \{X_t: t \in T\} \) es un proceso de Feller si se cumplen las siguientes condiciones.

Continuidad en el espacio: Para\( t \in T \) y\( y \in S \), la distribución de\( X_t \) dado\( X_0 = x \) converge a la distribución de\( X_t \) dado\( X_0 = y \) como\( x \to y \).
Continuidad en el tiempo: Dado\(X_0 = x \) para\( x \in S \),\( X_t \) converge en probabilidad a\( x \) como\( t \downarrow 0 \).

Detalles adicionales

Esto significa que\( \E[f(X_t) \mid X_0 = x] \to \E[f(X_t) \mid X_0 = y] \) como\( x \to y \) para cada\( f \in \mathscr{C} \).
Esto quiere decir que\( \P[X_t \in U \mid X_0 = x] \to 1 \) como\( t \downarrow 0 \) para cada barrio\( U \) de\( x \).

Los procesos de Feller llevan el nombre de William Feller. Tenga en cuenta que si\( S \) es discreto, (a) se satisface automáticamente y si\( T \) es discreto, (b) se satisface automáticamente. En particular, cada cadena de Markov de tiempo discreto es un proceso de Feller Markov. Ciertamente hay procesos más generales de Markov, pero la mayoría de los procesos importantes que ocurren en las aplicaciones son procesos Feller, y una serie de buenas propiedades fluyen de los supuestos. Aquí está el primero:

Si\( \bs{X} = \{X_t: t \in T\} \) es un proceso Feller, entonces hay una versión de\( \bs{X} \) tal que\( t \mapsto X_t(\omega) \) es continua desde la derecha y tiene límites dejados para cada uno\( \omega \in \Omega \).

Nuevamente, este resultado sólo es interesante en tiempo continuo\( T = [0, \infty) \). Recordemos que para\( \omega \in \Omega \), la función\( t \mapsto X_t(\omega) \) es una ruta de muestra del proceso. Por lo que muchas veces asumiremos que un proceso de Feller Markov tiene rutas de muestra que son continuas correctas tienen límites dejados, ya que sabemos que hay una versión con estas propiedades.

Tiempos de parada y la fuerte propiedad de Markov

Para nuestra próxima discusión, es posible que deba revisar nuevamente la sección sobre filtraciones y tiempos de detencia.Para dar una revisión rápida, supongamos nuevamente que comenzamos con nuestro espacio de probabilidad\( (\Omega, \mathscr{F}, \P) \) y la filtración\( \mathfrak{F} = \{\mathscr{F}_t: t \in T\} \) (para que tengamos un espacio de probabilidad filtrado).

Dado que el tiempo (pasado, presente, futuro) juega un papel tan fundamental en los procesos de Markov, no debería sorprender que los tiempos aleatorios sean importantes. A menudo necesitamos permitir tiempos aleatorios para tomar el valor\( \infty \), por lo que necesitamos ampliar el conjunto de tiempos a\( T_\infty = T \cup \{\infty\} \). La topología encendida\( T \) se extiende a\( T_\infty \) por la regla de que para\( s \in T \), el conjunto\( \{t \in T_\infty: t \gt s\} \) es un vecindario abierto de\( \infty \). Esta es la compactificación de un punto\( T \) y se utiliza para que se conserve la noción de tiempo convergente al infinito. El\( \sigma \) álgebra de Borel\( \mathscr{T}_\infty \) se utiliza en\( T_\infty \), que de nuevo es solo el conjunto de potencia en el caso discreto.

Si\( \bs{X} = \{X_t: t \in T\} \) es un proceso estocástico en el espacio muestral\( (\Omega, \mathscr{F}) \), y si\( \tau \) es un tiempo aleatorio, entonces naturalmente queremos considerar el estado\( X_\tau \) en el tiempo aleatorio. Hay dos problemas. Primero si\( \tau \) toma el valor\( \infty \), no\( X_\tau \) está definido. La solución habitual es agregar un nuevo estado de muerte\( \delta \) al conjunto de estados\( S \), y luego darle\( S_\delta = S \cup \{\delta\} \) el\( \sigma \) álgebra\( \mathscr{S}_\delta = \mathscr{S} \cup \{A \cup \{\delta\}: A \in \mathscr{S}\} \). Una función\( f \in \mathscr{B} \) se extiende a\( S_\delta \) por la regla\( f(\delta) = 0 \). El segundo problema es que\( X_\tau \) puede no ser una variable aleatoria válida (es decir, medible) a menos que supongamos que el proceso estocástico\( \bs{X} \) es medible. Recordemos que esto significa que\( \bs{X}: \Omega \times T \to S \) es medible en relación con\( \mathscr{F} \otimes \mathscr{T} \) y\( \mathscr{S} \). (Esto siempre es cierto en tiempo discreto.)

Recordemos a continuación que un tiempo aleatorio\( \tau \) es un tiempo de parada (también llamado tiempo de Markov o un tiempo opcional) relativo a\( \mathfrak{F} \) si\( \{\tau \le t\} \in \mathscr{F}_t \) para cada uno\( t \in T \). Intuitivamente, podemos decir si a\( \tau \le t \) partir de la información que tenemos disponible en el momento o no\( t \). En cierto sentido, un tiempo de parada es un tiempo aleatorio que no requiere que veamos hacia el futuro. Por supuesto, el concepto depende críticamente de la filtración. Recordemos que si un tiempo aleatorio\( \tau \) es un tiempo de parada para una filtración\( \mathfrak{F} = \{\mathscr{F}_t: t \in T\} \) entonces también es un tiempo de parada para una filtración más fina\( \mathfrak{G} = \{\mathscr{G}_t: t \in T\} \), de modo que\( \mathscr{F}_t \subseteq \mathscr{G}_t \) para\( t \in T \). Por lo tanto, cuanto más fina es la filtración, mayor es la recolección de tiempos de parada. De hecho si la filtración es la trivial donde\( \mathscr{F}_t = \mathscr{F} \) para todos\( t \in T \) (para que toda la información esté disponible para nosotros desde el principio de los tiempos), entonces cualquier tiempo aleatorio es un tiempo de parada. Pero claro, esta filtración trivial no suele ser sensata.

A continuación, recordemos que si\( \tau \) es un tiempo de parada para la filtración\( \mathfrak{F} \), entonces la\( \sigma \) -álgebra\( \mathscr{F}_\tau \) asociada\( \tau \) a la viene dada por\[ \mathscr{F}_\tau = \left\{A \in \mathscr{F}: A \cap \{\tau \le t\} \in \mathscr{F}_t \text{ for all } t \in T\right\} \] Intuitivamente,\( \mathscr{F}_\tau \) es la colección de eventos hasta el tiempo aleatorio\( \tau \), análogo al\( \mathscr{F}_t \) que es el colección de eventos hasta el momento determinista\( t \in T \). Si\( \bs{X} = \{X_t: t \in T\} \) es un proceso estocástico adaptado\( \mathfrak{F} \) y si\( \tau \) es un tiempo de parada relativo a\( \mathfrak{F} \), entonces esperaríamos que\( X_\tau \) sea medible con respecto a\( \mathscr{F}_\tau \) lo que\( X_t \) es medible con respecto a\( \mathscr{F}_t \) para determinista\( t \in T \). Sin embargo, este generalmente no será el caso a menos que\( \bs{X} \) sea progresivamente medible en relación con\( \mathfrak{F} \), lo que significa que\( \bs{X}: \Omega \times T_t \to S \) es medible con respecto a\( \mathscr{F}_t \otimes \mathscr{T}_t \) y\( \mathscr{S} \) dónde\( T_t = \{s \in T: s \le t\} \) y\( \mathscr{T}_t \) el\( \sigma \) álgebra de Borel correspondiente. Esto siempre es cierto en tiempo discreto, por supuesto, y más generalmente si\( S \) tiene una topología LCCB con\( \mathscr{S} \) el\( \sigma \) álgebra de Borel, y\( \bs{X} \) es correcto continuo. Si\( \bs{X} \) es medible progresivamente con respecto a\( \mathfrak{F} \) entonces\( \bs{X} \) es medible y\( \bs{X} \) se adapta a\( \mathfrak{F} \).

La fuerte propiedad de Markov para nuestro proceso estocástico\( \bs{X} = \{X_t: t \in T\} \) afirma que el futuro es independiente del pasado, dado el presente, cuando el presente es un tiempo de parada.

El proceso aleatorio\( \bs{X} \) es un proceso fuerte de Markov si\[ \E[f(X_{\tau + t}) \mid \mathscr{F}_\tau] = \E[f(X_{\tau + t}) \mid X_\tau] \] por cada\(t \in T \), detener el tiempo\( \tau \), y\( f \in \mathscr{B} \).

Al igual que con la propiedad regular de Markov, la fuerte propiedad de Markov depende de la filtración subyacente\( \mathfrak{F} \). Si la propiedad se mantiene con respecto a una filtración dada, entonces se mantiene con respecto a una filtración más basta.

Supongamos que el proceso estocástico\( \bs{X} = \{X_t: t \in T\} \) es medible progresivamente en relación con la filtración\( \mathfrak{F} = \{\mathscr{F}_t: t \in T\} \) y que la filtración\( \mathfrak{G} = \{\mathscr{G}_t: t \in T\} \) es más fina que\( \mathfrak{F} \). Si\( \bs{X} \) es un proceso fuerte de Markov en relación con\( \mathfrak{G} \) entonces\( \bs{X} \) es un proceso de Markov fuerte en relación con\( \mathfrak{F} \).

Prueba

Recordemos nuevamente que ya que\( \bs{X} \) se adapta a\( \mathfrak{F} \), también se adapta a\( \mathfrak{G} \). Supongamos que\( \tau \) es un tiempo de parada finito para\( \mathfrak{F} \) y eso\( t \in T \) y\( f \in \mathscr{B} \). Entonces también\( \tau \) es un tiempo de parada para\( \mathfrak{G} \), y\( \mathscr{F}_\tau \subseteq \mathscr{G}_\tau \). De ahí\[ \E[f(X_{\tau+t}) \mid \mathscr{F}_\tau] = \E\left(\E[f(X_{\tau+t}) \mid \mathscr{G}_\tau] \mid \mathscr{F}_\tau\right)= \E\left(\E[f(X_{\tau+t}) \mid X_\tau] \mid \mathscr{F}_\tau\right) = \E[f(X_{\tau+t}) \mid X_\tau] \] que la primera igualdad sea una propiedad básica de valor esperado condicional. El segundo utiliza el hecho de que\( \bs{X} \) tiene la fuerte propiedad de Markov en relación con\( \mathfrak{G} \), y el tercero sigue desde\( \bs{X_\tau} \) medible con respecto a\( \mathscr{F}_\tau \). En tiempo continuo, es el último paso que requiere una medibilidad progresiva.

Entonces, si\( \bs{X} \) es un proceso fuerte de Markov, entonces\( \bs{X} \) satisface la fuerte propiedad de Markov en relación con su filtración natural. Nuevamente hay una compensación: filtraciones más finas permiten más tiempos de detención (generalmente algo bueno), pero hacen que la fuerte propiedad de Markov sea más difícil de satisfacer y puede que no sea razonable (no tan buena). Por lo que normalmente no queremos filtraciones que sean mucho más finas que la natural.

Con las propiedades fuertes de Markov y homogéneas, el proceso\( \{X_{\tau + t}: t \in T\} \) dado\( X_\tau = x \) es equivalente en distribución al proceso\( \{X_t: t \in T\} \) dado\( X_0 = x \). Claramente, la propiedad fuerte de Markov implica la propiedad ordinaria de Markov, ya que un tiempo fijo\( t \in T \) es trivialmente también un tiempo de parada. Lo contrario es cierto en el tiempo discreto.

Supongamos que\( \bs{X} = \{X_n: n \in \N\} \) es un proceso de Markov (homogéneo) en tiempo discreto. Entonces\( \bs{X} \) es un proceso fuerte de Markov.

Como siempre en tiempo continuo, la situación es más complicada y depende de la continuidad del proceso\( \bs{X} \) y de la filtración\( \mathfrak{F} \). Aquí está el resultado estándar para los procesos de Feller.

Si\( \bs{X} = \{X_t: t \in [0, \infty) \) es un proceso Feller Markov, entonces\( \bs{X} \) es un proceso fuerte de Markov en relación con la filtración\( \mathfrak{F}^0_+ \), el refinamiento continuo correcto de la filtración natural..

Kernels de Transición de Procesos de Markov

Para nuestra próxima discusión, es posible que deba revisar la sección sobre núcleos y operadores en el capítulo sobre el valor esperado. Supongamos nuevamente que\( \bs{X} = \{X_t: t \in T\} \) es un proceso (homogéneo) de Markov con espacio de estado\( S \) y espacio de tiempo\( T \), como se describió anteriormente. Los granos en la siguiente definición son de fundamental importancia en el estudio de\( \bs{X} \)

For\( t \in T \), let\[ P_t(x, A) = \P(X_t \in A \mid X_0 = x), \quad x \in S, \, A \in \mathscr{S} \] Then\( P_t \) es un kernel de probabilidad encendido\( (S, \mathscr{S}) \), conocido como el kernel de transición de\( \bs{X} \) for time\( t \).

Prueba

Arreglar\( t \in T \). La medibilidad de\( x \mapsto \P(X_t \in A \mid X_0 = x) \) for\( A \in \mathscr{S} \) está integrada en la definición de probabilidad condicional. También, por supuesto,\( A \mapsto \P(X_t \in A \mid X_0 = x) \) es una medida de probabilidad en\( \mathscr{S} \) for\( x \in S \). En general, la distribución condicional de una variable aleatoria, condicionada a un valor de otra variable aleatoria, define un kernel de probabilidad.

Es decir,\( P_t(x, \cdot) \) es la distribución condicional de\( X_t \) dado\( X_0 = x \) para\( t \in T \) y\( x \in S \). Por la propiedad homogénea tiempo,\( P_t(x, \cdot) \) es también la distribución condicional de\( X_{s + t} \) dado\( X_s = x \) para\( s \in T \):\[ P_t(x, A) = \P(X_{s+t} \in A \mid X_s = x), \quad s, \, t \in T, \, x \in S, \, A \in \mathscr{S} \] Tenga en cuenta que\( P_0 = I \), el núcleo de identidad en\( (S, \mathscr{S}) \) definido por\( I(x, A) = \bs{1}(x \in A) \) for\( x \in S \) y\( A \in \mathscr{S} \), de modo que\( I(x, A) = 1 \) si \( x \in A \)y\( I(x, A) = 0 \) si\( x \notin A \). Recordemos también que por lo general hay una medida de referencia natural\( \lambda \) en\( (S, \mathscr{S}) \). En este caso, el kernel de transición a menudo\( P_t \) tendrá una densidad de transición\( p_t \) con respecto a\( \lambda \) for\( t \in T \). Es decir,\[ P_t(x, A) = \P(X_t \in A \mid X_0 = x) = \int_A p_t(x, y) \lambda(dy), \quad x \in S, \, A \in \mathscr{S} \] El siguiente teorema da la ecuación de Chapman-Kolmogorov, llamada así por Sydney Chapman y Andrei Kolmogorov, la relación fundamental entre los núcleos de probabilidad, y la razón del nombre kernel de transición.

Supongamos nuevamente que\( \bs{X} = \{X_t: t \in T\} \) es un proceso de Markov encendido\( S \) con núcleos de transición\( \bs{P} = \{P_t: t \in T\} \). Si\( s, \, s \in T \), entonces\( P_s P_t = P_{s + t} \). Es decir,\[ P_{s+t}(x, A) = \int_S P_s(x, dy) P_t(y, A), \quad x \in S, \, A \in \mathscr{S} \]

Prueba

La propiedad de Markov y un argumento condicionamiento son las herramientas fundamentales. Recordemos nuevamente que\( P_s(x, \cdot) \) es la distribución condicional de\( X_s \) dado\( X_0 = x \) para\( x \in S \). Vamos\( A \in \mathscr{S} \). Acondicionamiento en\( X_s \) da\[ P_{s+t}(x, A) = \P(X_{s+t} \in A \mid X_0 = x) = \int_S P_s(x, dy) \P(X_{s+t} \in A \mid X_s = y, X_0 = x) \] Pero por el Markov y propiedades homogéneas en el tiempo,\[ \P(X_{s+t} \in A \mid X_s = y, X_0 = x) = \P(X_t \in A \mid X_0 = y) = P_t(y, A) \] Sustituyendo tenemos\[ P_{s+t}(x, A) = \int_S P_s(x, dy) P_t(y, A) = (P_s P_t)(x, A) \]

En el lenguaje del análisis funcional,\( \bs{P} \) es un semigrupo. Recordemos que la propiedad conmutativa generalmente no se mantiene para la operación del producto en granos. Sin embargo, la propiedad se mantiene para los granos de transición de un proceso homogéneo de Markov. Es decir,\( P_s P_t = P_t P_s = P_{s+t} \) para\( s, \, t \in T \). Como corolario simple, si\( S \) tiene una medida de referencia, se mantiene la misma relación básica para las densidades de transición.

Supongamos que esa\( \lambda \) es la medida de referencia sobre\( (S, \mathscr{S}) \) y que\( \bs{X} = \{X_t: t \in T\} \) es un proceso de Markov sobre\( S \) y con densidades de transición\( \{p_t: t \in T\} \). Si\( s, \, t \in T \) entonces\( p_s p_t = p_{s+t} \). Es decir,\[ p_t(x, z) = \int_S p_s(x, y) p_t(y, z) \lambda(dy), \quad x, \, z \in S \]

Prueba

Los núcleos de transición satisfacen\(P_s P_t = P_{s+t} \). Pero\( P_s \) tiene densidad\( p_s \),\( P_t \) tiene densidad\( p_t \), y\( P_{s+t} \) tiene densidad\( p_{s+t} \). A partir de un resultado básico sobre las funciones del kernel,\( P_s P_t \) tiene densidad\( p_s p_t \) como se define en el teorema.

Si\( T = \N \) (tiempo discreto), entonces los núcleos de transición de\( \bs{X} \) son solo los poderes del kernel de transición de un solo paso. Es decir, si dejamos\( P = P_1 \) entonces\( P_n = P^n \) para\( n \in \N \).

Recordemos que un kernel define dos operaciones: operar a la izquierda con medidas positivas\( (S, \mathscr{S}) \) y operar a la derecha con funciones medibles y de valor real. Para los núcleos de transición de un proceso de Markov, ambos operadores tienen interpretaciones naturales.

Supongamos que\( s, \, t \in T \). Si\( \mu_s \) es la distribución de\( X_s \) entonces\( X_{s+t} \) tiene distribución\( \mu_{s+t} = \mu_s P_t \). Es decir,\[ \mu_{s+t}(A) = \int_S \mu_s(dx) P_t(x, A), \quad A \in \mathscr{S} \]

Prueba

Vamos\( A \in \mathscr{S} \). Acondicionamiento en\( X_s \) da\[ \P(X_{s+t} \in A) = \E[\P(X_{s+t} \in A \mid X_s)] = \int_S \mu_s(dx) \P(X_{s+t} \in A \mid X_s = x) = \int_S \mu_s(dx) P_t(x, A) = \mu_s P_t(A) \]

Entonces, si\( \mathscr{P} \) denota la colección de medidas de probabilidad en\( (S, \mathscr{S}) \), entonces el operador izquierdo\( \mathscr{P} \) vuelve a\( P_t \) mapear en\( \mathscr{P} \). En particular, si\( X_0 \) tiene distribución\( \mu_0 \) (la distribución inicial) entonces\( X_t \) tiene distribución\( \mu_t = \mu_0 P_t \) para cada\( t \in T \).

Una medida positiva\( \mu \) en\( (S, \mathscr{S}) \) es invariante para\( \bs{X}\) si\( \mu P_t = \mu \) para cada\( t \in T \).

De ahí que si\( \mu \) es una medida de probabilidad que es invariante para\( \bs{X} \), y\( X_0 \) tiene distribución\( \mu \), entonces\( X_t \) tiene distribución\( \mu \) para cada para\( t \in T \) que el proceso\( \bs{X} \) se distribuya de manera idéntica. En tiempo discreto, tenga en cuenta que si\( \mu \) es una medida positiva y\( \mu P = \mu \) luego\( \mu P^n = \mu \) para cada\( n \in \N \), así\( \mu \) es invariante para\( \bs{X} \). El operador de la derecha se da a continuación.

Supongamos que\( f: S \to \R \). Si\(t \in T\) entonces (suponiendo que existe el valor esperado),\[ P_t f(x) = \int_S P_t(x, dy) f(y) = \E\left[f(X_t) \mid X_0 = x\right], \quad x \in S \]

Prueba

Esto se desprende directamente de las definiciones:\[ P_t f(x) = \int_S P_t(x, dy) f(y), \quad x \in S \] y\( P_t(x, \cdot) \) es la distribución condicional de\( X_t \) dado\( X_0 = x \).

En particular, el operador derecho\( P_t \) se define en\( \mathscr{B} \), el espacio vectorial de las funciones lineales delimitadas\( f: S \to \R \), y de hecho es un operador lineal encendido\( \mathscr{B} \). Es decir, si\( f, \, g \in \mathscr{B} \) y\( c \in \R \), entonces\( P_t(f + g) = P_t f + P_t g \) y\( P_t(c f) = c P_t f \). Además,\( P_t \) es un operador de contracción en\( \mathscr{B} \), ya que\( \left\|P_t f\right\| \le \|f\| \) para\( f \in \mathscr{B} \). Entonces se deduce que\( P_t \) es un operador continuo encendido\( \mathscr{B} \) para\( t \in T \).

Para el operador derecho, existe un concepto que es complementario a la invarianza de una medida positiva para el operador izquierdo.

Una función medible\( f: S \to \R \) es armónica para\( \bs{X} \) si\( P_t f = f \) para todos\( t \in T \).

Nuevamente, en tiempo discreto, si\( P f = f \) entonces\( P^n f = f \) para todos\( n \in \N \), así\( f \) es armónico para\( \bs{X} \).

Combinando dos resultados anteriores, si\( X_0 \) tiene distribución\( \mu_0 \) y\( f: S \to \R \) es medible, entonces (de nuevo asumiendo que existe el valor esperado),\( \mu_0 P_t f = \E[f(X_t)] \) para\( t \in T \). Es decir,\[ \E[f(X_t)] = \int_S \mu_0(dx) \int_S P_t(x, dy) f(y) \]

El resultado anterior muestra cómo obtener la distribución de a\( X_t \) partir de la distribución de\( X_0 \) y el kernel de transición\( P_t \) para\( t \in T \). Pero podemos hacer más. Recordemos que una forma básica de describir un proceso estocástico es dar sus distribuciones dimensionales finitas, es decir, la distribución de\( \left(X_{t_1}, X_{t_2}, \ldots, X_{t_n}\right) \) para todos\( n \in \N_+ \) y cada uno\( (t_1, t_2, \ldots, t_n) \in T^n \). Para un proceso de Markov, la distribución inicial y los núcleos de transición determinan las distribuciones dimensionales finitas. Es más fácil exponer las distribuciones en forma diferencial.

Supongamos que\( \bs{X} = \{X_t: t \in T\} \) es un proceso de Markov con operadores de transición\( \bs{P} = \{P_t: t \in T\} \), y eso\( (t_1, \ldots, t_n) \in T^n \) con\( 0 \lt t_1 \lt \cdots \lt t_n \). Si\( X_0 \) tiene distribución\( \mu_0 \), entonces en forma diferencial, la distribución de\( \left(X_0, X_{t_1}, \ldots, X_{t_n}\right) \) es\[ \mu_0(dx_0) P_{t_1}(x_0, dx_1) P_{t_2 - t_1}(x_1, dx_2) \cdots P_{t_n - t_{n-1}} (x_{n-1}, dx_n) \]

Prueba

Esto se desprende de la inducción y el uso repetido de la propiedad de Markov. Por ejemplo, si\( t \in T \) con\( t \gt 0 \), entonces condicionar en\( X_0 \) da\[ \P(X_0 \in A, X_t \in B) = \int_A \P(X_t \in B \mid X_0 = x) \mu_0(dx) = \int_A P_t(x, B) \mu(dx) = \int_A \int_B P_t(x, dy) \mu_0(dx) \] para\( A, \, B \in \mathscr{S} \). Entonces en forma diferencial, la distribución de\( (X_0, X_t) \) es\( \mu(dx) P_t(x, dy)\). Si\( s, \, t \in T \) con\( 0 \lt s \lt t \), entonces condicionar\( (X_0, X_s) \) y usar nuestro resultado anterior da\[ \P(X_0 \in A, X_s \in B, X_t \in C) = \int_{A \times B} \P(X_t \in C \mid X_0 = x, X_s = y) \mu_0(dx) P_s(x, dy)\] para\( A, \, B, \, C \in \mathscr{S} \). Pero por la propiedad de Markov,\[ \P(X_t \in C \mid X_0 = x, X_s = y) = \P(X_t \in C \mid X_s = y) = P_{t-s}(y, C) = \int_C P_{t- s}(y, dz) \] De ahí en forma diferencial, la distribución de\( (X_0, X_s, X_t) \) es\( \mu_0(dx) P_s(x, dy) P_{t-s}(y, dz) \). Continuar de esta manera da el resultado general.

Este resultado es muy importante para la construcción de procesos de Markov. Si sabemos definir los núcleos de transición\( P_t \) para\( t \in T \) (en base a consideraciones de modelado, por ejemplo), y si conocemos la distribución inicial\( \mu_0 \), entonces el último resultado da un conjunto consistente de distribuciones dimensionales finitas. A partir del teorema de la construcción de Kolmogorov, sabemos que existe un proceso estocástico que tiene estas distribuciones dimensionales finitas. En tiempo continuo, sin embargo, quedan dos serios problemas. Primero, no está claro cómo construiríamos los núcleos de transición para que se satisfagan las ecuaciones cruciales de Chapman-Kolmogorov anteriores. Segundo, generalmente queremos que nuestro proceso de Markov tenga ciertas propiedades (como las propiedades de continuidad de las trayectorias de muestra) que van más allá de las distribuciones dimensionales finitas. El primer problema se abordará en la siguiente sección, y afortunadamente, el segundo problema se puede resolver para un proceso de Feller.

Supongamos que\( \bs{X} = \{X_t: t \in T\} \) es un proceso de Markov en un espacio de estado LCCB\( (S, \mathscr{S}) \) con operadores de transición\( \bs{P} = \{P_t: t \in [0, \infty)\} \). Entonces\( \bs{X} \) es un proceso de Feller si y solo si se mantienen las siguientes condiciones:

Continuidad en el espacio: Si\( f \in \mathscr{C}_0 \) y\( t \in [0, \infty) \) luego\( P_t f \in \mathscr{C}_0 \)
Continuidad en el tiempo: Si\( f \in \mathscr{C}_0 \) y\( x \in S \) luego\( P_t f(x) \to f(x) \) como\( t \downarrow 0 \).

Un semigrupo de núcleos de probabilidad\( \bs{P} = \{P_t: t \in T\} \) que satisface las propiedades de este teorema se llama semigrupo Feller. Entonces el teorema afirma que el proceso de Markov\(\bs{X}\) es Feller si y sólo si el semigrupo de transición de transición\( \bs{P} \) es Feller. Como antes, (a) se satisface automáticamente si\( S \) es discreto, y (b) se satisface automáticamente si\( T \) es discreto. Condición (a) significa que\( P_t \) es un operador en el espacio vectorial\( \mathscr{C}_0 \), además de ser un operador en el espacio más grande\( \mathscr{B} \). La condición (b) en realidad implica una forma más fuerte de continuidad en el tiempo.

Supongamos que\( \bs{P} = \{P_t: t \in T\} \) es un semigrupo Feller de operadores de transición. Entonces\( t \mapsto P_t f \) es continuo (con respecto a la norma suprema) para\( f \in \mathscr{C}_0 \).

Detalles adicionales

Esto significa que para\( f \in \mathscr{C}_0 \) y\( t \in [0, \infty) \),\[ \|P_{t+s} f - P_t f \| = \sup\{\left|P_{t+s}f(x) - P_t f(x)\right|: x \in S\} \to 0 \text{ as } s \to 0 \]

Entonces combinando esto con el comentario anterior, tenga en cuenta que si\( \bs{P} \) es un semigrupo Feller de operadores de transición, entonces\( f \mapsto P_t f \) es continuo encendido\( \mathscr{C}_0 \) para fijo\( t \in T \), y\( t \mapsto P_t f \) es continuo encendido\( T \) para fijo\( f \in \mathscr{C}_0 \). Nuevamente, la importancia de esto es que a menudo comenzamos con la colección de núcleos de probabilidad\( \bs{P} \) y queremos saber que existe un proceso agradable de Markov\( \bs{X} \) que tiene estos operadores de transición.

Muestreo en el Tiempo

Si tomamos muestras de un proceso de Markov en una secuencia creciente de puntos en el tiempo, obtenemos otro proceso de Markov en tiempo discreto. Pero el proceso de tiempo discreto puede no ser homogéneo aunque el proceso original sea homogéneo.

Supongamos que\( \bs{X} = \{X_t: t \in T\} \) es un proceso de Markov con espacio de estado\( (S, \mathscr{S}) \) y que\( (t_0, t_1, t_2, \ldots) \) es una secuencia en\( T \) con\( 0 = t_0 \lt t_1 \lt t_2 \lt \cdots \). Dejemos\( Y_n = X_{t_n} \) para\( n \in \N \). Entonces\( \bs{Y} = \{Y_n: n \in \N\}\) es un proceso de Markov en tiempo discreto.

Prueba

Para\( n \in \N \), vamos\( \mathscr{G}_n = \sigma\{Y_k: k \in \N, k \le n\} \), así que esa\( \{\mathscr{G}_n: n \in \N\} \) es la filtración natural asociada con\( \bs{Y} \). Tenga en cuenta que\( \mathscr{G}_n \subseteq \mathscr{F}_{t_n} \) y\( Y_n = X_{t_n} \) es medible con respecto a\( \mathscr{G}_n \) for\( n \in \N \). Dejar\( k, \, n \in \N \) y dejar\( A \in \mathscr{S} \). Entonces\[ \P\left(Y_{k+n} \in A \mid \mathscr{G}_k\right) = \P\left(X_{t_{n+k}} \in A \mid \mathscr{G}_k\right) = \P\left(X_{t_{n+k}} \in A \mid X_{t_k}\right) = \P\left(Y_{n+k} \in A \mid Y_k\right) \]

Si se muestrea un proceso homogéneo de Markov en múltiplos de un tiempo fijo positivo, obtenemos un proceso homogéneo de Markov en tiempo discreto.

Supongamos que\( \bs{X} = \{X_t: t \in T\} \) es un proceso homogéneo de Markov con núcleos de espacio de estado\( (S, \mathscr{S}) \) y transición\( \bs{P} = \{P_t: t \in T\} \). Fijar\( r \in T \) con\( r \gt 0 \) y definir\( Y_n = X_{n r} \) para\( n \in \N \). Luego\( \bs{Y} = \{Y_n: n \in \N\} \) es un proceso homogéneo de Markov en tiempo discreto, con kernel de transición de un solo paso\( Q \) dado por\[ Q(x, A) = P_r(x, A); \quad x \in S, \, A \in \mathscr{S} \]

En algunos casos, el muestreo de un proceso fuerte de Markov a una secuencia creciente de tiempos de parada produce otro proceso de Markov en tiempo discreto. El punto de esto es que los procesos de Markov en tiempo discreto a menudo se encuentran naturalmente incrustados en los procesos de Markov de tiempo continuo.

Ampliar el espacio estatal

Nuestro primer resultado en esta discusión es que un proceso de Markov no homogéneo puede convertirse en un proceso homogéneo de Markov, pero sólo a costa de ampliar el espacio estatal.

Supongamos que\( \bs{X} = \{X_t: t \in T\} \) es un proceso de Markov no homogéneo con espacio estatal\( (S, \mathscr{S}) \). Supongamos también que\( \tau \) es una variable aleatoria que toma valores en\( T \), independiente de\( \bs{X} \). Dejar\( \tau_t = \tau + t \) y dejar\( Y_t = \left(X_{\tau_t}, \tau_t\right) \) para\( t \in T \). Entonces\( \bs{Y} = \{Y_t: t \in T\} \) es un proceso homogéneo de Markov con espacio estatal\( (S \times T, \mathscr{S} \otimes \mathscr{T}) \). Para\( t \in T \), el kernel de transición\( P_t \) viene dado por\[ P_t[(x, r), A \times B] = \P(X_{r+t} \in A \mid X_r = x) \bs{1}(r + t \in B), \quad (x, r) \in S \times T, \, A \times B \in \mathscr{S} \otimes \mathscr{T} \]

Prueba

Por definición y la regla de sustitución,\ begin {align*}\ P [Y_ {s + t}\ in A\ times B\ mid Y_s = (x, r)] & =\ P\ left (X_ {\ tau_ {s + t}}\ in A,\ tau_ {s + t}\ in B\ mid X_ {\ tau_s} = x,\ tau_s = r\ derecha)\\ & =\ P\ izquierda (X_ {\ tau + s + t}\ en A,\ tau + s + t\ en B\ mediados X_ {\ tau + s} = x,\ tau + s = r\ derecha)\\ & ; =\ P (X_ {r + t}\ in A, r + t\ in B\ mid x_r = x,\ tau + s = r)\ end {align*} Pero\( \tau \) es independiente de\( \bs{X} \), por lo que el último término es\[ \P(X_{r + t} \in A, r + t \in B \mid X_r = x) = \P(X_{r+t} \in A \mid X_r = x) \bs{1}(r + t \in B) \] El punto importante es que la última expresión no depende de\( s \), por lo que\( \bs{Y} \) es homogénea.

El truco de ampliar el espacio estatal es común en el estudio de los procesos estocásticos. A veces un proceso que tiene una forma más débil de olvidar el pasado puede convertirse en un proceso de Markov al ampliar el espacio estatal de manera apropiada. Aquí hay un ejemplo en tiempo discreto.

Supongamos que\( \bs{X} = \{X_n: n \in \N\} \) es un proceso aleatorio con espacio de estado\( (S, \mathscr{S}) \) en el que el futuro depende estocásticamente de los dos últimos estados. Es decir, para\( n \in \N \)\[ \P(X_{n+2} \in A \mid \mathscr{F}_{n+1}) = \P(X_{n+2} \in A \mid X_n, X_{n+1}), \quad A \in \mathscr{S} \] dónde\( \{\mathscr{F}_n: n \in \N\} \) está la filtración natural asociada al proceso\( \bs{X} \). Supongamos también que el proceso es homogéneo en el tiempo en el sentido de que\[\P(X_{n+2} \in A \mid X_n = x, X_{n+1} = y) = Q(x, y, A) \] independientemente de\( n \in \N \). Dejemos\( Y_n = (X_n, X_{n+1}) \) para\( n \in \N \). Entonces\( \bs{Y} = \{Y_n: n \in \N\} \) es un proceso homogéneo de Markov con espacio estatal\( (S \times S, \mathscr{S} \otimes \mathscr{S} \). El kernel de transición de un paso\( P \) viene dado por\[ P[(x, y), A \times B] = I(y, A) Q(x, y, B); \quad x, \, y \in S, \; A, \, B \in \mathscr{S} \]

Prueba

Tenga en cuenta primero que para\( n \in \N \),\( \sigma\{Y_k: k \le n\} = \sigma\{(X_k, X_{k+1}): k \le n\} = \mathscr{F}_{n+1} \) por lo que la filtración natural asociada con el proceso\( \bs{Y} \) es\( \{\mathscr{F}_{n+1}: n \in \N\} \). Si\( C \in \mathscr{S} \otimes \mathscr{S}) \) entonces\ comienza {alinear*}\ P (Y_ {n+1}\ en C\ mid\ mathscr {F} _ {n+1}) & =\ P [(X_ {n+1}, X_ {n+2})\ en C\ mid\ mathscr {F} _ _ {n+1}]\\ & =\ P [(X_ {n+1}, X_ {n+2})\ in C\ mid x_n, X_ {n+1}] =\ P (Y_ {n+1}\ in C\ mid y_N)\ end {align*} por la suposición dada on\( \bs{X} \). De ahí\( \bs{Y} \) que sea un proceso de Markov. A continuación,\ comenzar {alinear*}\ P [Y_ {n+1}\ en A\ veces B\ mediados Y_n = (x, y)] & =\ P [(X_ {n+1}, X_ {n+2})\ en A\ veces B\ mediados (x_n, X_ {n+1}) = (x, y)]\\ & =\ P (X_ {n+1}) = (x, y)]\\ & =\ P (X_ {n+1}\ en A, X_ {n+2}\ en B\ mediados x_n = x, X_ {n+1} = y) =\ P (y\ en A, X_ {n+2}\ en B\ mediados x_n = x, X_ {n + 1} = y)\\ & = I (y, A) Q (x, y, B)\ final {alinear*}

El último resultado generaliza de manera completamente directa al caso en el que el futuro de un proceso aleatorio en tiempo discreto depende estocásticamente de los últimos\( k \) estados, para algunos fijos\( k \in \N \).

Ejemplos y Aplicaciones

Relaciones de recurrencia y ecuaciones diferenciales

Como se señaló en la introducción, los procesos de Markov pueden ser vistos como contrapartes estocásticas de relaciones de recurrencia deterministas (tiempo discreto) y ecuaciones diferenciales (tiempo continuo). Nuestro objetivo en esta discusión es explorar estas conexiones.

Supongamos que\( \bs{X} = \{X_n: n \in \N\} \) es un proceso estocástico con espacio de estado\( (S, \mathscr{S}) \) y que\(\bs{X}\) satisface la relación de recurrencia\[ X_{n+1} = g(X_n), \quad n \in \N \] donde\( g: S \to S \) es medible. Entonces\( \bs{X} \) es un proceso homogéneo de Markov con operador de transición de un solo paso\( P \) dado por\( P f = f \circ g \) para una función medible\( f: S \to \R \).

Prueba

Claramente\( \bs{X} \) está determinado de manera única por el estado inicial, y de hecho\( X_n = g^n(X_0) \) para\( n \in \N \) dónde\( g^n \) está el poder de composición\( n \) -fold de\( g \). Entonces la única fuente posible de aleatoriedad está en el estado inicial. Las propiedades homogéneas de Markov y el tiempo simplemente se derivan del hecho trivial de que\( g^{m+n}(X_0) = g^n[g^m(X_0)] \), así que\( X_{m+n} = g^n(X_m) \). Es decir, el estado en el momento\( m + n \) está completamente determinado por el estado en el tiempo\( m \) (independientemente de los estados anteriores) y el incremento de tiempo\( n \). En particular,\( P f(x) = \E[g(X_1) \mid X_0 = x] = f[g(x)] \) para medible\( f: S \to \R \) y\( x \in S \). Tenga en cuenta que para\( n \in \N \), el operador de transición\( n \) -step viene dado por\(P^n f = f \circ g^n \).

En el mundo determinista, como en el mundo estocástico, la situación es más complicada en el tiempo continuo. No obstante, se aplica la misma analogía básica.

Supongamos que\(\bs{X} = \{X_t: t \in [0, \infty)\}\) con el espacio de estado\( (\R, \mathscr{R}) \) satisface la ecuación diferencial de primer orden\[ \frac{d}{dt}X_t = g(X_t) \] donde\( g: \R \to \R \) es Lipschitz continuo. Entonces\(\bs{X}\) es un proceso de Feller Markov

Prueba

Recordemos que Lipschitz continuo significa que existe una constante\( k \in (0, \infty) \) tal que\( \left|g(y) - g(x)\right| \le k \left|x - y\right| \) para\( x, \, y \in \R \). Esta es una condición estándar sobre la\( g \) que garantiza la existencia y singularidad de una solución a la ecuación diferencial sobre\( [0, \infty) \). Entonces, como antes, la única fuente de aleatoriedad en el proceso proviene del valor inicial\( X_0 \). Dejar\( t \mapsto X_t(x) \) denotar la solución única con\( X_0(x) = x \) for\( x \in \R \). Las propiedades Markov y homogéneas se derivan del hecho de que\( X_{t+s}(x) = X_t(X_s(x)) \) para\( s, \, t \in [0, \infty) \) y\( x \in S \). Es decir, el estado en el momento\( t + s \) depende únicamente del estado en el momento\( s \) y del incremento de tiempo\( t \). Las propiedades de Feller se derivan de la continuidad de\( t \mapsto X_t(x) \) y la continuidad de\( x \mapsto X_t(x) \). Esta última es la continua dependencia del valor inicial, nuevamente garantizada por los supuestos sobre\( g \). Tenga en cuenta que el operador de transición viene dado por\( P_t f(x) = f[X_t(x)] \) para una función medible\( f: S \to \R \) y\( x \in S \).

En forma diferencial, el proceso puede ser descrito por\( d X_t = g(X_t) \, dt \). Este proceso esencialmente determinista puede extenderse a una clase muy importante de procesos de Markov mediante la adición de un término estocástico relacionado con el movimiento browniano. Tales ecuaciones diferenciales estocásticas son las principales herramientas para construir procesos de Markov conocidos como procesos de difusión.

Procesos con Incrementos Estacionarios e Independientes

Para nuestra próxima discusión, consideramos una clase general de procesos estocásticos que son procesos de Markov. Supongamos que\( \bs{X} = \{X_t: t \in T\} \) es un proceso aleatorio con\( S \subseteq \R\) como el conjunto de estados. El espacio de estado puede ser discreto (contable) o continuo. Típicamente,\( S \) es\( \N \) o\( \Z \) en el caso discreto, y es cualquiera\( [0, \infty) \) o\( \R \) en el caso continuo. En cualquier caso,\( S \) se le da el habitual\( \sigma \) -álgebra\( \mathscr{S} \) de los subconjuntos de Borel de\( S \) (que es el conjunto de potencia en el caso discreto). Además, el espacio estatal\( (S, \mathscr{S}) \) tiene una medida de referencia natural\( \lambda \), a saber, la medida de conteo en el caso discreto y la medida de Lebesgue en el caso continuo. Dejar\( \mathfrak{F} = \{\mathscr{F}_t: t \in T\} \) denotar la filtración natural,\( \mathscr{F}_t = \sigma\{X_s: s \in T, s \le t\} \) para que para\( t \in T \).

El proceso\( \bs{X} \) tiene

Incrementos independientes si\( X_{s+t} - X_s \) es independiente de\( \mathscr{F}_s \) para todos\( s, \, t \in T \).
Incrementos estacionarios si la distribución de\( X_{s+t} - X_s \) es la misma que la distribución de\( X_t - X_0 \) para todos\( s, \, t \in T \).

Una diferencia de la forma\( X_{s+t} - X_s \) para\( s, \, t \in T \) es un incremento del proceso, de ahí los nombres. En ocasiones la definición de incrementos estacionarios es que\( X_{s+t} - X_s \) tienen la misma distribución que\( X_t \). Pero esto obliga\( X_0 = 0 \) con probabilidad 1, y como es habitual con los procesos de Markov, lo mejor es mantener la distribución inicial sin especificar. Si\( \bs{X} \) tiene incrementos estacionarios en el sentido de nuestra definición, entonces el proceso\( \bs{Y} = \{Y_t = X_t - X_0: t \in T\} \) tiene incrementos estacionarios en el sentido más restringido. Para lo que resta de esta discusión, supongamos que\( \bs X = \{X_t: t \in T\} \) tiene incrementos estacionarios, independientes, y dejar\( Q_t \) denotar la distribución de\( X_t - X_0 \) for\( t \in T \).

\( Q_s * Q_t = Q_{s+t} \)para\( s, \, t \in T \).

Prueba

Porque\( s, \, t \in T \),\( Q_s \) es la distribución de\( X_s - X_0 \), y por la propiedad estacionaria,\( Q_t \) es la distribución de\( X_{s + t} - X_s \). Por la propiedad de independencia,\( X_s - X_0 \) y\( X_{s+t} - X_s \) son independientes. De ahí\( Q_s * Q_t \) es la distribución de\( \left[X_s - X_0\right] + \left[X_{s+t} - X_s\right] = X_{s+t} - X_0 \). Pero por definición, esta variable tiene distribución\( Q_{s+t} \)

Entonces la colección de distribuciones\( \bs{Q} = \{Q_t: t \in T\} \) forma un semigrupo, con convolución como operador. Tenga en cuenta que\( Q_0 \) es simplemente masa puntual a 0.

El proceso\( \bs{X} \) es un proceso homogéneo de Markov. Para\( t \in T \), el operador de transición\( P_t \) viene dado por\[ P_t f(x) = \int_S f(x + y) Q_t(dy), \quad f \in \mathscr{B} \]

Prueba

Supongamos que\( s, \, t \in T \) y\( f \in \mathscr{B} \),\[ \E[f(X_{s+t}) \mid \mathscr{F}_s] = \E[f(X_{s+t} - X_s + X_s) \mid \mathscr{F}_s] = \E[f(X_{s+t}) \mid X_s] \] ya que\( X_{s+t} - X_s \) es independiente de\( \mathscr{F}_s \). Además, por la propiedad estacionaria,\[ \E[f(X_{s+t}) \mid X_s = x] = \int_S f(x + y) Q_t(dy), \quad x \in S \]

Claramente, la propiedad semigrupo de\( \bs{P} = \{P_t: t \in T\} \) (con el producto operador habitual) es equivalente a la propiedad semigrupo de\( \bs{Q} = \{Q_t: t \in T\} \) (con convolución como producto).

Supongamos que para positivo\( t \in T \), la distribución\( Q_t \) tiene función de densidad de probabilidad\( g_t \) con respecto a la medida de referencia\( \lambda \). Entonces la densidad de transición es\[ p_t(x, y) = g_t(y - x), \quad x, \, y \in S \]

Por supuesto, del resultado anterior, se deduce que\( g_s * g_t = g_{s+t} \) para\( s, \, t \in T \), donde aquí\( * \) se refiere a la operación de convolución sobre funciones de densidad de probabilidad.

Si\( Q_t \to Q_0 \) como\( t \downarrow 0 \) entonces\( \bs{X} \) es un proceso de Feller Markov.

Así, por la teoría general esbozada anteriormente,\( \bs{X} \) es un proceso fuerte de Markov, y existe una versión de\( \bs{X} \) que es derecha continua y tiene límites a la izquierda. Tal proceso se conoce como un proceso Lévy, en honor a Paul Lévy.

Para un proceso estocástico de valor real\( \bs X = \{X_t: t \in T\} \), dejar\( m \) y\( v \) denotar las funciones de media y varianza, de modo que\[ m(t) = \E(X_t), \; v(t) = \var(X_t); \quad t \in T \] asumiendo por supuesto que éstas existen. Las funciones de media y varianza para un proceso de Lévy son particularmente simples.

Supongamos nuevamente que\( \bs X \) tiene incrementos estacionarios, independientes.

Si\( \mu_0 = \E(X_0) \in \R \) y\( \mu_1 = \E(X_1) \in \R \) luego\( m(t) = \mu_0 + (\mu_1 - \mu_0) t \) por\( t \in T \).
Si además,\( \sigma_0^2 = \var(X_0) \in (0, \infty) \) y\( \sigma_1^2 = \var(X_1) \in (0, \infty) \) luego\( v(t) = \sigma_0^2 + (\sigma_1^2 - \sigma_0^2) t \) para\( t \in T \).

Prueba

Las pruebas son simples usando las propiedades de incrementos independientes y estacionarios. For\( t \in T \), let\( m_0(t) = \E(X_t - X_0) = m(t) - \mu_0 \) y\( v_0(t) = \var(X_t - X_0) = v(t) - \sigma_0^2\). denotan las funciones de media y varianza para el proceso centrado\( \{X_t - X_0: t \in T\} \). Ahora vamos\( s, \, t \in T \).

De la propiedad aditiva de valor esperado y la propiedad estacionaria,\[ m_0(t + s) = \E(X_{t+s} - X_0) = \E[(X_{t + s} - X_s) + (X_s - X_0)] = \E(X_{t+s} - X_s) + \E(X_s - X_0) = m_0(t) + m_0(s) \]
A partir de la propiedad aditiva de varianza para variables independientes y la propiedad estacionaria,\[ v_0(t + s) = \var(X_{t+s} - X_0) = \var[(X_{t + s} - X_s) + (X_s - X_0)] = \var(X_{t+s} - X_s) + \var(X_s - X_0) = v_0(t) + v_0(s) \]

Entonces\( m_0 \) y\( v_0 \) satisfacer la ecuación de Cauchy. En tiempo discreto, es sencillo ver que existe\( a \in \R \) y\( b^2 \in (0, \infty) \) tal que\( m_0(t) = a t \) y\( v_0(t) = b^2 t \). Lo mismo ocurre en el tiempo continuo, dados los supuestos de continuidad que tenemos sobre el proceso\( \bs X \). Sustituyendo\( t = 1 \) tenemos\( a = \mu_1 - \mu_0 \) y\( b^2 = \sigma_1^2 - \sigma_0^2 \), así siguen los resultados,

Es fácil describir procesos con incrementos estacionarios independientes en tiempo discreto.

Un proceso\( \bs{X} = \{X_n: n \in \N\} \) tiene incrementos independientes si y sólo si existe una secuencia de variables aleatorias independientes, de valor real\( (U_0, U_1, \ldots) \) tal que\[ X_n = \sum_{i=0}^n U_i \] además,\( \bs{X} \) tiene incrementos estacionarios si y sólo si\( (U_1, U_2, \ldots) \) están distribuidos de manera idéntica.

Prueba

Supongamos primero que\( \bs{U} = (U_0, U_1, \ldots) \) es una secuencia de variables aleatorias independientes, de valor real, y defina\( X_n = \sum_{i=0}^n U_i \) para\( n \in \N \). Tenga en cuenta que\(\mathscr{F}_n = \sigma\{X_0, \ldots, X_n\} = \sigma\{U_0, \ldots, U_n\} \) para\( n \in \N \). Si\( k, \, n \in \N \) con\( k \le n \), entonces\( X_n - X_k = \sum_{i=k+1}^n U_i \) que es independiente de\( \mathscr{F}_k \) por la asunción de independencia sobre\( \bs{U} \). De ahí\( \bs{X} \) que tenga incrementos independientes. Supongamos además que\( (U_1, U_2, \ldots) \) están distribuidos de manera idéntica. Entonces el incremento\( X_n - X_k \) anterior tiene la misma distribución que\( \sum_{i=1}^{n-k} U_i = X_{n-k} - X_0 \). De ahí\( \bs{X} \) que tenga incrementos estacionarios.

Por el contrario, supongamos que\( \bs{X} = \{X_n: n \in \N\} \) tiene incrementos independientes. Dejar\( U_0 = X_0 \) y\( U_n = X_n - X_{n-1} \) para\( n \in \N_+ \). Entonces\( X_n = \sum_{i=0}^n U_i \) para\( n \in \N \). Como antes\(\mathscr{F}_n = \sigma\{X_0, \ldots, X_n\} = \sigma\{U_0, \ldots, U_n\} \) para\( n \in \N \). Ya que\( \bs{X} \) tiene incrementos independientes,\( U_n \) es independiente de\( \mathscr{F}_{n-1} \) para\( n \in \N_+ \), por lo que\( (U_0, U_1, \ldots) \) son mutuamente independientes. Si además,\( \bs{X} \) tiene incrementos estacionarios,\( U_n = X_n - X_{n-1} \) tiene la misma distribución que\( X_1 - X_0 = U_1 \) para\( n \in \N_+ \). De ahí\((U_1, U_2, \ldots)\) que se distribuyan de manera idéntica.

Así supongamos que\( \bs{U} = (U_0, U_1, \ldots) \) es una secuencia de variables aleatorias independientes, de valor real, con\( (U_1, U_2, \ldots) \) idéntica distribución con distribución común\( Q \). Entonces, a partir de nuestro resultado principal anterior, el proceso de suma parcial\( \bs{X} = \{X_n: n \in \N\} \) asociado con\( \bs{U} \) es un proceso homogéneo de Markov con kernel de transición de un paso\( P \) dado por\[ P(x, A) = Q(A - x), \quad x \in S, \, A \in \mathscr{S} \] Más generalmente, for\( n \in \N \), el kernel de transición\( n \) -step es\( P^n(x, A) = Q^{*n}(A - x) \) para\( x \in S \) y \( A \in \mathscr{S} \). Este proceso de Markov se conoce como una caminata aleatoria (aunque desafortunadamente, el término caminata aleatoria también se usa en varios otros contextos). La idea es que en el momento\( n \), el caminante se mueve una distancia (dirigida)\( U_n \) sobre la línea real, y estos pasos son independientes e idénticamente distribuidos. Si\( Q \) tiene función de densidad de probabilidad\( g \) con respecto a la medida de referencia\( \lambda \), entonces la densidad de transición de un paso es\[ p(x, y) = g(y - x), \quad x, \, y \in S \]

Considera el caminar al azar\( \R \) con escalones que tienen la distribución normal estándar. Dar cada uno de los siguientes explícitamente:

La densidad de transición de un solo paso.
La densidad de transición\( n \) -step para\( n \in \N_+ \).

Prueba

Para\( x \in \R \),\( p(x, \cdot) \) es el PDF normal con media\( x \) y varianza 1:\[ p(x, y) = \frac{1}{\sqrt{2 \pi}} \exp\left[-\frac{1}{2} (y - x)^2 \right]; \quad x, \, y \in \R\]
Para\( x \in \R \),\( p^n(x, \cdot) \) es el PDF normal con media\( x \) y varianza\( n \):\[ p^n(x, y) = \frac{1}{\sqrt{2 \pi n}} \exp\left[-\frac{1}{2 n} (y - x)^2\right], \quad x, \, y \in \R \]

En el tiempo continuo, hay dos procesos que son particularmente importantes, uno con el espacio de estado discreto\( \N \) y otro con el espacio de estado continuo\( \R \).

For\( t \in [0, \infty) \), let\( g_t \) denotar la función de densidad de probabilidad de la distribución de Poisson con parámetro\( t \), y let\( p_t(x, y) = g_t(y - x) \) for\( x, \, y \in \N \). Luego\( \{p_t: t \in [0, \infty)\} \) está la colección de densidades de transición para un semigrupo Feller en\( \N \)

Prueba

\[ g_t(n) = e^{-t} \frac{t^n}{n!}, \quad n \in \N \]Recordemos que solo necesitamos demostrar que\( \{g_t: t \in [0, \infty)\} \) satisface la propiedad semigrupo, y que el resultado de continuidad se mantiene. Pero ya sabemos que si\( U, \, V \) son variables independientes que tienen distribuciones de Poisson con parámetros\( s, \, t \in [0, \infty) \), respectivamente, entonces\( U + V \) tiene la distribución de Poisson con parámetro\( s + t \). Es decir,\( g_s * g_t = g_{s+t} \). Por otra parte,\( g_t \to g_0 \) como\( t \downarrow 0 \).

Entonces un proceso Lévy\( \bs{N} = \{N_t: t \in [0, \infty)\} \) con estas densidades de transición sería un proceso de Markov con incrementos estacionarios, independientes y con trayectorias de muestra son continuas a la derecha y tienen límites izquierdos. Sabemos de tal proceso, es decir, el proceso de Poisson con tasa 1.

Abra el experimento de Poisson y establezca el parámetro de tasa en 1 y el parámetro de tiempo en 10. Ejecute el experimento varias veces en modo de un solo paso y anote el comportamiento del proceso.

For\( t \in (0, \infty) \), let\( g_t \) denotar la función de densidad de probabilidad de la distribución normal con media 0 y varianza\( t \), y let\( p_t(x, y) = g_t(y - x) \) for\( x, \, y \in \R \). Entonces\(\{p_t: t \in [0, \infty)\} \) es la colección de densidades de transición de un semigrupo Feller encendido\( \R \).

Prueba

Recordemos que para\( t \in (0, \infty) \), solo\[ g_t(z) = \frac{1}{\sqrt{2 \pi t}} \exp\left(-\frac{z^2}{2 t}\right), \quad z \in \R \] tenemos que demostrar que\( \{g_t: t \in [0, \infty)\} \) satisface la propiedad semigrupo, y que el resultado de continuidad sostiene. Pero ya sabemos que si\( U, \, V \) son variables independientes que tienen distribuciones normales con media 0 y varianzas\( s, \, t \in (0, \infty) \), respectivamente, entonces\( U + V \) tiene la distribución normal con media 0 y varianza\( s + t \). Es decir,\( g_s * g_t = g_{s+t} \). Además, también sabemos que la distribución normal con varianza\( t \) converge a masa puntual a 0 as\( t \downarrow 0 \).

Entonces un proceso\( \bs{X} = \{X_t: t \in [0, \infty)\} \) de Lévy\( \R \) con estas densidades de transición sería un proceso de Markov con incrementos estacionarios e independientes, y cuyas trayectorias de muestra son continuas desde la derecha y tienen límites izquierdos. De hecho, existe tal proceso con trayectorias de muestreo continuas. Este proceso es movimiento browniano, un proceso lo suficientemente importante como para tener su propio capítulo.

Ejecute la simulación del movimiento browniano estándar y anote el comportamiento del proceso.

Search

Text Color

Text Size

Margin Size

Font Type