3.7: Resumen
- Page ID
- 86177
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)En este capítulo se han desarrollado los resultados básicos sobre las cadenas de Markov de estado finito. Se demostró que los estados de cualquier cadena de estado finito se pueden dividir en clases, donde cada clase es transitoria o recurrente, y cada clase es periódica o aperiódica. Si una clase recurrente es periódica de punto\(d\), entonces los estados en esa clase se pueden dividir en\(d\) subconjuntos donde cada subconjunto tiene transiciones solo al siguiente subconjunto.
Las probabilidades de transición en la cadena de Markov se pueden representar como una matriz\([P]\), y las probabilidades de transición\(n\) -paso están dadas por el producto de la matriz\(\left[P^{n}\right]\). Si la cadena es ergódica, es decir, una clase recurrente aperiódica, entonces el límite de las probabilidades de transición\(n\) -step se vuelve independiente del estado inicial, es decir,\(\lim _{n \rightarrow \infty} P_{i j}^{n}=\pi_{j}\) donde\(\boldsymbol{\pi}=\left(\pi_{1}, \ldots, \pi_{\mathrm{M}}\right)\) se llama la probabilidad de estado estacionario. Así, el valor limitante de\(\left[P^{n}\right]\) es una matriz M por M cuyas filas son todas iguales, es decir, la matriz limitante es el producto\(\boldsymbol{e \pi}\). Las probabilidades de estado estacionario se especifican de manera única por\(\sum_{j} \pi_{i} P_{i j}=\pi_{j}\) y\(\sum_{i} \pi_{i}=1\). Esa solución única debe satisfacer\(\pi_{i}>0\) para todos\(i\). El mismo resultado se mantiene (ver Teorema 3.3.2) para las unichaínas aperidódicas con la excepción de que\(\pi_{i}=0\) para todos los estados transitorios.
Los valores propios y los vectores propios de\([P]\) son útiles de muchas maneras, pero en particular proporcionan resultados precisos sobre cómo\(P_{i j}^{n}\) se acerca\(\pi_{j}\) al aumentar\(n\). Siempre existe un valor propio igual a 1, y su multiplicidad es igual al número de clases recurrentes. Para cada clase recurrente, hay un vector propio izquierdo\(\boldsymbol{\pi}\) de valor propio 1. Es el vector de estado estacionario para la clase recurrente dada. Si una clase recurrente es periódica con punto\(d\), entonces hay valores propios\(d\) correspondientes de magnitud 1 uniformemente espaciados alrededor del círculo unitario. El vector propio izquierdo correspondiente a cada uno es distinto de cero solo en esa clase recurrente periódica.
Todos los demás valores propios de\([P]\) son menores de 1 en magnitud. Si los vectores propios de todo el conjunto de valores propios abarcan M espacio dimensional, entonces se\(\left[P^{n}\right]\) pueden representar por\ ref {3.30} que muestra explícitamente cómo se aborda el estado estacionario para clases de estados recurrentes aperiódicas. Si los vectores propios no abarcan el espacio M, entonces\ ref {3.30} se puede reemplazar por una forma Jordan.
Para una cadena arbitraria de Markov de estado finito, si el estado inicial es transitorio, entonces la cadena de Markov eventualmente entrará en un estado recurrente, y la probabilidad de que esto tome más de\(n\) pasos se acerca a cero geométricamente en\(n\); el Ejercicio 3.18 muestra cómo encontrar la probabilidad de que cada se ingresa la clase recurrente. Dada una entrada en una clase recurrente particular, los resultados sobre las cadenas recurrentes pueden ser utilizados para analizar el comportamiento dentro de esa clase.
Los resultados sobre las cadenas de Markov se extendieron a las cadenas de Markov con recompensas. El uso de funciones de recompensa (o funciones de costo) proporciona una manera sistemática de abordar una gran clase de problemas que van desde tiempos de primer paso hasta programación dinámica. Para las unichaínas, el resultado clave aquí es el Teorema 3.5.2, que proporciona tanto una expresión exacta como una expresión asintótica para la recompensa agregada esperada en n etapas. Las cadenas de Markov con recompensas y múltiples clases recurrentes se manejan mejor considerando las clases recurrentes individuales por separado.
Finalmente, se utilizaron los resultados de las cadenas de Markov con recompensas para entender la teoría de la decisión de Markov. Se desarrolló el algoritmo de programación dinámica Bellman y se discutió y analizó el algoritmo de mejora de políticas. El teorema 3.6.2 demostró la relación entre la política dinámica óptima y la política estacionaria óptima. Esta sección proporcionó solo una introducción a la programación dinámica y omitió toda discusión sobre el descuento (en el que la ganancia futura se considera que vale menos que la ganancia actual debido a las tasas de interés). El desarrollo también se restringió a espacios de estado finito.
Para una revisión de vectores, matrices y álgebra lineal, consulte cualquier texto introductorio sobre álgebra lineal como Strang [19]. Para una lectura adicional sobre la teoría de la decisión de Markov y la programación dinámica, véase Bertsekas, [3]. Bellman [1] es de interés histórico y bastante legible.