Saltar al contenido principal
LibreTexts Español

3.4: Pronósticos

  • Page ID
    148658
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Supongamos que las variables\(X_1,\ldots,X_n\) de una serie temporal débilmente estacionaria se\((X_t\colon t\in\mathbb{Z})\) han observado con el objetivo de predecir o pronosticar los valores futuros de\(X_{n+1},X_{n+2},\ldots\). El foco está aquí en los llamados mejores predictores lineales (BLP) de un solo paso. Estas son, por definición, combinaciones lineales

    \[\hat{X}_{n+1}=\phi_{n0}+\phi_{n1}X_n+\ldots+\phi_{nn}X_1 \label{3.4.1} \]

    de las variables observadas\(X_1,\ldots,X_n\) que minimizan el error cuadrático medio

    \[ E\left[\{X_{n+1}-g(X_1,\ldots,X_n)\}^2\right] \nonumber \]

    para funciones g de\(X_1,\ldots,X_n\). Las generalizaciones sencillas producen definiciones para los m -step mejores predictores lineales\(\hat{X}_{n+m}\)\(X_{n+m}\) de arbitrarios\(m\in\mathbb{N}\) de la misma manera. Usando la teoría espacial de Hilbert, se puede probar el siguiente teorema que será el punto de partida para nuestras consideraciones.

    Teorema\(\PageIndex{1}\): Best linear prediction (BLP)

    Dejar\((X_t\colon t\in\mathbb{Z})\) ser un proceso estocástico débilmente estacionario del cual\(X_1,\ldots,X_n\) se observan. Luego, el BLP\(\hat{X}_{n+1}\) de un solo paso\(X_{n+1}\) está determinado por las ecuaciones

    \[ E\left[(X_{n+1}-\hat{X}_{n+1})X_{n+1-j}\right]=0 \nonumber \]

    para todos\(j=1,\ldots,n+1\), donde\(X_0=1\).

    Las ecuaciones especificadas en Teorema\(\PageIndex{1}\) pueden ser utilizadas para calcular los coeficientes\(\phi_{n0},\ldots,\phi_{nn}\) en la Ecuación\ ref {3.4.1}. Es suficiente enfocarse en los procesos de media cero\((X_t\colon t\in\mathbb{Z})\) y así establecer\(\phi_{n0}=0\) como muestran los siguientes cálculos. Asumir eso\(E[X_t]=\mu\) para todos\(t\in\mathbb{Z}\). Entonces, Teorema\(\PageIndex{1}\) da eso\(E[\hat{X}_{n+1}]=E[X_{n+1}]=\mu\) (usando la ecuación con\(j=n+1\). En consecuencia, sostiene que

    \[ \mu=E[\hat{X}_{n+1}] =E\left[\phi_{n0}+\sum_{\ell=1}^n\phi_{n\ell}X_{n+1-\ell}\right] =\phi_{n0}+\sum_{\ell=1}^n\phi_{n\ell}\mu. \nonumber \]

    Usando ahora eso\(\phi_{n0}=\mu(1-\phi_{n1}-\ldots-\phi_{nn})\), la ecuación\ ref {3.4.1} se puede reescribir como

    \[ \hat{Y}_{n+1}=\phi_{n1}Y_n+\ldots+\phi_{nn}Y_1, \nonumber \]

    donde\(\hat{Y}_{n+1}=\hat{X}_{n+1}-\mu\) tiene cero medio.

    Con el ACVF\(\gamma\) de\((X_t\colon t\in\mathbb{Z})\), las ecuaciones en Teorema se\(\PageIndex{1}\) pueden expresar como

    \[\sum_{\ell=1}^n\phi_{n\ell}\gamma(j-\ell)=\gamma(j),\qquad j=1,\ldots,n. \label{3.4.2} \]

    Obsérvese que debido a la convención\(\phi_{n0}=0\), se omite la última ecuación en Teorema\(\PageIndex{1}\) (para la cual\(j=n+1\)). Más convenientemente, esto se reformula en notación matricial. Para ello, vamos\(\Gamma_n=(\gamma(j-\ell))_{j,\ell=1,\ldots,n}\),\(\phi_n=(\phi_{n1},\ldots,\phi_{nn})^T\) y\(\gamma_n=(\gamma(1),\ldots,\gamma(n))^T\), donde\(^T\) denota la transposición. Con estas notaciones, (3.4.2.) se convierte

    \[\Gamma_n\phi_n=\gamma_n \qquad\Longleftrightarrow\qquad \phi_n=\Gamma_n^{-1}\gamma_n, \label{3.4.3} \]

    siempre que no\(\Gamma_n\) sea singular.

    La determinación de los coeficientes se\(\phi_{n\ell}\) ha reducido así a resolver un sistema de ecuaciones lineales y depende únicamente de las propiedades de segundo orden de las\((X_t\colon t\in\mathbb{Z})\) cuales son dadas por la ACVF\(\gamma\).

    Vamos\(X_n=(X_n,X_{n-1},\ldots,X_1)^T\). Entonces,\(\hat{X}_{n+1}=\phi_n^TX_n\). Para evaluar la calidad de la predicción, se calcula el error cuadrático medio con la ayuda de la Ecuación\ ref {3.4.3} de la siguiente manera:

    \[\begin{align} P_{n+1} &=E\left[(X_{n+1}-\hat{X}_{n+1})^2\right] \nonumber \\[5pt] &=E\left[(X_{n+1}-\phi_n^T X_n)^2\right] \nonumber \\[5pt] &=E\left[(X_{n+1}-\gamma_n^T\Gamma_n^{-1} X_n)^2\right]\nonumber \\[5pt] &=E\left[X_{n+1}^2-2\gamma_n^T\Gamma_n^{-1} X_nX_{n+1} +\gamma_n^T\Gamma_n^{-1} X_n X_n^{T}\Gamma_n^{-1}\gamma_n\right]\nonumber \\[5pt] &=\gamma(0)-2\gamma_n^T\Gamma_n^{-1}\gamma_n +\gamma_n^T\Gamma_n^{-1}\Gamma_n\Gamma_n^{-1}\gamma_n\nonumber \\[5pt] &=\gamma(0)-\gamma_n^T\Gamma_n^{-1}\gamma_n. \label{3.4.4} \end{align} \]

    Como ejemplo inicial, explicamos el procedimiento de predicción para un proceso autorregresivo de orden 2.

    Ejemplo\(\PageIndex{1}\): Prediction of an AR(2) Process

    \((X_t\colon t\in\mathbb{Z})\)Sea el proceso causal AR (2)\(X_t=\phi_1X_{t-1}+\phi_2X_{t-2}+Z_t\). Supongamos que solo\(X_1\) se dispone de una observación de para pronosticar el valor de\(X_2\). En este caso simplificado, la ecuación de predicción única\ ref {3.4.2} es

    \[ \phi_{11}\gamma(0)=\gamma(1), \nonumber \]

    para que\(\phi_{11}=\rho(1)\) y\(\hat{X}_{1+1}=\rho(1)X_1\).

    En el siguiente paso, supongamos que los valores observados de\(X_1\) y\(X_2\) están a la mano para pronosticar el valor de\(X_3\). Entonces, de manera similar se obtiene de (3.4.2.) que el predictor puede calcularse a partir de

    \[ \begin{align*} \hat{X}_{2+1} &=\phi_{21}X_{2}+\phi_{22}X_1 =\phi_2^T X_2=(\Gamma_2^{-1}\gamma_2)^T X_2 \\[5pt] &=(\gamma(1),\gamma(2))\left(\begin{array}{c@{\quad}c} \gamma(0) & \gamma(1) \\ \gamma(1) & \gamma(0) \end{array}\right)^{-1} \left(\begin{array}{c} X_2 \\ X_1 \end{array}\right). \end{align*} \nonumber \]

    No obstante, aplicando los argumentos que condujeron a la definición del PAC en la Sección 3.3.3., se concluye que

    \[E\left[\{X_3-(\phi_1X_2+\phi_2X_1)\}X_1\right]=E[Z_3X_1]=0, \nonumber \]

    \[E\left[\{X_3-(\phi_1X_2+\phi_2X_1)\}X_2\right]=E[Z_3X_2]=0. \nonumber \]

    De ahí,\(\hat{X}_{2+1}=\phi_1X_2+\phi_2X_1\) e incluso\(\hat{X}_{n+1}=\phi_1X_n+\phi_2X_{n-1}\) para todos\(n\geq 2\), explotar la particular estructura autorregresiva.
    Dado que se pueden probar resultados similares para los procesos de AR causales generales (p), los predictores de un solo paso tienen la forma

    \[ \hat{X}_{n+1}=\phi_1X_n+\ldots+\phi_pX_{n-p+1} \nonumber \]

    siempre que el número de variables observadas n sea al menos p.

    El principal inconveniente de este enfoque es inmediatamente evidente a partir del ejemplo anterior: Para tamaños de muestra mayores n, el procedimiento de predicción requiere el cálculo de la matriz inversa\(\Gamma_n^{-1}\) que es computacionalmente costosa. En el resto de esta sección, se introducen dos métodos de predicción recursiva que evitan la inversión por completo. Se les conoce como algoritmo Durbin-Levinson y algoritmo de innovaciones. Finalmente, se introducen predictores basados en el pasado infinito que a menudo son fácilmente aplicables para la clase de procesos ARMA causales e invertibles.

    Método 1: El algoritmo de Durbin-Levinson

    Si\((X_t\colon t\in\mathbb{Z})\) es un proceso débilmente estacionario medio cero con ACVF\(\gamma\) tal que\(\gamma(0)>0\) y\(\gamma(h)\to 0\) como\(h\to\infty\), entonces los coeficientes\(\phi_{n\ell}\) en (3.4.2.) y los errores cuadrados medios\(P_n\) en (3.4.4.) satisfacen las recursiones

    \[ \phi_{11}=\frac{\gamma(1)}{\gamma(0)},\qquad P_0=\gamma(0), \nonumber \]

    y, para\(n\geq 1\),

    \[ \phi_{nn}=\frac{1}{P_{n-1}} \left(\gamma(n)-\sum_{\ell=1}^{n-1}\phi_{n-1,\ell}\gamma(n-\ell)\right), \nonumber \]

    \[ \left(\begin{array}{l}\phi_{n1} \\ {~}\vdots \\ \phi_{n,n-1}\end{array}\right) =\left(\begin{array}{l} \phi_{n-1,1} \\ {~}\vdots \\ \phi_{n-1,n-1}\end{array}\right) -\phi_{nn}\left(\begin{array}{l} \phi_{n-1,n-1} \\ {~}\vdots \\ \phi_{n-1,1}\end{array}\right) \nonumber \]

    y

    \[ P_{n}=P_{n-1}(1-\phi_{nn}^2). \nonumber \]

    Se puede demostrar que bajo los supuestos hechos sobre el proceso\((X_t\colon t\in\mathbb{Z})\), sostiene efectivamente que\(\phi_{nn}\) es igual al valor del PACF de\((X_t\colon t\in\mathbb{Z})\) al lag n. El resultado se formula como Corolario 5.2.1 en Brockwell y Davis (1991). Este hecho se destaca en un ejemplo.

    El PACF de un proceso AR (2)

    Dejar\((X_t\colon t\in\mathbb{Z})\) ser un proceso de AR causal (2). Entonces,\(\rho(1)=\phi_1/(1-\phi_2)\) y todos los demás valores se pueden calcular recursivamente a partir de

    \[ \rho(h)-\phi_1\rho(h-1)-\phi_2\rho(h-2)=0,\qquad h\geq 2. \nonumber \]

    Obsérvese que la ACVF\(\gamma\) satisface una ecuación de diferencia con los mismos coeficientes, lo cual se ve multiplicando por esta última ecuación\(\gamma(0)\). La aplicación del algoritmo Durbin-Levinson da primero que

    \[ \phi_{11}=\frac{\gamma(1)}{\gamma(0)}=\rho(1) \qquad\mbox{and}\qquad P_1=P_0(1-\phi_{11}^2)=\gamma(0)(1-\rho(1)^2). \nonumber \]

    Ignorando la recursividad para los términos de error\(P_n\) en lo siguiente, los siguientes\(\phi_{n\ell}\) valores se obtienen a

    \[\phi_{22} =\frac{1}{P_1}\left[\gamma(2)-\phi_{11}\gamma(1)\right] =\frac{1}{1-\rho(1)^2}\left[\rho(2)-\rho(1)^2\right] \nonumber \]

    \[=\frac{\phi_1^2(1-\phi_2)^{-1}+\phi_2-[\phi_1(1-\phi_2)^{-1}]^2} {1-[\phi_1(1-\phi_2)^{-1}]^2}=\phi_2, \nonumber \]

    \[\phi_{21} =\phi_{11}-\phi_{22}\phi_{11}=\rho(1)(1-\phi_2)=\phi_1, \nonumber \]

    \[\phi_{33} =\frac{1}{P_2}\left[\gamma(3)-\phi_{21}\gamma(2)-\phi_{22}\gamma(1)\right] =\frac{1}{P_2}\left[\gamma(3)-\phi_1\gamma(2)-\phi_2\gamma(2)\right]=0. \nonumber \]

    Ahora, refiriéndose a los comentarios posteriores al Ejemplo 3.3.7., no son necesarios más cálculos para determinar el PACF porque\(\phi_{nn}=0\) para todos\(n>p=2\).

    Método 2: El algoritmo de innovaciones

    En contraste con el algoritmo Durbin-Levinson, este método también se puede aplicar a procesos no estacionarios. Por lo tanto, en general, debe preferirse sobre el Método 1. El algoritmo de innovaciones obtiene su nombre por el hecho de que se utiliza directamente la forma de las ecuaciones de predicción en el Teorema 3.4.1. que se establecen en términos de las innovaciones\((X_{t+1}-\hat{X}_{t+1})_{t\in\mathbb{Z}}\). Observe que la secuencia consiste en variables aleatorias no correlacionadas.

    Los predictores de un solo paso se\(\hat{X}_{n+1}\) pueden calcular a partir de las recursiones

    \[ \hat{X}_{0+1}=0,\qquad P_1=\gamma(0) \nonumber \]

    y, para\(n\geq 1\),

    \[\hat{X}_{n+1} =\sum_{\ell=1}^n\theta_{n\ell}(X_{n+1-\ell}-\hat{X}_{n+1-\ell}) \nonumber \]

    \[P_{n+1} =\gamma(0)-\sum_{\ell=0}^{n-1}\theta_{n,n-\ell}^2P_{\ell+1}, \nonumber \]

    donde los coeficientes se obtienen de las ecuaciones

    \[ \theta_{n,n-\ell}=\frac{1}{P_{\ell+1}} \left[\gamma(n-\ell)-\sum_{i=0}^{\ell-1}\theta_{\ell,\ell-i}\theta_{n,n-i}P_{i+1}\right], \qquad\ell=0,1,\ldots,n-1. \nonumber \]

    Como ejemplo mostramos cómo se aplica el algoritmo de innovaciones a una serie temporal de promedio móvil de orden 1.

    Ejemplo\(\PageIndex{3}\): Prediction of an MA(1) Process

    Dejar\((X_t\colon t\in\mathbb{Z})\) ser el proceso MA (1)\(X_t=Z_t+\theta Z_{t-1}\). Tenga en cuenta que

    \[ \gamma(0)=(1+\theta^2)\sigma^2,\qquad\gamma(1)=\theta\sigma^2 \qquad\mbox{and}\qquad\gamma(h)=0\quad(h\geq 2). \nonumber \]

    Usando el algoritmo de innovaciones, se puede calcular el predictor de un solo paso a partir de los valores

    \ begin {align*}
    \ theta_ {n1} =\ frac {\ theta\ sigma^2} {p_n},\ qquad
    \ theta_ {n\ ell} =0\ quad (\ ell=2,\ ldots, n-1),
    \ end {align*}

    y

    \[ \begin{align*} P_1 &=(1+\theta^2)\sigma^2,\\[5pt] P_{n+1}&=(1+\theta^2-\theta\theta_{n1})\sigma^2 \end{align*} \nonumber \]

    como

    \[ \hat{X}_{n+1}=\frac{\theta\sigma^2}{P_n}(X_n-\hat{X}_{n}). \nonumber \]

    Método 3: Predicción basada en el pasado infinito

    Supongamos que se analiza un proceso ARMA causal e invertible (p, q). Supongamos además que (de manera poco realista) se puede almacenar el historial completo del proceso y que así se\((X_t\colon t\leq n)\) puede acceder a todas las variables pasadas. Definir entonces

    \[ \tilde{X}_{n+m}=E[X_{n+m}|X_n,X_{n-1},\ldots], \nonumber \]

    como el predictor m -step ahead basado en el pasado infinito. Se puede demostrar que, para tamaños de muestra grandes n, la diferencia entre los valores de\(\hat{X}_{n+m}\) y\(\tilde{X}_{n+m}\) desaparece a una tasa exponencial. Aprovechando la causalidad e invertibilidad del proceso ARMA, se puede transformar el predictor\(\tilde{X}_{n+m}\) para que esté en una forma computacionalmente más factible. Para ello, tenga en cuenta que por causalidad

    \[ \begin{align} \tilde{X}_{n+m} &=E[X_{n+m}|X_n,X_{n-1},\ldots]\nonumber \\[5pt] &=E\left[\sum_{j=0}^\infty\psi_jZ_{n+m-j}\Big|X_n,X_{n-1},\ldots\right]\nonumber \\[5pt] &=\sum_{j=m}^\infty\psi_jZ_{n+m-j} \label{3.4.5} \end{align} \]

    porque\(E[Z_t|X_n,X_{n-1},\ldots]\) es igual a cero si t>n y es igual a Z_t if\(t\leq n\) (¡debido a la invertibilidad!). La representación en (3.4.5.) se puede utilizar para calcular el error de predicción cuadrático medio\(\tilde{P}_{n+m}\). De la causalidad se desprende que

    \[ \tilde{P}_{n+m}=E[(X_{n+m}-\tilde{X}_{n+m})^2] =E\left[\left(\sum_{j=0}^{m-1}\psi_jZ_{n+m-j}\right)^2\right] =\sigma^2\sum_{j=0}^{m-1}\psi_j^2. \label{3.4.6} \]

    Por otro lado, la Ecuación\ ref {3.4.5} no permite calcular directamente los pronósticos porque\(\tilde{X}_{n+m}\) se da en términos de las variables de ruido\(Z_{n+m-j}\). En su lugar se utilizará la invertibilidad. Observe primero que

    \[ E[X_{n+m-j}|X_n,X_{n-1},\ldots]=\left\{\begin{array}{c@{\quad}l} \tilde{X}_{n+m-j}, & j<m.\\[.2cm] X_{n+m-j}, & j\geq m. \end{array}\right. \nonumber \]

    Por invertibilidad (la parte ``0= "se desprende de nuevo de la causalidad),

    \[ \begin{align}0=E[Z_{n+m}|X_n,X_{n-1},\ldots] & \\[5pt] &=E\left[\sum_{j=0}^\infty\pi_jX_{n+m-j}\Big|X_n,X_{n-1},\ldots\right] \\[5pt] & =\sum_{j=0}^\infty\pi_jE[X_{n+m-j}|X_n,X_{n-1},\ldots].\end{align} \nonumber \]

    Combinando los dos estados anteriores, rinde

    \[\tilde{X}_{n+m}=-\sum_{j=1}^{m-1}\pi_j\tilde{X}_{n+m-j} -\sum_{j=m}^\infty\pi_jX_{n+m-j}. \label{3.4.7} \]

    Las ecuaciones ahora se pueden resolver recursivamente para\(m=1,2,\ldots\) Note, sin embargo, que para cualquiera\(m\geq 1\) la secuencia\((X_{n+m+t}-\tilde{X}_{n+m+t}\colon t\in\mathbb{Z})\) no consiste en variables aleatorias no correlacionadas. De hecho, si\(h\in\mathbb{N}_0\), sostiene que

    \[ \begin{align} E[(X_{n+m}-\tilde{X}_{n+m})(X_{n+m+h}-\tilde{X}_{n+m+h})] &\\[5pt] &=E\left[\sum_{j=0}^{m-1}\psi_jZ_{n+m-j}\sum_{i=0}^{m+h-1}\psi_iZ_{n+m+h-i}\right] \\[5pt] & =\sigma^2\sum_{j=0}^{m-1}\psi_j\psi_{j+h}. \end{align} \nonumber \]

    Por último, para fines prácticos es necesario truncar el pronóstico dado. Esto se logra estableciendo

    \[ \sum_{j=n+m}^\infty\pi_jX_{n+m-j}=0. \nonumber \]

    Las ecuaciones resultantes (ver Ecuación\ ref {3.4.7} para comparación) producen recursivamente los predictores de m -step truncados\(X_{n+m}^*\):

    \[X_{n+m}^*=-\sum_{j=1}^{m-1}\pi_jX_{n+m-j}^*-\sum_{j=m}^{n+m-1}\pi_jX_{n+m-j}. \label{3.4.8} \]


    This page titled 3.4: Pronósticos is shared under a not declared license and was authored, remixed, and/or curated by Alexander Aue.