Saltar al contenido principal
LibreTexts Español

3.5: Estimación de parámetros

  • Page ID
    148660
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Dejar\((X_t\colon t\in\mathbb{Z})\) ser un ARMA causal e invertible (p, q)

    proceso con órdenes conocidas p y q, posiblemente con media\(\mu\). Esta sección se refiere a los procedimientos de estimación para el vector de parámetro desconocido

    \[\beta=(\mu,\phi_1,\ldots,\phi_p,\theta_1,\ldots,\theta_q,\sigma^2)^T. \tag{3.5.1} \]

    Para simplificar el procedimiento de estimación, se supone que los datos ya han sido ajustados restando la media y, por lo tanto, la discusión se restringe a los modelos ARMA de media cero.

    A continuación se introducen tres métodos de estimación. El método de los momentos funciona mejor en el caso de los procesos de RA puros, mientras que no conduce a procedimientos de estimación óptimos para los procesos generales de ARMA. Para estos últimos, se proporcionan estimadores más eficientes por los métodos de máxima verosimilitud y mínimos cuadrados que se discutirán posteriormente.

    Método 1 (Método de Momentos) Dado que este método solo es eficiente en su caso, la presentación aquí se restringe a los procesos AR (p)

    \[ X_t=\phi_1X_{t-1}+\ldots+\phi_pX_{t-p}+Z_t, t\in\mathbb{Z}, \nonumber \]

    donde\((Z_t\colon t\in\mathbb{Z})\sim\mbox{WN}(0,\sigma^2)\). \(\beta\)En consecuencia, el vector de parámetros se reduce a\((\phi,\sigma^2)^T\) con\(\phi=(\phi_1,\ldots,\phi_p)^T\) y se puede estimar usando las ecuaciones de Yule-Walker

    \[\Gamma_p\phi=\gamma_p \qquad\mbox{and}\ \sigma^2=\gamma(0)-\phi^T\gamma_p, \nonumber \]

    dónde\(\Gamma_p=(\gamma(k-j))_{k,j=1,\ldots,p}\) y\(\gamma_p=(\gamma(1),\ldots,\gamma(p))^T\). Observe que las ecuaciones se obtienen por los mismos argumentos aplicados para derivar el algoritmo Durbin-Levinson en la sección anterior. El método de los momentos sugiere reemplazar cada cantidad en las ecuaciones de Yule-Walker por sus contrapartes estimadas, lo que arroja los estimadores de Yule-Walker

    \[\widehat{\phi}=\hat{\Gamma}_p^{-1} \hat{\gamma}_p=\hat{R}_p^{-1}\hat{\rho}_p \tag{3.5.2} \]

    \[\hat{\sigma}^2 =\hat{\gamma}(0)-\hat{\gamma}^T_p\hat{\Gamma}_p^{-1}\hat{\gamma}_p =\hat{\gamma}(0)\left[1-\hat{\rho}_p^T\hat{R}_p^{-1}\hat{\rho}_p\right ]. \tag{3.5.3} \]

    En ella,\(\hat{R}_p=\hat{\gamma}(0)^{-1}\hat{\Gamma}_p\) y\(\hat{\rho}_p=\hat{\gamma}(0)^{-1}\hat{\gamma}_p\) con

    \(\hat{\gamma}(h)\)definido como en (1.2.1). Utilizando\(\hat{\gamma}(h)\) como estimador para el ACVF en lag\(h\),\(n\) se obtiene una dependencia del tamaño de la muestra de manera implícita. Esta dependencia se suprime en la notación aquí utilizada. El siguiente teorema contiene el comportamiento límite de los estimadores de Yule-Walker ya que n tiende al infinito.

    Teorema 3.5.1. Si\((X_t\colon t\in\mathbb{Z})\) es un proceso causal AR (p), entonces

    \[ \sqrt{n}(\widehat{\phi}-\phi)\stackrel{\cal D}{\longrightarrow} N(\mbox{0},\sigma^2\Gamma_p^{-1})\qquad\mbox{and}\qquad \hat{\sigma}^2\stackrel{P} {\longrightarrow}\sigma^2 \nonumber \]

    as\(n\to\infty\), donde\(\to^P\) indica convergencia en probabilidad.

    Una prueba de este resultado se da en la Sección 8.10 de Brockwell y Davis (1991). Dado que las ecuaciones (3.5.2) y (3.5.3) tienen la misma estructura que las ecuaciones correspondientes (3.4.3) y (3.4.4), el algoritmo Durbin-Levinson puede ser utilizado para resolver recursivamente para los estimadores\(\widehat{\phi}_h=(\widehat{\phi}_{h1},\ldots,\widehat{\phi}_{hh})\). Además, dado que\(\phi_{hh}\) es igual al valor del PACF de\((X_t\colon t\in\mathbb{Z})\) al lag h, el estimador\(\widehat{\phi}_{hh}\) puede ser utilizado como su proxy. Ya que ya se sabe que, en el caso de los procesos AR (p),\(\phi_{hh}=0\) si h>p, Teorema (3.5.1) implica inmediatamente el siguiente corolario.

    Corolario 3.5.1 Si\((X_t\colon t\in\mathbb{Z})\) es un proceso AR causal (p), entonces

    \[ \sqrt{n}\widehat{\phi}_{hh}\stackrel{\cal D}{\longrightarrow}Z \qquad(n\to\infty) \nonumber \]

    para todos h>p, donde Z representa una variable aleatoria normal estándar.

    Ejemplo 3.5.1. (Estimaciones de Yule-Walker para procesos AR (2)). Supongamos que se\(X_t=1.5X_{t-1}-.75X_{t-2}+Z_t\) han observado\(n=144\) valores del proceso autorregresivo, donde\((Z_t\colon t\in\mathbb{Z})\) se encuentra una secuencia de variables normales estándar independientes. Supongamos además eso\(\hat{\gamma}(0)=8.434\),\(\hat{\rho}(1)=0.834\) y\(\hat{\rho}(2)=0.476\) han sido calculados a partir de los datos. Los estimadores de Yule-Walker para los parámetros son dados por

    \[ \widehat{\phi}=\left(\begin{array}{c} \widehat{\phi}_1 \\[.1cm] \widehat{\phi}_2 \end{array}\right) =\left(\begin{array}{rr} 1.000 & 0.834 \\[.1cm] 0.834 & 1.000 \end{array}\right)^{-1} \left(\begin{array}{c} 0.834 \\[.1cm] 0.476 \end{array}\right)= \left(\begin{array}{r} 1.439 \\[.1cm] -0.725\end{array}\right) \nonumber \]

    y

    \[ \hat{\sigma}^2=8.434\left[1-(0.834,0.476) \left(\begin{array}{r} 1.439 \\[.1cm] -0.725 \end{array}\right)\right]=1.215. \nonumber \]

    Para construir intervalos de confianza asintóticos usando el Teorema 3.5.1, es\(\sigma^2\Gamma_p^{-1}\) necesario estimar la matriz de covarianza limitante desconocida. Esto se puede hacer usando el estimador

    \[ \frac{\hat{\sigma}^2\hat{\Gamma}_p^{-1}}{n}= \frac{1}{144}\frac{1.215}{8.434} \left(\begin{array}{rr} 1.000 & 0.834 \\[.1cm] 0.834 & 1.000 \end{array}\right)^{-1}= \left(\begin{array}{rr} 0.057^2 & -0.003 \\[.1cm] -0.003 & 0.057^2 \end{array}\right). \nonumber \]

    Luego, el intervalo de confianza de\(1-\alpha\) nivel para los parámetros\(\phi_1\) y\(\phi_2\) se computan como

    \[ 1.439\pm 0.057z_{1-\alpha/2} \qquad\mbox{and}\qquad -0.725\pm 0.057z_{1-\alpha/2}, \nonumber \]

    respectivamente, donde\(z_{1-\alpha/2}\) está el cuantil normal correspondiente.

    Ejemplo 3.5.2 (Serie de Reclutamiento).

    Reconsideremos la serie de reclutamiento del Ejemplo 3.3.5. Allí, primero se estableció un modelo AR (2) como apropiado para los datos y luego se estimaron los parámetros del modelo utilizando un enfoque de mínimos cuadrados ordinarios. Aquí, los coeficientes se estimarán en cambio con el procedimiento de Yule-Walker. El comando R es

    > rec.yw = ar.yw (rec, pedido=2)}

    La estimación media se puede obtener de rec.yw$x.mean as\(\hat{\mu}=62.26\), mientras que se accede a las estimaciones de parámetros autorregresivos y sus errores estándar con los comandos rec.yw$ar y sqrt (rec.yw$asy.var.coef as\(\hat{\phi}_1=1.3316(.0422)\) y\(\hat{\phi}_2=-.4445(.0422)\). Finalmente, la estimación de varianza se obtiene de rec.yw$var.pred as\(\hat{\sigma}^2=94.7991\). Todos los valores son cercanos a sus contrapartes en el Ejemplo 3.3.5.

    Ejemplo 3.5.3. Considere el proceso MA invertible (1)\(X_t=Z_t+\theta Z_{t-1}\), donde\(|\theta|<1\). Usando la invertibilidad, cada uno\(X_t\) tiene una representación autorregresiva infinita

    \[ X_t=\sum_{j=1}^\infty(-\theta)^jX_{t-j}+Z_t \nonumber \]

    que es no lineal en el parámetro desconocido\(\theta\) a estimar. El método de los momentos está aquí basado en resolver

    \[ \hat{\rho}(1)=\frac{\hat{\gamma}(1)}{\hat{\gamma}(0)} =\frac{\hat{\theta}}{1+\hat{\theta}^2}. \nonumber \]

    para\(\hat{\theta}\). La ecuación cuadrática anterior tiene las dos soluciones

    \[ \hat{\theta} =\frac{1\pm\sqrt{1-4\hat{\rho}(1)^2}}{2\hat{\rho}(1)}, \nonumber \]

    de los cuales elegimos el invertible. Obsérvese además, que no necesariamente\(|\hat{\rho}(1)|\) es menor o igual a 1/2 que se requiere para la existencia de soluciones reales. (El valor teórico\(|\rho(1)|\), sin embargo, siempre es menor a 1/2 para cualquier proceso MA (1), como muestra un cálculo fácil). De ahí\(\theta\) que no siempre se pueda estimar a partir de muestras de datos dadas.

    Método 2 (Estimación de máxima verosimilitud) El algoritmo de innovaciones de la sección anterior aplicado a un ARMA causal (p, q)

    proceso\((X_t\colon t\in\mathbb{Z})\) da

    \[\hat{X}_{i+1}=\sum_{j=1}^i\theta_{ij}(X_{i+1-j}-\hat{X}_{i+1-j}), \phantom{\sum_{j=1}^p\phi_jX_{i+1-j}+} 1\leq i< \max\{p,q\}, \nonumber \]

    \[\hat{X}_{i+1}= \sum_{j=1}^p\phi_jX_{i+1-j}+\sum_{j=1}^q\theta_{ij}(X_{i+1-j}-\hat{X}_{i+1-j}), \phantom{1\leq} i\geq \max\{p,q\}, \nonumber \]

    con error de predicción

    \[ P_{i+1}=\sigma^2R_{i+1}. \nonumber \]

    En la última expresión, se\(\sigma^2\) ha factorizado debido a razones que se harán evidentes a partir de la forma de la función de verosimilitud que se discutirá a continuación. Recordemos que la secuencia\((X_{i+1}-\hat{X}_{i+1}\colon i\in\mathbb{Z})\) consiste en variables aleatorias no correlacionadas si se conocen los parámetros. Asumiendo normalidad por los errores, además obtenemos incluso independencia. Esto se puede explotar para definir el procedimiento de estimación de máxima verosimilitud (MLE) gaussiana. A lo largo de todo, se supone que\((X_t\colon t\in\mathbb{Z})\) tiene cero media (\(\mu=0\)). Los parámetros de interés se recogen en los vectores\(\beta=(\phi,\theta,\sigma^2)^T\) y\(\beta'=(\phi,\theta)^T\), dónde\(\phi=(\phi_1,\ldots,\phi_p)^T\) y\(\theta=(\theta_1,\ldots,\theta_q)^T\). Supongamos finalmente que hemos observado las variables\(X_1,\ldots,X_n\). Entonces, la función de verosimilitud gaussiana para las innovaciones es

    \[L(\beta)=\frac{1}{(2\pi\sigma^2)^{n/2}}\left(\prod_{i=1}^nR_i^{1/2}\right) \exp\left(-\frac{1}{2\sigma^2}\sum_{j=1}^n\frac{(X_j-\hat{X}_j)^2}{R_j}\right). \tag{3.5.4} \]

    Tomando la derivada parcial de\(\ln L(\beta)\) con respecto a la variable\(\sigma^2\) revela que el MLE para\(\sigma^2\) puede ser

    calculado a partir de

    \[ \hat{\sigma}^2=\frac{S(\hat{\phi},\hat{\theta})}{n},\qquad S(\hat{\phi},\hat{\theta})=\sum_{j=1}^n\frac{(X_j-\hat{X}_j)^2}{R_j}. \nonumber \]

    En ella,\(\hat{\phi}\) y\(\hat{\theta}\) denotan los MLE de\(\phi\) y\(\theta\) obtenidos de minimizar la probabilidad de perfil o probabilidad reducida

    \[ \ell(\phi,\theta)=\ln\left(\frac{S(\phi,\theta)}{n}\right) +\frac 1n\sum_{j=1}^n\ln(R_j). \nonumber \]

    Observe que la probabilidad del perfil se\(\ell(\phi,\theta)\) puede calcular utilizando el algoritmo de innovaciones. La velocidad de estos cálculos depende en gran medida de la calidad de las estimaciones iniciales. Estos suelen ser proporcionados por el procedimiento no óptimo de Yule-Walker. Para los métodos numéricos, como el Newton-Raphson y los algoritmos de puntuación, ver Sección 3.6 en Shumway y Stoffer (2006).

    La distribución límite del procedimiento MLE se da como el siguiente teorema. Su prueba se encuentra en la Sección 8.8 de Brockwell y Davis (1991).

    Teorema 3.5.2. Dejar\((X_t\colon t\in\mathbb{Z})\) ser un proceso causal e invertible ARMA (p, q) definido con una secuencia iid

    \((Z_t\colon t\in\mathbb{Z}) satisfying E[Z_t]=0\)y

    \(E[Z_t^2]=\sigma^2\). Considerar el MLE\(\hat{\beta}'\) de\(\beta'\) que se inicializa con los estimadores de momento de

    Método 1. Entonces,

    \[ \sqrt{n}(\hat{\beta}'-\beta')\stackrel{\cal D}{\longrightarrow} N(\mbox{0},\sigma^2\Gamma_{p,q}^{-1}) \qquad(n\to\infty). \nonumber \]

    El resultado es óptimo. La matriz de covarianza\(\Gamma_{p,q}\) está en forma de bloque y puede evaluarse en términos de covarianzas de diversos procesos autorregresivos.

    Ejemplo 3.5.4 (Serie de Reclutamiento). El procedimiento de estimación MLE para la serie de reclutamiento se puede aplicar en R de la siguiente manera:

    >rec.mle = ar.mle (rec, pedido=2)

    La estimación media se puede obtener de rec.mle$x.mean as\(\hat{\mu}=62.26\), mientras que se accede a las estimaciones de parámetros autorregresivos y sus errores estándar con los comandos rec.mle$ar y sqrt (rec.mle$asy.var.coef) as\(\hat{\phi}_1=1.3513(.0410)\) y\(\hat{\phi}_2=-.4099(.0410)\). Finalmente, la estimación de varianza se obtiene de rec.yw$var.pred as\(\hat{\sigma}^2=89.3360\). Todos los valores están muy cerca de sus contrapartes en el Ejemplo 3.3.5.

    Método 3 (Estimación de mínimos cuadrados) Una alternativa al método de los momentos y al MLE es proporcionada por la estimación de mínimos cuadrados (LSE). Para procesos causales e invertibles ARMA (p, q), se basa en minimizar la suma ponderada de cuadrados

    \(S(\phi,\theta)=\sum_{j=1}^n\frac{(X_j-\hat{X}_j)^2}{R_j} \tag{3.5.5}\)

    con respecto a\(\phi\) y\(\theta\), respectivamente. Suponiendo que\(\tilde{\phi}\) y\(\tilde{\theta}\) denotan estos LSE, el LSE para\(\sigma^2\) se calcula como

    \[ \tilde{\sigma}^2=\frac{S(\tilde{\phi},\tilde{\theta})}{n-p-q}. \nonumber \]

    El procedimiento de mínimos cuadrados tiene los mismos asintóticos que el MLE.

    Teorema 3.5.3. El resultado del Teorema 3.5.2. sostiene también si\(\hat{\beta}'\) se sustituye por\(\tilde{\beta}'\).

    Ejemplo 3.5.5 (Serie de Reclutamiento). La estimación de mínimos cuadrados ya se ha discutido en el Ejemplo 3.3.5, incluyendo los comandos R.


    This page titled 3.5: Estimación de parámetros is shared under a not declared license and was authored, remixed, and/or curated by Alexander Aue.