Saltar al contenido principal
LibreTexts Español

4.3: Propiedades de muestra grande

  • Page ID
    148656
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Dejar\((X_t\colon t\in\mathbb{Z})\) ser una serie temporal débilmente estacionaria con ACVF media\(\mu\), absolutamente sumable\(\gamma(h)\) y densidad espectral\(f(\omega)\). Procediendo como en el comprobante de la Proposición4.2.2., se obtiene

    \[ I(\omega_j)=\frac 1n\sum_{h={-n+1}}^{n-1}\sum_{t=1}^{n-|h|}(X_{t+|h|}-\mu)(X_t-\mu)\exp(-2\pi i\omega_jh), \label{Eq1} \]

    siempre\(\omega_j\not=0\). Mediante esta representación, se puede establecer el comportamiento limitante del periodograma.

    Proposición 4.3.1

    \(I(\cdot)\)Sea el periodograma basado en observaciones\(X_1,\ldots,X_n\) de un proceso débilmente estacionario\((X_t\colon t\in\mathbb{Z})\), entonces, para cualquier\(\omega\not=0\),

    \[ E[I(\omega_{j:n})]\to f(\omega)\qquad(n\to\infty), \nonumber \]

    donde\(\omega_{j:n}=j_n/n\) con\((j_n)_{n\in\mathbb{N}}\) elegido tal que\(\omega_{j:n}\to\omega\) como\(n\to\infty\). Si\(\omega=0\), entonces

    \[ E[I(0)]-n\mu^2\to f(0)\qquad(n\to\infty). \nonumber \]

    Comprobante. Hay dos límites involucrados en los cálculos de la media del periodograma. Primero, tomar el límite como\(n\to\infty\). Esto, sin embargo, requiere en segundo lugar que para cada uno\(n\) tengamos que trabajar con un conjunto diferente de frecuencias de Fourier. Para ajustarnos a esto, hemos introducido la notación\(\omega_{j:n}\). Si\(\omega_j\not=0\) es una frecuencia de Fourier (¡\(n\)fija!) , luego

    \[ E[I(\omega_j)]=\sum_{h=-n+1}^{n-1}\left(\frac{n-|h|}{n}\right)\gamma(h)\exp(-2\pi i\omega_jh). \nonumber \]

    Por lo tanto (\(n\to\infty\)!) ,

    \[ E[I(\omega_{j:n})]\to\sum_{h=-\infty}^\infty\gamma(h)\exp(-2\pi i\omega h)=f(\omega), \nonumber \]

    demostrando así la primera pretensión. El segundo se desprende de\(I(0)=n\bar{X}_n^2\) (véase la Proposición 4.2.2.), para que\(E[I(0)]-n\mu^2=n(E[\bar{X}_n^2]-\mu^2)=n\mbox{Var}(\bar{X}_n) \to f(0)\)\(n\to\infty\) como en el Capítulo 2. La prueba está completa.

    Proposición 4.3.1. muestra que el periodograma\(I(\omega)\) es asintóticamente imparcial para\(f(\omega)\). Es, sin embargo, inconsistente. Esto está implícito en la siguiente proposición que se da sin pruebas. No es sorprendente considerando que cada valor\(I(\omega_j)\) es la suma de cuadrados de sólo dos variables aleatorias independientemente del tamaño de la muestra.

    Proposición 4.3.2.

    Si\((X_t\colon t\in\mathbb{Z})\) es una serie temporal (causal o no causal) débilmente estacionaria tal que

    \[ X_t=\sum_{j=-\infty}^\infty\psi_jZ_{t-j},\qquad t\in\mathbb{Z}, \nonumber \]

    con\(\sum_{j=-\infty}^\infty|\psi_j|<\infty and (Z_t)_{t\in\mathbb{Z}}\sim\mbox{WN}(0,\sigma^2)\), entonces

    \[ (\frac{2I(\omega_{1:n})}{f(\omega_1)},\ldots,\frac{2I(\omega_{m:n})}{f(\omega_m)}) \stackrel{\cal D}{\to}(\xi_1,\ldots,\xi_m), \nonumber \]

    donde\(\omega_1,\ldots,\omega_m\) son\(m\) distintas frecuencias con\(\omega_{j:n}\to\omega_j\) y\(f(\omega_j)>0\). Las variables\(\xi_1,\ldots,\xi_m\) son independientes, idénticas chi-cuadradas distribuidas con dos grados de libertad.

    El resultado de esta proposición puede ser utilizado para construir intervalos de confianza para el valor de la densidad espectral a la frecuencia\(\omega\). Para ello, denotar por\(\chi_2^2(\alpha)\) la menor probabilidad de cola de la variable chi-cuadrado\(\xi_j\), es decir,

    \[ P(\xi_j\leq\chi_2^2(\alpha))=\alpha. \nonumber \]

    Entonces, la Proposición 4.3.2. implica que un intervalo de confianza aproximado con nivel\(1-\alpha\) viene dado por

    \[ \frac{2I(\omega_{j:n})}{\chi_2^2(1-\alpha/2)}\leq f(\omega)\leq \frac{2I(\omega_{j:n})}{\chi_2^2(\alpha/2)}. \nonumber \]

    La Proposición 4.3.2. también sugiere que los intervalos de confianza se pueden derivar simultáneamente para varios componentes de frecuencia. Antes de que se computen los intervalos de confianza para la frecuencia dominante de los datos de reclutamiento regresan por un momento al cálculo de la FFT que es la base para el uso del periodograma. Para garantizar un tiempo de cálculo rápido, se\(n^\prime\) deben usar enteros altamente compuestos. Para lograr esto en general, la duración de las series de tiempo se ajusta mediante el relleno de los datos originales pero degradados mediante la adición de ceros. En R, el análisis espectral se realiza con la función spec.pgram. Para saber cuál $n^\ prime$ se usa para tus datos particulares, escribe nextn (length (x)), asumiendo que tu serie está en x.

    Figura 4.6: Periodograma promedio de los datos de reclutamiento discutidos en el Ejemplo 4.3.1.

    Ejemplo 4.3.1.

    La Figura 4.5 muestra el periodograma de los datos de reclutamiento que se ha discutido en el Ejemplo 3.3.5. Muestra un fuerte componente de frecuencia anual, así\(\omega=1/12\) como varios picos en el vecindario de la frecuencia El Ni\(\tilde{n}\) o\(\omega=1/48\). Los componentes de mayor frecuencia con\(\omega>.3\) están prácticamente ausentes. A pesar de que se ajustó un modelo AR (2) a estos datos en el Capítulo 3 para producir valores futuros basados en este ajuste, se ve que el periodograma aquí no valida este ajuste ya que la densidad espectral de un proceso AR (2) (como se computa en el Ejemplo 4.2.3.) es cualitativamente diferente. En R, se pueden utilizar los siguientes comandos (nextn (length (rec)) da\(n^\prime=480\) aquí si los datos de reclutamiento se almacenan en rec como antes).

    >rec.pgram=spec.pgram (rec, taper=0, log="no”)

    >abline (v=1/12, lty=2)

    >abline (v=1/48, lty=2)

    La función spec.pgram le permite ajustar con precisión el análisis espectral. Para nuestros propósitos, siempre utilizamos las especificaciones dadas anteriormente para el periodograma en bruto (la conicidad le permite, por ejemplo, mirar exclusivamente una banda de frecuencia particular, log le permite trazar el logaritmo-periodograma y es el estándar R).

    Para calcular los intervalos de confianza para las dos frecuencias dominantes\(1/12\) y\(1/48\), puede usar el siguiente código R, señalando que\(1/12=40/480\) y\(1/48=10/480\).

    >rec.pgram {\ $} spec [40]

    [1] 21332.94

    >rec.pgram {\ $} spec [10]

    [1] 14368.42

    >u=qchisq (.025, 2); l=qchisq (.975, 2)

    >2*rec.pgram {\ $} espec. [40] /l

    >2*rec.pgram {\ $} espec. [40] /u

    >2*rec.pgram {\ $} espec. [10] /l

    ~2*rec.pgram {\ $} espec. [10] /u

    Utilizando los valores numéricos de este análisis, se obtienen los siguientes intervalos de confianza en el nivel\(\alpha=.1\):

    \[ f(1/12)\in(5783.041,842606.2)\qquad\mbox{and}\qquad f(1/48)\in(3895.065, 567522.5). \nonumber \]

    Estos son demasiado amplios y se necesitan alternativas al periodograma crudo. Estos son proporcionados, por ejemplo, por un enfoque de suavizado que utiliza un procedimiento de promediado sobre una banda de frecuencias vecinas. Esto se puede hacer de la siguiente manera.

    >k=kernel (“daniell” ,4)

    >rec.ave=spec.pgram (rec, k, taper=0, log="no”)

    > abline (v=1/12, lty=2)

    > abline (v=1/48, lty=2)

    > rec.ave$ancho de banda

    [1] 0.005412659\ medskip

    El periodograma suavizado resultante se muestra en la Figura 4.6. Es menos ruidoso, como se espera de tomar promedios. Más precisamente, aquí se\(m=4\) utilizó un filtro Daniell de dos lados con frecuencias\(L=2m+1\) vecinas

    \[ \omega_k=\omega_j+\frac kn,\qquad k=-m,\ldots,m, \nonumber \]

    para calcular el periodograma en\(\omega_j=j/n\). La gráfica resultante en la Figura 4.6 muestra, por otra parte, que el pico anual agudo se ha aplanado considerablemente. El ancho de banda reportado en R se puede computar como\(b=L/(\sqrt{12}n)\). Para calcular los intervalos de confianza se tiene que ajustar la fórmula previamente derivada. Esto se hace tomando cambiando los grados de libertad de 2 a\(df=2Ln/n^\prime\) (si se anexan los ceros) y conduce a

    \[ \frac{df}{\chi^2_{df}(1-\alpha/2)} \sum_{k=-m}^mf(\omega_j+\frac kn) \leq f(\omega) \leq \frac{df}{\chi^2_{df}(\alpha/2)}\sum_{k=-m}^mf(\omega_j+\frac kn) \nonumber \]

    para\(\omega\approx\omega_j\). Para los datos de reclutamiento se puede utilizar el siguiente código R:

    >df=techo (rec.ave {\ $} df)

    >u=qchisq (.025, df), l~=~qchisq (.975, df)

    >df*rec.ave {\ $} espec. [40] /l

    >df*rec.ave {\ $} spec [40] /u

    >df*rec.ave {\ $} espec. [10] /l

    >df*rec.ave {\ $} spec [10] /u

    Figura 4.7: El periodograma Daniell modificado de los datos de reclutamiento discutidos en el Ejemplo 4.3.1.

    para obtener los intervalos de confianza

    \[ f(1/12)\in(1482.427, 5916.823)\qquad\mbox{and}\qquad f(1/48)\in(4452.583, 17771.64). \nonumber \]

    El compromiso entre el ruidoso periodograma crudo y el suavizado adicional como se describe aquí (con\(L=9\)) invierte la magnitud de la frecuencia\(1/12\) anual y el componente\(1/48\) El Ni\(\tilde{n}\) o. Esto se debe a que el pico anual es muy agudo, siendo las frecuencias vecinas básicamente cero. Para el\(1/48\) componente, hay toda una banda de frecuencia vecina que también aportan que el fenómeno El Ni\(\tilde{n}\) o es irregular y sólo aparece en promedio cada cuatro años). Además, el ciclo anual ahora se distribuye en todo un rango. Una forma de evitar este problema la proporciona el uso de otros núcleos como el kernel Daniell modificado dado en R como kernel (“modified.daniell”, c (3,3)). Esto conduce a la densidad espectral en la Figura 4.7.

    Contribuidores

    Demostración: Me encanta la forma en que\(\ref{Eq1}\) se ve Equation.


    This page titled 4.3: Propiedades de muestra grande is shared under a not declared license and was authored, remixed, and/or curated by Alexander Aue.