Saltar al contenido principal
LibreTexts Español

12.4: Estadísticas de pedidos

  • Page ID
    151938
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \(\newcommand{\P}{\mathbb{P}}\)\(\newcommand{\E}{\mathbb{E}}\)\(\newcommand{\R}{\mathbb{R}}\)\(\newcommand{\N}{\mathbb{N}}\)\(\newcommand{\bs}{\boldsymbol}\)\(\newcommand{\var}{\text{var}}\)\(\newcommand{\cov}{\text{cov}}\)\(\newcommand{\cor}{\text{cor}}\)

    Teoría Básica

    Definiciones

    Supongamos que los objetos en nuestra población están numerados del 1 al\(m\), así que eso\(D = \{1, 2, \ldots, m\}\). Por ejemplo, la población podría consistir en artículos manufacturados, y las etiquetas podrían corresponder a números de serie. Al igual que en el modelo de muestreo básico seleccionamos\(n\) objetos al azar, sin reemplazo de\(D\). Así el resultado es\(\bs{X} = (X_1, X_2, \ldots, X_n)\) donde\(X_i \in S\) se elige el objeto\(i\) th. Recordemos que\(\bs{X}\) se distribuye uniformemente sobre el conjunto de permutaciones de tamaño\(n\) elegido de\(D\). Recordemos también que\(\bs{W} = \{X_1, X_2, \ldots, X_n\}\) es la muestra desordenada, la cual se distribuye uniformemente en el conjunto de combinaciones de tamaño\(n\) escogidas de\(D\).

    Para\(i \in \{1, 2, \ldots, n\}\) dejar que\(X_{(i)} = i\) el elemento más pequeño de\(\{X_1, X_2, \ldots, X_n\}\). La variable aleatoria\(X_{(i)}\) se conoce como estadística de orden de orden\(i\) para la muestra\(\bs{X}\). En particular, las estadísticas de orden extremo son\ begin {align} X_ {(1)} & =\ min\ {X_1, X_2,\ ldots, x_n\}\\ X_ {(n)} & =\ max\ {X_1, X_2,\ ldots, X_n\}\ end {align} Variable aleatoria\(X_{(i)}\) toma valores\(\{i, i + 1, \ldots, m - n + i\}\) para\( i \in \{1, 2, \ldots, n\} \).

    Denotaremos el vector de las estadísticas de orden por\(\bs{Y} = \left(X_{(1)}, X_{(2)}, \ldots, X_{(n)}\right)\). Tenga en cuenta que\(\bs{Y}\) toma valores en\[ L = \left\{(y_1, y_2, \ldots, y_n) \in D^n: y_1 \lt y_2 \lt \cdots \lt y_n\right\} \]

    Ejecutar el experimento estadístico de orden. Tenga en cuenta que puede variar el tamaño de la población\(m\) y el tamaño de la muestra\(n\). Las estadísticas de orden se registran en cada actualización.

    Distribuciones

    \(L\)tiene\(\binom{m}{n}\) elementos y\(\bs{Y}\) se distribuye uniformemente en\(L\).

    Prueba

    Porque\(\bs{y} = (y_1, y_2, \ldots, y_n) \in L\),\(\bs{Y} = \bs{y}\) si y solo si\(\bs{X}\) es una de las\(n!\) permutaciones de\(\bs{y}\). De ahí\(\P(\bs{Y} = \bs{y}) = n! \big/ m^{(n)} = 1 \big/ \binom{m}{n}\).

    La función de densidad de probabilidad de\(X_{(i)}\) es\[ \P\left[X_{(i)} = x\right] = \frac{\binom{x-1}{i-1} \binom{m-x}{n-i}}{\binom{m}{n}}, \quad x \in \{i, i + 1, \ldots, m - n + i\} \]

    Prueba

    El evento de que sea el estadístico de orden\(i\) th\(x\) significa que los valores de\(i - 1\) muestra son menores\(x\) y\(n - i\) mayores que\(x\), y por supuesto, uno de los valores de muestra es\(x\). Por el principio de multiplicación de la combinatoria, el número de muestras desordenadas correspondientes a este evento es\(\binom{x-1}{i-1} \binom{m - x}{n - i}\). El número total de muestras desordenadas es\(\binom{m}{n}\).

    En el experimento estadístico de orden, varíe los parámetros y anote la forma y ubicación de la función de densidad de probabilidad. Para valores seleccionados de los parámetros, ejecute el experimento 1000 veces y compare la función de frecuencia relativa con la función de densidad de probabilidad.

    Momentos

    La función de densidad de probabilidad\( X_{(i)} \) anterior puede ser utilizada para obtener una identidad interesante que involucra los coeficientes binomiales. Esta identidad, a su vez, puede ser utilizada para encontrar la media y varianza de\(X_{(i)}\).

    Para\(i, \, n, \, m \in \N_+\) con\(i \le n \le m\),\[ \sum_{k=i}^{m-n+i} \binom{k-1}{i-1} \binom{m-k}{n - i} = \binom{m}{n} \]

    Prueba

    Este resultado se desprende inmediatamente de la función de densidad de probabilidad\( X_{(i)} \) anterior

    El valor esperado de\(X_{(i)}\) es\[ \E\left[X_{(i)}\right] = i \frac{m + 1}{n+1}\]

    Prueba

    Comenzamos con la definición de valor esperado. Recordemos eso\(x \binom{x - 1}{i - 1} = i \binom{x}{i}\). A continuación usamos la identidad anterior con\(m\) reemplazada por\(m + 1\),\(n\) reemplazada por\(n + 1\), y\(i\) reemplazada por\(i + 1\). Simplificar da el resultado.

    La varianza de\(X_{(i)}\) es\[ \var\left[X_{(i)}\right] = i (n - i + 1) \frac{(m + 1) (m - n)}{(n + 1)^2 (n + 2)} \]

    Prueba

    El resultado se desprende de otra aplicación de la identidad anterior.

    En el experimento estadístico de orden, varíe los parámetros y anote el tamaño y la ubicación de la barra de desviación\( \pm \) estándar media. Para valores seleccionados de los parámetros, ejecute el experimento 1000 veces y compare la media de la muestra y la desviación estándar con la media de distribución y la desviación estándar.

    Estimadores de\( m \) Basado en Estadísticas de Orden

    Supongamos que se\( m \) desconoce el tamaño de la población. En esta subsección consideramos estimadores de estadísticas\( m \) construidas a partir de los diversos órdenes.

    Para\(i \in \{1, 2, \ldots, n\}\), el siguiente estadístico es un estimador imparcial de\(m\):\[ U_i = \frac{n + 1}{i} X_{(i)} - 1 \]

    Prueba

    Del valor esperado de\( X_{(i)} \) arriba y de la propiedad lineal del valor esperado, tenga en cuenta que\(\E(U_i) = m\).

    Dado que\(U_i\) es imparcial, su varianza es el error cuadrático medio, una medida de la calidad del estimador.

    La varianza de\(U_i\) es\[ \var(U_i) = \frac{(m + 1) (m - n) (n - i +1)}{i (n + 2)}\]

    Prueba

    Este resultado se deriva de la varianza\( X_{(i)} \) dada anteriormente y las propiedades estándar de varianza.

    Para fijos\(m\) y\(n\),\(\var(U_i)\) disminuye a medida que\(i\) aumenta. Así, los estimadores mejoran a medida que\(i\) aumenta; en particular,\(U_n\) es el mejor y\(U_1\) el peor.

    La eficiencia relativa de\(U_j\) con respecto a\(U_i\) es\[ \frac{\var(U_i)}{\var(U_j)} = \frac{j (n - i + 1)}{i (n - j + 1)} \]

    Obsérvese que la eficiencia relativa depende únicamente de los órdenes\(i\)\(j\) y y del tamaño de la muestra\(n\), pero no del tamaño de la población\(m\) (el parámetro desconocido). En particular, la eficiencia relativa de\(U_n\) con respecto a\(U_1\) es\(n^2\). Para fijo\( i \) y\( j \), la eficiencia relativa asintótica de\( U_j \) a\( U_i \) es\( j / i \). Por lo general, esperamos que un estimador mejore (en el sentido de error cuadrático medio) a medida que\(n\) aumenta el tamaño de la muestra (cuanta más información tengamos, mejor debería ser nuestra estimación). Esta idea general se conoce como consistencia.

    \(\var(U_n)\)disminuye a 0 a medida que\(n\) aumenta de 1 a\(m\), y así\(U_n\) es consistente:\[ \var(U_n) = \frac{(m + 1)(m - n)}{n (n + 2)} \]

    Para fijo\(i\),\(\var(U_i)\) al principio aumenta y luego disminuye a 0 a medida que\(n\) aumenta de\(i\) a\(m\). Por lo tanto,\(U_i\) es inconsistente.

    Varianza de U_1
    Figura\(\PageIndex{1}\):\(\var(U_1)\) en función de\(n\) for\(m = 100\)

    Un Estimador de\(m\) Basado en la Media Muestra

    En esta subsección, derivaremos otro estimador del parámetro con\(m\) base en el promedio de las variables muestrales\(M = \frac{1}{n} \sum_{i=1}^n x_i\), (la media muestral) y compararemos este estimador con el estimador basado en el máximo de las variables (el estadístico de mayor orden).

    \(\E(M) = \frac{m + 1}{2}\).

    Prueba

    Recordemos que\(X_i\) se distribuye uniformemente en\(D\) para cada uno\(i\) y por lo tanto\(\E(X_i) = \frac{m + 1}{2}\).

    De ello\(V = 2 M - 1\) se deduce que es un estimador imparcial de\(m\). Además, parece que superficialmente al menos,\(V\) utiliza más información de la muestra (ya que involucra todas las variables de la muestra) que\(U_n\). ¿Podría ser mejor? Para averiguarlo, necesitamos calcular la varianza del estimador (que, al ser imparcial, es el error cuadrático medio). Este cálculo es un poco complicado ya que las variables de muestra son dependientes. Calcularemos la varianza de la suma como la suma de todas las covarianzas por pares.

    Para distintos\(i, \, j \in \{1, 2, \ldots, n\}\),\(\cov\left(X_i, X_j\right) = -\frac{m+1}{12}\).

    Prueba

    En primer lugar recordar que dado\(X_i = x\),\(X_j\) se distribuye uniformemente en\(D \setminus \{x\}\). De ahí\(\E(X_j \mid X_i = x) = \frac{m(m + 1)}{2 (m - 1)} - \frac{x}{m - 1}\). Así condicionar en\(X_i\) da\(\E(X_i X_j) = \frac{(m +1)(3 \, m + 2)}{12}\). El resultado ahora se desprende de la fórmula estándar\(\cov(X_i, X_j) = \E(X_i X_j) - \E(X_i) \E(X_j)\).

    Para\(i \in \{1, 2, \ldots, n\}\),\(\var(X_i) = \frac{m^2 - 1}{12}\).

    Prueba

    Esto sigue ya que\(X_i\) se distribuye uniformemente en\(D\).

    \(\var(M) = \frac{(m+1)(m-n)}{12 \, n}\).

    Prueba

    La varianza de\(M\) es\(\frac{1}{n^2}\) veces la suma de\(\cov\left(X_i, X_j\right)\) sobre todo\(i, \, j \in \{1, 2, \ldots, n\}\). Existen términos de\(n\) covarianza con el valor dado en el resultado de varianza anterior (correspondiente a\( i = j \)) y\(n^2 - n\) términos con el valor dado en el resultado de covarianza pura anterior (correspondiente a\( i \ne j \)). Simplificar da el resultado.

    \(\var(V) = \frac{(m + 1)(m - n)}{3 \, n}\).

    Prueba

    Esto se desprende de la varianza de las propiedades\( M \) anteriores y estándar de varianza.

    La varianza de\( V \) es decreciente con\(n\), por lo que también\(V\) es consistente. Calculemos la eficiencia relativa del estimador con base en el máximo al estimador basado en la media.

    \(\var(V) \big/ \var(U_n) = (n + 2) / 3\).

    Así, una vez más, el estimador basado en el máximo es mejor. Además del análisis matemático, todos los estimadores excepto a veces\(U_n\) pueden ser manifiestamente inútiles al dar estimaciones que son más pequeñas que algunos de los valores smaple.

    Muestreo con Repuesto

    Si el muestreo es con reemplazo, entonces la muestra\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una secuencia de variables aleatorias independientes e idénticamente distribuidas. Las estadísticas de orden de tales muestras se estudian en el capítulo sobre Muestras Aleatorias.

    Ejemplos y Aplicaciones

    Supongamos que en una lotería, los boletos numerados del 1 al 25 se colocan en un tazón. Se eligen cinco boletos al azar y sin reemplazo.

    1. Encuentra la función de densidad de probabilidad de\(X_{(3)}\).
    2. Encuentra\(\E\left[X_{(3)}\right]\).
    3. Encuentra\(\var\left[X_{(3)}\right]\).
    Contestar
    1. \(\P\left[X_{(3)} = x\right] = \frac{\binom{x-1}{2} \binom{25-x}{2}}{\binom{25}{5}}\)para\(x \in \{3, 4, \ldots, 23\}\)
    2. \(\E\left[X_{(3)}\right] = 13\)
    3. \(\var\left[X_{(3)}\right] = \frac{130}{7}\)

    El problema de los tanques alemanes

    El estimador\(U_n\) fue utilizado por los Aliados durante la Segunda Guerra Mundial para estimar el número de tanques alemanes\(m\) que se habían producido. Los tanques alemanes tenían números de serie, y capturaron tanques alemanes y registros formaron los datos de la muestra. Las estimaciones estadísticas resultaron ser mucho más precisas que las estimaciones de inteligencia. Algunos de los datos se dan en la siguiente tabla.

    Datos de Tanques Alemanes. Fuente: Wikipedia
    Fecha Estimación estadística Estimación de inteligencia Récords alemanes
    Junio 1940 169 1000 122
    Junio 1941 244 1550 271
    Agosto 1942 327 1550 342

    ¡Una de las morales, evidentemente, es no poner números de serie en tus armas!

    Supongamos que en cierta guerra, 5 tanques enemigos han sido capturados. Los números de serie son 51, 3, 27, 82, 65. Calcular la estimación de\(m\), el número total de tanques, utilizando todos los estimadores discutidos anteriormente.

    Contestar
    1. \(u_1 = 17\)
    2. \(u_2 = 80\)
    3. \(u_3 = 101\)
    4. \(u_4 = 96.5\)
    5. \(u_5 = 97.4\)
    6. \(v = 90.2\)

    En el experimento estadístico orden, y establecer\(m = 100\) y\(n = 10\). Ejecuta el experimento 50 veces. Para cada ejecución, calcule la estimación de\(m\) con base en cada estadística de orden. Para cada estimador, calcule la raíz cuadrada del promedio de los cuadrados de los errores a lo largo de las 50 corridas. Con base en estas estimaciones empíricas de error, clasificar los estimadores de\(m\) en términos de calidad.

    Supongamos que en cierta guerra, se han capturado 10 tanques enemigos. Los números de serie son 304, 125, 417, 226, 192, 340, 468, 499, 87, 352. Calcular la estimación de\(m\), el número total de tanques, utilizando el estimador basado en el máximo y el estimador basado en la media.

    Contestar
    1. \(u = 548\)
    2. \(v = 601\)

    This page titled 12.4: Estadísticas de pedidos is shared under a CC BY 2.0 license and was authored, remixed, and/or curated by Kyle Siegrist (Random Services) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.