Saltar al contenido principal

$$\newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$$

$$\newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}}$$

$$\newcommand{\id}{\mathrm{id}}$$ $$\newcommand{\Span}{\mathrm{span}}$$

( \newcommand{\kernel}{\mathrm{null}\,}\) $$\newcommand{\range}{\mathrm{range}\,}$$

$$\newcommand{\RealPart}{\mathrm{Re}}$$ $$\newcommand{\ImaginaryPart}{\mathrm{Im}}$$

$$\newcommand{\Argument}{\mathrm{Arg}}$$ $$\newcommand{\norm}[1]{\| #1 \|}$$

$$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$$

$$\newcommand{\Span}{\mathrm{span}}$$

$$\newcommand{\id}{\mathrm{id}}$$

$$\newcommand{\Span}{\mathrm{span}}$$

$$\newcommand{\kernel}{\mathrm{null}\,}$$

$$\newcommand{\range}{\mathrm{range}\,}$$

$$\newcommand{\RealPart}{\mathrm{Re}}$$

$$\newcommand{\ImaginaryPart}{\mathrm{Im}}$$

$$\newcommand{\Argument}{\mathrm{Arg}}$$

$$\newcommand{\norm}[1]{\| #1 \|}$$

$$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$$

$$\newcommand{\Span}{\mathrm{span}}$$ $$\newcommand{\AA}{\unicode[.8,0]{x212B}}$$

$$\newcommand{\vectorA}[1]{\vec{#1}} % arrow$$

$$\newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow$$

$$\newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$$

$$\newcommand{\vectorC}[1]{\textbf{#1}}$$

$$\newcommand{\vectorD}[1]{\overrightarrow{#1}}$$

$$\newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}}$$

$$\newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}}$$

$$\newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$$

$$\newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}}$$

$$\newcommand{\avec}{\mathbf a}$$ $$\newcommand{\bvec}{\mathbf b}$$ $$\newcommand{\cvec}{\mathbf c}$$ $$\newcommand{\dvec}{\mathbf d}$$ $$\newcommand{\dtil}{\widetilde{\mathbf d}}$$ $$\newcommand{\evec}{\mathbf e}$$ $$\newcommand{\fvec}{\mathbf f}$$ $$\newcommand{\nvec}{\mathbf n}$$ $$\newcommand{\pvec}{\mathbf p}$$ $$\newcommand{\qvec}{\mathbf q}$$ $$\newcommand{\svec}{\mathbf s}$$ $$\newcommand{\tvec}{\mathbf t}$$ $$\newcommand{\uvec}{\mathbf u}$$ $$\newcommand{\vvec}{\mathbf v}$$ $$\newcommand{\wvec}{\mathbf w}$$ $$\newcommand{\xvec}{\mathbf x}$$ $$\newcommand{\yvec}{\mathbf y}$$ $$\newcommand{\zvec}{\mathbf z}$$ $$\newcommand{\rvec}{\mathbf r}$$ $$\newcommand{\mvec}{\mathbf m}$$ $$\newcommand{\zerovec}{\mathbf 0}$$ $$\newcommand{\onevec}{\mathbf 1}$$ $$\newcommand{\real}{\mathbb R}$$ $$\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}$$ $$\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}$$ $$\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}$$ $$\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}$$ $$\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}$$ $$\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}$$ $$\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}$$ $$\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}$$ $$\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}$$ $$\newcommand{\laspan}[1]{\text{Span}\{#1\}}$$ $$\newcommand{\bcal}{\cal B}$$ $$\newcommand{\ccal}{\cal C}$$ $$\newcommand{\scal}{\cal S}$$ $$\newcommand{\wcal}{\cal W}$$ $$\newcommand{\ecal}{\cal E}$$ $$\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}$$ $$\newcommand{\gray}[1]{\color{gray}{#1}}$$ $$\newcommand{\lgray}[1]{\color{lightgray}{#1}}$$ $$\newcommand{\rank}{\operatorname{rank}}$$ $$\newcommand{\row}{\text{Row}}$$ $$\newcommand{\col}{\text{Col}}$$ $$\renewcommand{\row}{\text{Row}}$$ $$\newcommand{\nul}{\text{Nul}}$$ $$\newcommand{\var}{\text{Var}}$$ $$\newcommand{\corr}{\text{corr}}$$ $$\newcommand{\len}[1]{\left|#1\right|}$$ $$\newcommand{\bbar}{\overline{\bvec}}$$ $$\newcommand{\bhat}{\widehat{\bvec}}$$ $$\newcommand{\bperp}{\bvec^\perp}$$ $$\newcommand{\xhat}{\widehat{\xvec}}$$ $$\newcommand{\vhat}{\widehat{\vvec}}$$ $$\newcommand{\uhat}{\widehat{\uvec}}$$ $$\newcommand{\what}{\widehat{\wvec}}$$ $$\newcommand{\Sighat}{\widehat{\Sigma}}$$ $$\newcommand{\lt}{<}$$ $$\newcommand{\gt}{>}$$ $$\newcommand{\amp}{&}$$ $$\definecolor{fillinmathshade}{gray}{0.9}$$
$$\newcommand{\R}{\mathbb{R}}$$$$\newcommand{\N}{\mathbb{N}}$$$$\newcommand{\Z}{\mathbb{Z}}$$$$\newcommand{\E}{\mathbb{E}}$$$$\newcommand{\P}{\mathbb{P}}$$$$\newcommand{\var}{\text{var}}$$$$\newcommand{\sd}{\text{sd}}$$$$\newcommand{\iqr}{\text{iqr}}$$$$\newcommand{\bs}{\boldsymbol}$$

## Teoría Descriptiva

Recordemos nuevamente el modelo básico de la estadística: tenemos una población de objetos de interés, y tenemos diversas medidas (variables) que hacemos sobre estos objetos. Seleccionamos objetos de la población y registramos las variables para los objetos de la muestra; estas se convierten en nuestros datos. Nuestra primera discusión es desde un punto de vista puramente descriptivo. Es decir, no asumimos que los datos son generados por una distribución de probabilidad subyacente. Pero como siempre, recuerde que los propios datos definen una distribución de probabilidad, es decir, la distribución empírica.

Supongamos que$$x$$ es una variable de valor real para una población y que$$\bs{x} = (x_1, x_2, \ldots, x_n)$$ son los valores observados de una muestra de tamaño$$n$$ correspondiente a esta variable. La estadística de orden de rango$$k$$ es el$$k$$ th valor más pequeño en el conjunto de datos, y generalmente se denota$$x_{(k)}$$. Para enfatizar la dependencia del tamaño de la muestra, otra notación común es$$x_{n:k}$$. Por lo tanto,$x_{(1)} \le x_{(2)} \le \cdots \le x_{(n-1)} \le x_{(n)}$ Naturalmente, la variable subyacente$$x$$ debe estar al menos en el nivel ordinal de medición. Las estadísticas de orden tienen las mismas unidades físicas que$$x$$. Uno de los primeros pasos en el análisis exploratorio de datos es ordenar los datos, por lo que las estadísticas de orden ocurren de forma natural. En particular, tenga en cuenta que las estadísticas de orden extremo son$x_{(1)} = \min\{x_1, x_2 \ldots, x_n\}, \quad x_{(n)} = \max\{x_1, x_2, \ldots, x_n\}$ El rango muestral es$$r = x_{(n)} - x_{(1)}$$ y el rango medio de la muestra es$$\frac{r}{2} = \frac{1}{2}\left[x_{(n)} - x_{(1)}\right]$$. Estas estadísticas tienen las mismas unidades físicas que$$x$$ y son medidas de la dispersión del conjunto de datos.

#### La mediana de la muestra

Si$$n$$ es impar, la mediana muestral es la mitad de las observaciones ordenadas, es decir,$$x_{(k)}$$ dónde$$k = \frac{n + 1}{2}$$. Si$$n$$ es par, no hay una sola observación media, sino dos observaciones medias. Así, la mediana del intervalo es$$\left[x_{(k)}, x_{(k + 1)}\right]$$ donde$$k = \frac{n}{2}$$. En este caso, la mediana de la muestra se define como el punto medio del intervalo mediano, es decir,$$\frac{1}{2}\left[x_{(k)} + x_{(k+1)}\right]$$ donde$$k = \frac{n}{2}$$. En cierto sentido, esta definición es un poco arbitraria porque no hay ninguna razón convincente para preferir un punto en el intervalo mediano sobre otro. Para más información sobre este tema, consulte la discusión de las funciones de error en la sección Varianza de la muestra. En cualquier caso, la mediana de la muestra es una estadística natural que da una medida del centro del conjunto de datos.

#### Cuantiles de muestra

Podemos generalizar la mediana muestral discutida anteriormente a otros cuantiles de muestra. Así, supongamos que$$p \in [0, 1]$$. Nuestro objetivo es encontrar el valor que es la fracción$$p$$ del camino a través del conjunto de datos (ordenados). Definimos el rango del valor que estamos buscando como$$(n - 1)p + 1$$. Tenga en cuenta que el rango es una función lineal de$$p$$, y que el rango es 1 cuando$$p = 0$$ y$$n$$ cuando$$p = 1$$. Pero claro, el rango no será un entero en general, así que dejamos$$k = \lfloor (n - 1)p + 1 \rfloor$$, la parte entera del rango deseado, y dejamos$$t = [(n - 1)p + 1] - k$$, la parte fraccionaria del rango deseado. Así,$$(n - 1)p + 1 = k + t$$ dónde$$k \in \{1, 2, \ldots, n\}$$ y$$t \in [0, 1)$$. Entonces, usando interpolación lineal, definimos el cuantil de muestra de orden$$p$$ para que los cuantiles de$x_{[p]} = x_{(k)} + t \left[x_{(k+1)}-x_{(k)}\right] = (1 - t) x_{(k)} + t x_{(k+1)}$ muestra tengan las mismas unidades físicas que la variable subyacente$$x$$. El algoritmo realmente generaliza los resultados para las medianas de muestra.

El cuantil muestral de orden$$p = \frac{1}{2}$$ es la mediana como se definió anteriormente, en ambos casos donde$$n$$ es impar y donde$$n$$ es par.

El cuantil muestral de orden$$\frac{1}{4}$$ se conoce como el primer cuartil y se denota frecuentemente$$q_1$$. El cuantil de muestra de orden$$\frac{3}{4}$$ se conoce como el tercer cuartil y se denota frecuentemente$$q_3$$. A veces se denota la mediana de la muestra que$$\frac{1}{2}$$ es el cuartil de orden$$q_2$$. El rango intercuartílico se define como$$\iqr = q_3 - q_1$$. Tenga en cuenta que$$\iqr$$ es una estadística que mide la propagación de la distribución sobre la mediana, pero por supuesto este número da menos información que el intervalo$$[q_1, q_3]$$.

La estadística$$q_1 - \frac{3}{2} \iqr$$ se llama la barda inferior y la estadística$$q_3 + \frac{3}{2} \iqr$$ se llama la barda superior. A veces se utilizan límite inferior y límite superior en lugar de cerca inferior y valla superior. Los valores en el conjunto de datos que están por debajo de la cerca inferior o por encima de la valla superior son posibles valores atípicos, es decir, valores que no parecen ajustarse al patrón general de los datos. Un valor atípico puede deberse a un error de medición, o puede ser un valor válido pero más bien extremo. En cualquier caso, los valores atípicos suelen merecer un estudio adicional.

Las cinco estadísticas a menudo$$\left(x_{(1)}, q_1, q_2, q_3, x_{(n)}\right)$$ se conocen como el resumen de cinco números. En conjunto, estas estadísticas dan una gran cantidad de información sobre el conjunto de datos en términos de centro, propagación y asimetría. Los cinco números separan aproximadamente el conjunto de datos en cuatro intervalos, cada uno de los cuales contiene aproximadamente el 25% de los datos. Gráficamente, los cinco números, y los valores atípicos, a menudo se muestran como una trama de caja, a veces llamada trama de caja y bigotes. Una gráfica de caja consiste en un eje que se extiende a través del rango de los datos. Se dibuja una línea desde el valor más pequeño que no es un valor atípico (por supuesto que este puede ser el mínimo$$x_{(1)}$$) hasta el valor más grande que no es un valor atípico (por supuesto, este puede ser el máximo$$x_{(n)}$$). Las marcas verticales (bigotes) se dibujan en los extremos de esta línea. Una caja rectangular se extiende desde el primer cuartil$$q_1$$ hasta el tercer cuartil$$q_3$$ y con un bigote adicional en la mediana$$q_2$$. Por último, los valores atípicos se denotan como puntos (más allá de los bigotes extremos). Todos los paquetes estadísticos computarán los cuartiles y la mayoría dibujarán parcelas de caja. La siguiente imagen muestra una trama de caja con 3 valores atípicos.

#### Definiciones Alternativas

El algoritmo dado anteriormente no es la única forma razonable de definir cuantiles de muestra, y de hecho hay muchas alternativas. Un método natural sería calcular primero la función de distribución empírica$F(x) = \frac{1}{n} \sum_{i=1}^n \bs{1}(x_i \le x), \quad x \in \R$ Recall que$$F$$ tiene las propiedades matemáticas de una función de distribución, y de hecho$$F$$ es la función de distribución de la distribución empírica de los datos. Recordemos que esta es la distribución que coloca la probabilidad$$\frac{1}{n}$$ en cada valor de datos$$x_i$$ (por lo que esta es la distribución uniforme discreta en$$\{x_1, x_2, \ldots, x_n\}$$ si los valores de datos son distintos). Así,$$F(x) = \frac{k}{n}$$ para$$x \in [x_{(k)}, x_{(k+1)})$$. Entonces, podríamos definir la función cuantil para que sea la inversa de la función de distribución, como solemos hacer para las distribuciones de probabilidad:$F^{-1}(p) = \min\{x \in \R: F(x) \ge p\}, \quad p \in (0, 1)$ Es fácil ver que con esta definición, el cuantil de orden$$p \in (0, 1)$$ es simplemente$$x_{(k)}$$ dónde$$k = \lceil n p \rceil$$.

Otro método es calcular el rango del cuantil de orden$$p \in (0, 1)$$ como$$(n + 1)p$$, en lugar de$$(n - 1)p + 1$$, y luego usar la interpolación lineal tal como lo hemos hecho nosotros. Para entender el razonamiento detrás de este método, supongamos que la variable subyacente$$x$$ toma valor en un intervalo$$(a, b)$$. Entonces los$$n$$ puntos en el conjunto de datos$$\bs{x}$$ separan este intervalo en$$n + 1$$ subintervalos, por lo que es razonable pensar en él$$x_{(k)}$$ como el cuantil de orden$$\frac{k}{n + 1}$$. Este método también reduce al cálculo estándar para la mediana cuando$$p = \frac{1}{2}$$. No obstante, el método fallará si$$p$$ es tan pequeño que$$(n + 1) p \lt 1$$ o tan grande que$$(n + 1) p > n$$.

La definición primaria que damos anteriormente es la que más se usa en software estadístico y hojas de cálculo. Además, cuando el tamaño de la muestra$$n$$ es grande, no importa mucho cuál de estas definiciones de cuantiles competidoras se utilice. Todos darán resultados similares.

#### Transformaciones

Supongamos nuevamente que$$\bs{x} = (x_1, x_2, \ldots, x_n)$$ es una muestra de tamaño$$n$$ de una variable poblacional$$x$$, pero ahora supongamos también que$$y = a + b x$$ es una nueva variable, donde$$a \in \R$$ y$$b \in (0, \infty)$$. Recordemos que las transformaciones de este tipo son transformaciones a escala de ubicación y a menudo corresponden a cambios en unidades. Por ejemplo, si$$x$$ es la longitud de un objeto en pulgadas, entonces$$y = 2.54 x$$ es la longitud del objeto en centímetros. Si$$x$$ es la temperatura de un objeto en grados Fahrenheit, entonces$$y = \frac{5}{9}(x - 32)$$ es la temperatura del objeto en grados Celsius. Dejar$$\bs{y} = \bs{a} + b \bs{x}$$ denotar la muestra de la variable$$y$$.

Las estadísticas de orden y los cuantiles se conservan bajo transformaciones a escala de ubicación:

1. $$y_{(i)} = a + b x_{(i)}$$para$$i \in \{1, 2, \ldots, n\}$$
2. $$y_{[p]} = a + b x_{[p]}$$para$$p \in [0, 1]$$
Prueba

La parte (a) se desprende fácilmente del hecho de que la transformación a escala de ubicación es estrictamente creciente y por lo tanto preserva el orden:$$x_i \lt x_j$$ si y solo si$$a + b x_i \lt a + b x_j$$. Para la parte (b), let$$p \in [0, 1]$$ and let$$k \in \{1, 2, \ldots,n\}$$ and$$t \in [0, 1)$$ be as above in the definition of the sample quantile or order$$p$$. Entonces

$y_{[p]} = y_{(k)} + t[y_{(k+1)} - y_{(k)}] = a + b x_{(k)} + t[a + b x_{(k+1)} - (a + b x_{(k)})] = a + b\left(x_{(k)} + t [x_{(k+1)}- x_{(k)}]\right) = a + b x_{[p]}$

Al igual que la desviación estándar (nuestra medida más importante de propagación), el rango y el rango intercuartílico no se ven afectados por el parámetro de ubicación, sino que son escalados por el parámetro de escala.

La gama y el rango intercuartílico de$$\bs{y}$$ son

1. $$r(\bs{y}) = b \, r(\bs{x})$$
2. $$\iqr(\bs{y}) = b \, \iqr(\bs{x})$$
Prueba

De manera más general, supongamos$$y = g(x)$$ dónde$$g$$ está una función de valor real estrictamente creciente en el conjunto de valores posibles de$$x$$. Dejar$$\bs{y} = \left(g(x_1), g(x_2), \ldots, g(x_n)\right)$$ denotar la muestra correspondiente a la variable$$y$$. Entonces (como en la prueba del Teorema 2), las estadísticas de orden se conservan así$$y_{(i)} = g(x_{(i)})$$. Sin embargo, si$$g$$ es no lineal, los cuantiles no se conservan (porque los cuantiles implican interpolación lineal). Es decir,$$y_{[p]}$$ y no$$g(x_{[p]})$$ suelen ser lo mismo. Cuando$$g$$ es convexo o cóncavo podemos al menos dar una desigualdad para los cuantiles de muestra.

Supongamos que$$y = g(x)$$ donde$$g$$ está aumentando estrictamente. Entonces

1. $$y_{(i)} = g\left(x_{(i)}\right)$$para$$i \in \{1, 2, \ldots, n\}$$
2. Si$$g$$ es convexo entonces$$y_{[p]} \ge g\left(x_{[p]}\right)$$ para$$p \in [0, 1]$$
3. Si$$g$$ es cóncavo entonces$$y_{[p]} \le g\left(x_{[p]}\right)$$ para$$p \in [0, 1]$$
Prueba

Como se señaló, la parte a) sigue ya que$$g$$ es estrictamente creciente y de ahí preserva el orden. La parte (b) se desprende de la definición de convexidad. Para$$p \in [0, 1]$$, y$$k \in \{1, 2, \ldots, n\}$$ y$$t \in [0, 1)$$ como en la definición del cuantil de muestra de orden$$p$$, tenemos la$y_{[p]} = (1 - t) y_{(k)} + t y_{(k+1)} = (1 - t) g\left(x_{(k)}\right) + t g\left(x_{(k+1)}\right) \ge g\left[(1 - t) x_{(k)} + t x_{(k+1)}\right] = g\left(x_{[p]}\right)$ Parte (c) que sigue por el mismo argumento.

#### Parcelas de tallo y hoja

Una gráfica de tallo y hoja es una visualización gráfica de las estadísticas de orden$$\left(x_{(1)}, x_{(2)}, \ldots, x_{(n)}\right)$$. Tiene el beneficio de mostrar los datos de forma gráfica, como un histograma, y al mismo tiempo, preservar los datos ordenados. Primero asumimos que los datos tienen un formato de número fijo: un número fijo de dígitos, luego quizás un punto decimal y otro número fijo de dígitos. Se construye una parcela de tallo y hoja usando una parte inicial de esta cuerda como tallo y las partes restantes como hojas. Hay muchas variaciones en cómo hacer esto, así que en lugar de dar una definición exhaustiva y complicada, solo veremos un par de ejemplos en el ejercicio a continuación.

Continuamos nuestra discusión de las estadísticas de orden excepto que ahora asumimos que las variables son variables aleatorias. Específicamente, supongamos que tenemos un experimento aleatorio básico, y que$$X$$ es una variable aleatoria de valor real para el experimento con función de distribución$$F$$. Realizamos replicaciones$$n$$ independientes del experimento básico para generar una muestra aleatoria$$\bs{X} = (X_1, X_2, \ldots, X_n)$$ de tamaño a$$n$$ partir de la distribución de$$X$$. Recordemos que esta es una secuencia de variables aleatorias independientes, cada una con la distribución de$$X$$. Todas las estadísticas definidas en la sección anterior tienen sentido, pero ahora por supuesto, son variables aleatorias. Utilizamos la notación establecida previamente, excepto que seguimos nuestra convención habitual de denotar variables aleatorias con mayúsculas. Así, para$$k \in \{1, 2, \ldots, n\}$$,$$X_{(k)}$$ es la estadística de orden$$k$$ th, es decir, la$$k$$ más pequeña de$$(X_1, X_2, \ldots, X_n)$$. Nuestro interés ahora está en la distribución de las estadísticas de orden y las estadísticas derivadas de ellas.

#### Distribución de la estadística de orden$$k$$ th

Encontrar la función de distribución de un estadístico de orden es una buena aplicación de los ensayos de Bernoulli y la distribución binomial.

La función$$F_k$$ de distribución de$$X_{(k)}$$ viene dada por$F_k(x) = \sum_{j=k}^n \binom{n}{j} \left[F(x)\right]^j \left[1 - F(x)\right]^{n - j}, \quad x \in \R$

Prueba

For$$x \in \R$$, let$N_x = \sum_{i=1}^n \bs{1}(X_i \le x)$ so that$$N_x$$ is the number of sample variables que caen en el intervalo$$(-\infty, x]$$. Las variables indicadoras en la suma son independientes, y cada una toma el valor 1 con probabilidad$$F(x)$$. Así,$$N_x$$ tiene la distribución binomial con parámetros$$n$$ y$$F(x)$$. Siguiente nota que$$X_{(k)} \le x$$ si y sólo si$$N_x \ge k$$ para$$x \in \R$$ y$$k \in \{1, 2, \ldots, n\}$$, ya que ambos eventos significan que hay al menos variables de$$k$$ muestra en el intervalo$$(-\infty x]$$. De ahí$\P\left(X_{(k)} \le x\right) = \P\left(N_x \ge k\right) = \sum_{j=k}^n \binom{n}{j} \left[F(x)\right]^j \left[1 - F(x)\right]^{n - j}$

Como siempre, las estadísticas de orden extremo son particularmente interesantes.

Las funciones$$F_1$$ de distribución de$$X_{(1)}$$ y$$F_n$$ de$$X_{(n)}$$ están dadas por

1. $$F_1(x) = 1 - \left[1 - F(x)\right]^n$$para$$x \in \R$$
2. $$F_n(x) = \left[F(x)\right]^n$$para$$x \in \R$$

Las funciones cuantiles$$F_1^{-1}$$ y$$F_n^{-1}$$ de$$X_{(1)}$$ y$$X_{(n)}$$ están dadas por

1. $$F_1^{-1}(p) = F^{-1}\left[1 - (1 - p)^{1/n}\right]$$para$$p \in (0, 1)$$
2. $$F_n^{-1}(p) = F^{-1}\left(p^{1/n}\right)$$para$$p \in (0, 1)$$
Prueba

Las fórmulas siguen del teorema anterior y álgebra simple. Recordemos que si$$G$$ es una función de distribución, entonces la función cuantil correspondiente viene dada por$$G^{-1}(p) = \min\{x \in \R: G(x) \ge p\}$$ for$$p \in (0, 1)$$.

Cuando la distribución subyacente es continua, podemos dar una fórmula simple para la función de densidad de probabilidad de una estadística de orden.

Supongamos ahora que$$X$$ tiene una distribución continua con función de densidad de probabilidad$$f$$. Luego$$X_{(k)}$$ tiene una distribución continua con función de densidad de probabilidad$$f_k$$ dada por$f_k(x) = \frac{n!}{(k - 1)! (n - k)!} \left[F(x)\right]^{k-1} \left[1 - F(x)\right]^{n-k} f(x), \quad x \in \R$

Prueba

Por supuesto,$$f_k(x) = F_k^\prime(x)$$. Tomamos los derivados término por término y usamos la regla del producto en$\frac{d}{dx}\left[F(x)\right]^j \left[1 - F(x)\right]^{n-j} = j \left[F(x)\right]^{j-1} f(x) \left[1 - F(x)\right]^{n-j} - (n - j)\left[F(x)\right]^j \left[1 - F(x)\right]^{n-j-1}f(x)$ Utilizamos las identidades binomiales$$j \binom{n}{j} = n \binom{n - 1}{j - 1}$$ y$$(n - j) \binom{n}{j} = n \binom{n - 1}{j}$$. El efecto neto es$f_k(x) = n f(x) \left[ \sum_{j=k}^n \binom{n - 1}{j - 1}[F(x)]^{j-1} [1 - F(x)]^{(n-1)-(j-1)} - \sum_{j=k}^{n-1} \binom{n-1}{j} [F(x)]^j [1 - F(x)]^{(n-1)-j}\right]$ Las sumas cancelan, dejando sólo el$$j = k$$ término en la primera suma. De ahí$f_k(x) = n f(x) \binom{n-1}{k-1}[F(x)]^{k-1}[1 - F(x)]^{n-k}$ Pero$$n \binom{n-1}{k-1} = \frac{n!}{(k-1)!(n-k)!}$$.

Prueba heurística

Hay un simple argumento heurístico para este resultado Primero,$$f_k(x) \, dx$$ es la probabilidad de que$$X_{(k)}$$ se encuentre en un intervalo infinitesimal de tamaño$$dx$$ aproximadamente$$x$$. Por otro lado, este evento significa que una de las variables de muestra está en el intervalo infinitesimal, las variables de$$k - 1$$ muestra son menores que$$x$$ y las variables de$$n - k$$ muestra son mayores que$$x$$. El número de formas de elegir estas variables es el coeficiente multinomial$\binom{n}{k - 1, 1, n - k} = \frac{n!}{(k - 1)! (n - k)!}$ Por independencia, la probabilidad de que las variables elegidas estén en los intervalos especificados es$\left[F(x)\right]^{k-1} \left[1 - F(x)\right]^{n-k} f(x) \, dx$

Aquí están los casos especiales para las estadísticas de orden extremo.

La función$$f_1$$ de densidad de probabilidad de$$X_{(1)}$$ y$$f_n$$$$X_{(n)}$$ de viene dada por

1. $$f_1(x) = n \left[1 - F(x)\right]^{n-1} f(x)$$para$$x \in \R$$
2. $$f_n(x) = n \left[F(x)\right]^{n-1} f(x)$$para$$x \in \R$$

#### Distribuciones Conjuntas

Suponemos nuevamente que$$X$$ tiene una distribución continua con función de distribución$$F$$ y función de densidad de probabilidad$$f$$.

Supongamos que$$j, k \in \{1, 2, \ldots, n\}$$ con$$j \lt k$$. La función de densidad de probabilidad conjunta$$f_{j,k}$$ de$$\left(X_{(j)}, X_{(k)}\right)$$ viene dada por

$f_{j,k}(x, y) = \frac{n!}{(j - 1)! (k - j - 1)! (n - k)!} \left[F(x)\right]^{j-1} \left[F(y) - F(x)\right]^{k - j - 1} \left[1 - F(y)\right]^{n-k} f(x) f(y); \quad x, \, y \in \R, x \lt y$
Prueba heurística

Queremos calcular la probabilidad de que$$X_{(j)}$$ se encuentre en un intervalo infinitesimal$$dx$$ aproximadamente$$x$$ y$$X_{(k)}$$ esté en un intervalo infinitesimal$$dy$$ aproximadamente$$y$$. Tenga en cuenta que debe haber variables de$$j - 1$$ muestra que sean menores que$$x$$, una variable en el intervalo infinitesimal aproximadamente$$x$$, variables de$$k - j - 1$$ muestra que están entre$$x$$ y$$y$$, una variable en el intervalo infinitesimal aproximadamente$$y$$, y$$n - k$$ muestra variables que son mayores que$$y$$. El número de formas de seleccionar las variables es el coeficiente multinomial$\binom{n}{j-1, 1, k - j - 1, 1, n - k} = \frac{n!}{(j - 1)! (k - j - 1)! (n - k)!}$ Por independencia, la probabilidad de que las variables elegidas estén en los intervalos especificados es$\left[F(x)\right]^{j-1} f(x) dx \left[F(y) - F(x)\right]^{k - j - 1} f(y) dy \left[1 - F(y)\right]^{n-k}$

A partir de la distribución conjunta de las estadísticas de dos órdenes podemos, en principio, encontrar la distribución de varias otras estadísticas: el rango muestral$$R$$; los cuantiles muestrales$$X_{[p]}$$ para$$p \in [0, 1]$$, y en particular los cuartiles de muestra$$Q_1$$$$Q_2$$,$$Q_3$$ y el rango intercuartil IQR. La distribución conjunta de las estadísticas de orden extremo$$(X_{(1)}, X_{(n)})$$ es un caso particularmente importante.

La función de densidad de probabilidad conjunta$$f_{1,n}$$ de$$\left(X_{(1)}, X_{(n)}\right)$$ viene dada por$f_{1,n}(x, y) = n (n - 1) \left[F(y) - F(x)\right]^{n-2} f(x) f(y); \quad x, \, y \in \R, x \lt y$

Prueba

Este es un corolario del Teorema 7 con$$j = 1$$ y$$k = n$$.

Argumentos similares al anterior se pueden utilizar para obtener la función de densidad de probabilidad conjunta de cualquier número de las estadísticas de orden. Por supuesto, estamos particularmente interesados en la función conjunta de densidad de probabilidad de todas las estadísticas de orden. Resulta que esta función de densidad tiene una forma notablemente simple.

$$\left(X_{(1)}, X_{(2)}, \ldots, X_{(n)}\right)$$tiene una función conjunta de densidad de probabilidad$$g$$ dada por$g(x_1, x_2, \ldots, x_n) = n! f(x_1) \, f(x_2) \, \cdots \, f(x_n), \quad x_1 \lt x_2 \lt \cdots \lt x_n$

Prueba

Por cada permutación$$\bs{i} = (i_1, i_2, \ldots, i_n)$$ de$$(1, 2, \ldots, n)$$, vamos$$S_\bs{i} = \{\bs{x} \in \R^n: x_{i_1} \lt x_{i_2} \lt \cdots \lt x_{i_n}\}$$. En$$S_\bs{i}$$, el mapeo$$(x_1, x_2, \ldots, x_n) \mapsto (x_{i_1}, x_{i_2}, \ldots, x_{i_n})$$ es uno a uno, tiene primeras derivadas parciales continuas y tiene 1 jacobiano. Los conjuntos$$S_\bs{i}$$ donde$$\bs{i}$$ rangos sobre las$$n!$$ permutaciones de$$(1, 2, \ldots, n)$$ son disjuntos. La probabilidad de que no$$(X_1, X_2, \ldots, X_n)$$ esté en uno de estos conjuntos es 0. El resultado ahora se desprende de la fórmula de cambio multivariado de variables.

Prueba heurística

Nuevamente, hay un simple argumento heurístico para este resultado. Para cada uno$$\bs{x} \in \R^n$$ con$$x_1 \lt x_2 \lt \cdots \lt x_n$$, hay$$n!$$ permutaciones de las coordenadas de$$\bs{x}$$. La densidad de probabilidad de$$(X_1, X_2, \ldots, X_n)$$ en cada uno de estos puntos es$$f(x_1) \, f(x_2) \, \cdots \, f(x_n)$$. De ahí la densidad de probabilidad de$$(X_{(1)}, X_{(2)}, \ldots, X_{(n)})$$$$\bs{x}$$ a$$n!$$ veces este producto.

Una gráfica de probabilidad, también llamada gráfica cuantil-cuantil o gráfica Q-Q para abreviar, es una prueba gráfica informal para determinar si los datos observados provienen de una distribución especificada. Así, supongamos que observamos datos$$(x_1, x_2, \ldots, x_n)$$ de valor real de una muestra aleatoria de tamaño$$n$$. Nos interesa la cuestión de si los datos podrían provenir razonablemente de una distribución continua con función de distribución$$F$$. Primero, ordenamos que los datos de menor a mayor; esto nos da la secuencia de valores observados de las estadísticas de orden:$$\left(x_{(1)}, x_{(2)}, \ldots, x_{(n)}\right)$$.

Tenga en cuenta que podemos ver$$x_{(i)}$$ tiene el cuantil de muestra de orden$$\frac{i}{n + 1}$$. Por supuesto, por definición, el cuantil de distribución del orden$$\frac{i}{n + 1}$$ es$$y_i = F^{-1} \left( \frac{i}{n + 1} \right)$$. Si los datos realmente provienen de la distribución, entonces esperaríamos que los puntos estuvieran$$\left(\left(x_{(1)}, y_1\right), \left(x_{(2)}, y_2\right) \ldots, \left(x_{(n)}, y_n\right)\right)$$ cerca de la línea diagonal$$y = x$$; a la inversa, una fuerte desviación de esta línea es evidencia de que la distribución no produjo los datos. La gráfica de estos puntos es referida como una gráfica de probabilidad.

Por lo general, sin embargo, no estamos tratando de ver si los datos provienen de una distribución particular, sino de una familia paramétrica de distribuciones (como las familias normales, uniformes o exponenciales). Generalmente nos vemos forzados a esta situación porque no conocemos los parámetros; de hecho, el siguiente paso, después de la gráfica de probabilidad, puede ser estimar los parámetros. Afortunadamente, el método de la gráfica de probabilidad tiene una extensión simple para cualquier familia de distribuciones a escala de ubicación. Así, supongamos que$$G$$ es una función de distribución dada. Recordemos que la familia ubicación-escala asociada a$$G$$ tiene función de distribución$$F(x) = G \left( \frac{x - a}{b} \right)$$ para,$$x \in \R$$, donde$$a \in \R$$ está el parámetro de ubicación y$$b \in (0, \infty)$$ es el parámetro de escala. Recordemos también que para$$p \in (0, 1)$$, si$$z_p = G^{-1}(p)$$ denotan el cuantil de orden$$p$$ para$$G$$ y$$y_p = F^{-1}(p)$$ el cuantil de orden$$p$$ para$$F$$. Entonces$$y_p = a + b \, z_p$$. De ello se deduce que si la gráfica de probabilidad construida con función de distribución$$F$$ es casi lineal (y en particular, si está cerca de la línea diagonal), entonces la gráfica de probabilidad construida con función de distribución$$G$$ será casi lineal. Así, podemos usar la función de distribución$$G$$ sin tener que conocer los parámetros de ubicación y escala.

En los ejercicios siguientes, explorará las gráficas de probabilidad para las distribuciones normal, exponencial y uniforme. Estudiaremos un procedimiento formal cuantitativo, conocido como la prueba de bondad de ajuste de chi-cuadrado en el capítulo sobre Prueba de Hipótesis.

### Ejercicios y Aplicaciones

Supongamos que$$x$$ es la temperatura (en grados Fahrenheit) para cierto tipo de componente electrónico después de 10 horas de funcionamiento. Una muestra de 30 componentes tiene resumen de cinco números$$(84, 102, 113, 120, 135)$$.

1. Clasificar$$x$$ por tipo y nivel de medición.
2. Encuentra la gama y gama intercuartil.
3. Encuentre el resumen de cinco números, el rango y el rango intercuartílico si la temperatura se convierte a grados Celsius. La transformación es$$y = \frac{5}{9}(x - 32)$$.
Contestar
1. continuo, intervalo
2. 51, 18
3. $$(28.89, 38.89, 45.00, 48.89, 57.22)$$, 28.33, 10

Supongamos que$$x$$ es la longitud (en pulgadas) de una pieza mecanizada en un proceso de fabricación. Una muestra de 50 partes tiene resumen de cinco números (9.6, 9.8, 10.0, 10.1, 10.3).

1. Clasificar$$x$$ por tipo y nivel de medición.
2. Encuentra la gama y gama intercuartil.
3. Encuentre el resumen de cinco números, el rango y el intercuartil si la longitud se mide en centímetros. La transformación es$$y = 2.54 x$$.
Contestar
1. continuo, relación
2. 0.7, 0.3
3. $$(24.38, 24.89, 25.40, 25.65, 26.16)$$, 1.78, 0.76

La profesora Moriarity cuenta con una clase de 25 alumnos en su sección de Stat 101 en Enormous State University (ESU). Para el primer examen de mitad de período, el resumen de cinco números fue (16, 52, 64, 72, 81) (de un posible 100 puntos). El profesor Moriarity piensa que las calificaciones son un poco bajas y está considerando diversas transformaciones para aumentar las calificaciones.

1. Encuentra la gama y gama intercuartil.
2. Supongamos que suma 10 puntos a cada grado. Encuentre el resumen de cinco números, el rango y el rango intercuartílico para las calificaciones transformadas.
3. Supongamos que multiplica cada grado por 1.2. Encuentre el resumen de cinco números, el rango y el rango intercuartílico para las calificaciones transformadas.
4. Supongamos que usa la transformación$$w = 10 \sqrt{x}$$, que curva las calificaciones mucho en el extremo bajo y muy poco en el extremo alto. Da cualquier información que puedas sobre el resumen de cinco números de las calificaciones transformadas.
5. Determinar si el puntaje bajo de 16 es un valor atípico.
Contestar
1. 65, 20
2. $$(26, 62, 74, 82, 91)$$, 65, 20
3. $$(19.2, 62.4, 76.8, 86.4, 97.2)$$, 78, 24
4. $$y_{(1)} = 40$$,$$q_1 \le 72.11$$,$$q_2 \le 80$$,$$q_3 \le 84.85$$,$$y_{(25)} = 90$$
5. El cerco inferior es 27, así que sí 16 es un valor atípico.

#### Ejercicios Computacionales

Todos los paquetes de software estadístico computarán estadísticas de orden y cuantiles, dibujarán parcelas de tallo y hoja y diagramas de caja, y en general realizarán los procedimientos numéricos y gráficos discutidos en esta sección. Para experimentos estadísticos reales, particularmente aquellos con grandes conjuntos de datos, el uso de software estadístico es esencial. Por otro lado, hay cierto valor en la realización de los cálculos a mano, con pequeños conjuntos de datos artificiales, con el fin de dominar los conceptos y definiciones. En esta subsección, haga los cómputos y dibuje las gráficas con ayudas tecnológicas mínimas.

Supongamos que$$x$$ es el número de cursos de matemáticas realizados por un estudiante de ESU. Una muestra de 10 estudiantes de ESU da los datos$$\bs{x} = (3, 1, 2, 0, 2, 4, 3, 2, 1, 2)$$.

1. Clasificar$$x$$ por tipo y nivel de medición.
2. Dar las estadísticas de la orden
3. Calcular el resumen de cinco números y dibujar la gráfica de caja.
4. Calcular el rango y el rango intercuartílico.
Contestar
1. discreto, relación
2. $$(0, 1, 1, 2, 2, 2, 2, 3, 3, 4)$$
3. $$(0, 1.25, 2, 2.75, 4)$$
4. 4, 1.5

Supongamos que una muestra de tamaño 12 de una variable discreta$$x$$ tiene una función de densidad empírica dada por$$f(-2) = 1/12$$$$f(-1) = 1/4$$,,$$f(0) = 1/3$$,$$f(1) = 1/6$$,$$f(2) = 1/6$$.

1. Dar las estadísticas del pedido.
2. Calcular el resumen de cinco números y dibujar la gráfica de caja.
3. Calcular el rango y el rango intercuartílico.
Contestar
1. $$(-2, -1, -1, -1, 0, 0, 0, 0, 1, 1, 2, 2)$$
2. $$(-2, -1, 0, 1, 2)$$
3. 4, 2

La parcela de tallo y hoja a continuación da las calificaciones para una prueba de 100 puntos en un curso de probabilidad con 38 estudiantes. El primer dígito es el tallo y el segundo dígito es la hoja. Así, el puntaje bajo fue de 47 y el puntaje más alto fue de 98. Los puntajes en la fila 6 son 60, 60, 62, 63, 65, 65, 67, 68.

\ [\ begin {array} {l|l}
4 & 7\\
5 & 0346\\
6 & 00235578\\
7 &0112346678899\\
8 &0367889\\
9 & 1368
\ end {array}\ nonumber\]

Calcular el resumen de cinco números y dibujar la gráfica de caja.

Contestar

$$(47, 65, 75, 83, 98)$$

#### Ejercicios de App

En la app de histograma, construye una distribución con al menos 30 valores de cada uno de los tipos que se indican a continuación. Anote el resumen de cinco números.

1. Una distribución uniforme.
2. Una distribución simétrica, unimodal.
3. Una distribución unimodal que está sesgada a la derecha.
4. Una distribución unimodal que está sesgada a la izquierda.
5. Una distribución bimodal simétrica.
6. Una distribución$$u$$ en forma.

En la app de función de error, Comience con una distribución y agregue puntos adicionales de la siguiente manera. Anote el efecto en el resumen de cinco números:

1. Agrega un punto a continuación$$x_{(1)}$$.
2. Agrega un punto entre$$x_{(1)}$$ y$$q_1$$.
3. Agrega un punto entre$$q_1$$ y$$q_2$$.
4. Agrega un punto entre$$q_2$$ y$$q_3$$.
5. Agrega un punto entre$$q_3$$ y$$x_{(n)}$$.
6. Agrega un punto arriba$$x_{(n)}$$.

En el último problema, es posible que hayas notado que cuando agregas un punto adicional a la distribución, una o más de las cinco estadísticas no cambian. En general, los cuantiles pueden ser relativamente insensibles a los cambios en los datos.

#### La distribución uniforme

Recordemos que la distribución uniforme estándar es la distribución uniforme en el intervalo$$[0, 1]$$.

Supongamos que$$\bs{X}$$ es una muestra aleatoria de tamaño$$n$$ a partir de la distribución uniforme estándar. For$$k \in \{1, 2, \ldots, n\}$$,$$X_{(k)}$$ tiene la distribución beta, con parámetro izquierdo$$k$$ y parámetro derecho$$n - k + 1$$. La función de densidad de probabilidad$$f_k$$ viene dada por$f_k(x) = \frac{n!}{(k - 1)! (n - k)!} x^{k-1} (1 - x)^{n-k}, \quad 0 \le x \le 1$

Prueba

Esto se desprende inmediatamente del teorema básico anterior desde$$f(x) = 1$$ y$$F(x) = x$$ para$$0 \le x \le 1$$. A partir de la forma de$$f_k$$ podemos identificar la distribución como beta con parámetro izquierdo$$k$$ y parámetro derecho$$n - k + 1$$.

En el experimento estadístico de orden, seleccione la distribución uniforme estándar y$$n = 5$$. $$k$$Varía de 1 a 5 y anote la forma de la función de densidad de probabilidad de$$X_{(k)}$$. Para cada valor de$$k$$, ejecute la simulación 1000 veces y compare la función de densidad empírica con la función de densidad de probabilidad verdadera.

Es fácil extender los resultados de la distribución uniforme estándar a la distribución uniforme general en un intervalo.

Supongamos que$$\bs{X}$$ es una muestra aleatoria de tamaño$$n$$ a partir de la distribución uniforme en el intervalo$$[a, a + h]$$ donde$$a \in \R$$ y$$h \in (0, \infty)$$. For$$k \in \{1, 2, \ldots, n\}$$,$$X_{(k)}$$ tiene la distribución beta con el parámetro izquierdo$$k$$, el parámetro derecho$$n - k + 1$$, el parámetro$$a$$ de ubicación y el parámetro de escala$$h$$. En particular,

1. $$\E\left(X_{(k)}\right) = a + h \frac{k}{n + 1}$$
2. $$\var\left(X_{(k)}\right) = h^2 \frac{k (n - k + 1)}{(n + 1)^2 (n + 2)}$$
Prueba

Supongamos que$$\bs{U} = (U_1, U_2, \ldots, U_n)$$ es una muestra aleatoria de tamaño$$n$$ a partir de la distribución uniforme estándar, y dejar que$$X_i = a + h U_i$$ para$$i \in \{1, 2, \ldots, n\}$$. Entonces$$\bs{X} = (X_1, X_2, \ldots, X_n)$$ es una muestra aleatoria de tamaño$$n$$ a partir de la distribución uniforme en el intervalo$$[a, a + h]$$, y además,,$$X_{(k)} = a + h U_{(k)}$$. Por lo que la distribución de$$X_{(k)}$$ sigue del resultado anterior. Las partes (a) y (b) siguen los resultados estándar para la distribución beta.

Volvemos a la distribución uniforme estándar y consideramos el rango de la muestra aleatoria.

Supongamos que$$\bs{X}$$ es una muestra aleatoria de tamaño$$n$$ a partir de la distribución uniforme estándar. El rango muestral$$R$$ tiene la distribución beta con el parámetro izquierdo$$n - 1$$ y el parámetro derecho 2. La función de densidad de probabilidad$$g$$ viene dada por$g(r) = n (n - 1) r^{n-2} (1 - r), \quad 0 \le r \le 1$

Prueba

Del resultado anterior, el PDF conjunto de$$(X_{(1)}, X_{(n)})$$ es$$f_{1, n}(x, y) = n (n - 1) (y - x)^{n - 2}$$ para$$0 \le x \le y \le 1$$. De ahí, para$$r \in [0, 1]$$, De$\P(R \gt r) = \P(X_{(n)} - X_{(1)} \gt r) = \int_0^{1-r} \int_{x+r}^1 n (n - 1) (y - x)^{n-2} \, dy \, dx = (n - 1) r^n - n r^{n-1} + 1$ ello se deduce que el CDF de$$R$$ es$$G(r) = n r^{n-1} - (n - 1)r^n$$ para$$0 \le r \le 1$$. Tomando la derivada con respecto a$$r$$ y simplificando da el PDF$$g(r) = n (n - 1) r^{n-2} (1 - r)$$ para$$0 \le r \le 1$$. Podemos decir por la forma de$$g$$ que la distribución es beta con parámetro izquierdo$$n - 1$$ y parámetro derecho 2.

Una vez más, es fácil extender este resultado a una distribución uniforme general.

Supongamos que$$\bs{X} = (X_1, X_2, \ldots, X_n)$$ es una muestra aleatoria de tamaño$$n$$ a partir de la distribución uniforme sobre$$[a, a + h]$$ dónde$$a \in \R$$ y$$h \in (0, \infty)$$. El rango de muestra$$R = X_{(n)} - X_{(1)}$$ tiene la distribución beta con el parámetro izquierdo$$n - 1$$, el parámetro$$2$$ derecho y el parámetro de escala$$h$$. En particular,

1. $$\E(R) = h \frac{n - 1}{n + 1}$$
2. $$\var(R) = h^2 \frac{2 (n _ 1)}{(n + 1)^2 (n + 2)}$$
Prueba

Supongamos de nuevo que$$\bs{U} = (U_1, U_2, \ldots, U_n)$$ es una muestra aleatoria de tamaño$$n$$ a partir de la distribución uniforme estándar, y dejar que$$X_i = a + h U_i$$ para$$i \in \{1, 2, \ldots, n\}$$. Entonces$$\bs{X} = (X_1, X_2, \ldots, X_n)$$ es una muestra aleatoria de tamaño$$n$$ a partir de la distribución uniforme en el intervalo$$[a, a + h]$$, y además,,$$X_{(k)} = a + h U_{(k)}$$. De ahí$$X_{(n)} - X_{(1)} = h(U_{(n)} - U_{(1)}$$ así la distribución de$$R$$ sigue del resultado anterior. Las partes (a) y (b) siguen los resultados estándar para la distribución beta.

La distribución conjunta de las estadísticas de pedidos para una muestra a partir de la distribución uniforme es fácil de obtener.

Supongamos que$$(X_1, X_2, \ldots, X_n)$$ es una muestra aleatoria de tamaño$$n$$ a partir de la distribución uniforme en el intervalo$$[a, a + h]$$, donde$$a \in \R$$ y$$h \in (0, \infty)$$. Entonces$$\left(X_{(1)}, X_{(2)}, \ldots, X_{(n)}\right)$$ se distribuye uniformemente en$$\left\{\bs{x} \in [a, a + h]^n: a \le x_1 \le x_2 \le \cdots \le x_n \lt a + h\right\}$$.

Prueba

Esto se desprende fácilmente del hecho de que$$(X_1, X_2, \ldots, X_n)$$ se distribuye uniformemente en$$[a, a + h]^n$$. Del resultado anterior, el PDF conjunto de las estadísticas del orden es$$g(x_1, x_2, \ldots, x_n) = n! / h^n$$ para$$(x_1, x_2, \ldots, x_n) \in [a, a + h]^n$$ con$$a \le x_1 \le x_2 \le \cdots \le x_n \le a + h$$.

#### La distribución exponencial

Recordemos que la distribución exponencial con parámetro de tasa$$\lambda \gt 0$$ tiene función de densidad de probabilidad$f(x) = \lambda e^{-\lambda x}, \quad 0 \le x \lt \infty$ La distribución exponencial es ampliamente utilizada para modelar tiempos de falla y otros tiempos aleatorios bajo ciertas condiciones ideales. En particular, la distribución exponencial gobierna los tiempos entre llegadas en el proceso de Poisson.

Supongamos que$$\bs{X}$$ es una muestra aleatoria de tamaño$$n$$ a partir de la distribución exponencial con parámetro de tasa$$\lambda$$. La función de densidad de probabilidad del estadístico de orden$$k$$ th$$X_{(k)}$$ es$f_k(x) = \frac{n!}{(k - 1)! (n - k)!} \lambda (1 - e^{-\lambda x})^{k-1} e^{-\lambda(n - k + 1)x}, \quad 0 \le x \lt \infty$ En particular, el mínimo de las variables$$X_{(1)}$$ también tiene una distribución exponencial, pero con parámetro de tasa$$n \lambda$$.

Prueba

El PDF de$$X_{(k)}$$ se desprende del teorema anterior ya que$$F(x) = 1 - e^{-\lambda x}$$ para$$0 \le x \lt \infty$$. Sustituir$$k = 1$$ da$$f_1(x) = n \lambda e^{-n \lambda x}$$ por$$0 \le x \lt \infty$$.

En el experimento estadístico de orden, seleccione la distribución exponencial estándar y$$n = 5$$. $$k$$Varía de 1 a 5 y anote la forma de la función de densidad de probabilidad de$$X_{(k)}$$. Para cada valor de$$k$$, ejecute la simulación 1000 veces y compare la función de densidad empírica con la función de densidad de probabilidad verdadera.

Supongamos nuevamente que$$\bs{X}$$ es una muestra aleatoria de tamaño$$n$$ a partir de la distribución exponencial con parámetro de tasa$$\lambda$$. El rango muestral$$R$$ tiene la misma distribución que el máximo de una muestra aleatoria de tamaño$$n - 1$$ a partir de la distribución exponencial. La función de densidad de probabilidad es$h(t) = (n - 1) \lambda (1 - e^{-\lambda t})^{n - 2} e^{-\lambda t}, \quad 0 \le t \lt \infty$

Prueba

Por el resultado anterior,$$(X_{(1)}, X_{(n)})$$ tiene PDF conjunto$$f_{1, n}(x, y) = n (n - 1) \lambda^2 (e^{-\lambda x} - e^{-\lambda y})^{n-2} e^{-\lambda x} e^{-\lambda y}$$ para$$0 \le x \le y \lt \infty$$. De ahí para$$0 \le t \lt \infty$$,$\P(R \le t) = \P(X_{(n)} - X_{(1)} \le t) = \int_0^\infty \int_x^{x + t} n (n - 1) \lambda^2 (e^{-\lambda x} - e^{-\lambda y})^{n-2} e^{-\lambda x} e^{-\lambda y} \, dy \, dx$ Sustituyendo$$u = e^{-\lambda y}$$,$$du = -\lambda e^{-\lambda y} \, dy$$ en el interior integral y evaluando da$\P(R \le t) = \int_0^\infty n \lambda e^{-n \lambda x} (1 - e^{-\lambda t})^{n-1} \, dx = (1 - e^{-\lambda t})^{n-1}$ Diferenciando con respecto a$$t$$ da el PDF. Comparando con nuestro resultado anterior, vemos que este es el PDF del máximo de una muestra de tamaño$$n - 1$$ a partir de la distribución exponencial.

Supongamos nuevamente que$$\bs{X}$$ es una muestra aleatoria de tamaño$$n$$ a partir de la distribución exponencial con parámetro de tasa$$\lambda$$. La función conjunta de densidad de probabilidad de las estadísticas de orden$$(X_{(1)}, X_{(2)}, \ldots, X_{(n)})$$ es$g(x_1, x_2, \ldots, x_n) = n! \lambda^n e^{-\lambda(x_1 + x_2 + \cdots + x_n)}, \quad 0 \le x_1 \le x_2 \cdots \le x_n \lt \infty$

Prueba

Esto se desprende del resultado anterior y álgebra simple.

Contestar
 $$x$$ $$f_1(x)$$ $$f_2(x)$$ $$f_3(x)$$ $$f_4(x)$$ 1 2 3 4 5 6 $$\frac{671}{1296}$$ $$\frac{369}{1296}$$ $$\frac{175}{1296}$$ $$\frac{65}{1296}$$ $$\frac{15}{1296}$$ $$\frac{1}{1296}$$ $$\frac{171}{1296}$$ $$\frac{357}{1296}$$ $$\frac{363}{1296}$$ $$\frac{261}{1296}$$ $$\frac{123}{1296}$$ $$\frac{21}{1296}$$ $$\frac{21}{1296}$$ $$\frac{123}{1296}$$ $$\frac{261}{1296}$$ $$\frac{363}{1296}$$ $$\frac{357}{1296}$$ $$\frac{171}{1296}$$ $$\frac{1}{1296}$$ $$\frac{15}{1296}$$ $$\frac{65}{1296}$$ $$\frac{175}{1296}$$ $$\frac{369}{1296}$$ $$\frac{671}{1296}$$

En el experimento de dados, seleccione la estadística de orden y distribución de troqueles dada en las partes (a) — (d) a continuación. Aumentar el número de dados de 1 a 20, señalando la forma de la función de densidad de probabilidad en cada etapa. Ahora con$$n = 4$$, ejecute la simulación 1000 veces, y observe la convergencia aparente de la función de frecuencia relativa a la función de densidad de probabilidad.

1. Puntuación máxima con dados justos.
2. Puntuación mínima con dados justos.
3. Puntuación máxima con dados planos ase-seis.
4. Puntuación mínima con dados planos ase-seis.

Contestar

La función de densidad de probabilidad conjunta$$g$$ se define en$$\{(x_1, x_2, x_3, x_4) \in \{1, 2, 3, 4, 5, 6\}^4: x_1 \le x_2 \le x_3 \le x_4\}$$

1. $$g(x_1, x_2, x_3, x_4) = \frac{1}{1296}$$si las coordenadas son todas iguales (hay 6 de esos vectores).
2. $$g(x_1, x_2, x_3, x_4) = \frac{4}{1296}$$si hay dos coordenadas distintas, un valor que ocurre 3 veces y el otro valor una vez (hay 30 tales vectores).
3. $$g(x_1, x_2, x_3, x_4) = \frac{6}{1296}$$si hay dos coordenadas distintas en$$(x_1, x_2, x_3, x_4)$$, cada valor ocurre 2 veces (hay 15 tales vectores).
4. $$g(x_1, x_2, x_3, x_4) = \frac{12}{1296}$$si hay tres coordenadas distintas, un valor ocurre dos veces y los otros valores una vez (hay 60 tales vectores).
5. $$g(x_1, x_2, x_3, x_4) = \frac{24}{1296}$$si las coordenadas son distintas (hay 15 vectores de este tipo).

Contestar

$$R$$tiene la función de densidad de probabilidad$$h$$ dada por$$h(0) = \frac{6}{1296}, \; h(1) = \frac{70}{1296}, \; h(2) = \frac{300}{1296}, \; h(3) = \frac{300}{1296}, \; h(4) = \frac{318}{1296}, \; h(5) = \frac{302}{1296}$$

#### Simulaciones de gráficas de probabilidad

En el experimento de gráfica de probabilidad, establezca la distribución de muestreo a distribución normal con media 5 y desviación estándar 2. Establezca el tamaño de la muestra en$$n = 20$$. Para cada una de las siguientes distribuciones de prueba, ejecute el experimento 50 veces y anote la geometría de la gráfica de probabilidad:

1. Estándar normal
2. Uniforme en el intervalo$$[0, 1]$$
3. Exponencial con parámetro 1

En el experimento de gráfica de probabilidad, establezca la distribución de muestreo a la distribución uniforme en$$[4, 10]$$. Establezca el tamaño de la muestra en$$n = 20$$. Para cada una de las siguientes distribuciones de prueba, ejecute el experimento 50 veces y anote la geometría de la gráfica de probabilidad:

1. Estándar normal
2. Uniforme en el intervalo$$[0, 1]$$
3. Exponencial con parámetro 1

En el experimento de gráfica de probabilidad, Establezca la distribución de muestreo a la distribución exponencial con el parámetro 3. Establezca el tamaño de la muestra en$$n = 20$$. Para cada una de las siguientes distribuciones de prueba, ejecute el experimento 50 veces y anote la geometría de la gráfica de probabilidad:

1. Estándar normal
2. Uniforme en el intervalo$$[0, 1]$$
3. Exponencial con parámetro 1

#### Ejercicios de Análisis de Datos

Se debe utilizar software estadístico para los problemas de esta subsección.

Considere la longitud de los pétalos y las variables de especie en los datos del iris de Fisher.

1. Clasificar las variables por tipo y nivel de medición.
2. Calcular el resumen de cinco números y dibujar la gráfica de caja para la longitud del pétalo.
3. Calcular el resumen de cinco números y dibujar la gráfica de caja para longitud de pétalo por especie.
4. Dibuja la gráfica de probabilidad normal para la longitud del pétalo.
RESPUESTAS
1. longitud de pétalo: continuo, relación. Tipo: discreto, nominal
2. $$(10, 15, 44, 51, 69)$$
3. tipo 0:$$(10, 14, 15, 16, 19)$$; tipo 1:$$(45, 51, 55.5, 59, 69)$$; tipo 2:$$(30, 40, 44, 47, 56)$$

Considere la variable erosión en el conjunto de datos Challenger.

1. Clasificar la variable por tipo y nivel de medición.
2. Calcular el resumen de cinco números y dibujar la gráfica de caja.
3. Identificar los valores atípicos.
Contestar
1. continuo, relación
2. $$(0, 0, 0, 0, 53)$$
3. Todos los valores positivos 28, 40, 48 y 53 son valores atípicos.

A continuación se presenta una gráfica de tallo y hoja de los datos de velocidad de luz de Michelson. En este ejemplo, se ha dejado fuera el último dígito (que siempre es 0), por conveniencia. También, tenga en cuenta que hay dos conjuntos de hojas para cada tallo, uno correspondiente a hojas de 0 a 4 (así que en realidad de 00 a 40) y el otro correspondiente a hojas de 5 a 9 (así que en realidad de 50 a 90). Así, el valor mínimo es 620 y los números en la segunda fila 7 son 750, 760, 760, y así sucesivamente.

\ [\ begin {array} {l|l}
6 & 2\\
6 & 5\\
7 & 222444\\
7 & 566666788999\\
8 & 000001111111111223344444444\\
9 & 0011233444\\
9 & 55566667888\\
10 & 000\\
10 y 7
\ end {array}\ nonumber\]

Clasificar la variable por tipo y nivel de medición.

1. Calcular el resumen de cinco números y dibujar la gráfica de caja.
2. Calcular el resumen de cinco números para la velocidad en$$\text{km}/\text{hr}$$. La transformación es$$y = x + 299\,000$$.
3. Dibuja la gráfica de probabilidad normal.
Contestar
1. continuo, intervalo
2. $$(620, 805, 850, 895, 1071)$$
3. $$(299\,620, 299\,805, 299\,850, 299\,895, 300\,071)$$

Considere los datos del paráax del sol de Short.

1. Clasificar la variable por tipo y nivel de medición.
2. Calcular el resumen de cinco números y dibujar la gráfica de caja.
3. Calcula el resumen de cinco números y dibuja la gráfica de caja si la variable se convierte a grados. Hay 3600 segundos en un grado.
4. Calcular el resumen de cinco números y dibujar la gráfica de caja si la variable se convierte en radianes. Hay$$\pi/180$$ radianes en un grado.
5. Dibuja la gráfica de probabilidad normal.
Contestar
1. continuo, relación
2. $$(5.76, 8.34, 8.50, 9.02, 10.57)$$
3. $$(0.00160, 0.00232, 0.00236, 0.00251, 0.00294)$$
4. $$(0.0000278, 0.0000404, 0.0000412, 0.0000437, 0.0000512)$$

Considera los datos de la densidad de la tierra de Cavendish.

1. Clasificar la variable por tipo y nivel de medición.
2. Calcular el resumen de cinco números y dibujar la gráfica de caja.
3. Dibuja la gráfica de probabilidad normal.
Contestar
1. continuo, relación
2. $$(4.88, 5.30, 5.46, 5.61, 5.85)$$

Considere los datos de M&M.

1. Clasificar las variables por tipo y nivel de medición.
2. Calcular el resumen de cinco números y dibujar la gráfica de caja para cada recuento de colores.
3. Construir una parcela de tallo y hoja para el número total de caramelos.
4. Calcular el resumen de cinco números y dibujar la gráfica de caja para el número total de caramelos.
5. Calcular el resumen de cinco números y dibujar la gráfica de caja para el peso neto.
Contestar
1. recuentos de color: relación discreta. peso neto: relación continua.
2. rojo:$$(3, 5.5, 9, 14, 20)$$; verde:$$(2, 5, 7, 9, 17)$$; azul:$$(1, 4, 6.5, 10, 19)$$; naranja:$$(0, 3.5, 6, 10.5, 13)$$; amarillo:$$(3, 8, 13.5, 18, 26)$$; marrón:$$(4, 8, 12.5, 18, 20)$$
3.  5 5 5 5 5 6 0 3 4 5 5 5 5 6 6 6 6 7 7 7 8 8 8 8 8 8 8 8 8 9 9 9 0 0 1 1
4. $$(50, 55.5, 58, 60, 61)$$
5. $$(46.22, 48.28, 49.07, 50.23, 52.06)$$

Considerar el peso corporal, las especies y las variables de género en los datos de Cicada.

1. Clasificar las variables por tipo y nivel de medición.
2. Calcular el resumen de cinco números y dibujar la gráfica de caja para el peso corporal.
3. Calcular el resumen de cinco números y dibujar la gráfica de caja para el peso corporal por especie.
4. Calcular el resumen de cinco números y dibujar la gráfica de caja para el peso corporal por género.
Contestar
1. peso corporal: continuo, relación. Especie: discreta, nominal. género: discreto, nominal.
2. $$(0.08, 0.13, 0.17, 0.22, 0.39)$$
3. especie 0:$$(0.08, 0.13, 0.16, 0.21, 0.27)$$; especie 1:$$(0.08, 0. 14, 0.18, 0.23, 0.31)$$; especie 2:$$(0.12, 0.12, 0.215, 0.29, 0.39)$$
4. hembra:$$(0.08, 0.17, 0.21, 0.25, 0.31)$$; macho:$$(0.08, 0.12, 0.14, 0.16, 0.39)$$

Considere los datos de altura de Pearson.

1. Clasificar las variables por tipo y nivel de medición.
2. Calcular el resumen de cinco números y bosquejar la trama de caja para la altura del padre.
3. Calcular el resumen de cinco números y bosquejar la trama de caja para la altura del hijo.
Contestar
1. relación continua
2. $$(59.0, 65.8, 67.8, 69.6, 75.4)$$
3. $$(58.5, 66.9, 68.6, 70.5, 78.4)$$

This page titled 6.6: Estadísticas de pedidos is shared under a CC BY 2.0 license and was authored, remixed, and/or curated by Kyle Siegrist (Random Services) via source content that was edited to the style and standards of the LibreTexts platform.