11.5: La distribución multinomial

Última actualización
Guardar como PDF

Page ID: 151715

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

\(\newcommand{\P}{\mathbb{P}}\)\(\newcommand{\E}{\mathbb{E}}\)\(\newcommand{\R}{\mathbb{R}}\)\(\newcommand{\N}{\mathbb{N}}\)\(\newcommand{\bs}{\boldsymbol}\)\(\newcommand{\var}{\text{var}}\)\(\newcommand{\cov}{\text{cov}}\)\(\newcommand{\cor}{\text{cor}}\)

Teoría Básica

Ensayos multinomiales

Un proceso de ensayos multinomiales es una secuencia de variables aleatorias independientes, distribuidas idénticamente,\(\bs{X} =(X_1, X_2, \ldots)\) cada una de las cuales toma valores\(k\) posibles. Así, el proceso de ensayos multinomiales es una simple generalización del proceso de ensayos de Bernoulli (que corresponde a\(k = 2\)). Por simplicidad, denotaremos el conjunto de resultados por\(\{1, 2, \ldots, k\}\), y denotaremos la función de densidad de probabilidad común de las variables de ensayo por Por\[ p_i = \P(X_j = i), \quad i \in \{1, 2, \ldots, k\} \] supuesto\(p_i \gt 0\) para cada\(i\) y\(\sum_{i=1}^k p_i = 1\). En términos estadísticos, la secuencia\(\bs{X}\) se forma por muestreo a partir de la distribución.

Al igual que con nuestra discusión sobre la distribución binomial, nos interesan las variables aleatorias que cuentan el número de veces que ocurrió cada resultado. Así, vamos Por\[ Y_i = \#\left\{j \in \{1, 2, \ldots, n\}: X_j = i\right\} = \sum_{j=1}^n \bs{1}(X_j = i), \quad i \in \{1, 2, \ldots, k\} \] supuesto, estas variables aleatorias también dependen del parámetro\(n\) (el número de ensayos), pero este parámetro está fijo en nuestra discusión así que lo suprimemos para mantener la notación simple. Tenga en cuenta que\(\sum_{i=1}^k Y_i = n\) así si conocemos los valores\(k - 1\) de las variables de conteo, podemos encontrar el valor de la variable restante.

Los argumentos básicos usando independencia y combinatoria pueden ser utilizados para derivar las densidades conjuntas, marginales y condicionales de las variables de conteo. En particular, recordemos la definición del coeficiente multinomial: para enteros no negativos\((j_1, j_2, \ldots, j_n)\) con\(\sum_{i=1}^k j_i = n\),\[ \binom{n}{j_1, j_2, \dots, j_k} = \frac{n!}{j_1! j_2! \cdots j_k!} \]

Distribución Conjunta

Para enteros no negativos\((j_1, j_2, \ldots, j_k)\) con\(\sum_{i=1}^k j_i = n\),\[ \P(Y_1 = j_1, Y_2, = j_2 \ldots, Y_k = j_k) = \binom{n}{j_1, j_2, \ldots, j_k} p_1^{j_1} p_2^{j_2} \cdots p_k^{j_k} \]

Prueba

Por independencia, cualquier secuencia de ensayos en los que el resultado\(i\) se produce exactamente en\(j_i\) tiempos para\(i \in \{1, 2, \ldots, k\}\) tiene probabilidad\(p_1^{j_1} p_2^{j_2} \cdots p_k^{j_k}\). El número de tales secuencias es el coeficiente multinomial\(\binom{n}{j_1, j_2, \ldots, j_k}\). Así, el resultado se desprende de la propiedad aditiva de probabilidad.

La distribución de\(\bs{Y} = (Y_1, Y_2, \ldots, Y_k)\) se denomina distribución multinomial con parámetros\(n\) y\(\bs{p} = (p_1, p_2, \ldots, p_k)\). También decimos que\( (Y_1, Y_2, \ldots, Y_{k-1}) \) tiene esta distribución (recordemos que los valores de\(k - 1\) de las variables de conteo determinan el valor de la variable restante). Por lo general, queda claro a partir del contexto qué significado del término distribución multinomial se pretende. Nuevamente, la distribución binomial ordinaria corresponde a\(k = 2\).

Distribuciones Marginales

Para cada uno\(i \in \{1, 2, \ldots, k\}\),\(Y_i\) tiene la distribución binomial con parámetros\(n\) y\(p_i\):\[ \P(Y_i = j) = \binom{n}{j} p_i^j (1 - p_i)^{n-j}, \quad j \in \{0, 1, \ldots, n\} \]

Prueba

Hay una prueba probabilística simple. Si pensamos en cada ensayo como resultado resultado\(i\) o no, entonces claramente tenemos una secuencia de ensayos de\(n\) Bernoulli con parámetro de éxito\(p_i\). Variable aleatoria\(Y_i\) es el número de éxitos en los\(n\) ensayos. El resultado también podría obtenerse sumando la función de densidad de probabilidad conjunta en el Ejercicio 1 sobre todas las demás variables, pero esto sería mucho más difícil.

Agrupación

La distribución multinomial se conserva cuando se combinan las variables de conteo. Específicamente, supongamos que\((A_1, A_2, \ldots, A_m)\) es una partición del índice establecido\(\{1, 2, \ldots, k\}\) en subconjuntos no vacíos. Para\(j \in \{1, 2, \ldots, m\}\) dejar\[ Z_j = \sum_{i \in A_j} Y_i, \quad q_j = \sum_{i \in A_j} p_i \]

\(\bs{Z} = (Z_1, Z_2, \ldots, Z_m)\)tiene la distribución multinomial con parámetros\(n\) y\(\bs{q} = (q_1, q_2, \ldots, q_m)\).

Prueba

Nuevamente, hay una simple prueba probabilística. Cada ensayo, independientemente de los demás, da como resultado un outome in\(A_j\) con probabilidad\(q_j\). Para cada uno\(j\),\(Z_j\) cuenta el número de senderos que resultan en un resultado en\(A_j\). Este resultado también podría derivarse de la función de densidad de probabilidad conjunta en el Ejercicio 1, pero nuevamente, esto sería una prueba mucho más dura.

Distribución Condicional

La distribución multinomial también se conserva cuando se observan algunas de las variables de conteo. Específicamente, supongamos que\((A, B)\) es una partición del índice establecido\(\{1, 2, \ldots, k\}\) en subconjuntos no vacíos. Supongamos que\((j_i : i \in B)\) es una secuencia de enteros no negativos, indexados por\(B\) tal que\(j = \sum_{i \in B} j_i \le n\). Vamos\(p = \sum_{i \in A} p_i\).

La distribución condicional de\((Y_i: i \in A)\) dado\((Y_i = j_i: i \in B)\) es multinomial con parámetros\(n - j\) y\((p_i / p: i \in A)\).

Prueba

Nuevamente, hay un argumento probabilístico simple y un argumento analítico más duro. Si sabemos\(Y_i = j_i\) por\(i \in B\), entonces quedan\(n - j\) pruebas, cada una de las cuales, independientemente de las otras, debe dar como resultado un desenlace en\(A\). La probabilidad condicional de que un juicio resulte en\(i \in A\) es\(p_i / p\).

Las combinaciones de los resultados básicos que implican agrupación y condicionamiento se pueden utilizar para calcular cualquier distribución marginal o condicional.

Momentos

Calcularemos la media y varianza de cada variable de conteo, y la covarianza y correlación de cada par de variables.

Para\(i \in \{1, 2, \ldots, k\}\), la media y varianza de\(Y_i\) son

\(\E(Y_i) = n p_i\)
\(\var(Y_i) = n p_i (1 - p_i)\)

Prueba

Recordemos que\(Y_i\) tiene la distribución binomial con parámetros\(n\) y\(p_i\).

Para distintos\(i, \; j \in \{1, 2, \ldots, k\}\),

\(\cov(Y_i, Y_j) = - n p_i p_j\)
\(\cor(Y_i, Y_j) = -\sqrt{p_i p_j \big/ \left[(1 - p_i)(1 - p_j)\right]}\)

Prueba

De la bi-linealidad del operador de covarianza, tenemos\[ \cov(Y_i, Y_j) = \sum_{s=1}^n \sum_{t=1}^n \cov[\bs{1}(X_s = i), \bs{1}(X_t = j)] \] If\(s = t\), la covarianza de las variables indicadoras es\(-p_i p_j\). Si\(s \ne t\) la covarianza es 0 por independencia. La parte (b) se puede obtener de la parte (a) utilizando la definición de correlación y las varianzas de\(Y_i\) y\(Y_j\) dadas anteriormente.

Del último resultado, tenga en cuenta que el número de veces que\(i\) ocurre el resultado y el número de veces que\(j\) ocurre el resultado se correlacionan negativamente, pero la correlación no depende de ello\(n\).

Si\(k = 2\), entonces el número de veces que ocurre el resultado 1 y el número de veces que ocurre el resultado 2 están perfectamente correlacionados.

Prueba

Esto se deduce inmediatamente del resultado anterior sobre covarianza ya que debemos tener\(i = 1\) y\(j = 2\), y\(p_2 = 1 - p_1\). Por supuesto que también podemos argumentar esto directamente desde\(Y_2 = n - Y_1\).

Ejemplos y Aplicaciones

En el experimento de dados, seleccione el número de ases. Para cada distribución de troqueles, comience con un solo dado y agregue dados uno a la vez, anotando la forma de la función de densidad de probabilidad y el tamaño y ubicación de la barra de media/desviación estándar. Cuando llegue a 10 dados, ejecute la simulación 1000 veces y compare la función de frecuencia relativa con la función de densidad de probabilidad, y los momentos empíricos con los momentos de distribución.

Supongamos que lanzamos 10 dados estándar, justos. Encuentra la probabilidad de cada uno de los siguientes eventos:

Las puntuaciones 1 y 6 ocurren una vez cada una y las otras puntuaciones ocurren dos veces cada una.
Las puntuaciones 2 y 4 ocurren 3 veces cada una.
Hay 4 puntuaciones pares y 6 puntajes impares.
Las puntuaciones 1 y 3 ocurren dos veces cada una dado que la puntuación 2 ocurre una vez y la puntuación 5 tres veces.

Contestar

0.00375
0.0178
0.205
0.0879

Supongamos que tiramos 4 dados planos ase-seis (las caras 1 y 6 tienen probabilidad\(\frac{1}{4}\) cada una; las caras 2, 3, 4 y 5 tienen probabilidad\(\frac{1}{8}\) cada una). Encuentra la función de densidad de probabilidad conjunta del número de veces que ocurre cada puntaje.

Contestar

\(f(u, v, w, x, y, z) = \binom{4}{u, v, w, x, y, z} \left(\frac{1}{4}\right)^{u+z} \left(\frac{1}{8}\right)^{v + w + x + y}\)para enteros no negativos\(u, \, v, \, w, \, x, \, y, \, z\) que suman 4

En el experimento de dados, seleccione 4 ace-seis pisos. Ejecutar el experimento 500 veces y calcular la función de frecuencia relativa conjunta del número de veces que ocurre cada puntaje. Compare la función de frecuencia relativa con la función de densidad de probabilidad verdadera.

Supongamos que tiramos 20 dados planos ase-seis. Encuentra la covarianza y correlación del número de 1's y el número de 2's.

Contestar

covarianza:\(-0.625\); correlación:\(-0.0386\)

En el experimento de dados, seleccione 20 dados planos ase-seis. Ejecutar el experimento 500 veces, actualizándose después de cada ejecución. Calcular la covarianza empírica y correlación del número de 1's y el número de 2's y comparar los resultados con los resultados teóricos calculados previamente.