12.3: La distribución hipergeométrica multivariada

Última actualización
Guardar como PDF

Page ID: 151942

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

\(\newcommand{\P}{\mathbb{P}}\)\(\newcommand{\E}{\mathbb{E}}\)\(\newcommand{\R}{\mathbb{R}}\)\(\newcommand{\N}{\mathbb{N}}\)\(\newcommand{\bs}{\boldsymbol}\)\(\newcommand{\var}{\text{var}}\)\(\newcommand{\cov}{\text{cov}}\)\(\newcommand{\cor}{\text{cor}}\)

Teoría Básica

El modelo multitipo

Al igual que en el modelo de muestreo básico, se inicia con una población finita\(D\) compuesta por\(m\) objetos. En esta sección, suponemos además que cada objeto es uno de\(k\) tipos; es decir, tenemos una población multitipo. Por ejemplo, podríamos tener una urna con bolas de varios colores diferentes, o una población de votantes demócratas, republicanos o independientes. Let\(D_i\) denotar el subconjunto de todos los\(i\) objetos de tipo y let\(m_i = \#(D_i)\) for\(i \in \{1, 2, \ldots, k\}\). Así\(D = \bigcup_{i=1}^k D_i\) y\(m = \sum_{i=1}^k m_i\). El modelo dicotómico considerado anteriormente es claramente un caso especial, con\(k = 2\).

Al igual que en el modelo de muestreo básico, se muestrea\(n\) objetos al azar de\(D\). Así, el resultado del experimento es\(\bs{X} = (X_1, X_2, \ldots, X_n)\) donde\(X_i \in D\) se elige el objeto\(i\) th. Ahora vamos a\(Y_i\) denotar el número de\(i\) objetos tipo en la muestra, para\(i \in \{1, 2, \ldots, k\}\). Tenga en cuenta que\(\sum_{i=1}^k Y_i = n\) así si conocemos los valores\(k - 1\) de las variables de conteo, podemos encontrar el valor de la variable de conteo restante. Al igual que con cualquier variable de conteo, podemos expresar\(Y_i\) como una suma de variables indicadoras:

Para\(i \in \{1, 2, \ldots, k\}\)\[ Y_i = \sum_{j=1}^n \bs{1}\left(X_j \in D_i\right) \]

Asumimos inicialmente que el muestreo es sin reemplazo, ya que este es el caso realista en la mayoría de las aplicaciones.

La distribución conjunta

Los argumentos combinatorios básicos se pueden usar para derivar la función de densidad de probabilidad del vector aleatorio de variables de conteo. Recordemos que dado que el muestreo es sin reemplazo, la muestra desordenada se distribuye uniformemente sobre las combinaciones de tamaño\(n\) elegidas\(D\).

La función de densidad de probabilidad\((Y_1, Y_2, \ldots, Y_k)\) viene dada por\[ \P(Y_1 = y_1, Y_2 = y_2, \ldots, Y_k = y_k) = \frac{\binom{m_1}{y_1} \binom{m_2}{y_2} \cdots \binom{m_k}{y_k}}{\binom{m}{n}}, \quad (y_1, y_2, \ldots, y_k) \in \N^k \text{ with } \sum_{i=1}^k y_i = n \]

Prueba

El coeficiente binomial\(\binom{m_i}{y_i}\) es el número de subconjuntos desordenados de\(D_i\) (los\(i\) objetos tipo) de tamaño\(y_i\). El coeficiente binomial\(\binom{m}{n}\) es el número de muestras desordenadas de tamaño\(n\) elegidas\(D\). Así, el resultado se desprende del principio de multiplicación de la combinatoria y la distribución uniforme de la muestra desordenada

La distribución de\((Y_1, Y_2, \ldots, Y_k)\) se llama la distribución hipergeométrica multivariada con parámetros\(m\),\((m_1, m_2, \ldots, m_k)\), y\(n\). También decimos que\((Y_1, Y_2, \ldots, Y_{k-1})\) tiene esta distribución (recordemos nuevamente que los valores de cualquiera\(k - 1\) de las variables determinan el valor de la variable restante). Por lo general, queda claro a partir del contexto qué significado se pretende. La distribución hipergeométrica ordinaria corresponde a\(k = 2\).

Una forma alternativa de la función de densidad de probabilidad de\(Y_1, Y_2, \ldots, Y_k)\) es\[ \P(Y_1 = y_1, Y_2 = y_2, \ldots, Y_k = y_k) = \binom{n}{y_1, y_2, \ldots, y_k} \frac{m_1^{(y_1)} m_2^{(y_2)} \cdots m_k^{(y_k)}}{m^{(n)}}, \quad (y_1, y_2, \ldots, y_k) \in \N_k \text{ with } \sum_{i=1}^k y_i = n \]

Prueba combinatoria

La prueba combinatoria es considerar la muestra ordenada, la cual se distribuye uniformemente sobre el conjunto de permutaciones de tamaño\(n\) de\(D\). El coeficiente multinomial a la derecha es el número de formas de particionar el conjunto de índices\(\{1, 2, \ldots, n\}\) en\(k\) grupos donde grupo\(i\) tiene\(y_i\) elementos (estas son las coordenadas de los\(i\) objetos tipo). El número de formas (ordenadas) de seleccionar los\(i\) objetos de tipo es\(m_i^{(y_i)}\). El denominador\(m^{(n)}\) es el número de muestras ordenadas de tamaño\(n\) elegidas\(D\).

Prueba algebraica

También hay una prueba algebraica simple, a partir de la primera versión de la función de densidad de probabilidad anterior. Escribe cada coeficiente binomial\(\binom{a}{j} = a^{(j)}/j!\) y reordena un poco.

Las distribuciones marginales

Para\(i \in \{1, 2, \ldots, k\}\),\(Y_i\) tiene la distribución hipergeométrica con parámetros\(m\),\(m_i\), y\(n\)\[ \P(Y_i = y) = \frac{\binom{m_i}{y} \binom{m - m_i}{n - y}}{\binom{m}{n}}, \quad y \in \{0, 1, \ldots, n\} \]

Prueba

Una prueba analítica es posible, comenzando con la primera versión o la segunda versión del PDF conjunto y sumando las variables no deseadas. Sin embargo, una prueba probabilística es mucho mejor:\(Y_i\) es el número de\(i\) objetos tipo en una muestra de tamaño\(n\) elegido al azar (y sin reemplazo) de una población de\(m\) objetos, con\(m_i\) de tipo\(i\) y el resto\(m - m_i\) no de este tipo.

Agrupación

La distribución hipergeométrica multivariada se conserva cuando se combinan las variables de conteo. Específicamente, supongamos que\((A_1, A_2, \ldots, A_l)\) es una partición del índice establecida\(\{1, 2, \ldots, k\}\) en subconjuntos no vacíos y disjuntos. Let\(W_j = \sum_{i \in A_j} Y_i\) y\(r_j = \sum_{i \in A_j} m_i\) para\(j \in \{1, 2, \ldots, l\}\)

\((W_1, W_2, \ldots, W_l)\)tiene la distribución hipergeométrica multivariada con parámetros\(m\),\((r_1, r_2, \ldots, r_l)\), y\(n\).

Prueba

Nuevamente, una prueba analítica es posible, pero una prueba probabilística es mucho mejor. Efectivamente, ahora tenemos una población de\(m\) objetos con\(l\) tipos, y\(r_i\) es el número de objetos del nuevo tipo\(i\). Como antes probamos\(n\) objetos sin reemplazo, y\(W_i\) es el número de objetos en la muestra del nuevo tipo\(i\).

Obsérvese que la distribución marginal de la\(Y_i\) dada anteriormente es un caso especial de agrupación. Tenemos dos tipos: tipo\(i\) y no tipo\(i\). De manera más general, la distribución marginal de cualquier subsecuencia de\( (Y_1, Y_2, \ldots, Y_n) \) es hipergeométrica, con los parámetros apropiados.

Acondicionamiento

La distribución hipergeométrica multivariada también se conserva cuando se observan algunas de las variables de conteo. Específicamente, supongamos que\((A, B)\) es una partición del índice establecida\(\{1, 2, \ldots, k\}\) en subconjuntos no vacíos y disjuntos. Supongamos que observamos\(Y_j = y_j\) para\(j \in B\). Dejar\(z = n - \sum_{j \in B} y_j\) y\(r = \sum_{i \in A} m_i\).

La distribución condicional de\((Y_i: i \in A)\) dada\(\left(Y_j = y_j: j \in B\right)\) es hipergeométrica multivariada con parámetros\(r\),\((m_i: i \in A)\), y\(z\).

Prueba

Una vez más, es posible un argumento analítico utilizando la definición de probabilidad condicional y las distribuciones conjuntas apropiadas. Un argumento probabilístico es mucho mejor. Efectivamente, estamos seleccionando una muestra de tamaño\(z\) de una población de tamaño\(r\), con\(m_i\) objetos de tipo\(i\) para cada uno\(i \in A\).

Las combinaciones del resultado de agrupación y el resultado de condicionamiento se pueden utilizar para calcular cualquier distribución marginal o condicional de las variables de conteo.

Momentos

Calcularemos la media, varianza, covarianza y correlación de las variables de conteo. Los resultados de la distribución hipergeométrica y la representación en términos de variables indicadoras son las principales herramientas.

Para\(i \in \{1, 2, \ldots, k\}\),

\(\E(Y_i) = n \frac{m_i}{m}\)
\(\var(Y_i) = n \frac{m_i}{m}\frac{m - m_i}{m} \frac{m-n}{m-1}\)

Prueba

Esto sigue inmediatamente, ya que\(Y_i\) tiene la distribución hipergeométrica con parámetros\(m\),\(m_i\), y\(n\).

Ahora vamos\(I_{t i} = \bs{1}(X_t \in D_i)\), la variable indicadora del evento que el objeto\(t\) th seleccionado es type\(i\), for\(t \in \{1, 2, \ldots, n\}\) y\(i \in \{1, 2, \ldots, k\}\).

Supongamos que\(r\) y\(s\) son elementos distintos de\(\{1, 2, \ldots, n\}\),\(i\) y\(j\) son elementos distintos de\(\{1, 2, \ldots, k\}\). Entonces\ comienza {align}\ cov\ izquierda (I_ {r i}, I_ {r j}\ derecha) & = -\ frac {m_i} {m}\ frac {m_j} {m}\\ cov\ izquierda (I_ {r i}, I_ {s j}\ derecha) & =\ frac {1} {m - 1}\ frac {m_i} {m}\ frac {m_j} {m}\ end {align}

Prueba

Recordemos que si\(A\) y\(B\) son eventos, entonces\(\cov(A, B) = \P(A \cap B) - \P(A) \P(B)\). En el primer caso los eventos son que el elemento de muestra\(r\) es tipo\(i\) y ese elemento de muestra\(r\) es tipo\(j\). Estos eventos son disjuntos, y las probabilidades individuales son\(\frac{m_i}{m}\) y\(\frac{m_j}{m}\). En el segundo caso, los eventos son que el elemento de muestra\(r\) es tipo\(i\) y ese elemento de muestra\(s\) es tipo\(j\). La probabilidad de que ambos eventos ocurran es\(\frac{m_i}{m} \frac{m_j}{m-1}\) mientras que las probabilidades individuales son las mismas que en el primer caso.

Supongamos de nuevo que\(r\) y\(s\) son elementos distintos de\(\{1, 2, \ldots, n\}\),\(i\) y\(j\) son elementos distintos de\(\{1, 2, \ldots, k\}\). Entonces\ begin {align}\ cor\ left (I_ {r i}, I_ {r j}\ derecha) & = -\ sqrt {\ frac {m_i} {m - m_i}\ frac {m_j} {m - m_j}}\\ cor\ left (I_ {r i}, I_ {s j}\ derecha) & =\ frac {1} {m - 1}\ sqrt {\ frac {m_i} {m - m_i}\ frac {m_j} {m - m_j}}\ end {align}

Prueba

Esto se desprende del resultado anterior y de la definición de correlación. Recordemos que si\(I\) es una variable indicadora con parámetro\(p\) entonces\(\var(I) = p (1 - p)\).

En particular,\(I_{r i}\) y\(I_{r j}\) están correlacionados negativamente mientras\(I_{r i}\) y\(I_{s j}\) están correlacionados positivamente.

Para distintos\(i, \, j \in \{1, 2, \ldots, k\}\),

\ begin {align}\ cov\ left (Y_i, y_j\ right) = & -n\ frac {m_i} {m}\ frac {m_j} {m}\ frac {m - n} {m - 1}\\ cor\ left (Y_i, y_j\ right) = & -\ sqrt {\ frac {m_i} {m - m_i}\ frac {m_j} {m - m_j}}\ end {align}

Muestreo con Repuesto

Supongamos ahora que el muestreo es con reemplazo, aunque esto no suele ser realista en las aplicaciones.

Los tipos de objetos en la muestra forman una secuencia de ensayos\(n\) multinomiales con parámetros\((m_1 / m, m_2 / m, \ldots, m_k / m)\).

Los siguientes resultados se derivan ahora inmediatamente de la teoría general de los ensayos multinomiales, aunque también podrían utilizarse modificaciones de los argumentos anteriores.

\((Y_1, Y_2, \ldots, Y_k)\)tiene la distribución multinomial con parámetros\(n\) y\((m_1 / m, m_2, / m, \ldots, m_k / m)\):\[ \P(Y_1 = y_1, Y_2 = y_2, \ldots, Y_k = y_k) = \binom{n}{y_1, y_2, \ldots, y_k} \frac{m_1^{y_1} m_2^{y_2} \cdots m_k^{y_k}}{m^n}, \quad (y_1, y_2, \ldots, y_k) \in \N^k \text{ with } \sum_{i=1}^k y_i = n \]

Para distintos\(i, \, j \in \{1, 2, \ldots, k\}\),

\(\E\left(Y_i\right) = n \frac{m_i}{m}\)
\(\var\left(Y_i\right) = n \frac{m_i}{m} \frac{m - m_i}{m}\)
\(\cov\left(Y_i, Y_j\right) = -n \frac{m_i}{m} \frac{m_j}{m}\)
\(\cor\left(Y_i, Y_j\right) = -\sqrt{\frac{m_i}{m - m_i} \frac{m_j}{m - m_j}}\)

Comparando con nuestros resultados anteriores, señalar que las medias y correlaciones son las mismas, ya sea muestreo con o sin reemplazo. Las varianzas y covarianzas son menores cuando se toma un muestreo sin reemplazo, por un factor del factor de corrección poblacional finita\((m - n) / (m - 1)\)

Convergencia a la Distribución Multinomial

Supongamos que el tamaño de la población\(m\) es muy grande en comparación con el tamaño muestral\(n\). En este caso, parece razonable que el muestreo sin reemplazo no sea demasiado diferente al muestreo con reemplazo, y por lo tanto la distribución hipergeométrica multivariada debe ser bien aproximada por el multinomial. El siguiente ejercicio hace que esta observación sea precisa. Prácticamente, es un resultado valioso, ya que en muchos casos desconocemos exactamente el tamaño de la población. Para la distribución multinomial aproximada, no necesitamos conocer\(m_i\) e\(m\) individualmente, sino solo en la proporción\(m_i / m\).

Supongamos que eso\(m_i\) depende de\(m\) y eso en\(m_i / m \to p_i\)\(m \to \infty\) cuanto a\(i \in \{1, 2, \ldots, k\}\). Para fijo\(n\), la función de densidad de probabilidad hipergeométrica multivariada con parámetros\(m\),\((m_1, m_2, \ldots, m_k)\), y\(n\) converge a la función de densidad de probabilidad multinomial con parámetros\(n\) y\((p_1, p_2, \ldots, p_k)\).

Prueba

Considere la segunda versión de la función de densidad de probabilidad hipergeométrica. En la fracción, hay\(n\) factores en el denominador y\(n\) en el numerador. Si agrupamos los factores para formar un producto de\(n\) fracciones, entonces cada fracción en grupo\(i\) converge a\(p_i\).

Ejemplos y Aplicaciones

Una población de 100 votantes consta de 40 republicanos, 35 demócratas y 25 independientes. Se elige una muestra aleatoria de 10 votantes. Encuentra cada uno de los siguientes:

La función de densidad conjunta del número de republicanos, número de demócratas y número de independientes en la muestra
La media de cada variable en (a).
La varianza de cada variable en (a).
La covarianza de cada par de variables en (a).
La probabilidad de que la muestra contenga al menos 4 republicanos, al menos 3 demócratas y al menos 2 independientes.

Responder

\(\P(X = x, Y = y, Z = z) = \frac{\binom{40}{x} \binom{35}{y} \binom{25}{z}}{\binom{100}{10}}\)para\(x, \; y, \; z \in \N\) con\(x + y + z = 10\)
\(\E(X) = 4\),\(\E(Y) = 3.5\),\(\E(Z) = 2.5\)
\(\var(X) = 2.1818\),\(\var(Y) = 2.0682\),\(\var(Z) = 1.7045\)
\(\cov(X, Y) = -1.6346\),\(\cov(X, Z) = -0.9091\),\(\cov(Y, Z) = -0.7955\)
0.2474

Tarjetas

Recordemos que el experimento general de cartas consiste en seleccionar\(n\) cartas al azar y sin reemplazo de una baraja estándar de 52 cartas. El caso especial\(n = 5\) es el experimento de poker y el caso especial\(n = 13\) es el experimento bridge.

En una mano de puente, encuentre la función de densidad de probabilidad de

El número de espadas, el número de corazones y el número de diamantes.
El número de espadas y el número de corazones.
El número de espadas.
El número de tarjetas rojas y el número de tarjetas negras.

Responder

Dejar\(X\),\(Y\),\(Z\),\(U\), y\(V\) denotar el número de espadas, corazones, diamantes, tarjetas rojas, y tarjetas negras, respectivamente, en la mano.

\(\P(X = x, Y = y, Z = z) = \frac{\binom{13}{x} \binom{13}{y} \binom{13}{z}\binom{13}{13 - x - y - z}}{\binom{52}{13}}\)para\(x, \; y, \; z \in \N\) con\(x + y + z \le 13\)
\(\P(X = x, Y = y) = \frac{\binom{13}{x} \binom{13}{y} \binom{26}{13-x-y}}{\binom{52}{13}}\)para\(x, \; y \in \N\) con\(x + y \le 13\)
\(\P(X = x) = \frac{\binom{13}{x} \binom{39}{13-x}}{\binom{52}{13}}\)para\(x \in \{0, 1, \ldots 13\}\)
\(\P(U = u, V = v) = \frac{\binom{26}{u} \binom{26}{v}}{\binom{52}{13}}\)para\(u, \; v \in \N\) con\(u + v = 13\)

En una mano de puente, encuentra cada uno de los siguientes:

La media y varianza del número de espadas.
La covarianza y correlación entre el número de espadas y el número de corazones.
La media y varianza del número de tarjetas rojas.

Responder

Dejar\(X\),\(Y\), y\(U\) denotar el número de espadas, corazones, y tarjetas rojas, respectivamente, en la mano.

\(\E(X) = \frac{13}{4}\),\(\var(X) = \frac{507}{272}\)
\(\cov(X, Y) = -\frac{169}{272}\)
\(\E(U) = \frac{13}{2}\),\(\var(U) = \frac{169}{272}\)

En una mano de puente, encuentra cada uno de los siguientes:

La función de densidad de probabilidad condicional del número de espadas y del número de corazones, dado que la mano tiene 4 diamantes.
La función de densidad de probabilidad condicional del número de espadas dado que la mano tiene 3 corazones y 2 diamantes.

Responder

Dejar\(X\),\(Y\) y\(Z\) denotar el número de espadas, corazones y diamantes respectivamente, en la mano.

\(\P(X = x, Y = y, \mid Z = 4) = \frac{\binom{13}{x} \binom{13}{y} \binom{22}{9-x-y}}{\binom{48}{9}}\)para\(x, \; y \in \N\) con\(x + y \le 9\)
\(\P(X = x \mid Y = 3, Z = 2) = \frac{\binom{13}{x} \binom{34}{8-x}}{\binom{47}{8}}\)para\(x \in \{0, 1, \ldots, 8\}\)

En el experimento de cartas, se dice que una mano que no contiene ninguna carta de un palo en particular es nula en ese palo.

Usa la regla de inclusión-exclusión para demostrar que la probabilidad de que una mano de póquer sea nula en al menos un palo es\[ \frac{1913496}{2598960} \approx 0.736 \]

En el experimento de cartas, set\(n = 5\). Ejecuta la simulación 1000 veces y calcula la frecuencia relativa del evento en el que la mano está vacía en al menos un palo. Comparar la frecuencia relativa con la probabilidad verdadera dada en el ejercicio anterior.

Use la regla de inclusión-exclusión para mostrar que la probabilidad de que una mano de puente sea nula en al menos un palo es\[ \frac{32427298180}{635013559600} \approx 0.051 \]