Saltar al contenido principal
Library homepage
 
LibreTexts Español

12.1: Introducción a los modelos de muestreo finito

  • Page ID
    151922
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \(\newcommand{\P}{\mathbb{P}}\)\(\newcommand{\E}{\mathbb{E}}\)\(\newcommand{\R}{\mathbb{R}}\)\(\newcommand{\N}{\mathbb{N}}\)\(\newcommand{\bs}{\boldsymbol}\)\(\newcommand{\var}{\text{var}}\)\(\newcommand{\jack}{\text{j}}\)\(\newcommand{\queen}{\text{q}}\)\(\newcommand{\king}{\text{k}}\)

    Teoría Básica

    Modelos de Muestreo

    Supongamos que tenemos una población\(D\) de\(m\) objetos. La población podría ser una baraja de cartas, un conjunto de personas, una urna llena de bolas, o cualquier número de otras colecciones. En muchos casos, simplemente etiquetamos los objetos de 1 a\(m\), así que eso\(D = \{1, 2, \ldots, m\}\). En otros casos (como el experimento de cartas), puede ser más natural etiquetar los objetos con vectores. En cualquier caso,\(D\) suele ser un subconjunto finito de\(\R^k\) para algunos\(k \in \N_+\).

    Nuestro experimento básico consiste en seleccionar\(n\) objetos de la población\(D\) al azar y registrar la secuencia de objetos elegidos. Así, el resultado es\(\bs{X} = (X_1, X_2, \ldots, X_n)\) donde\(X_i \in D\) se elige el objeto\(i\) th. Si el muestreo es con reemplazo, el tamaño de la muestra\(n\) puede ser cualquier entero positivo. En este caso, el espacio muestral\(S\) es\[ S = D^n = \left\{(x_1, x_2, \ldots, x_n): x_i \in D \text{ for each } i \right\} \] Si el muestreo es sin reemplazo, el tamaño de la muestra no\(n\) puede ser mayor que el tamaño de la población\(m\). En este caso, el espacio muestral\(S\) consiste en todas las permutaciones de tamaño\(n\) elegidas de\(D\):\[ S = D_n = \left\{(x_1, x_2, \ldots, x_n): x_i \in D \text{ for each } i \text{ and } x_i \ne x_j \text{ for all } i \ne j\right\} \]

    Desde el principio de multiplicación de la combinatoria,

    1. \(\#(D^n) = m^n\)
    2. \(\#(D_n) = m^{(n)} = m (m - 1) \cdots (m - n + 1)\)

    Con cualquier tipo de muestreo, asumimos que las muestras son igualmente probables y así que la variable de resultado\(\bs{X}\) se distribuye uniformemente en el espacio muestral apropiado\(S\); este es el significado de la frase muestra aleatoria:\[ \P(\bs{X} \in A) = \frac{\#(A)}{\#(S)}, \quad A \subseteq S \]

    La propiedad intercambiable

    Supongamos nuevamente que seleccionamos\(n\) objetos al azar de la población\(D\), ya sea con o sin reemplazo y registramos la muestra ordenada\(\bs{X} = (X_1, X_2, \ldots, X_n)\)

    Cualquier permutación de\(\bs{X}\) tiene la misma distribución que\(\bs{X}\) ella misma, es decir, la distribución uniforme en el espacio muestral apropiado\(S\):

    1. \(D^n\)si el muestreo es con reemplazo.
    2. \(D_n\)si el muestreo es sin reemplazo.

    Se dice que una secuencia de variables aleatorias con esta propiedad es intercambiable. Si bien esta propiedad es muy sencilla de entender, tanto intuitiva como matemáticamente, es sin embargo muy importante. Utilizaremos la propiedad intercambiable a menudo en este capítulo.

    De manera más general, cualquier secuencia\(k\) de las variables de\(n\) resultado se distribuye uniformemente en el espacio muestral apropiado:

    1. \(D^k\)si el muestreo es con reemplazo.
    2. \(D_k\)si el muestreo es sin reemplazo.

    En particular, para cualquiera de los métodos de muestreo,\(X_i\) se distribuye uniformemente\(D\) para cada uno\(i \in \{1, 2, \ldots, n\}\).

    Si el muestreo es con reemplazo entonces\(\bs{X} = (X_1, X_2, \ldots, X_n)\) es una secuencia de variables aleatorias independientes.

    Así, cuando el muestreo es con reemplazo, las variables muestrales forman una muestra aleatoria a partir de la distribución uniforme, en terminología estadística.

    Si el muestreo es sin reemplazo, entonces la distribución condicional de una secuencia\(k\) de las variables de resultado, dados los valores de una secuencia de\(j\) otras variables de resultado, es la distribución uniforme sobre el conjunto de permutaciones de tamaño\(k\) elegido de la población cuando el \(j\)se eliminan los valores conocidos (por supuesto,\(j + k \le n\)).

    En particular,\(X_i\) y\(X_j\) son dependientes para cualquier distinto\(i\) y\(j\) cuando el muestreo es sin reemplazo.

    La muestra desordenada

    En muchos casos cuando el muestreo es sin reemplazo, el orden en el que se eligen los objetos no es importante; lo único que importa es el conjunto (desordenado) de objetos:\[ \bs{W} = \{X_1, X_2, \ldots, X_n\} \] El conjunto aleatorio\(\bs{W}\) toma valores en el conjunto de combinaciones de tamaño\(n\) elegidas de \(D\):\[ T = \left\{ \{x_1, x_2, \ldots, x_n\}: x_i \in D \text{ for each } i \text{ and } x_i \ne x_j \text{ for all } i \ne j \right\} \]

    Recordemos eso\(\#(T) = \binom{m}{n}\).

    \(\bs{W}\)se distribuye uniformemente sobre\(T\):\[ \P(\bs{W} \in B) = \frac{\#(B)}{\#(T)} = \frac{\#(B)}{\binom{m}{n}}, \quad B \subseteq T \]

    Prueba

    Para cualquier combinación de tamaño\(n\) de\(D\), hay\(n!\) permutaciones de tamaño\(n\).

    Supongamos ahora que el muestreo es con reemplazo, y nuevamente denotamos el resultado desordenado por\(\bs{W}\). En este caso,\(\bs{W}\) toma valores en la colección de multiconjuntos de tamaño\(n\) de\(D\). (Un multiset es como un conjunto ordinario, excepto que se permiten elementos repetidos). \[ T = \left\{ \{x_1, x_2, \ldots, x_n\}: x_i \in D \text{ for each } i \right\} \]

    Recordemos eso\(\#(T) = \binom{m + n - 1}{n}\).

    \(\bs{W}\)no se distribuye uniformemente en\(T\).

    Resumen de fórmulas de muestreo

    En la siguiente tabla se resumen las fórmulas para el número de muestras de tamaño\(n\) elegidas de una población de\(m\) elementos, con base en los criterios de orden y reemplazo.

    Fórmulas de muestreo
    Número de muestras Con orden Sin
    Con reemplazo \(m^n\) \(\binom{m + n - 1}{n}\)
    Sin \(m^{(n)}\) \(\binom{m}{n}\)

    Ejemplos y Aplicaciones

    Supongamos que se elige una muestra de tamaño 2 de la población\(\{1, 2, 3, 4\}\). Enumere explícitamente todas las muestras en los siguientes casos:

    1. Muestras ordenadas, con reposición.
    2. Muestras ordenadas, sin reemplazo.
    3. Muestras desordenadas, con reemplazo.
    4. Muestras desordenadas, sin reemplazo.
    Contestar
    1. \(\{(1,1), (1,2), (1,3), (1,4), (2,1), (2,2), (2,3), (2,4), (3,1), (3,2), (3,3), (3,4), (4,1), (4,2), (4,3), (4,4)\}\)
    2. \(\{(1,2), (1,3), (1,4), (2,1), (2,3), (2,4), (3,1), (3,2), (3,4), (4,1), (4,2), (4,3)\}\)
    3. \(\{\{1,1\}, \{1,2\}, \{1,3\}, \{1,4\}, \{2,2\}, \{2,3\}, \{2,4\}, \{3,3\}, \{3,4\}, \{4,4\}\}\)
    4. \(\{\{1,2\}, \{1,3\}, \{1,4\}, \{2,3\}, \{2,4\}, \{3,4\}\}\)

    Poblaciones multitipo

    Una población dicotómica consta de dos tipos de objetos.

    Supongamos que un lote de 100 componentes incluye 10 que son defectuosos. Se selecciona una muestra aleatoria de 5 componentes sin reemplazo. Calcula la probabilidad de que la muestra contenga al menos un componente defectuoso.

    Contestar

    0.4162

    Una urna contiene 50 bolas, 30 rojas y 20 verdes. Se elige al azar una muestra de 15 bolas. Encuentra la probabilidad de que la muestra contenga 10 bolas rojas en cada uno de los siguientes casos:

    1. El muestreo es sin reemplazo
    2. El muestreo es con reemplazo
    Contestar
    1. 0.2070
    2. 0.1859

    En el experimento de pelota y urna seleccionar 50 bolas con 30 bolas rojas, y muestra tamaño 15. Ejecuta el experimento 100 veces. Compute la frecuencia relativa del evento de que la muestra tenga 10 bolas rojas en cada uno de los siguientes casos, y compárela con la probabilidad respectiva en el ejercicio anterior:

    1. El muestreo es sin reemplazo
    2. El muestreo es con reemplazo

    Supongamos que un club tiene 100 miembros, 40 hombres y 60 mujeres. Se selecciona al azar un comité de 10 miembros (y sin reemplazo, por supuesto).

    1. Encuentra la probabilidad de que ambos géneros estén representados en el comité.
    2. Si observaste el experimento y de hecho los miembros del comité son todos del mismo género, ¿creerías que el muestreo fue aleatorio?
    Contestar
    1. 0.9956
    2. No

    Supongamos que un pequeño estanque contiene 500 peces, 50 de ellos etiquetados. Un pescador captura 10 peces. Encuentra la probabilidad de que la captura contenga al menos 2 peces etiquetados.

    Contestar

    0.2635

    La distribución básica que surge del muestreo sin reemplazo de una población dicotómica se estudia en la sección sobre la distribución hipergeométrica. De manera más general, una población multitipo consiste en objetos de\(k\) diferentes tipos.

    Supongamos que un cuerpo legislativo está formado por 60 republicanos, 40 demócratas y 20 independientes. Se elige al azar un comité de 10 miembros. Encontrar la probabilidad de que al menos un partido no esté representado en el comité.

    Contestar

    0.1633. Utilizar la ley de inclusión-exclusión.

    La distribución básica que surge del muestreo sin reemplazo de una población multitipo se estudia en la sección sobre la distribución hipergeométrica multivariada.

    Tarjetas

    Recordemos que una baraja de cartas estándar puede ser modelada por el conjunto de productos\[ D = \{1, 2, 3, 4, 5, 6, 7, 8, 9, 10, \jack, \queen, \king\} \times \{\clubsuit, \diamondsuit, \heartsuit, \spadesuit\} \] donde la primera coordenada codifica la denominación o tipo (as, 2-10, jack, reina, rey) y donde la segunda coordenada codifica el palo (palos, diamantes, corazones, espadas). El experimento general de cartas consiste en dibujar\(n\) cartas al azar y sin reemplazo de la baraja\(D\). Así, la carta\(i\) th es\(X_i = (Y_i, Z_i)\) donde\(Y_i\) está la denominación y\(Z_i\) es el palo. El caso especial\(n = 5\) es el experimento de poker y el caso especial\(n = 13\) es el experimento bridge. Obsérvese que con respecto a las denominaciones o con respecto a los palos, una baraja de cartas es una población multitipo como se discutió anteriormente.

    En el experimento de\(n = 5\) cartas con cartas (poker), hay

    1. 311,875,200 manos ordenadas
    2. 2,598,960 manos desordenadas

    En el experimento de\(n = 13\) cartas con cartas (puente), hay

    1. 3,954,242,643,911,239,680,000 manos ordenadas
    2. 635,013,559,600 manos desordenadas

    En el experimento de cartas, set\(n = 5\). Ejecute la simulación 5 veces y en cada carrera, enumere todas las secuencias (ordenadas) de cartas que darían la misma mano desordenada que la que observaste.

    En el experimento de la tarjeta,

    1. \(Y_i\)se distribuye uniformemente\(\{1, 2, 3, 4, 5, 6, 7, 8, 9, 10, \jack, \queen, \king\}\) para cada uno\(i\).
    2. \(Z_j\)se distribuye uniformemente\(\{\clubsuit, \diamondsuit, \heartsuit, \spadesuit\}\) para cada uno\(i\).

    En el experimento de tarjeta,\(Y_i\) y\(Z_j\) son independientes para cualquier\(i\) y\(j\).

    En el experimento de tarjeta,\((Y_1, Y_2)\) y\((Z_1, Z_2)\) son dependientes.

    Supongamos que se reparte una secuencia de 5 cartas. Encuentra cada uno de los siguientes:

    1. La probabilidad de que la tercera carta sea una pala.
    2. La probabilidad de que la segunda y cuarta cartas sean reinas.
    3. La probabilidad condicional de que la segunda carta sea un corazón dado que la quinta carta es un corazón.
    4. La probabilidad de que la tercera carta sea una reina y la cuarta carta sea un corazón.
    Contestar
    1. \(\frac{1}{4}\)
    2. \(\frac{1}{221}\)
    3. \(\frac{4}{17}\)
    4. \(\frac{1}{52}\)

    Ejecuta el experimento de tarjeta 500 veces. Calcula la frecuencia relativa correspondiente a cada probabilidad en el ejercicio anterior.

    Encuentra la probabilidad de que una mano de puente no contenga tarjetas de honor, es decir, ni cartas de denominación 10, jota, reina, rey o as. Tal mano se llama Yarborough, en honor al segundo conde de Yarborough.

    Contestar

    0.000547

    Dados

    Rodar dados\(n\) justos de seis lados equivale a elegir una muestra aleatoria de tamaño\(n\) con reemplazo de la población\(\{1, 2, 3, 4, 5, 6\}\). Generalmente, seleccionar una muestra aleatoria de tamaño\(n\) con reemplazo de\(D = \{1, 2, \ldots, m\}\) es equivalente a rodar dados\(m\) de lados\(n\) justos.

    En el juego de dados de póquer, se lanzan 5 dados estándar, justos. Encuentra cada uno de los siguientes:

    1. La probabilidad de que todos los dados muestren la misma puntuación.
    2. La probabilidad de que las puntuaciones sean distintas.
    3. La probabilidad de que 1 ocurra dos veces y 6 ocurra 3 veces.
    Contestar
    1. \(\frac{1}{1296}\)
    2. \(\frac{5}{24}\)
    3. \(\frac{5}{3888}\)

    Ejecuta el experimento de dados de póquer 500 veces. Compute la frecuencia relativa de cada evento en el ejercicio anterior y compárela con la probabilidad correspondiente.

    El juego de dados de póquer se trata con más detalle en el capítulo de Juegos de azar.

    Cumpleaños

    Supone que seleccionamos\(n\) personas al azar y registrar sus cumpleaños. Si asumimos que los cumpleaños se distribuyen uniformemente a lo largo del año, y si ignoramos los años bisiestos, entonces este experimento equivale a seleccionar una muestra de tamaño\(n\) con reemplazo de\(D = \{1, 2, \ldots, 365\}\). De igual manera, podríamos registrar meses de nacimiento o semanas de nacimiento.

    Supongamos que una clase de probabilidad tiene 30 alumnos. Encuentra cada uno de los siguientes:

    1. La probabilidad de que los cumpleaños sean distintos.
    2. La probabilidad de que haya al menos un cumpleaños duplicado.
    Contestar
    1. 0.2937
    2. 0.7063

    En el experimento de cumpleaños, set\(m = 365\) y\(n = 30\). Ejecutar el experimento 1000 veces y comparar la frecuencia relativa de cada evento en el ejercicio anterior con la probabilidad correspondiente.

    El problema del cumpleaños se trata con más detalle más adelante en este capítulo.

    Bolas en celdas

    Supongamos que distribuimos bolas\(n\)\(m\) distintas en celdas distintas al azar. Este experimento también se ajusta al modelo básico, donde\(D\) está la población de células y\(X_i\) es la célula que contiene la bola\(i\) th. Muestreo con reemplazo significa que una celda puede contener más de una bola; el muestreo sin reemplazo significa que una celda puede contener como máximo una bola.

    Supongamos que 5 bolas se distribuyen en 10 celdas (sin restricciones). Encuentra cada uno de los siguientes:

    1. La probabilidad de que las bolas estén todas en celdas diferentes.
    2. La probabilidad de que las bolas estén todas en la misma celda.
    Contestar
    1. \(\frac{189}{625}\)
    2. \(\frac{1}{10000}\)

    Cupones

    Supongamos que cuando compramos un determinado producto (chicle, o cereal por ejemplo), recibimos un cupón (una tarjeta de béisbol o un juguete pequeño, por ejemplo), que es igualmente probable que sea cualquiera de los\(m\) tipos. Podemos pensar en este experimento como muestreo con reemplazo de la población de tipos de cupones;\(X_i\) es el cupón que recibimos en la compra\(i\) th.

    Supongamos que la comida de un niño en un restaurante de comida rápida viene con un juguete. El juguete es igualmente probable que sea cualquiera de 5 tipos. Supongamos que una mamá compra una comida infantil por cada uno de sus 3 hijos. Encuentra cada uno de los siguientes:

    1. La probabilidad de que los juguetes sean todos iguales.
    2. La probabilidad de que los juguetes sean todos diferentes.
    Contestar
    1. \(\frac{1}{25}\)
    2. \(\frac{12}{25}\)

    El problema del coleccionista de cupones se estudia con más detalle más adelante en este capítulo.

    El problema clave

    Supongamos que una persona tiene\(n\) llaves, sólo una de las cuales abre cierta puerta. La persona prueba las claves al azar. Dejaremos\(N\) denotar el número de prueba cuando la persona encuentre la clave correcta.

    Supongamos que se descartan las claves fallidas (lo racional que hay que hacer, por supuesto). Entonces\(N\) tiene puesta la distribución uniforme\(\{1, 2, \ldots, n\}\).

    1. \(\P(N = i) = \frac{1}{n}, \quad i \in \{1, 2, \ldots, n\}\).
    2. \(\E(N) = \frac{n + 1}{2}\).
    3. \(\var(N) = \frac{n^2 - 1}{12}\).

    Supongamos que las llaves fallidas no se descartan (quizás la persona haya bebido demasiado). Entonces\(N\) tiene una distribución geométrica encendida\(\N_+\).

    1. \(\P(N = i) = \frac{1}{n} \left( \frac{n-1}{n} \right)^{i-1}, \quad i \in \N_+\).
    2. \(\E(N) = n\).
    3. \(\var(N) = n (n - 1)\).

    Simulación de muestras aleatorias

    Es muy fácil simular una muestra aleatoria de tamaño\(n\), con reemplazo de\(D = \{1, 2, \ldots, m\}\). Recordemos que la función de techo\(\lceil x \rceil\) da el entero más pequeño que es al menos tan grande como\(x\).

    Dejar\(\bs{U} = (U_1, U_2, \ldots, U_n)\) ser una secuencia de ser un números aleatorios. Recordemos que se trata de variables aleatorias independientes, cada una distribuida uniformemente en el intervalo\([0, 1]\) (la distribución uniforme estándar). Después\(X_i = \lceil m \, U_i \rceil\) para\(i \in \{1, 2, \ldots, n\}\) simula una muestra aleatoria, con reemplazo, de\(D\).

    Es un poco más difícil simular una muestra aleatoria de tamaño\(n\), sin reemplazo, ya que necesitamos eliminar cada valor de muestra antes del siguiente sorteo.

    El siguiente algoritmo genera una muestra aleatoria de tamaño\(n\), sin reemplazo, de\(D\).

    1. \(i = 1\)Para\(m\), vamos\(b_i = i\).
    2. \(i = 1\)Para\(n\),
      1. dejar\(j = m - i + 1\)
      2. dejar\(U_i\) ser un número aleatorio
      3. dejar\(J = \lfloor j U_i \rfloor\)
      4. dejar\(X_i = b_J\)
      5. dejar\(k = b_j\)
      6. dejar\(b_j = b_J\)
      7. dejar\(b_J = k\)
    3. Regreso\(\bs{X} = (X_1, X_2, \ldots, X_n)\)

    This page titled 12.1: Introducción a los modelos de muestreo finito is shared under a CC BY 2.0 license and was authored, remixed, and/or curated by Kyle Siegrist (Random Services) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.