Saltar al contenido principal
LibreTexts Español

5.1: Distribuciones importantes

  • Page ID
    150123
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    En este capítulo, describimos las distribuciones de probabilidad discretas y las densidades de probabilidad continuas que ocurren con mayor frecuencia en el análisis de experimentos. También mostraremos cómo se simula estas distribuciones y densidades en una computadora.

    Distribución Uniforme Discreta

    En el Capítulo 1, vimos que en muchos casos, asumimos que todos los resultados de un experimento son igualmente probables. Si\(X\) es una variable aleatoria que representa el resultado de un experimento de este tipo, entonces decimos que\(X\) se distribuye uniformemente. Si el espacio muestral\(S\) es de tamaño\(n\), donde\(0 < n < \infty\), entonces la función de distribución\(m(\omega)\) se define para que sea\(1/n\) para todos\(\omega \in S\). Como es el caso de todas las distribuciones discretas de probabilidad discutidas en este capítulo, este experimento se puede simular en una computadora usando el programa GeneralSimulation. Sin embargo, en este caso, se puede usar un algoritmo más rápido en su lugar. (Este algoritmo fue descrito en el Capítulo 1; repetimos la descripción aquí para completar.) La expresión\[1 + \lfloor n\,(rnd)\rfloor\] toma como valor cada entero entre 1 y\(n\) con probabilidad\(1/n\) (la notación\(\lfloor x \rfloor\) denota el mayor número entero que no excede\(x\)). Así, si se etiquetan los posibles resultados del experimento\(\omega_1\ \omega_2,\ \ldots,\ \omega_n\), entonces usamos la expresión anterior para representar el subíndice de la salida del experimento.

    Si el espacio muestral es un conjunto infinitamente contable, como el conjunto de enteros positivos, entonces no es posible tener un experimento que sea uniforme en este conjunto (ver Ejercicio 5.1.102). Si el espacio muestral es un conjunto incontable, con longitud positiva, finita, como el intervalo\([0, 1]\), entonces usamos funciones de densidad continua (ver Sección 2).

    Distribución binomial

    La distribución binomial con parámetros\(n\)\(p\), y\(k\) se definió en el Capítulo 3. Es la distribución de la variable aleatoria la que cuenta el número de cabezas que ocurren cuando una moneda es arrojada\(n\) veces, asumiendo que en cualquier lanzamiento, la probabilidad de que ocurra una cabeza es\(p\). La función de distribución viene dada por la fórmula\[b(n, p, k) = {n \choose k}p^k q^{n-k}\ ,\] donde\(q = 1 - p\).

    Una forma sencilla de simular una variable aleatoria binomial\(X\) es calcular la suma de variables\(0-1\) aleatorias\(n\) independientes, cada una de las cuales toma el valor 1 con probabilidad\(p\).

    Distribución Geométrica

    Consideremos que un proceso de ensayos de Bernoulli continuó por un número infinito de ensayos; por ejemplo, una moneda arrojó una secuencia infinita de veces. Así, podemos determinar la distribución para cualquier variable aleatoria\(X\) relacionada con el experimento proporcionado se\(P(X = a)\) puede computar en términos de un número finito de ensayos. Por ejemplo,\(T\) sea el número de ensayos hasta e incluyendo el primer éxito. Entonces\[\begin{aligned} P(T = 1) & = & p\ , \\ P(T = 2) & = & qp\ , \\ P(T = 3) & = & q^2p\ , \\\end{aligned}\] y en general,\[P(T = n) = q^{n-1}p\ .\] Para demostrar que se trata de una distribución, debemos mostrar que\[p + qp + q^2p + \cdots = 1\ .\] La expresión de la izquierda es solo una serie geométrica con primer término\(p\) y relación común\(q\), por lo que su suma es la\[{p\over{1-q}}\] que equivale a 1.

    En la Figura 5.4 hemos trazado esta distribución utilizando el programa GeometricPlot para los casos\(p = .5\) y\(p = .2\). Vemos que a medida que\(p\) disminuciones tenemos más probabilidades de obtener grandes valores para\(T\), como se esperaría. En ambos casos, el valor más probable para\(T\) es 1. Esto siempre será cierto ya que\[\frac {P(T = j + 1)}{P(T = j)} = q < 1\ .\]

    En general, si\(0 < p < 1\), y\(q = 1 - p\), entonces decimos que la variable aleatoria\(T\) tiene una distribución geométrica if\[P(T = j) = q^{j - 1}p\ ,\] for\(j = 1,\ 2,\ 3,\ \ldots\).

    Para simular la distribución geométrica con parámetro\(p\), podemos simplemente calcular una secuencia de números aleatorios en\([0, 1)\), deteniéndose cuando una entrada no excede\(p\). Sin embargo, para valores pequeños de\(p\), esto consume mucho tiempo (tomando, en promedio,\(1/p\) pasos). Ahora describimos un método cuyo tiempo de ejecución no depende del tamaño de\(p\). \(Y\)Definir como el entero más pequeño que satisface la desigualdad

    \[1 - q^Y \ge rnd\ .\label{eq 5.3}\]

    Entonces tenemos

    \[\begin{align} P(Y = j) & = & P\Big(1 - q^j \ge rnd > 1 - q^{j-1}\Big) \\ & = & q^{j-1} - q^j \\ & = & q^{j-1}(1-q) \\ & = & q^{j-1}p end{align}\]

    Así,\(Y\) se distribuye geométricamente con parámetro\(p\). Para generar\(Y\), todo lo que tenemos que hacer es resolver la Ecuación 5.1 para\(Y\). Obtenemos

    \[Y = \Biggl\lceil \frac{\log(1-rnd)}{\log q} \Biggr\rceil\ ,\]

    donde la notación\(\lceil x \rceil\) significa el menor número entero que es mayor o igual a\(x\). Dado que\(\log(1-rnd)\) y\(\log(rnd)\) están distribuidos de manera idéntica, también se\(Y\) pueden generar usando la ecuación

    \[Y = \Bigg\lceil \frac{\log rnd}{\log q}} \Bigg\rceil \]

    Ejemplo\(\PageIndex{1}\):

    La distribución geométrica juega un papel importante en la teoría de las colas, o líneas de espera. Por ejemplo, supongamos que una línea de clientes espera el servicio en un mostrador. A menudo se asume que, en cada pequeña unidad de tiempo, ya sea 0 o 1 nuevos clientes llegan al mostrador. La probabilidad de que llegue un cliente es\(p\) y que ningún cliente llegue es\(q = 1 - p\). Entonces el tiempo\(T\) hasta la próxima llegada tiene una distribución geométrica. Es natural pedir la probabilidad de que ningún cliente llegue en la próxima\(k\) vez que las unidades, es decir, para\(P(T > k)\). Esto viene dado por

    \[\begin{aligned} P(T > k) = \sum_{j = k+1}^\infty q^{j-1}p & = & q^k(p + qp + q^2p + \cdots) \\ & = & q^k\ .\end{aligned}\]

    Esta probabilidad también se puede encontrar señalando que no estamos pidiendo éxitos (es decir, llegadas) en una secuencia de unidades de tiempo\(k\) consecutivas, donde está la probabilidad de un éxito en cualquier unidad de tiempo\(p\). Así, la probabilidad es justa\(q^k\), ya que las llegadas en dos unidades de tiempo cualesquiera son eventos independientes.

    A menudo se asume que el tiempo requerido para atender a un cliente también tiene una distribución geométrica pero con un valor diferente para\(p\). Esto implica una propiedad bastante especial del tiempo de servicio. Para ver esto, calculemos la probabilidad condicional\[P(T > r + s\,|\,T > r) = \frac{P(T > r + s)}{P(T > r)} = \frac {q^{r + s}}{q^r} = q^s\ .\] Así, la probabilidad de que el servicio al cliente tome\(s\) más unidades de tiempo es independiente del tiempo\(r\) que el cliente ya haya sido atendido. Debido a esta interpretación, esta propiedad se llama la propiedad “sin memoria”, y también es obedecida por la distribución exponencial. (Afortunadamente, no demasiadas estaciones de servicio tienen esta propiedad.)

    Distribución binomial negativa

    Supongamos que se nos da una moneda que tiene probabilidad\(p\) de subir de cabeza cuando se lanza. Arreglamos un entero positivo\(k\), y tiramos la moneda hasta que aparezca la cabeza\(k\) th. Dejamos\(X\) representar el número de tiradas. Cuando\(k = 1\),\(X\) se distribuye geométricamente. Para un general\(k\), decimos que\(X\) tiene una distribución binomial negativa. Ahora calculamos la distribución de probabilidad de\(X\). Si\(X = x\), entonces debe ser cierto que hubo exactamente\(k-1\) cabezas lanzadas en los primeros\(x-1\) lanzamientos, y se debió haber arrojado una cabeza en el\(x\) th lanzamiento. Hay

    \[\binom{x-1}{k-1}\]

    secuencias de longitud\(x\) con estas propiedades, y a cada una de ellas se le asigna la misma probabilidad, a saber\[p^{k-1}q^{x-k}\ .\] Por lo tanto, si definimos\[u(x, k, p) = P(X = x)\ ,\] entonces

    \[u(x, k, p) = \binom{x-1}{k-1}p^kq^{x-k}\ .\]

    Se puede simular esto en una computadora simulando el lanzamiento de una moneda. El siguiente algoritmo es, en general, mucho más rápido. Observamos que se\(X\) puede entender como la suma de\(k\) resultados de un experimento distribuido geométricamente con parámetro\(p\). Así, podemos utilizar la siguiente suma como medio de generar\(X\):

    \[\sum_{j = 1}^k \Biggl\lceil {\frac{\log\ rnd_j}{\log\ q}}\Biggr\rceil \]

    Ejemplo\(\PageIndex{2}\):

    Una moneda justa es arrojada hasta la segunda vez que aparece una cabeza. La distribución para el número de tiradas es\(u(x, 2, p)\). Así, la probabilidad de que\(x\) se necesiten lanzamientos para obtener dos cabezas se encuentra al dejar\(k = 2\) entrar la fórmula anterior. Obtenemos

    \[u(x, 2, 1/2) = {{x-1} \choose 1} \frac 1{2^x}\ ,\]para\(x = 2, 3, \ldots\\).

    En la Figura 7.2 damos una gráfica de la distribución para\(k = 2\) y\(p = .25\). Obsérvese que la distribución es bastante asimétrica, con una cola larga que refleja el hecho de que\(x\) son posibles grandes valores de.

    Distribución de Poisson

    La distribución de Poisson surge en muchas situaciones. Es seguro decir que es una de las tres distribuciones de probabilidad discretas más importantes (siendo las otras dos las distribuciones uniforme y binomial). La distribución de Poisson puede ser vista como derivada de la distribución binomial o de la densidad exponencial. Explicaremos ahora su vinculación con la primera; su conexión con la segunda se explicará en la siguiente sección.

    Supongamos que tenemos una situación en la que cierto tipo de ocurrencia ocurre al azar a lo largo de un periodo de tiempo. Por ejemplo, las ocurrencias que nos interesan podrían ser llamadas telefónicas entrantes a una comisaría de una gran ciudad. Queremos modelar esta situación para que podamos considerar las probabilidades de eventos como más de 10 llamadas telefónicas que ocurran en un intervalo de tiempo de 5 minutos. Presumiblemente, en nuestro ejemplo, habría más llamadas entrantes entre las 6:00 y las 7:00 P.M., que entre las 4:00 y las 5:00 A.M., y este hecho ciertamente afectaría la probabilidad anterior. Así, para tener la esperanza de computar tales probabilidades, debemos asumir que la tasa promedio, es decir, el número promedio de ocurrencias por minuto, es una constante. Esta tasa vamos a denotar por\(\lambda\). (Así, en un intervalo de tiempo dado de 5 minutos, esperaríamos acerca de las\(5\lambda\) ocurrencias). Esto significa que si aplicáramos nuestro modelo a los dos periodos de tiempo indicados anteriormente, simplemente usaríamos diferentes tarifas para los dos periodos de tiempo, obteniendo así dos probabilidades diferentes para el evento dado.

    Nuestra siguiente suposición es que el número de ocurrencias en dos intervalos de tiempo no superpuestos es independiente. En nuestro ejemplo, esto quiere decir que los eventos que hay\(j\) llamadas entre las 5:00 y las 5:15 P.M. y las\(k\) llamadas entre las 6:00 y las 6:15 P.M. del mismo día son independientes.

    Podemos utilizar la distribución binomial para modelar esta situación. Imaginamos que un intervalo de tiempo dado se divide en\(n\) subintervalos de igual longitud. Si los subintervalos son suficientemente cortos, podemos suponer que dos o más ocurrencias ocurren en un subintervalo con una probabilidad que es despreciable en comparación con la probabilidad de como máximo una ocurrencia. Así, en cada subintervalo, estamos asumiendo que hay 0 o 1 ocurrencia. Esto significa que la secuencia de subintervalos se puede considerar como una secuencia de ensayos de Bernoulli, con un éxito correspondiente a una ocurrencia en el subintervalo.

    Para decidir sobre el valor adecuado de\(p\), la probabilidad de una ocurrencia en un subintervalo dado, razonamos de la siguiente manera. En promedio, hay\(\lambda t\) ocurrencias en un intervalo de tiempo de duración\(t\). Si este intervalo de tiempo se divide en\(n\) subintervalos, entonces esperaríamos, usando la interpretación de los ensayos de Bernoulli, que debería haber\(np\) ocurrencias. Por lo tanto, queremos\[\lambda t = n p\ ,\] que\[p = {\frac{\lambda t}{n}}\]

    Ahora queremos considerar la variable aleatoria\(X\), que cuenta el número de ocurrencias en un intervalo de tiempo dado. Queremos calcular la distribución de\(X\). Para facilitar el cálculo, asumiremos que el intervalo de tiempo es de longitud 1; para intervalos de tiempo de duración arbitraria\(t\), ver Ejercicio [exer 5.1.26]. Sabemos que\[P(X = 0) = b(n, p, 0) = (1 - p)^n = \Bigl(1 - {\lambda \over n}\Bigr)^n\ .\] Para grandes\(n\), esto es aproximadamente\(e^{-\lambda}\). Es fácil calcular que para cualquier fijo\(k\), tenemos

    \[{\frac{b(n, p, k)}{b(n, p, k-1)}} = {\frac{\lambda - (k-1)p}{kq}}\]

    que, para grandes\(n\) (y por lo tanto pequeños\(p\)) es aproximadamente\(\lambda/k\). Así, tenemos

    \[P(X = 1) \approx \lambda e^{-\lambda},\]

    y en general,\[P(X = k) \approx {\frac{\lambda^k}{k!}} e^{-\lambda} \]

    La distribución anterior es la distribución de Poisson. Observamos que se debe verificar que la distribución dada en la Ecuación 5.1 realmente es una distribución, es decir, que sus valores son no negativos y suman a 1. (Ver Ejercicio 5.1.27.)

    La distribución de Poisson se utiliza como aproximación a la distribución binomial cuando los parámetros\(n\) y\(p\) son grandes y pequeños, respectivamente (ver Ejemplos 5.1.3 y 5.1.5). Sin embargo, la distribución de Poisson también surge en situaciones en las que puede no ser fácil interpretar o medir los parámetros\(n\) y\(p\) (ver Ejemplo 5.5.5.

    Ejemplo\(\PageIndex{3}\)

    Un tipografista comete, en promedio, un error por cada 1000 palabras. Supongamos que está poniendo un libro con 100 palabras a una página. \(S_{100}\)Sea el número de errores que comete en una sola página. Entonces la distribución exacta de probabilidad para se\(S_{100}\) obtendría considerando\(S_{100}\) como resultado de 100 ensayos de Bernoulli con\(p = 1/1000\). El valor esperado de\(S_{100}\) es\(\lambda = 100(1/1000) = .1\). La probabilidad exacta\(S_{100} = j\) es decir\(b(100,1/1000,j)\), y la aproximación de Poisson es\[\frac {e^{-.1}(.1)^j}{j!}.\] En la Tabla 5.1 damos, para diversos valores de\(n\) y\(p\), los valores exactos calculados por la distribución binomial y la aproximación de Poisson.

    Cuadro 5.1: Aproximación de Poisson a la distribución binomial.
    Poisson Binomial Poisson Binomial Poisson Binomial
    \(n = 100\) \(n = 100\) \(n = 1000\)
    \(j\) \(\lambda = .1\) \(p = .001\) \(\lambda = 1\) \(p = .01\) \(\lambda = 10\) \(p = .01\)
    0 .9048 .9048 .3679 .3660 .0000 .0000
    1 .0905 .0905 .3679 .3697 .0005 .0004
    2 .0045 .0045 .1839 .1849 .0023 .0022
    3 .0002 .0002 .0613 .0610 .0076 .0074
    4 .0000 .0000 .0153 .0149 .0189 .0186
    5 .0031 .0029 .0378 .0374
    6 .0005 .0005 .0631 .0627
    7 .0001 .0001 .0901 .0900
    8 .0000 .0000 .1126 .1128
    9 .1251 .1256
    10 .1251 .1257
    11 .1137 .1143
    12 .0948 .0952
    13 .0729 .0731
    14 .0521 .0520
    15 .0347 .0345
    16 .0217 .0215
    17 .0128 .0126
    18 .0071 .0069
    19 .0037 .0036
    20 .0019 .0018
    21 .0009 .0009
    22 .0004 .0004
    23 .0002 .0002
    24 .0001 .0001
    25 .0000 .0000

    Ejemplo\(PageIndex{4}\)

    En su libro, 1 Feller analiza las estadísticas de los impactos de bombas voladoras en el sur de Londres durante la Segunda Guerra Mundial.

    Supongamos que vives en un distrito de tamaño 10 cuadras por 10 cuadras para que el distrito total se divida en 100 plazas pequeñas. ¿Qué tan probable es que la plaza en la que vives no reciba impactos si el área total es alcanzada por 400 bombas?

    Asumimos que una bomba en particular golpeará tu cuadrado con probabilidad 1/100. Ya que hay 400 bombas, podemos considerar el número de impactos que recibe tu plaza como el número de en un proceso de juicios de Bernoulli con\(n = 400\) y\(p = 1/100\). Así podemos usar la distribución de Poisson con\(\lambda = 400 \cdot 1/100 = 4\) para aproximar la probabilidad de que tu cuadrado reciba\(j\) aciertos. Esta probabilidad es\(p(j) = e^{-4} 4^j/j!\). El número esperado de cuadrados que reciben exactamente\(j\) aciertos es entonces\(100 \cdot p(j)\). Es fácil escribir un programa LondonBombs para simular esta situación y comparar el número esperado de cuadrados con\(j\) aciertos con el número observado. En el Ejercicio 9.2.15 se le pide comparar los datos reales observados con los predichos por la distribución de Poisson.

    En la Figura 5.1.5, hemos mostrado los aciertos simulados, junto con un gráfico de picos que muestra tanto las frecuencias observadas como las predichas. Las frecuencias observadas se muestran como cuadrados, y las frecuencias predichas se muestran como puntos.

    Si el lector prefiere no considerar las bombas voladoras, se le invita a considerar en su lugar una situación análoga que involucra galletas y pasas. Suponemos que hemos hecho suficiente masa para galletas para 500 galletas. Ponemos 600 pasas en la masa, y la mezclamos bien. Una forma de ver esta situación es que tenemos 500 galletas, y después de colocar las galletas en una cuadrícula sobre la mesa, tiramos 600 pasas a las galletas. (Ver Ejercicio 5.1.29.)

    Ejemplo\(PageIndex{5}\)

    Supongamos que en cierta cantidad fija\(A\) de sangre, el humano promedio tiene 40 glóbulos blancos. \(X\)Sea la variable aleatoria que da el número de glóbulos blancos en una muestra aleatoria de tamaño\(A\) de un individuo aleatorio. Podemos pensar que\(X\) se distribuye binomialmente con cada glóbulo blanco del cuerpo representando un ensayo. Si un glóbulo blanco dado aparece en la muestra, entonces el ensayo correspondiente a ese glóbulo fue un éxito. Entonces se\(p\) debe tomar como la relación de\(A\) a la cantidad total de sangre en el individuo, y\(n\) será el número de glóbulos blancos en el individuo. Por supuesto, en la práctica, ninguno de estos parámetros es muy fácil de medir con precisión, pero presumiblemente el número 40 es fácil de medir. Pero para el humano promedio, entonces tenemos\(40 = np\), así podemos pensar en ser Poisson distribuido, con parámetro\(\lambda = 40\).\(X\) En este caso, es más fácil modelar la situación usando la distribución de Poisson que la distribución binomial.

    Para simular una variable aleatoria de Poisson en una computadora, una buena manera es aprovechar la relación entre la distribución de Poisson y la densidad exponencial. Esta relación y el algoritmo de simulación resultante se describirán en la siguiente sección.

    Distribución Hipergeométrica

    Supongamos que tenemos un juego de\(N\) bolas, de\(k\) las cuales son rojas y\(N-k\) azules. Elegimos\(n\) de estas bolas, sin reemplazo, y definimos\(X\) como el número de bolas rojas en nuestra muestra. La distribución de\(X\) se llama distribución hipergeométrica. Observamos que esta distribución depende de tres parámetros, a saber\(N\),\(k\), y\(n\). No parece haber una notación estándar para esta distribución; usaremos la notación\(h(N, k, n, x)\) para denotar\(P(X = x)\). Esta probabilidad se puede encontrar señalando que existen\[{N \choose n}\] diferentes muestras de tamaño\(n\), y el número de tales muestras con bolas exactamente\(x\) rojas se obtiene multiplicando el número de formas de elegir bolas\(x\) rojas del conjunto de bolas\(k\) rojas y el número de formas de elegir bolas\(n-x\) azules del conjunto de bolas\(N-k\) azules. Por lo tanto, tenemos

    \[h(N, k, n, x) = \frac{\binom{k}{x}\binom{N-k}{n-x}}{\binom{N}{n}} \]

    Esta distribución puede generalizarse al caso donde hay más de dos tipos de objetos. (Ver Ejercicio 5.1.24.)

    Si dejamos\(N\) y\(k\) tendemos a\(\infty\), de tal manera que la relación\(k/N\) permanezca fija, entonces la distribución hipergeométrica tiende a la distribución binomial con parámetros\(n\) y\(p = k/N\). Esto es razonable porque si\(N\) y\(k\) son mucho más grandes que\(n\), entonces si elegimos nuestra muestra con o sin reemplazo no debería afectar mucho a las probabilidades, y el experimento que consiste en elegir con reemplazo produce una variable aleatoria distribuida binomialmente (ver Ejercicio 5.1.124).

    Un ejemplo de cómo se podría utilizar esta distribución se da en los Ejercicios 5.1.21 y 5.1.22. Damos ahora otro ejemplo que involucra la distribución hipergeométrica. Ilustra una prueba estadística llamada Prueba Exacta de Fisher.

    Ejemplo\(\PageIndex{1}\):

    A menudo es de interés considerar dos rasgos, como el color de ojos y el color del cabello, y preguntar si existe una asociación entre los dos rasgos. Dos rasgos están asociados si conocer el valor de uno de los rasgos para una persona determinada nos permite predecir el valor del otro rasgo para esa persona. Cuanto más fuerte es la asociación, más precisas se vuelven las predicciones. Si no hay asociación entre los rasgos, entonces decimos que los rasgos son independientes. En este ejemplo, usaremos los rasgos de género y partido político, y asumiremos que solo hay dos géneros posibles, femenino y masculino, y sólo dos posibles partidos políticos, demócratas y republicanos.

    Supongamos que hemos recopilado datos relativos a estos rasgos. Para probar si existe una asociación entre los rasgos, primero asumimos que no existe asociación entre los dos rasgos. Esto da lugar a un conjunto de datos “esperado”, en el que el conocimiento del valor de un rasgo no ayuda para predecir el valor del otro rasgo. Nuestro conjunto de datos recopilados generalmente difiere de este conjunto de datos esperado. Si difiere bastante, entonces tenderíamos a rechazar el supuesto de independencia de los rasgos. Para concretar lo que se entiende por “bastante”, decidimos qué posibles conjuntos de datos difieren del conjunto de datos esperado por lo menos tanto como lo hace el nuestro, y luego calculamos la probabilidad de que cualquiera de estos conjuntos de datos se produzca bajo el supuesto de independencia de rasgos. Si esta probabilidad es pequeña, entonces es poco probable que la diferencia entre nuestro conjunto de datos recopilados y el conjunto de datos esperado se deba completamente a la casualidad.

    Supongamos que hemos recopilado los datos que se muestran en la Tabla 5.1.2.

    Cuadro 5.1.2 Datos observados.

    Demócrata

    Republicano

    Hembra

    24

    4

    28

    Macho

    8

    14

    22

    32 18

    50

    Las sumas de filas y columnas se denominan totales marginales o marginales. En lo que sigue, denotaremos las sumas de fila por\(t_{11}\) y\(t_{12}\), y las sumas de columna por\(t_{21}\) y\(t_{22}\). La entrada\(ij\) th en la tabla será denotada por\(s_{ij}\). Por último, el tamaño del conjunto de datos será denotado por\(n\). Así, una tabla de datos generales se verá como se muestra en la Tabla 5.1.3.

    Cuadro 5.1.3 Tabla de datos generales.

    Demócrata

    Republicano

    Hembra

    \(s_{11}\) \(s_{12}\)

    \(t_{11}\)

    Macho

    \(s_{21}\) \(s_{22}\)

    \(t_{12}\)

    \(t_{21}\) \(t_{22}\)

    \(n\)

    Ahora explicamos el modelo que se utilizará para construir el conjunto de datos “esperado”. En el modelo, asumimos que los dos rasgos son independientes. Después metemos en una urna bolas\(t_{21}\) amarillas y bolas\(t_{22}\) verdes, correspondientes a los marginales demócratas y republicanos. Dibujamos\(t_{11}\) bolas, sin reemplazo, de la urna, y las llamamos hembras. Las\(t_{12}\) bolas que quedan en la urna se llaman machos. En el caso específico bajo consideración, la probabilidad de obtener los datos reales bajo este modelo viene dada por la expresión

    \[\frac{\binom{32}{24}\binom{18}{4}}{\binom{50}{28}} \]

    es decir, un valor de la distribución hipergeométrica.

    Ahora estamos listos para construir el conjunto de datos esperado. Si elegimos 28 bolas de 50, deberíamos esperar ver, en promedio, el mismo porcentaje de bolas amarillas en nuestra muestra que en la urna. Por lo tanto, debemos esperar ver, en promedio, bolas\(28(32/50) = 17.92 \approx 18\) amarillas en nuestra muestra. (Ver Ejercicio 5.1.36.) Los otros valores esperados se computan exactamente de la misma manera. Así, el conjunto de datos esperados se muestra en la Tabla 5.1.4.

    5.1.4: Datos esperados.

    Demócrata

    Republicano

    Hembra

    18 10

    28

    Macho

    14

    8

    22

    32 18

    50

    Observamos que el valor de\(s_{11}\) determina los otros tres valores en la tabla, ya que los marginales son todos fijos. Así, al considerar los posibles conjuntos de datos que podrían aparecer en este modelo, basta con considerar los diversos valores posibles de\(s_{11}\). En el caso específico que nos ocupa, ¿cuál es la probabilidad de dibujar exactamente bolas\(a\) amarillas, es decir, cuál es la probabilidad de que\(s_{11} = a\)? Es

    \[ \frac{\binom{32}{a}\binom{18}{28-a}}{\binom{50}{28}}\]

    Ahora estamos listos para decidir si nuestros datos reales difieren del conjunto de datos esperados en una cantidad que es mayor de lo que podría atribuirse razonablemente solo al azar. Observamos que el número esperado de mujeres demócratas es de 18, pero el número real en nuestros datos es de 24. Los otros conjuntos de datos que difieren del conjunto de datos esperados en más que los nuestros corresponden a aquellos en los que el número de mujeres demócratas es igual a 25, 26, 27 o 28. Así, para obtener la probabilidad requerida, sumamos la expresión en (5.3) de\(a = 24\) a\(a = 28\). Obtenemos un valor de\(.000395\). Por lo tanto, debemos rechazar la hipótesis de que los dos rasgos son independientes.

    Finalmente, pasamos a la pregunta de cómo simular una variable aleatoria hipergeométrica\(X\). Supongamos que los parámetros para\(X\) son\(N\),\(k\), y\(n\). Imaginamos que tenemos un juego de\(N\) bolas, etiquetadas de 1 a\(N\). Decretamos que las primeras\(k\) de estas bolas son rojas, y el resto son azules. Supongamos que hemos elegido\(m\) bolas, y\(j\) las de ellas son rojas. Después quedan bolas\(k-j\) rojas, y las\(N-m\) bolas a la izquierda. Así, nuestra próxima elección será roja con probabilidad

    \[\frac{k-j}{N-m}\]

    Entonces en esta etapa, elegimos un número aleatorio en\([0, 1]\), e informamos que se ha elegido una bola roja si y sólo si el número aleatorio no excede la expresión anterior. Después actualizamos los valores de\(m\) y\(j\), y continuamos hasta que se hayan elegido\(n\) bolas.

    Benford Distribución

    Nuestro siguiente ejemplo de una distribución proviene del estudio de los dígitos iniciales en conjuntos de datos. Resulta que muchos conjuntos de datos que ocurren “en la vida real” tienen la propiedad de que los primeros dígitos de los datos no están distribuidos uniformemente sobre el conjunto\(\{1, 2, \ldots, 9\}\). Más bien, parece que es más probable que ocurra el dígito 1, y que la distribución está disminuyendo monótonamente en el conjunto de dígitos posibles. La distribución de Benford aparece, en muchos casos, para ajustarse a dichos datos. Se han dado muchas explicaciones para la ocurrencia de esta distribución. Posiblemente la explicación más convincente es que esta distribución es la única que es invariante bajo un cambio de escala. Si uno piensa en ciertos conjuntos de datos como de alguna manera “de origen natural”, entonces la distribución no debería verse afectada por qué unidades se eligen en las que representar los datos, es decir, la distribución debe ser invariante bajo cambio de escala.

    Theodore Hill 2 da una descripción general de la distribución de Benford, cuando se consideran los primeros\(d\) dígitos de los enteros en un conjunto de datos. Vamos a restringir nuestra atención al primer dígito. En este caso, la distribución de Benford tiene función de distribución\[f(k) = \log_{10}(k+1) - \log_{10}(k)\ ,\] para\(1 \le k \le 9\).

    Mark Nigrini 3 ha abogado por el uso de la distribución de Benford como medio para probar registros financieros sospechosos como entradas de contabilidad, cheques y declaraciones de impuestos. Su idea es que si alguien “inventara” números en estos casos, probablemente la persona produciría números que están distribuidos de manera bastante uniforme, mientras que si uno usara los números reales, los dígitos iniciales seguirían aproximadamente a la distribución de Benford. A modo de ejemplo, Nigrini analizó las declaraciones de impuestos del presidente Clinton por un periodo de 13 años. En la Figura 5.1.4, los valores de distribución de Benford se muestran como cuadrados, y los datos de la declaración de impuestos del Presidente se muestran como círculos. Se ve que en este ejemplo, la distribución de Benford se ajusta muy bien a los datos.

    Esta distribución fue descubierta por el astrónomo Simon Newcomb quien afirmó lo siguiente en su ponencia sobre el tema: “Que los diez dígitos no ocurran con igual frecuencia debe ser evidente para cualquiera que haga uso de tablas logaritmos, y notando cuánto más rápido se desgastan las primeras páginas que las últimas. La primera cifra significativa es a menudo 1 que cualquier otro dígito, y la frecuencia disminuye hasta 9”. 4

    Ejercicio\(\PageIndex{1}\)

    ¿Para cuál de las siguientes variables aleatorias sería apropiado asignar una distribución uniforme?

    1. Dejar\(X\) representar el rollo de un dado.

    2. Dejar\(X\) representar el número de cabezas obtenidas en tres tiradas de una moneda.

    3. Una rueda de ruleta tiene 38 resultados posibles: 0, 00, y 1 a 36. Dejar\(X\) representar el resultado cuando se hace girar una rueda de ruleta.

    4. Vamos a\(X\) representar el cumpleaños de una persona elegida al azar.

    5. Dejar\(X\) representar el número de tiradas de una moneda necesarias para lograr una cabeza por primera vez.

    Ejercicio\(\PageIndex{2}\)

    Dejar\(n\) ser un entero positivo. Dejar\(S\) ser el conjunto de enteros entre 1 y\(n\). Considera el siguiente proceso: Eliminamos un número\(S\) al azar y lo escribimos. Repetimos esto hasta que\(S\) esté vacío. El resultado es una permutación de los enteros de 1 a\(n\). Vamos a\(X\) denotar esta permutación. ¿Se distribuye\(X\) uniformemente?

    Ejercicio\(\PageIndex{3}\)

    Let\(X\) Ser una variable aleatoria que puede tomar muchos valores contables. \(X\)Demostrar que no se puede distribuir uniformemente.

    Ejercicio\(\PageIndex{4}\)

    Supongamos que estamos asistiendo a una universidad que cuenta con 3000 alumnos. Deseamos elegir un subconjunto de talla 100 del alumnado. Vamos a\(X\) representar el subconjunto, elegido utilizando las siguientes estrategias posibles. ¿Para qué estrategias sería apropiado asignar la distribución uniforme a\(X\)? Si es apropiado, ¿qué probabilidad debemos asignar a cada resultado?

    1. Lleva a los primeros 100 alumnos que ingresan a la cafetería a almorzar.

    2. Pide al Registrador que ordene a los alumnos por su número de Seguro Social, y luego tome los primeros 100 de la lista resultante.

    3. Pide al Registrador un juego de tarjetas, con cada tarjeta conteniendo el nombre de exactamente un estudiante, y con cada alumno apareciendo exactamente en una tarjeta. Tira las cartas por una ventana del tercer piso, luego camina afuera y recoge las primeras 100 cartas que encuentres.

    Ejercicio\(\PageIndex{5}\)

    En las mismas condiciones que en el ejercicio anterior, ¿se puede describir un procedimiento que, de ser utilizado, produciría cada resultado posible con la misma probabilidad? ¿Se puede describir un procedimiento de este tipo que no se base en una computadora o en una calculadora?

    Ejercicio\(\PageIndex{6}\)

    Dejar\(X_1,\ X_2,\ \ldots,\ X_n\) ser variables aleatorias\(n\) mutuamente independientes, cada una de las cuales se distribuye uniformemente en los enteros de 1 a\(k\). Vamos a\(Y\) denotar el mínimo\(X_i\) de los 's. encontrar la distribución de\(Y\).

    Ejercicio\(\PageIndex{7}\)

    Un dado se enrolla hasta la primera vez\(T\) que aparece un seis.

    1. ¿Para qué sirve la distribución de probabilidad\(T\)?

    2. Encontrar\(P(T > 3)\).

    3. Encontrar\(P(T > 6 | T > 3)\).

    Ejercicio\(\PageIndex{8}\)

    Si una moneda es arrojada una secuencia de veces, ¿cuál es la probabilidad de que la primera cabeza ocurra después del quinto lanzamiento, dado que no ha ocurrido en los dos primeros lanzamientos?

    Ejercicio\(\PageIndex{9}\)

    A un trabajador del Departamento de Pesca y Caza se le asigna el trabajo de estimar el número de truchas en cierto lago de tamaño modesto. Ella procede de la siguiente manera: Ella atrapa 100 truchas, marca cada una de ellas y las vuelve a poner en el lago. Un mes después, captura 100 truchas más, y señala que 10 de ellas tienen etiquetas.

    1. Sin hacer ningún cálculo elegante, dar una estimación aproximada del número de truchas en el lago.

    2. \(N\)Sea el número de truchas en el lago. Encuentra una expresión, en términos de\(N\), para la probabilidad de que la trabajadora pescara 10 truchas etiquetadas de las 100 truchas que capturó la segunda vez.

    3. Encontrar el valor de\(N\) lo que maximiza la expresión en la parte (b). Este valor se llama el para la cantidad desconocida\(N\).: Considere la relación de las expresiones para valores sucesivos de\(N\).

    Ejercicio\(\PageIndex{10}\)

    Un censo en Estados Unidos es un intento de contar a todos en el país. Es inevitable que no se cuente a mucha gente. La Oficina del Censo de Estados Unidos propuso una forma de estimar el número de personas que no fueron contabilizadas por el último censo. Su propuesta fue la siguiente: En una localidad determinada, vamos a\(N\) denotar el número real de personas que ahí viven. Supongamos que el censo contabilizó\(n_1\) a personas que viven en esta zona. Ahora, se tomó otro censo en la localidad, y se contabilizaron\(n_2\) las personas. Además, se contabilizaron\(n_{12}\) las personas en ambas ocasiones.

    1. Dado\(N\),\(n_1\), y\(n_2\), vamos a\(X\) denotar el número de personas contadas en ambas ocasiones. Encuentra la probabilidad de que\(X = k\), donde\(k\) es un entero positivo fijo entre 0 y\(n_2\).

    2. Ahora asuma eso\(X = n_{12}\). Encuentra el valor de\(N\) lo que maximiza la expresión en la parte (a).: Considere la relación de las expresiones para valores sucesivos de\(N\).

    Ejercicio\(\PageIndex{11}\)

    Supongamos que\(X\) es una variable aleatoria que representa el número de llamadas que llegan a una comisaría en un intervalo de un minuto. En el texto, mostramos que\(X\) podría modelarse usando una distribución de Poisson con parámetro\(\lambda\), donde este parámetro representa el número promedio de llamadas entrantes por minuto. Ahora supongamos que\(Y\) es una variable aleatoria que representa el número de llamadas entrantes en un intervalo de longitud\(t\). Demostrar que la distribución de\(Y\) está dada por\[P(Y = k) = e^{-\lambda t}

    ParseError: invalid StatementList (click for details)
    Callstack:
        at (Estadisticas/Teoria_de_Probabilidad/Libro:_Probabilidad_Introductoria_(Grinstead_y_Snell)/05:_Distribuciones_y_Densidades/5.01:_Distribuciones_importantes), /content/body/div[7]/div[11]/p/span[7]/span, line 1, column 2
    
    \ ,\] i.e.,\(Y\) es Poisson con parámetro\(\lambda t\).: Supongamos que un marciano iba a observar la comisaría. Supongamos también que el intervalo de tiempo básico utilizado en Marte es exactamente minutos de\(t\) la Tierra. Por último, asumiremos que el marciano entiende la derivación de la distribución de Poisson en el texto. ¿Qué escribiría para la distribución de\(Y\)?

    Ejercicio\(PageIndex{12}\)

    Mostrar que los valores de la distribución de Poisson dados en la Ecuación [eq 5.1] suman a 1.

    Ejercicio\(\PageIndex{13}\)

    La distribución de Poisson con parámetro\(\lambda = .3\) ha sido asignada para el resultado de un experimento. Dejar\(X\) ser la función de resultado. Encontrar\(P(X = 0)\),\(P(X = 1)\), y\(P(X > 1)\).

    Ejercicio\(\PageIndex{14}\)

    En promedio, solo 1 persona de cada 1000 tiene un tipo de sangre raro en particular.

    1. Encuentra la probabilidad de que, en una ciudad de 10, 000 personas, nadie tenga este tipo de sangre.

    2. ¿Cuántas personas tendrían que hacerse la prueba para dar una probabilidad mayor a 1/2 de encontrar al menos una persona con este tipo de sangre?

    Ejercicio\(\PageIndex{15}\)

    Escriba un programa para que el usuario ingrese\(n\),\(p\),\(j\) y haga que el programa imprima el valor exacto de\(b(n, p, k)\) y la aproximación de Poisson a este valor.

    Ejercicio\(\PageIndex{16}\)

    Supongamos que, durante cada segundo, una centralita de Dartmouth recibe una llamada con probabilidad .01 y ninguna llamada con probabilidad .99. Utilice la aproximación de Poisson para estimar la probabilidad de que la operadora pierda como máximo una llamada si toma un descanso para el café de 5 minutos.

    Ejercicio\(\PageIndex{17}\)

    La probabilidad de una descarga real en una mano de póquer es\(p = 1/649{,}740\). ¿Qué tan grande debe\(n\) ser para que la probabilidad de no tener ningún color real en\(n\) las manos sea menor que\(1/e\)?

    Ejercicio\(\PageIndex{18}\)

    Un panadero mezcla 600 pasas y 400 chispas de chocolate en una mezcla de masa y, a partir de esta, hace 500 galletas.

    1. Encuentra la probabilidad de que una cookie escogida aleatoriamente no tenga pasas.

    2. Encuentra la probabilidad de que una galleta escogida al azar tenga exactamente dos chispas de chocolate.

    3. Encuentra la probabilidad de que una cookie elegida aleatoriamente tenga al menos dos bits (pasas o chips) en ella.

    Ejercicio\(\PageIndex{19}\)

    La probabilidad de que, en un trato puente, una de las cuatro manos tenga todos los corazones es aproximadamente\(6.3 \times 10^{-12}\). En una ciudad con cerca de 50, 000 jugadores de puente el experto residente en probabilidad es llamado en promedio una vez al año (generalmente a altas horas de la noche) y se le dice que a la persona que llama le acaban de repartir una mano de todos los corazones. ¿Debería sospechar que algunas de estas personas que llaman son víctimas de chistes prácticos?

    Ejercicio\(\PageIndex{20}\)

    Un anunciante deja caer 10, 000 folletos sobre una ciudad que tiene 2000 cuadras. Supongamos que cada folleto tiene las mismas posibilidades de aterrizar en cada cuadra. ¿Cuál es la probabilidad de que un bloque en particular no reciba folletos?

    Ejercicio\(\PageIndex{21}\)

    En una clase de 80 alumnos, el profesor convoca a 1 alumno elegido al azar para una recitación en cada periodo de clase. Hay 32 periodos de clase en un término.

    1. Escribir una fórmula para la probabilidad exacta de que un estudiante determinado sea llamado a\(j\) veces durante el trimestre.

    2. Escribe una fórmula para la aproximación de Poisson para esta probabilidad. Usando su fórmula estime la probabilidad de que un estudiante determinado sea llamado más de dos veces.

    Ejercicio\(\PageIndex{22}\)

    Supongamos que estamos haciendo galletas de pasas. Ponemos una caja de 600 pasas en nuestra mezcla de masa, mezclamos la masa, luego hacemos de la masa 500 galletas. Entonces pedimos la probabilidad de que una cookie elegida al azar tenga 0, 1, 2,... pasas. Considera las cookies como pruebas en un experimento, y deja\(X\) ser la variable aleatoria que da el número de pasas en una cookie dada. Entonces podemos considerar el número de pasas en una galleta como resultado de ensayos\(n = 600\) independientes con probabilidad\(p = 1/500\) de éxito en cada ensayo. Dado que\(n\) es grande y\(p\) es pequeño, podemos usar la aproximación de Poisson con\(\lambda = 600(1/500) = 1.2\). Determinar la probabilidad de que una cookie dada tenga al menos cinco pasas.

    Ejercicio\(\PageIndex{23}\)

    Para cierto experimento, se\(\lambda = m\) ha asignado la distribución de Poisson con parámetro. Mostrar que un resultado más probable para el experimento es el valor entero\(k\) tal que\(m - 1 \leq k \leq m\). ¿Bajo qué condiciones habrá dos valores más probables? : Considerar la relación de probabilidades sucesivas.

    Ejercicio\(\PageIndex{24}\)

    Cuando John Kemery era presidente del Departamento de Matemáticas en Dartmouth College, recibió un promedio de diez letras cada día. En cierto día de la semana no recibió ningún correo y se preguntó si era un día festivo. Para decidir esto computó la probabilidad de que, en diez años, tuviera al menos 1 día sin ningún correo. Supuso que el número de cartas que recibió en un día determinado tiene una distribución de Poisson. ¿Qué probabilidad encontró? : Aplicar la distribución de Poisson dos veces. Primero, para encontrar la probabilidad de que, en 3000 días, tenga al menos 1 día sin correo, suponiendo que cada año tenga alrededor de 300 días en los que se entregue el correo.

    Ejercicio\(\PageIndex{25}\)

    Reese Prosser nunca pone dinero en un parquímetro de 10 centavos en Hanóver. Asume que hay una probabilidad de .05 de que lo atrapen. El primer delito no cuesta nada, el segundo cuesta 2 dólares, y los delitos posteriores cuestan 5 dólares cada uno. Bajo sus supuestos, ¿cómo se compara el costo esperado de estacionar 100 veces sin pagar el medidor con el costo de pagar el medidor cada vez?

    Ejercicio\(\PageIndex{26}\)

    Feller 5 discute las estadísticas de impactos de bombas voladoras en una zona del sur de Londres durante la Segunda Guerra Mundial. El área en cuestión se dividió en\(24 \times 24 = 576\) pequeñas áreas. El número total de aciertos fue de 537. Hubo 229 casillas con 0 aciertos, 211 con 1 hit, 93 con 2 aciertos, 35 con 3 aciertos, 7 con 4 aciertos, y 1 con 5 o más. Suponiendo que los hits fueran puramente aleatorios, use la aproximación de Poisson para encontrar la probabilidad de que un cuadrado en particular tenga exactamente\(k\) aciertos. Calcule el número esperado de cuadrados que tendrían 0, 1, 2, 3, 4 y 5 o más aciertos y compare esto con los resultados observados.

    Ejercicio\(\PageIndex{27}\)

    Supongamos que la probabilidad de que haya un accidente significativo en una central nuclear durante un año es de .001. Si un país cuenta con 100 centrales nucleares, estime la probabilidad de que haya al menos un accidente de este tipo durante un año determinado.

    Ejercicio\(\PageIndex{28}\)

    Una aerolínea encuentra que el 4 por ciento de los pasajeros que hacen reservaciones en un vuelo en particular no se presentará. En consecuencia, su política es vender 100 asientos reservados en un avión que sólo tiene 98 asientos. Encuentra la probabilidad de que cada persona que se presente al vuelo encuentre un asiento disponible.

    Ejercicio\(\PageIndex{29}\)

    El maestro de monedas del rey coloca sus monedas 500 en una caja y pone 1 moneda falsificada en cada caja. El rey es sospechoso, pero, en lugar de probar todas las monedas en 1 caja, prueba 1 moneda elegida al azar de cada una de las 500 cajas. ¿Cuál es la probabilidad de que encuentre al menos una falsificación? ¿Qué pasa si el rey prueba 2 monedas de cada una de 250 cajas?

    Ejercicio\(PageIndex{30}\)

    (De Kameny 6) Demuestre que, si haces 100 apuestas al número 17 en la ruleta en Montecarlo (ver Ejemplo 6.1.13), tendrás una probabilidad mayor a 1/2 de salir adelante. ¿Cuál es tu ganancia esperada?

    Ejercicio\(\PageIndex{31}\)

    En uno de los primeros estudios de la distribución de Poisson, von Bortkiewicz 7 consideró la frecuencia de muertes por patadas en el cuerpo del ejército prusiano. Del estudio de 14 cuerpos en un periodo de 20 años, obtuvo los datos que se muestran en la Tabla 5.1.5

    Cuadro 5.1.5 Patadas mula.
    Número de muertes Número de cuerpos con\(x\) muertes en un año determinado
    0 144
    1

    91

    2

    32

    3

    11

    4

    2

    Ajuste una distribución de Poisson a estos datos y vea si cree que la distribución de Poisson es apropiada.

    Ejercicio\(\PageIndex{32}\)

    A menudo se asume que el tráfico automático que llega a la intersección durante un periodo de tiempo unitario tiene una distribución de Poisson con valor esperado\(m\). Supongamos que el número de autos\(X\) que llegan a una intersección desde el norte en unidad de tiempo tiene una distribución de Poisson con parámetro\(\lambda = m\) y el número\(Y\) que llegan desde el oeste en unidad de tiempo tiene una distribución de Poisson con parámetro\(\lambda = \bar m\). Si\(X\) y\(Y\) son independientes, mostrar que el número total\(X + Y\) que llegan a la intersección en unidad de tiempo tiene una distribución de Poisson con parámetro\(\lambda = m + \bar m\).

    Ejercicio\(\PageIndex{33}\)

    Los autos que vienen por Magnolia Street llegan a una bifurcación en la carretera y tienen que elegir entre Willow Street o Main Street para continuar. Supongamos que el número de autos que llegan a la bifurcación en tiempo unitario tiene una distribución de Poisson con parámetro\(\lambda = 4\). Un automóvil que llega a la bifurcación elige Main Street con probabilidad 3/4 y Willow Street con probabilidad 1/4. \(X\)Sea la variable aleatoria que cuenta el número de autos que, en una determinada unidad de tiempo, pasan por Joe's Barber Shop en Main Street. ¿Cuál es la distribución de\(X\)?

    Ejercicio\(\PageIndex{34}\)

    En el recurso de apelación del caso People v. Collins (ver Ejercicio 4.1.28), el abogado de la defensa argumentó lo siguiente: Supongamos, por ejemplo, que hay 5, 000, 000 parejas en el área de Los Ángeles y la probabilidad de que una pareja elegida al azar se ajuste a la descripción de los Testigos es 1/12, 000, 000. Entonces la probabilidad de que haya dos parejas de este tipo dado que hay al menos una no es para nada pequeña. Encuentra esta probabilidad. (La Suprema Corte de California revocó el veredicto de culpabilidad inicial.)

    Ejercicio\(\PageIndex{35}\)

    Un lote fabricado de tensores de latón tiene\(S\) artículos de los cuales\(D\) están defectuosos. Se extrae una muestra de\(s\) artículos sin reemplazo. Dejar\(X\) ser una variable aleatoria que da el número de artículos defectuosos en la muestra. Vamos\(p(d) = P(X = d)\).

    1. Demostrar que\[p(d) = \frac{\binom{D}{d}\binom{S-D}{s-d}}{\binom{S}{s}}\ .\] Así, X es hipergeométrica.

    2. Demostrar la siguiente identidad, conocida como Fórmula de Euler:\[\sum_{d = 0}^{\min(D,s)}\binom{D}{d}\binom{S-D}{s-d} = \binom{S}{s}}\ .\]

    Ejercicio\(\PageIndex{36}\)

    Un contenedor de 1000 tensores tiene un número desconocido\(D\) de defectuosos. Una muestra de 100 tensores tiene 2 defectos. El for\(D\) es el número de defectuosos que da la mayor probabilidad de obtener el número de defectuosos observados en la muestra. Adivina este número\(D\) y luego escribe un programa de computadora para verificar tu conjetura.

    Ejercicio\(\PageIndex{37}\)

    Hay un número desconocido de alces en Isle Royale (un Parque Nacional en el Lago Superior). Para estimar el número de alces, 50 alces son capturados y etiquetados. Seis meses después se capturan 200 alces y se encuentra que 8 de estos fueron etiquetados. Estima el número de alces en Isle Royale a partir de estos datos, y luego verifica tu suposición por programa de computadora (ver Ejercicio 5.1.36).

    Ejercicio\(\PageIndex{38}\)

    Un lote fabricado de látigos para buggy tiene 20 artículos, de los cuales 5 son defectuosos. Se elige una muestra aleatoria de 5 ítems para ser inspeccionados. Encuentra la probabilidad de que la muestra contenga exactamente un artículo defectuoso

    1. si el muestreo se realiza con reemplazo.

    2. si el muestreo se realiza sin reemplazo.

    Ejercicio\(\PageIndex{39}\)

    Supongamos eso\(N\) y\(k\) tendemos a\(\infty\) hacerlo de tal manera que\(k/N\) quede fijo. Demostrar que\[h(N, k, n, x) \rightarrow b(n, k/N, x)\ .\]

    Ejercicio\(\PageIndex{40}\)

    Una baraja de puente tiene 52 cartas con 13 cartas en cada uno de los cuatro palos: espadas, corazones, diamantes y palos. Una mano de 13 cartas se reparte desde una baraja barajada. Encuentra la probabilidad de que la mano tenga

    1. una distribución de trajes 4, 4, 3, 2 (por ejemplo, cuatro espadas, cuatro corazones, tres diamantes, dos palos).

    2. una distribución de trajes 5, 3, 3, 2.

    Ejercicio\(PageIndex{41}\)

    Escribir un algoritmo informático que simule una variable aleatoria hipergeométrica con parámetros\(N\),\(k\), y\(n\).

    Ejercicio\(\PageIndex{42}\)

    Se te presentan cuatro dados diferentes. El primero tiene dos lados marcados con 0 y cuatro lados marcados con 4. El segundo tiene un 3 en cada lado. El tercero tiene un 2 en cuatro lados y un 6 en dos lados, y el cuarto tiene un 1 en tres lados y un 5 en tres lados. Permites que tu amigo escoja cualquiera de los cuatro dados que desea. Entonces eliges uno de los tres restantes y cada uno rueda tu dado. La persona con el mayor número mostrando gana un dólar. Demuestra que puedes elegir tu dado para que tengas probabilidad 2/3 de ganar sin importar cuál sea la muerte que elija tu amigo. (Ver Tenney y Foster. 8)

    Ejercicio\(\PageIndex{43}\)

    Los alumnos de cierta clase fueron clasificados por color de pelo y color de ojos. Las convenciones utilizadas fueron: El cabello castaño y negro se consideró oscuro, y el cabello rojo y rubio se consideraron claros; los ojos negros y marrones se consideraron oscuros, y los ojos azules y verdes se consideraron claros. Recolectaron los datos que se muestran en la Tabla 5.1.6

    Cuadro 5.1.6: Datos observados.
    Ojos Oscuros Ojos claros
    Cabello Oscuro 28 15

    43

    Cabello Claro

    9

    23

    32

    37 38

    75

    ¿Estos rasgos son independientes? (Ver Ejemplo 5.1.6.)

    Ejercicio\(\PageIndex{44}\)

    Supongamos que en la distribución hipergeométrica, dejamos\(N\) y\(k\) tendemos a\(\infty\) hacerlo de tal manera que la relación\(k/N\) se aproxime a un número real\(p\) entre 0 y 1. Mostrar que la distribución hipergeométrica tiende a la distribución binomial con parámetros\(n\) y\(p\).

    Ejercicio\(\PageIndex{45}\)

    1. Calcule los dígitos iniciales de las primeras 100 potencias de 2 y vea qué tan bien estos datos se ajustan a la distribución de Benford.

    2. Multiplique cada número en el conjunto de datos de la parte (a) por 3, y compare la distribución de los dígitos iniciales con la distribución de Benford.

    Ejercicio\(\PageIndex{46}\)

    En la lotería Powerball, los concursantes eligen 5 enteros diferentes entre 1 y 45, y además, eligen un entero bonus del mismo rango (el entero bonus puede ser igual a uno de los primeros cinco enteros elegidos). Algunos concursantes eligen los números ellos mismos, y otros dejan que la computadora elija los números. Los datos que se muestran en la Tabla 5.1.7 son los números elegidos por el concursante en un determinado estado el 3 de mayo de 1996. Un gráfico de picos de los datos se muestra en la Figura 5.5

    Cuadro 5.1.7: Números elegidos por los concursantes en la lotería Powerball.
    Enteros Veces Enteros Veces Enteros Veces
    Elegido Elegido Elegido
    1 2646 2 2934 3 3352
    4 3000 5 3357 6 2892
    7 3657 8 3025 9 3362
    10 2985 11 3138 12 3043
    13 2690 14 2423 15 2556
    16 2456 17 2479 18 2276
    19 2304 20 1971 21 2543
    22 2678 23 2729 24 2414
    25 2616 26 2426 27 2381
    28 2059 29 2039 30 2298
    31 2081 32 1508 33 1887
    34 1463 35 1594 36 1354
    37 1049 38 1165 39 1248
    40 1493 41 1322 42 1423
    43 1207 44 1259 45 1224

    This page titled 5.1: Distribuciones importantes is shared under a GNU Free Documentation License 1.3 license and was authored, remixed, and/or curated by Charles M. Grinstead & J. Laurie Snell (American Mathematical Society) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.