Saltar al contenido principal

# 8.3: Estimación en el Modelo de Bernoulli

$$\newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$$

$$\newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}}$$

$$\newcommand{\id}{\mathrm{id}}$$ $$\newcommand{\Span}{\mathrm{span}}$$

( \newcommand{\kernel}{\mathrm{null}\,}\) $$\newcommand{\range}{\mathrm{range}\,}$$

$$\newcommand{\RealPart}{\mathrm{Re}}$$ $$\newcommand{\ImaginaryPart}{\mathrm{Im}}$$

$$\newcommand{\Argument}{\mathrm{Arg}}$$ $$\newcommand{\norm}[1]{\| #1 \|}$$

$$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$$

$$\newcommand{\Span}{\mathrm{span}}$$

$$\newcommand{\id}{\mathrm{id}}$$

$$\newcommand{\Span}{\mathrm{span}}$$

$$\newcommand{\kernel}{\mathrm{null}\,}$$

$$\newcommand{\range}{\mathrm{range}\,}$$

$$\newcommand{\RealPart}{\mathrm{Re}}$$

$$\newcommand{\ImaginaryPart}{\mathrm{Im}}$$

$$\newcommand{\Argument}{\mathrm{Arg}}$$

$$\newcommand{\norm}[1]{\| #1 \|}$$

$$\newcommand{\inner}[2]{\langle #1, #2 \rangle}$$

$$\newcommand{\Span}{\mathrm{span}}$$ $$\newcommand{\AA}{\unicode[.8,0]{x212B}}$$

$$\newcommand{\vectorA}[1]{\vec{#1}} % arrow$$

$$\newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow$$

$$\newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$$

$$\newcommand{\vectorC}[1]{\textbf{#1}}$$

$$\newcommand{\vectorD}[1]{\overrightarrow{#1}}$$

$$\newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}}$$

$$\newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}}$$

$$\newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} }$$

$$\newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}}$$

$$\newcommand{\avec}{\mathbf a}$$ $$\newcommand{\bvec}{\mathbf b}$$ $$\newcommand{\cvec}{\mathbf c}$$ $$\newcommand{\dvec}{\mathbf d}$$ $$\newcommand{\dtil}{\widetilde{\mathbf d}}$$ $$\newcommand{\evec}{\mathbf e}$$ $$\newcommand{\fvec}{\mathbf f}$$ $$\newcommand{\nvec}{\mathbf n}$$ $$\newcommand{\pvec}{\mathbf p}$$ $$\newcommand{\qvec}{\mathbf q}$$ $$\newcommand{\svec}{\mathbf s}$$ $$\newcommand{\tvec}{\mathbf t}$$ $$\newcommand{\uvec}{\mathbf u}$$ $$\newcommand{\vvec}{\mathbf v}$$ $$\newcommand{\wvec}{\mathbf w}$$ $$\newcommand{\xvec}{\mathbf x}$$ $$\newcommand{\yvec}{\mathbf y}$$ $$\newcommand{\zvec}{\mathbf z}$$ $$\newcommand{\rvec}{\mathbf r}$$ $$\newcommand{\mvec}{\mathbf m}$$ $$\newcommand{\zerovec}{\mathbf 0}$$ $$\newcommand{\onevec}{\mathbf 1}$$ $$\newcommand{\real}{\mathbb R}$$ $$\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}$$ $$\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}$$ $$\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}$$ $$\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}$$ $$\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}$$ $$\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}$$ $$\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}$$ $$\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}$$ $$\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}$$ $$\newcommand{\laspan}[1]{\text{Span}\{#1\}}$$ $$\newcommand{\bcal}{\cal B}$$ $$\newcommand{\ccal}{\cal C}$$ $$\newcommand{\scal}{\cal S}$$ $$\newcommand{\wcal}{\cal W}$$ $$\newcommand{\ecal}{\cal E}$$ $$\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}$$ $$\newcommand{\gray}[1]{\color{gray}{#1}}$$ $$\newcommand{\lgray}[1]{\color{lightgray}{#1}}$$ $$\newcommand{\rank}{\operatorname{rank}}$$ $$\newcommand{\row}{\text{Row}}$$ $$\newcommand{\col}{\text{Col}}$$ $$\renewcommand{\row}{\text{Row}}$$ $$\newcommand{\nul}{\text{Nul}}$$ $$\newcommand{\var}{\text{Var}}$$ $$\newcommand{\corr}{\text{corr}}$$ $$\newcommand{\len}[1]{\left|#1\right|}$$ $$\newcommand{\bbar}{\overline{\bvec}}$$ $$\newcommand{\bhat}{\widehat{\bvec}}$$ $$\newcommand{\bperp}{\bvec^\perp}$$ $$\newcommand{\xhat}{\widehat{\xvec}}$$ $$\newcommand{\vhat}{\widehat{\vvec}}$$ $$\newcommand{\uhat}{\widehat{\uvec}}$$ $$\newcommand{\what}{\widehat{\wvec}}$$ $$\newcommand{\Sighat}{\widehat{\Sigma}}$$ $$\newcommand{\lt}{<}$$ $$\newcommand{\gt}{>}$$ $$\newcommand{\amp}{&}$$ $$\definecolor{fillinmathshade}{gray}{0.9}$$
$$\newcommand{\R}{\mathbb{R}}$$$$\newcommand{\N}{\mathbb{N}}$$$$\newcommand{\Z}{\mathbb{Z}}$$$$\newcommand{\P}{\mathbb{P}}$$$$\newcommand{\E}{\mathbb{E}}$$$$\newcommand{\var}{\text{var}}$$$$\newcommand{\sd}{\text{sd}}$$$$\newcommand{\bs}{\boldsymbol}$$

## Introducción

Recordemos que una variable indicadora es una variable aleatoria que solo toma los valores 0 y 1. En aplicaciones, una variable indicadora indica cuál de dos eventos complementarios en un experimento aleatorio ha ocurrido. Los ejemplos típicos incluyen

• Un artículo fabricado sujeto a factores aleatorios inevitables es defectuoso o aceptable.
• Un elector seleccionado de una población apoya a un candidato en particular o no lo hace.
• Una persona seleccionada de una población tiene o no una afección médica en particular.
• Un estudiante en una clase pasa o reprueba una prueba estandarizada.
• Una muestra de material radiactivo emite o no una partícula alfa en un período específico de diez segundos.

Recordemos también que la distribución de una variable indicadora se conoce como la distribución de Bernoulli, llamada así por Jacob Bernoulli, y tiene la función de densidad de probabilidad dada por$$\P(X = 1) = p$$$$\P(X = 0) = 1 - p$$,, donde$$p \in (0, 1)$$ está el parámetro básico. En el contexto de los ejemplos anteriores,

• $$p$$es la probabilidad de que el artículo fabricado sea defectuoso.
• $$p$$es la proporción de votantes en la población que favorecen al candidato.
• $$p$$es la porción de personas de la población que presentan el padecimiento médico.
• $$p$$es la probabilidad de que un alumno de la clase apruebe el examen.
• $$p$$es la probabilidad de que el material emita una partícula alfa en el periodo especificado.

Recordemos que la media y varianza de la distribución de Bernoulli son$$\E(X) = p$$ y$$\var(X) = p (1 - p)$$. A menudo en aplicaciones estadísticas,$$p$$ es desconocido y debe estimarse a partir de datos de muestra. En esta sección, veremos cómo construir estimaciones de intervalo para el parámetro a partir de datos de muestra. Una sección paralela sobre Pruebas en el Modelo de Bernoulli se encuentra en el capítulo sobre Pruebas de Hipótesis.

## El modelo de una muestra

### Preliminares

Supongamos que$$\bs X = (X_1, X_2, \ldots, X_n)$$ es una muestra aleatoria de la distribución de Bernoulli con parámetro desconocido$$p \in [0, 1]$$. Es decir,$$\bs X$$ es una escuencia de juicios de Bernoulli. De los ejemplos de la introducción anterior, observe que a menudo el experimento subyacente es muestrear al azar de una población dicotómica. Cuando el muestreo es con reemplazo,$$\bs X$$ realmente es una secuencia de ensayos de Bernoulli. Cuando el muestreo es sin reemplazo, las variables son dependientes, pero el modelo de Bernoulli sigue siendo aproximadamente válido si el tamaño de la población es grande en comparación con el tamaño de la muestra$$n$$. Para más información sobre estos puntos, consulte la discusión del muestreo con y sin reemplazo en el capítulo sobre Modelos de Muestreo Finito.

Nótese que la media muestral de nuestro vector de datos$$\bs X$$,$M = \frac{1}{n} \sum_{i=1}^n X_i$ es decir, es la proporción muestral de objetos del tipo de interés. Por el teorema del límite central, la puntuación estándar$Z = \frac{M - p}{\sqrt{p (1 - p) / n}}$ tiene aproximadamente una distribución normal estándar y por lo tanto es (aproximadamente) una variable de pivote para$$p$$. Para un tamaño de muestra dado$$n$$, la distribución de$$Z$$ es más cercana a la normal cuando$$p$$ está cerca$$\frac{1}{2}$$ y más alejada de lo normal cuando$$p$$ está cerca de 0 o 1 (extremo). Debido a que la variable pivote está (aproximadamente) normalmente distribuida, la construcción de intervalos de confianza para$$p$$ en este modelo es similar a la construcción de intervalos de confianza para la media de distribución$$\mu$$ en el modelo normal. Pero claro que todos los intervalos de confianza así construidos son aproximados.

Como es habitual, para$$r \in (0, 1)$$, vamos$$z(r)$$ denotar el cuantil de orden$$r$$ para la distribución normal estándar. Los valores de se$$z(r)$$ pueden obtener de la calculadora de distribución especial, o de la mayoría de los paquetes de software estadístico.

### Intervalos básicos de confianza

Para$$\alpha \in (0, 1)$$, los siguientes son conjuntos de$$1 - \alpha$$ confianza aproximados para$$p$$:

1. $$\left\{ p \in [0, 1]: M - z(1 - \alpha / 2) \sqrt{p (1 - p) / n} \le p \le M + z(1 - \alpha / 2) \sqrt{p (1 - p) / n} \right\}$$
2. $$\left\{ p \in [0, 1]: p \le M + z(1 - \alpha) \sqrt{p (1 - p) / n} \right\}$$
3. $$\left\{ p \in [0, 1]: M - z(1 - \alpha) \sqrt{p (1 - p) / n} \le p \right\}$$
Prueba

De nuestra discusión anterior,$$(M - p) / \sqrt{p (1 - p) / n}$$ tiene aproximadamente una distribución normal estándar. De ahí que por definición de los cuantiles,

1. $$\P[-z(1 - \alpha / 2) \le (M - p) / \sqrt{p (1 - p) / n} \le z(1 - \alpha / 2)] \approx 1 - \alpha$$
2. $$\P[-z(1 - \alpha) \le (M - p) / \sqrt{p (1 - p) / n}] \approx 1 - \alpha$$
3. $$\P[(M - p) / \sqrt{p (1 - p) / n} \le z(1 - \alpha)] \approx 1 - \alpha$$

Resolver las desigualdades para$$p$$ en el numerador de$$(M - p) / \sqrt{p (1 - p) / n}$$ para cada evento da el conjunto de confianza correspondiente.

Estos conjuntos de confianza son en realidad intervalos, conocidos como los intervalos de Wilson, en honor a Edwin Wilson.

Los conjuntos de confianza para$$p$$ in (1) son intervalos. Dejar$U(z) = \frac{n}{n + z^2} \left(M + \frac{z^2}{2 n} + z \sqrt{\frac{M (1 - M)}{n} + \frac{z^2}{4 n^2}}\right)$ Entonces los siguientes tienen nivel de confidecne aproximado$$1 - \alpha$$ para$$p$$.

1. El intervalo de dos lados$$\left[U[-z(1 - \alpha / 2)], U[z(1 - \alpha / 2)]\right]$$.
2. El límite superior$$U[z(1 - \alpha)]$$.
3. El límite inferior$$U[-z(1 - \alpha)]$$.
Prueba

Esto sigue resolviendo las desigualdades en (1) para$$p$$. Por cada desigualdad, podemos aislar el término raíz cuadrada, y luego cuadrar ambos lados. Esto da desigualdades cuadráticas, que pueden resolverse usando la fórmula cuadrática.

Como de costumbre, el intervalo de confianza de igual cola en (a) no es el único intervalo de$$1 - \alpha$$ confianza de dos lados para$$p$$. Podemos dividir la$$\alpha$$ probabilidad entre las colas izquierda y derecha de la distribución normal estándar de la manera que nos plazca.

Para$$\alpha, \, r \in (0, 1)$$, un intervalo de$$1 - \alpha$$ confianza aproximado de dos lados para$$p$$ es$$\left[U[z(\alpha - r \alpha)], U[z(1 - r \alpha)]\right]$$ donde$$U$$ está la función en (2).

Prueba

Al igual que en la prueba de (1),$\P\left[z(\alpha - r \alpha) \le \frac{M - p}{\sqrt{p (1 - p) / n}} \le z(1 - r \alpha)\right] \approx 1 - \alpha$ Resolver para$$p$$ con la ayuda de la fórmula cuadrática da el resultado.

En la práctica, el intervalo de$$1 - \alpha$$ confianza de igual cola en la parte (a) de (2), obtenido por ajuste$$r = \frac{1}{2}$$, es el que siempre se usa. As$$r \uparrow 1$$, el enpoint derecho converge al límite superior de$$1 - \alpha$$ confianza en la parte (b), y como$$r \downarrow 0$$ el punto final izquierdo converge al límite inferior de$$1 - \alpha$$ confianza en la parte (c).

Los intervalos de$$1 - \alpha$$ confianza aproximados simplificados para se$$p$$ pueden obtener reemplazando la media de distribución$$p$$ por la media muestral$$M$$ en las partes extremas de las desigualdades en (1).

Para$$\alpha \in (0, 1)$$, los siguientes tienen nivel de confianza aproximado$$1 - \alpha$$ para$$p$$:

1. El intervalo de dos lados con puntos finales$$M \pm z(1 - \alpha / 2) \sqrt{M (1 - M) / n}$$.
2. El límite superior$$M + z(1 - \alpha) \sqrt{M (1 - M) / n}$$.
3. El límite inferior$$M - z(1 - \alpha) \sqrt{M (1 - M) / n}$$.
Prueba

Como se señaló, estos resultados se deduce de la confianza establecida en (1) al reemplazar$$p$$ con$$M$$ en la expresión$$\sqrt{p (1 - p) / n}$$.

Estos intervalos de confianza se conocen como intervalos de Wald, en honor a Abraham Wald.. Tenga en cuenta que el intervalo de Wald también se puede obtener a partir de los intervalos de Wilson en (2) asumiendo que$$n$$ es grande en comparación con$$z$$, de modo que$$n \big/ (n + z^2) \approx 1$$$$z^2 / 2 n \approx 0$$,, y$$z^2 / 4 n^2 \approx 0$$. Obsérvese que este intervalo en (c) es simétrico respecto a la proporción muestral$$M$$ pero que la longitud del intervalo, así como el centro es aleatorio. Este es el intervalo de dos lados que normalmente se usa.

Utilice la simulación del experimento de estimación de proporciones para explorar el procedimiento. Utilice varios valores$$p$$ y varios niveles de confianza, tamaños de muestra y tipos de intervalos. Para cada configuración, ejecute el experimento 1000 veces y compare la proporción de intervalos exitosos con el nivel de confianza teórico.

Como siempre, el intervalo de igual cola en (4) no es el único intervalo de$$1 - \alpha$$ confianza de dos lados.

Para$$\alpha, \, r \in (0, 1)$$, un intervalo de$$1 - \alpha$$ confianza aproximado de dos lados para$$p$$ es$\left[M - z(1 - r \alpha) \sqrt{\frac{M (1 - M)}{n}}, M - z(\alpha - r \alpha) \sqrt{\frac{M (1 - M)}{ n}}\right]$ El intervalo con la longitud más pequeña es el intervalo de cola igual con$$r = \frac 1 2$$.

Tenga en cuenta que la función$$p \mapsto p(1 - p)$$ en el intervalo$$[0, 1]$$ se maximiza cuando$$p = \frac 1 2$$ y por lo tanto el valor máximo es$$\frac{1}{4}$$. Podemos obtener intervalos de confianza conservadores para$$p$$ a partir de los intervalos de confianza básicos usando este hecho.

Para$$\alpha \in (0, 1)$$, los siguientes tienen un nivel de confianza aproximado al menos$$1 - \alpha$$ para$$p$$:

1. El intervalo de dos lados con puntos finales$$M \pm z(1 - \alpha / 2) \frac{1}{2 \sqrt{n}}$$.
2. El límite superior$$M + z(1 - \alpha) \frac{1}{2 \sqrt{n}}$$.
3. El límite inferior$$M - z(1 - \alpha) \frac{1}{2 \sqrt{n}}$$.
Prueba

Como se señaló, estos resultados se deduce de los conjuntos de confianza en (1) al reemplazar$$p$$ con$$\frac 1 2$$ en la expresión$$\sqrt{p (1 - p) / n}$$.

Obsérvese que el intervalo de confianza en (a) es simétrico respecto a la proporción muestral$$M$$ y que la longitud del intervalo es determinista. Por supuesto, los intervalos de confianza conservadores serán mayores que los intervalos de confianza simplificados aproximados en (4). La estimación conservadora puede ser utilizada para diseñar el experimento. Recordemos que el margen de error es la distancia entre la proporción muestral$$M$$ y un punto final del intervalo de confianza.

Una estimación conservadora del tamaño muestral$$n$$ necesario para estimar$$p$$ con confianza$$1 - \alpha$$ y margen de error$$d$$ es$n = \left\lceil \frac{z_\alpha^2}{4 d^2} \right\rceil$ dónde$$z_\alpha = z(1 - \alpha / 2)$$ para el intervalo de dos lados y$$z_\alpha = z(1 - \alpha)$$ para el límite superior o inferior de confianza.

Prueba

Con nivel de confianza$$1 - \alpha$$, el margen de error es$$z_\alpha \frac{1}{2 \sqrt{n}}$$. Establecer esto igual al valor prescrito$$d$$ y resolver da el resultado.

Como siempre, el intervalo de igual cola en (7) no es el único intervalo de$$1 - \alpha$$ confianza de dos lados, conservador.

Para$$\alpha, \, r \in (0, 1)$$, un aproximado de dos lados, intervalo de$$1 - \alpha$$ confianza conservador para$$p$$ es$\left[M - z(1 - r \alpha) \frac{1}{2 \sqrt{n}}, M - z(\alpha - r \alpha) \frac{1}{2 \sqrt{n}}\right]$ El intervalo con menor longitud es el intervalo de cola igual con$$r = \frac 1 2$$.

## El modelo de dos muestras

### Preliminares

A menudo tenemos dos distribuciones subyacentes de Bernoulli, con parámetros$$p_1, \, p_2 \in [0, 1]$$ y nos gustaría estimar la diferencia$$p_1 - p_2$$. Este problema podría surgir en los siguientes ejemplos típicos:

• En un entorno de control de calidad, supongamos que$$p_1$$ es la proporción de artículos defectuosos producidos bajo un conjunto de condiciones de fabricación, mientras que$$p_2$$ es la proporción de defectuosos bajo un conjunto diferente de condiciones.
• En una elección, supongamos que esa$$p_1$$ es la proporción de votantes que favorecen a un candidato en particular en un momento de la campaña, mientras que$$p_2$$ es la proporción de votantes que favorecen al candidato en un momento posterior (quizás después de que haya estallado un escándalo).
• Supongamos que$$p_1$$ es la proporción de alumnos que aprueban una determinada prueba estandarizada con los métodos habituales de preparación de exámenes mientras que$$p_2$$ es la proporción de alumnos que aprueban la prueba con un nuevo conjunto de métodos de preparación.
• Supongamos que$$p_1$$ es la proporción de personas no vacunadas en una determinada población que contraen cierta enfermedad, mientras que$$p_2$$ es la proporción de personas vacunadas que contraen la enfermedad.

Tenga en cuenta que varios de estos ejemplos pueden considerarse como problemas de control de tratamiento. Por supuesto, podríamos construir estimaciones de intervalos$$I_1$$ para$$p_1$$ y$$I_2$$ para$$p_2$$ separadamente, como en las subsecciones anteriores. Pero como señalamos en la Introducción, si estos dos intervalos tienen nivel de confianza$$1 - \alpha$$, entonces el conjunto de productos$$I_1 \times I_2$$ tiene nivel de confianza$$(1 - \alpha)^2$$ para$$(p_1, p_2)$$. Entonces, si$$p_1 - p_2$$ es nuestro parámetro de interés, usaremos un enfoque diferente.

Supongamos ahora que$$\bs X = (X_1, X_2, \ldots, X_{n_1})$$ es una muestra aleatoria de tamaño$$n_1$$ de la distribución de Bernoulli con parámetro$$p_1$$, y$$\bs Y = (Y_1, Y_2, \ldots, Y_{n_2})$$ es una muestra aleatoria de tamaño$$n_2$$ de la distribución de Bernoulli con parámetro$$p_2$$. Suponemos que las muestras$$\bs X$$ y$$\bs Y$$ son independientes. Dejar$M_1 = \frac{1}{n_1} \sum_{i=1}^{n_1} X_i, \quad M_2 = \frac{1}{n_2} \sum_{i=1}^{n_2} Y_i$ denotar las medias muestrales (proporciones muestrales) para las muestras$$\bs X$$ y$$\bs Y$$. Una estimación de punto natural para$$p_1 - p_2$$, y el bloque de construcción para nuestra estimación de intervalo, es$$M_1 - M_2$$. Como se señala en el modelo de una muestra, si$$n_i$$ es grande,$$M_i$$ tiene una distribución normal aproximada con media$$p_i$$ y varianza$$p_i (1 - p_i) / n_i$$ para$$i \in \{1, 2\}$$. Dado que las muestras son independientes, también lo son las medias de la muestra. De ahí$$M_1 - M_2$$ que tenga una distribución normal aproximada con media$$p_1 - p_2$$ y varianza$$p_1 (1 - p_1) / n_1 + p_2 (1 - p_2) / n_2$$. Ahora tenemos todas las herramientas que necesitamos para un intervalo de confianza simplificado y aproximado para$$p_1 - p_2$$.

Para$$\alpha \in (0, 1)$$, los siguientes tienen nivel de confianza aproximado$$1 - \alpha$$ para$$p_1 - p_2$$:

1. El intervalo de dos lados con puntos finales$$(M_1 - M_2) \pm z\left(1 - \alpha / 2\right) \sqrt{M_1 (1 - M_1) / n_1 + M_2 (1 - M_2) / n_2}$$.
2. El límite inferior$$(M_1 - M_2) - z(1 - \alpha) \sqrt{M_1 (1 - M_1) / n_1 + M_2 (1 - M_2) / n_2}$$.
3. El límite superior$$(M_1 - M_2) + z(1 - \alpha) \sqrt{M_1 (1 - M_1) / n_1 + M_2 (1 - M_2) / n_2}$$.
Prueba

Como se señaló anteriormente, si$$n_1$$ y$$n_2$$ son grandes,$\frac{(M_1 - M_2) - (p_1 - p_2)}{\sqrt{p_1(1 - p_1) / n_1 + p_2(1 - p_2)/n_2}}$ tiene aproximadamente una distribución normal estándar, y por lo tanto también lo hace$Z = \frac{(M_1 - M_2) - (p_1 - p_2)}{\sqrt{M_1(1 - M_1) / n_1 + M_2(1 - M_2)/n_2}}$

1. $$\P[-z(1 - \alpha / 2) \le Z \le z(1 - \alpha / 2)] \approx 1 - \alpha$$. Resolver para$$p_1 - p_2$$ da el intervalo de confianza de dos lados.
2. $$\P[-z(1 - \alpha) \le Z] \approx 1 - \alpha$$. Resolver para$$p_1 - p_2$$ da el límite superior de confianza.
3. $$\P[Z \le z(1 - \alpha / 2)] \approx 1 - \alpha$$. Resolver para$$p_1 - p_2$$ da el límite inferior de confianza.

Como siempre, el intervalo de igual cola en (a) no es el único intervalo de$$1 - \alpha$$ confianza aproximado de dos lados.

Para$$\alpha, \, r \in (0, 1)$$, una$$1 - \alpha$$ confianza aproximada establecida para$$p_1 - p_2$$ es$\left[(M_1 - M_2) - z(1 - r \alpha) \sqrt{M_1 (1 - M_1) / n_1 + M_2 (1 - M_2) / n_2}, (M_1 - M_2) - z(\alpha - r \alpha) \sqrt{M_1 (1 - M_1) / n_1 + M_2 (1 - M_2) / n_2} \right]$

Prueba

Como se señaló en la prueba del teorema anterior,$Z = \frac{(M_1 - M_2) - (p_1 - p_2)}{\sqrt{M_1(1 - M_1) / n_1 + M_2(1 - M_2)/n_2}}$ tiene aproximadamente una distribución normal estándar si$$n_1$$ y$$n_2$$ son grandes. De ahí$$\P[-z(\alpha - r \alpha) \le Z \le z(1 - r \alpha)] \approx 1 - \alpha$$. Resolver para$$p_1 - p_2$$ da el intervalo de confianza de dos lados.

Una vez más,$$p \mapsto p (1 - p)$$ se maximiza cuando se$$p = \frac 1 2$$ tiene el valor máximo$$\frac 1 4$$. Podemos usar esto para construir intervalos de confianza conservadores aproximados para$$p_1 - p_2$$.

Para$$\alpha \in (0, 1)$$, los siguientes tienen un nivel de confianza aproximado al menos$$1 - \alpha$$ para$$p_1 - p_2$$:

1. El intervalo de dos lados con puntos finales$$(M_1 - M_2) \pm \frac{1}{2} z\left(1 - \alpha / 2\right) \sqrt{1 / n_1 + 1 / n_2}$$.
2. El límite inferior$$(M_1 - M_2) - \frac{1}{2} z(1 - \alpha) \sqrt{1 / n_1 + 1 / n_2}$$.
3. El límite superior$$(M_1 - M_2) + \frac{1}{2} z(1 - \alpha) \sqrt{1 / n_1 + 1 / n_2}$$.
Prueba

Estos resultados se derivan del teorema anterior al reemplazar$$M_1 (1 - M_1)$$ y$$M_2 (1 - M_2)$$ cada uno con$$\frac 1 4$$.

## Ejercicios Computacionales

En una encuesta de 1000 votantes registrados en un determinado distrito, 427 prefieren al candidato X. Construir el intervalo de confianza bilateral del 95% para la proporción de todos los votantes registrados en el distrito que prefieran X.

Responder

$$(0.396, 0.458)$$

Una moneda se lanza 500 veces y da como resultado 302 cabezas. Construir el límite inferior de confianza del 95% para la probabilidad de cabezas. ¿Crees que la moneda es justa?

Responder

0.579. No, es casi seguro que la moneda no es justa.

Se prueba una muestra de 400 chips de memoria de una línea de producción y 30 están defectuosos. Construir el intervalo de confianza conservador 90% de dos lados para la proporción de chips defectuosos.

Responder

$$(0.034, 0.116)$$

Una compañía farmacéutica quiere estimar la proporción de personas que experimentarán una reacción adversa a un determinado medicamento nuevo. La compañía quiere un intervalo de dos caras con margen de error 0.03 con 95% de confianza. ¿Qué tan grande debe ser la muestra?

Responder

1068

Una agencia de publicidad quiere construir un límite inferior de confianza del 99% para la proporción de dentistas que recomiendan cierta marca de pasta dental. El margen de error debe ser 0.02. ¿Qué tan grande debe ser la muestra?

Responder

3382

El conjunto de datos del ensayo Buffon da los resultados de 104 repeticiones del experimento con aguja de Buffon. Teóricamente, los datos deben corresponder a los ensayos de Bernoulli con$$p = 2 / \pi$$, pero debido a que los estudiantes reales dejaron caer la aguja,$$p$$ se desconoce el verdadero valor de. Construir un intervalo de confianza del 95% para$$p$$. ¿Crees que ese$$p$$ es el valor teórico?

Responder

$$(0.433, 0.634)$$. El valor teórico es aproximadamente 0.637, que no está en el intervalo de confianza.

Una planta de fabricación tiene dos líneas de producción para un determinado artículo. En una muestra de 150 artículos de la línea 1, 12 están defectuosos. De una muestra de 130 artículos de la línea 2, 10 son defectuosos. Construir el intervalo de confianza de dos lados del 95% para$$p_1 - p_2$$, donde$$p_i$$ es la proporción de artículos defectuosos de la línea$$i$$, para$$i \in \{1, 2\}$$

Responder

$$[-0.050, 0.056]$$

La vacuna contra la influenza se adapta cada año para que coincida con la cepa dominante predicha de influenza. Supongamos que de 500 personas no vacunadas, 45 contrajeron la gripe en cierto periodo de tiempo. De 300 personas vacunadas, 20 contrajeron la gripe en el mismo periodo de tiempo. Construir el intervalo de confianza de dos lados del 99% para$$p_1 - p_2$$, donde$$p_1$$ está la incidencia de gripe en la población no vacunada y$$p_2$$ la incidencia de gripe en la población vacunada.

This page titled 8.3: Estimación en el Modelo de Bernoulli is shared under a CC BY 2.0 license and was authored, remixed, and/or curated by Kyle Siegrist (Random Services) via source content that was edited to the style and standards of the LibreTexts platform.