9.5: Consideraciones del tamaño de la muestra

Última actualización
Guardar como PDF

Page ID: 151110

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Objetivos de aprendizaje

Aprender a aplicar fórmulas para estimar el tamaño de las muestras que serán necesarias para construir un intervalo de confianza para la diferencia en dos medias o proporciones poblacionales que cumplan con criterios dados.

Como se señaló al inicio de la Sección 7.4, el muestreo se realiza típicamente con objetivos definidos en mente. Por ejemplo, un médico podría querer estimar la diferencia en la cantidad promedio de sueño que reciben los pacientes que sufren una determinada condición con la cantidad promedio de sueño que tienen los adultos sanos, en\(90\%\) confianza y dentro de media hora. Dado que el muestreo cuesta tiempo, esfuerzo y dinero, sería útil poder estimar las muestras de menor tamaño que probablemente cumplan con estos criterios.

Estimación\(\mu _1-\mu _2\) con Muestras Independientes

Suponiendo que se requerirán muestras grandes, la fórmula del intervalo de confianza para estimar la diferencia\(\mu _1-\mu _2\) entre dos medias poblacionales usando muestras independientes es\((\bar{x_1}-\bar{x_2})\pm E\), donde

\[E=z_{\alpha /2}\sqrt{\frac{s_{1}^{2}}{n_1}+\frac{s_{2}^{2}}{n_2}}\]

Decir que deseamos estimar la media a dentro de un cierto número de unidades significa que queremos que el margen de error\(E\) no sea mayor que ese número. El número\(z_{\alpha /2}\) está determinado por el nivel de confianza deseado.

Los números\(s_1\) y\(s_2\) son estimaciones de las desviaciones estándar\(\sigma _1\) y\(\sigma _2\) de las dos poblaciones. En analogía con lo que hicimos en la Sección 7.4 asumiremos que o bien sabemos o podemos aproximarnos razonablemente\(\sigma _1\) y\(\sigma _2\).

No podemos resolver para ambos\(n_1\) y\(n_2\), así que tenemos que hacer una suposición sobre sus tamaños relativos. Especificaremos que sean iguales. Con estos supuestos obtenemos los tamaños de muestra mínimos necesarios resolviendo la ecuación que se muestra justo arriba para\(n_1=n_2\).

Tamaños de muestra mínimos iguales para estimar la diferencia en las medias de dos poblaciones usando muestras independientes

Los tamaños de muestra mínimos iguales estimados\(n_1=n_2\) necesarios para estimar la diferencia\(\mu _1-\mu _2\) en dos medias poblacionales a dentro de\(E\) unidades en\(100(1-\alpha )\%\) confianza es

\[n_1=n_2=\frac{(z_{\alpha /2})^2(\sigma _{1}^{2}+\sigma _{2}^{2})}{E^2}\; \; \text{rounded up}\]

En todos los ejemplos y ejercicios se\(\sigma _2\) darán las desviaciones estándar poblacionales\(\sigma _1\) y.

Ejemplo\(\PageIndex{1}\)

Un despacho de abogados desea estimar la diferencia en el tiempo medio de entrega de los documentos enviados entre dos de sus oficinas por dos empresas de mensajería diferentes, a dentro de media hora y con\(99.5\%\) confianza. De sus registros se muestrea aleatoriamente el mismo número n de documentos entregados por cada empresa de mensajería. Determinar qué tan grande\(n\) debe ser si las desviaciones estándar estimadas de los tiempos de entrega son\(0.75\) horas para una compañía y\(1.15\) horas para la otra.

Solución:

Nivel de confianza\(99.5\%\) significa que\(\alpha =1-0.995=0.005\) así\(\alpha /2=0.0025\). De la última línea de la Figura 7.1.6 obtenemos\(z_{0.0025}=2.807\).

Decir que la estimación es ser “a dentro de media hora” significa eso\(E=0.5\). Así

\[n=\frac{(z_{\alpha /2})^2(\sigma _{1}^{2}+\sigma _{2}^{2})}{E^2}=\frac{(2.807)^2(0.75^2+1.15^2)}{0.5^2}=59.40953746\]

a la que redondeamos\(60\), ya que es imposible tomar una observación fraccionaria. El bufete deberá muestrear las entregas de\(60\) documentos por parte de cada empresa.

Estimación\(\mu _1-\mu _2\) con muestras emparejadas

Como mencionamos al final de la Sección 9.3, si la muestra es grande (lo que significa que\(n\geq 30\)) entonces en la fórmula para el intervalo de confianza podemos reemplazar\(t_{\alpha /2}\) por\(z_{\alpha /2}\), para que la fórmula del intervalo de confianza se convierta en\(\bar{d}\pm E\) para

\[E=z_{\alpha /2}\frac{s_d}{\sqrt{n}}\]

El número\(s_d\) es una estimación de las desviaciones estándar\(\sigma _d\) de la población de diferencias. Debemos asumir que o sabemos o podemos aproximarnos razonablemente\(\sigma _d\). Así, suponiendo que se requerirán muestras grandes para cumplir con los criterios dados, podemos resolver la ecuación mostrada\(n\) para obtener una estimación del número de pares necesarios en la muestra.

Tamaño mínimo de la muestra para estimar la diferencia en las medias de dos poblaciones usando muestras de diferencia pareada

El número mínimo estimado de pares\(n\) necesarios para estimar la diferencia\(\mu_d=\mu _1-\mu _2\) en dos medias poblacionales hasta dentro de\(E\) unidades en\(100(1-\alpha )\%\) confianza usando muestras de diferencia pareadas es

\[n=\frac{(z_{\alpha /2})^2\sigma _{d}^{2}}{E^2}\; \; \text{rounded up}\]

En todos los ejemplos y ejercicios se\(\sigma _d\) dará la desviación estándar poblacional de las diferencias.

Ejemplo\(\PageIndex{2}\)

Un fabricante de llantas para automóviles desea comparar la vida media de dos diseños de banda de rodadura en condiciones reales de conducción. Montarán una de cada tipo de llanta en\(n\) los vehículos (tanto en la parte delantera como en la parte trasera) y medirán la diferencia en la banda de rodadura restante después de\(20,000\) millas de manejo. Si se supone que la desviación estándar de las diferencias es\(0.025\) pulgadas, encuentre el tamaño mínimo de muestras necesario para estimar la diferencia en la profundidad media (en el uso de\(20,000\) millas) a dentro de la\(0.01\) pulgada en\(99.9\%\) confianza.

Solución:

Nivel de confianza\(99.9\%\) significa que\(\alpha =1-0.999=0.001\) así\(\alpha /2=0.0005\) . De la última línea de la Figura 7.1.6 obtenemos\(z_{0.0005}=3.291\) .

Decir que la estimación es ser “a dentro de la\(0.01\) pulgada” significa eso\(E = 0.01\). Así

\[n=\frac{(z_{\alpha /2})^2\sigma _{d}^{2}}{E^2}=\frac{(3.291)^2(0.025)^2}{(0.01)^2}=67.69175625\]

a la que redondeamos\(68\). El fabricante debe probar\(68\) pares de llantas.

Estimando\(p_1-p_2\)

La fórmula del intervalo de confianza para estimar la diferencia\(p_1-p_2\) entre dos proporciones de población es\(\hat{p_1}-\hat{p_2}\pm E\), donde

\[E=z_{\alpha /2}\sqrt{\frac{\hat{p_1}(1-\hat{p_1})}{n_1}+\frac{\hat{p_2}(1-\hat{p_2})}{n_2}}\]

Tamaños de muestra mínimos iguales para estimar la diferencia en dos proporciones de población

Los tamaños de muestra mínimos iguales estimados\(n_1=n_2\) necesarios para estimar la diferencia\(p_1-p_2\) en dos proporciones poblacionales dentro de los puntos\(E\) porcentuales a\(100(1-\alpha )\%\) la confianza es

\[n_1=n_2=\frac{(z_{\alpha /2})^2(\hat{p_1}(1-\hat{p_1}+\hat{p_2}(1-\hat{p_2}))}{E^2}\; \; \text{rounded up}\]

Aquí nos enfrentamos al mismo dilema que encontramos en el caso de una sola proporción poblacional: la fórmula para estimar qué tan grande es una muestra a tomar contiene los números\(\hat{p_1}\) y\(\hat{p_2}\), que conocemos sólo después de haber tomado la muestra. Hay dos formas de salir de este dilema. Normalmente el investigador tendrá alguna idea en cuanto a los valores de las proporciones de la población\(p_1\) y\(p_2\), de ahí, de cuáles\(\hat{p_2}\) son las proporciones de la muestra\(\hat{p_1}\) y es probable que sean. Si es así, esas estimaciones pueden ser utilizadas en la fórmula.

El segundo enfoque para resolver el dilema es simplemente reemplazar cada uno de\(\hat{p_1}\) y\(\hat{p_2}\) en la fórmula por\(0.5\). Al igual que en el caso de una población, esta es la estimación más conservadora, ya que da la mayor estimación posible de\(n\). Si tenemos una estimación de solo una de\(p_1\) y\(p_2\) podemos usar esa estimación para ello, y usar la estimación conservadora\(0.5\) para la otra.

Ejemplo\(\PageIndex{3}\)

Encontrar los tamaños de muestra mínimos iguales necesarios para construir un intervalo de\(98\%\) confianza para la diferencia\(p_1-p_2\) con un margen de error\(E=0.05\),

asumiendo que no hay conocimiento previo sobre\(p_1\) o\(p_2\) está disponible; y
asumiendo que estudios previos sugieren que\(p_1\approx 0.2\) y\(p_2\approx 0.3\).

Solución:

Nivel de confianza\(98\%\) significa que\(\alpha =1-0.98=0.02\) así\(\alpha /2=0.01\). De la última línea de la Figura 7.1.6 obtenemos\(z_{0.01}=2.326\).

Ya que no hay conocimiento previo de\(p_1\) o\(p_2\) hacemos la estimación más conservadora que\(\hat{p_1}=0.5\) y\(\hat{p_2}=0.5\). Entonces

\[\begin{align*} n_1=n_2 &= \frac{(z_{\alpha /2})^2(\hat{p_1}(1-\hat{p_1}+\hat{p_2}(1-\hat{p_2}))}{E^2}\\ &= \frac{(2.326)^2((0.5)(0.5)+(0.5)(0.5))}{0.05^2}\\ &= 1082.0552 \end{align*}\]

a la que redondeamos\(1,083\). Debemos tomar una muestra de tamaño\(1,083\) de cada población.

Desde que\(p_1\approx 0.2\) estimamos\(\hat{p_1}\) por\(0.2\), y desde que\(p_2\approx 0.3\) estimamos\(\hat{p_2}\) por\(0.3\). Así obtenemos

\[\begin{align*} n_1=n_2 &= \frac{(z_{\alpha /2})^2(\hat{p_1}(1-\hat{p_1}+\hat{p_2}(1-\hat{p_2}))}{E^2}\\ &= \frac{(2.326)^2((0.2)(0.8)+(0.3)(0.7))}{0.05^2}\\ &= 800.720848\end{align*}\]

a la que redondeamos\(801\). Debemos tomar una muestra de tamaño\(801\) de cada población.

Llave para llevar

Si las desviaciones estándar poblacionales\(\sigma _1\) y\(\sigma _2\) son conocidas o pueden ser estimadas, entonces los tamaños iguales mínimos de muestras independientes necesarios para obtener un intervalo de confianza para la diferencia\(\mu _1-\mu _2\) en dos medias poblacionales con un error máximo dado de la estimación\(E\) y un dado nivel de confianza puede ser estimado.
Si se conoce o puede estimarse la desviación estándar\(\sigma _d\) de la población de diferencias en parejas extraídas de dos poblaciones, entonces el número mínimo de pares de muestras necesarios bajo muestreo diferencial pareado para obtener un intervalo de confianza para la diferencia\(\mu_d=\mu _1-\mu _2\) en dos medias poblacionales con un dado error máximo de la estimación\(E\) y se puede estimar un nivel de confianza dado.
Siempre se pueden estimar los tamaños de muestra iguales mínimos necesarios para obtener un intervalo de confianza para la diferencia en dos proporciones poblacionales con un error máximo dado de la estimación y un nivel de confianza dado. Si hay conocimiento previo de las proporciones poblacionales\(p_1\) y\(p_2\) entonces la estimación puede ser agudizada.

Colaborador

Template:ContribShaferZhang