8.4: Cálculo del tamaño muestral n- Variables Aleatorias Continuas y Binarias
- Page ID
- 150632
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)Variables aleatorias continuas
Por lo general, no tenemos control sobre el tamaño de la muestra de un conjunto de datos. No obstante, si somos capaces de establecer el tamaño de la muestra, como en los casos en los que estamos realizando una encuesta, es muy útil saber qué tan grande debe ser para brindar la mayor cantidad de información. El muestreo puede ser muy costoso tanto en tiempo como en producto. Las encuestas telefónicas simples costarán aproximadamente $30.00 cada una, por ejemplo, y algunos muestreos requieren la destrucción del producto.
Si volvemos a nuestra fórmula estandarizadora para la distribución muestral para los medios, podemos ver que es posible resolverlo para n. Si hacemos esto tenemos\((\overline{X}-\mu)\) en el denominador.
\[n=\frac{Z_{\alpha}^{2} \sigma^{2}}{(\overline{X}-\mu)^{2}}=\frac{Z_{\alpha}^{2} \sigma^{2}}{e^{2}}\nonumber\]
Debido a que aún no hemos tomado una muestra no conocemos ninguna de las variables en la fórmula excepto que podemos\(Z_{\alpha}\) establecer el nivel de confianza que deseamos tal como lo hicimos al determinar los intervalos de confianza. Si establecemos un error aceptable predeterminado, o tolerancia, para la diferencia entre\(\overline{X}\) y\(\mu\), llamado e en la fórmula, estamos mucho más lejos en resolver para el tamaño de la muestra\(n\). Todavía no conocemos la desviación estándar poblacional,\(\sigma\). En la práctica, generalmente se realiza una pre-encuesta que permite afinar el cuestionario y dará una desviación estándar muestral que se puede utilizar. En otros casos, la información previa de otras encuestas puede ser utilizada\(\sigma\) en la fórmula. Si bien es crudo, este método para determinar el tamaño de la muestra puede ayudar a reducir costos significativamente. Serán los datos reales recopilados los que determinen las inferencias sobre la población, por lo que la precaución en el tamaño de la muestra es apropiada llamando a altos niveles de confianza y pequeños errores de muestreo.
Variables aleatorias binarias
Lo que se hizo en los casos al buscar la media de una distribución también se puede hacer al muestrear para determinar el parámetro poblacional\(p\) para las proporciones. La manipulación de la fórmula estandarizadora para proporciones da:
\[n=\frac{Z_{\alpha}^{2} \mathrm{pq}}{e^{2}}\nonumber\]
donde\(e=\left(p^{\prime}-p\right)\), y es el error de muestreo aceptable, o tolerancia, para esta aplicación. Esto se medirá en puntos porcentuales.
En este caso el objeto mismo de nuestra búsqueda está en la fórmula,\(p\), y por supuesto\(q\) porque\(q =1-p\). Este resultado ocurre porque la distribución binomial es una distribución de un parámetro. Si sabemos\(p\) entonces conocemos la media y la desviación estándar. Por lo tanto, se\(p\) muestra en la desviación estándar de la distribución muestral que es donde obtuvimos esta fórmula. Si, en abundancia de precaución, sustituimos 0.5 por,\(p\) dibujaremos el tamaño de muestra más grande requerido que brinde el nivel de confianza especificado por\(Z \alpha\) y la tolerancia que hayamos seleccionado. Esto es cierto porque de todas las combinaciones de dos fracciones que se suman a una, el múltiplo más grande es cuando cada una es 0.5. Sin ninguna otra información concerniente al parámetro poblacional\(p\), esta es la práctica común. Esto puede resultar en sobremuestreo, pero ciertamente no bajo muestreo, por lo tanto, este es un enfoque cauteloso.
Existe una interesante compensación entre el nivel de confianza y el tamaño de la muestra que se muestra aquí al considerar el costo del muestreo. El cuadro\(\PageIndex{1}\) muestra el tamaño de muestra apropiado a diferentes niveles de confianza y diferente nivel del error aceptable, o tolerancia.
\ (\ PageIndex {1}\) “>Tamaño de muestra requerido (90%) | Tamaño de muestra requerido (95%) | Nivel de tolerancia |
---|---|---|
1691 | 2401 | 2% |
752 | 1067 | 3% |
271 | 384 | 5% |
68 | 96 | 10% |
Esta tabla está diseñada para mostrar el tamaño máximo de muestra requerido en diferentes niveles de confianza dado un supuesto\(p= 0.5\) y\(q=0.5\) como se discutió anteriormente.
El error aceptable, llamado tolerancia en la tabla, se mide en valores más o menos a partir de la proporción real. Por ejemplo, un error aceptable de 5% significa que si se encontrara que la proporción muestral era 26 por ciento, la conclusión sería que la proporción poblacional real se encuentra entre 21 y 31 por ciento con un nivel de confianza del 90 por ciento si se hubiera tomado una muestra de 271. De igual manera, si el error aceptable se fijara en 2%, entonces la proporción poblacional estaría entre 24 y 28 por ciento con un nivel de confianza del 90 por ciento, pero requeriría que el tamaño de la muestra se incrementara de 271 a 1,691. Si deseamos un mayor nivel de confianza, requeriríamos un tamaño de muestra más grande. Pasar de un nivel de confianza del 90 por ciento a un nivel de 95 por ciento con una tolerancia de más o menos 5% requiere cambiar el tamaño de la muestra de 271 a 384. Un tamaño de muestra muy común que a menudo se ve reportado en encuestas políticas es de 384. Con los resultados de la encuesta se afirma frecuentemente que los resultados son buenos a un nivel de “precisión” de más o menos 5%.
Ejemplo\(\PageIndex{9}\)
Supongamos que una compañía de telefonía móvil quiere determinar el porcentaje actual de clientes mayores de 50 años que utilizan mensajes de texto en sus celulares. ¿A cuántos clientes mayores de 50 años debería hacer una encuesta la empresa para estar 90% seguros de que la proporción estimada (muestra) está dentro de los tres puntos porcentuales de la verdadera proporción poblacional de clientes mayores de 50 años que usan mensajes de texto en sus teléfonos celulares?
- Contestar
-
Solución 8.9
Por el problema, sabemos que el error aceptable,\(e\), es 0.03 (3% =0.03) y\(z_{\frac{\alpha}{2}} Z_{0.05}=1.645\) porque el nivel de confianza es de 90%. El error aceptable,\(e\), es la diferencia entre la proporción poblacional real p, y la proporción muestral que esperamos obtener de la muestra.
Sin embargo, para poder encontrar\(n\), necesitamos conocer la proporción estimada (muestral)\(p^{\prime}\). Recuerda eso\(q^{\prime} = 1 – p^{\prime}\). Pero,\(p^{\prime}\) aún no lo sabemos. Ya que multiplicamos\(p^{\prime}\) y\(q^{\prime}\) juntos, los hacemos iguales a 0.5 porque\(p^{\prime}q^{\prime} = (0.5)(0.5) = 0.25\) resulta en el producto más grande posible. (Pruebe otros productos:\((0.6)(0.4) = 0.24; (0.3)(0.7) = 0.21; (0.2)(0.8) = 0.16\) y así sucesivamente). El producto más grande posible nos da el mayor n. Esto nos da una muestra lo suficientemente grande para que podamos estar 90% seguros de que estamos dentro de los tres puntos porcentuales de la verdadera proporción poblacional. Para calcular el tamaño de muestra n, usa la fórmula y haz las sustituciones.
\(n=\frac{z^{2} p^{\prime} q^{\prime}}{e^{2}} \text { gives } n=\frac{1.645^{2}(0.5)(0.5)}{0.03^{2}}=751.7\)
Redondea la respuesta al siguiente valor superior. El tamaño de la muestra debe ser de 752 clientes de teléfonos celulares mayores de 50 años para estar 90% seguros de que la proporción estimada (muestra) está dentro de los tres puntos porcentuales de la proporción de población real de todos los clientes mayores de 50 años que usan mensajes de texto en sus teléfonos celulares.
Ejercicio\(\PageIndex{9}\)
Supongamos que una empresa de marketing en Internet quiere determinar el porcentaje actual de clientes que hacen clic en anuncios en sus teléfonos inteligentes. ¿A cuántos clientes debe encuestar la compañía para estar 90% seguros de que la proporción estimada se encuentra dentro de los cinco puntos porcentuales de la verdadera proporción poblacional de los clientes que hacen clic en los anuncios en sus teléfonos inteligentes?