13.1.1: Muestra aleatoria

Última actualización
Guardar como PDF

Page ID: 101987

Bradley H. Dowden
California State University Sacramento

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Los estadísticos han descubierto varias técnicas para evitar sesgos. El primero es obtener una muestra aleatoria. Cuando muestres al azar, no favoreces a ningún miembro de la población sobre otro. Por ejemplo, al probar latas de salsa de tomate, no escoges las tres primeras latas que ves.

Definición

Una muestra aleatoria es cualquier muestra obtenida mediante un método de muestreo aleatorio.

Definición

Un método de muestreo aleatorio consiste en tomar una muestra de una población objetivo de tal manera que cualquier miembro de la población tenga las mismas posibilidades de ser elegido.

Es fácil reconocer el valor de obtener una muestra aleatoria, pero lograr este objetivo puede ser difícil. Si quieres sondear a los estudiantes por sus puntos de vista sobre la cancelación del programa de atletismo intercolegial de la escuela ante la última crisis presupuestaria escolar, ¿cómo le das a todos la misma oportunidad de ser encuestados? Algunos estudiantes son menos aptos para querer hablar contigo cuando te acercas a ellos con tu portapapeles. Si haces todas tus preguntas en tres lugares del campus, es posible que no estés dando la misma oportunidad a los estudiantes que nunca están en esos lugares. Entonces hay problemas con las propias preguntas de la encuesta. La forma en que se construyen las preguntas puede influir en las respuestas que obtienes, por lo que no obtendrás una muestra aleatoria de las opiniones de los estudiantes, incluso si obtienes una muestra aleatoria de estudiantes.

No usar intencionadamente una muestra aleatoria es quizás la principal manera de mentir con las estadísticas. Por un ejemplo, los periódicos ocasionalmente informan que los estudiantes de las escuelas intermedias y secundarias estadounidenses son especialmente pobres en matemáticas y ciencias en comparación con los estudiantes de otros países. Esta sorprendente generalización estadística probablemente se basa en una muestra sesgada. Es bastante cierto que aquellos estudiantes estadounidenses que toman las pruebas internacionales estandarizadas de matemáticas y logros en ciencias obtienen peor puntuación que los estudiantes extranjeros. El problema es que los administradores escolares de otros países se esfuerzan demasiado por hacerlo bien en estas pruebas. “En muchos países, verse bien es muy bueno para el prestigio internacional. Algunos restringen a los estudiantes que toman el examen a escuelas de élite”, dice Harold Hodgkinson, director del Centro de Política Demográfica en Washington y ex director del Instituto Nacional de Educación. Por ejemplo, mientras que Estados Unidos prueba a casi todos sus estudiantes, Hong Kong no. Para el grado 12, Hong Kong ha eliminado a todos menos el 3 por ciento superior de sus estudiantes de tomar matemáticas y, por lo tanto, de tomar las pruebas estandarizadas. En Japón, solo el 12 por ciento de sus estudiantes de 12º grado toman alguna matemática. Canadá tiene especialmente buenos resultados de pruebas por la misma razón. Según Hodgkinson, Estados Unidos no se ve tan mal cuando se toma en cuenta lo anterior.

El siguiente pasaje describe una generalización no estadística a partir de una muestra. Trate de detectar la conclusión, la población, la muestra y cualquier sesgo.

David fue a la tienda de abarrotes a buscar tres cajas de fresas. Observó brevemente la capa superior de fresas en cada uno de los tres primeros cartones de la sección de fresas y no notó pelusa en las bayas. Confiado en que las bayas en sus tres cajas estaban libres de pelusas, compró las tres.

La conclusión de David fue que las fresas en sus cartones no estaban borrosas. Su conclusión fue sobre la población de todas las fresas en los tres cartones. Su muestra fue la capa superior de fresas en cada una. David es un alma confiada, ¿no? Algunos tenedores esconderán todas las bayas malas en el fondo. Debido a que los compradores son conscientes de este potencial engaño, prefieren sus fresas en cajas de cartón transparente y palmeadas. Si David hubiera querido estar más seguro de su conclusión, debería haber mirado con más cuidado los cartones y muestreado por igual entre bayas de fondo, medio y lado, también. Mirar las fresas superiores es mejor que no mirar ninguna, y mirar al azar es mejor que mirar de manera no aleatoria.

Cuando tomamos muestras de informes de noticias para sacar una conclusión sobre la exactitud de los reportes de noticias, queremos que nuestra muestra sea representativa con respecto a la característica de “contener un error de reporte”. Cuando probemos a los votantes sobre cómo van a votar en la próxima elección, queremos que nuestra muestra sea representativa con respecto a la característica de “votar por los candidatos”. Aquí hay una definición formal del objetivo, que es la representatividad:

Definición Una muestra S es una muestra (perfectamente) representativa de una población P con respecto a la característica C si el porcentaje de S que son C es exactamente igual al porcentaje de P que son C.

Una muestra S es menos representativa de P según el grado en que el porcentaje de S que son C se desvía del porcentaje de P que son C.

Si estás a punto de hacer algún muestreo, ¿qué puedes hacer para mejorar tus posibilidades de obtener una muestra representativa? La respuesta es seguir estos cuatro procedimientos, si se puede:

1. Escoja una muestra aleatoria.

2. Escoja una muestra grande.

3. Escoja una muestra diversa.

4. Escoja una muestra estratificada.

Ya hemos discutido cómo obtener una muestra aleatoria. Después de explorar los otros tres procedimientos, estaremos en una mejor posición para apreciar por qué a veces puede ser un error elegir una muestra aleatoria.

Ejercicio\(\PageIndex{1}\)

¿Cuál es el argumento más fuerte y cuál es el argumento más débil? Los cuatro argumentos difieren sólo en su uso de las palabras random y about.

a. El veinte por ciento de una muestra aleatoria de estudiantes de nuestra universidad quiere que las multas de biblioteca sean menores; así, el 20 por ciento de los estudiantes de nuestra universidad quiere que las multas de biblioteca sean menores.
b. El veinte por ciento de una muestra de estudiantes de nuestra universidad quiere que las multas bibliotecarias sean menores; por lo tanto, el 20 por ciento de los estudiantes de nuestra universidad quiere que las multas de biblioteca sean menores.
c. El veinte por ciento de una muestra aleatoria de estudiantes de nuestra universidad quiere que las multas bibliotecarias sean menores; por lo tanto, alrededor del 20 por ciento de los estudiantes de nuestra universidad quiere que las multas de biblioteca sean menores.
d. El veinte por ciento de una muestra de estudiantes de nuestra universidad quiere que las multas bibliotecarias sean menores; por lo tanto, alrededor del 20 por ciento de los estudiantes de nuestra universidad quiere que las multas de biblioteca sean menores.

Responder: La respuesta (c) es más fuerte y (b) es la más débil. La palabra acerca en las conclusiones de (c) y (d) hace que sus conclusiones sean menos precisas y, por lo tanto, más propensas a ser ciertas, siendo todas las demás cosas iguales. Por ello, los argumentos c) y d) son mejores que los argumentos a) y b). Dentro de cada uno de estos pares, el argumento cuyas premisas hablan de una muestra aleatoria es mejor que aquel cuyas premisas no hablan de esto. Entonces (c) es mejor que (d), y (b) es peor que (a). Las respuestas (d) y (b) son peores porque te falta información sobre si las muestras son aleatorias; sin embargo, no ser dicho si son aleatorias no te permite concluir que no son aleatorias.

Ejercicio\(\PageIndex{1}\)

Para el siguiente reporte estadístico, (a) identificar la muestra, (b) identificar la población, (c) discutir la calidad del método de muestreo, y (d) encontrar otros problemas ya sea con el estudio o con su conocimiento del estudio.

Las pruebas voluntarias de 25 mil conductores en todo Estados Unidos mostraron que el 25 por ciento de ellos consume alguna droga mientras conducen y que el 85 por ciento no usa ninguna droga mientras conduce. La conclusión fue que 25 por ciento de los conductores estadounidenses sí consumen drogas mientras conducen. Una conclusión notable. Las pruebas se realizaron a horas aleatorias del día en restaurantes de autopista seleccionados al azar.

Responder: (a) La muestra es de 25,000 conductores estadounidenses, (b) La población es de conductores estadounidenses, (c) El tamaño de la muestra es lo suficientemente grande, pero no es aleatorio, por cuatro razones: (1) Los conductores que no se detienen en restaurantes de carretera no tuvieron oportunidad de ser muestreados, (2) el estudio enfatizó demasiado a los conductores de autopista en lugar de otros conductores , (3) exageró a los voluntarios, (4) exageró a los conductores que conducen a las 4 de la mañana d) El error más obvio en la encuesta, o en el reporte de la encuesta, es que 25 por ciento más 85 por ciento es mayor al 100 por ciento. A pesar de que la encuesta dijo que estos porcentajes son aproximados, el 110 por ciento sigue siendo demasiado alto. Además, al lector le gustaría obtener más información para evaluar la calidad del estudio. En particular, ¿cómo decidió el estudio qué cuenta como droga, es decir, cómo operacionalizó el concepto de droga? Estos medicamentos son: ¿Aspirina? ¿Cafeína? ¿Vitaminas? ¿Alcohol? ¿Sólo drogas ilegales? ¿Preguntó el cuestionario si el conductor alguna vez había consumido drogas mientras conducía, o alguna vez había consumido drogas periodo? ¿El encuestador hizo el muestreo en un día o durante muchos días? Aún así, la falta de información sobre la encuesta no es necesariamente un signo de error en la propia encuesta.