1.4: Recopilación de datos

Última actualización
Guardar como PDF

Page ID: 150854

Foster et al.
University of Missouri-St. Louis, Rice University, & University of Houston, Downtown Campus via University of Missouri’s Affordable and Open Access Educational Resources Initiative

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Por lo general, nos interesa entender a un grupo específico de personas. A este grupo se le conoce como la población de interés, o simplemente la población. La población es la colección de todas las personas que tienen alguna característica en común; puede ser tan amplia como “todas las personas” si tenemos una pregunta de investigación muy general sobre psicología humana, o puede ser extremadamente estrecha, como “todas las carreras de psicología de primer año en las universidades públicas del Medio Oeste” si tenemos un grupo específico en mente.

Poblaciones y muestras

En las estadísticas, a menudo confiamos en una muestra —es decir, un pequeño subconjunto de un conjunto más grande de datos— para extraer inferencias sobre el conjunto más grande. El conjunto más grande se conoce como la población de la que se extrae la muestra.

Ejemplo\(\PageIndex{1}\)

Usted ha sido contratado por la Comisión Nacional Electoral para examinar cómo se siente el pueblo estadounidense acerca de la imparcialidad de los procedimientos de votación en Estados Unidos. ¿A quién le preguntará?

Solución

No es práctico preguntar a cada estadounidense cómo se siente acerca de la imparcialidad de los procedimientos de votación. En cambio, consultamos a un número relativamente pequeño de estadounidenses y sacamos inferencias sobre todo el país a partir de sus respuestas. Los estadounidenses consultados constituyen nuestra muestra de la mayor población de todos los estadounidenses.

Una muestra suele ser un pequeño subconjunto de la población. En el caso de las actitudes de voto, tomaríamos muestras de unos pocos miles de estadounidenses extraídos de los cientos de millones que conforman el país. Al elegir una muestra, por lo tanto, es crucial que no sobre-represente a un tipo de ciudadano a expensas de otros. Por ejemplo, algo estaría mal con nuestra muestra si pasara a estar conformada íntegramente por residentes de Florida. Si la muestra solo contenía floridanos, no podría ser utilizada para inferir las actitudes de otros estadounidenses. El mismo problema se plantearía si la muestra estuviera compuesta únicamente por republicanos. Las inferencias de las estadísticas se basan en el supuesto de que el muestreo es representativo de la población. Si la muestra no es representativa, entonces se produce la posibilidad de sesgo del muestreo. El sesgo muestral significa que nuestras conclusiones se aplican únicamente a nuestra muestra y no son generalizables a toda la población.

Ejemplo\(\PageIndex{2}\)

Nos interesa examinar cuántas clases de matemáticas han sido tomadas en promedio por estudiantes de último año que se gradúan actualmente en colegios y universidades estadounidenses durante sus cuatro años en la escuela.

Solución

Mientras que nuestra población en el último ejemplo incluía a todos los ciudadanos estadounidenses, ahora solo involucra a los estudiantes de último año que se gradúan en todo el país. Este sigue siendo un conjunto grande ya que hay miles de colegios y universidades, cada uno inscribiendo a muchos estudiantes. (La Universidad de Nueva York, por ejemplo, inscribe a 48 mil estudiantes.) Sería prohibitivamente costoso examinar la transcripción de cada estudiante de último año universitario. Por lo tanto, tomamos una muestra de estudiantes de último año universitario y luego hacemos inferencias a toda la población en base a lo que encontremos. Para hacer la muestra, primero podríamos elegir algunos colegios y universidades públicas y privadas en todo Estados Unidos. Entonces podríamos tomar muestras de 50 estudiantes de cada una de estas instituciones. Supongamos que el promedio de clases de matemáticas tomadas por las personas de nuestra muestra fue 3.2. Entonces podríamos especular que 3.2 se aproxima al número que encontraríamos si tuviéramos los recursos para examinar a cada senior de toda la población. Pero hay que tener cuidado con la posibilidad de que nuestra muestra no sea representativa de la población. Quizás elegimos una sobreabundancia de especializaciones en matemáticas, o elegimos demasiadas instituciones técnicas que tienen requisitos matemáticos pesados. Este mal muestreo hace que nuestra muestra no sea representativa de la población de todos los adultos mayores.

Para solidificar su comprensión del sesgo de muestreo, considere el siguiente ejemplo. Intentar identificar la población y la muestra, y luego reflexionar sobre si es probable que la muestra arroje la información deseada.

Ejemplo\(\PageIndex{3}\)

Un profesor suplente quiere saber cómo le fue a los alumnos de la clase en su última prueba. El maestro pide a los 10 alumnos sentados en primera fila que indiquen su último puntaje de prueba. Concluye de su reporte que a la clase le fue sumamente bien. ¿Cuál es la muestra? ¿Cuál es la población? ¿Se puede identificar algún problema con la elección de la muestra de la manera que lo hizo el profesor?

Solución

La población está conformada por todos los estudiantes de la clase. La muestra está conformada por solo los 10 alumnos sentados en primera fila. No es probable que la muestra sea representativa de la población. Quienes se sientan en primera fila tienden a estar más interesados en la clase y tienden a rendir más alto en las pruebas. De ahí que la muestra pueda desempeñarse a un nivel superior al de la población.

Ejemplo\(\PageIndex{4}\)

A un entrenador le interesa saber cuántas volteretas pueden hacer los estudiantes de primer año universitario promedio en su universidad. Ocho voluntarios de la clase de primer año dan un paso adelante. Después de observar su desempeño, el entrenador concluye que los estudiantes de primer año universitarios pueden hacer un promedio de 16 volteretas seguidas sin detenerse.

Solución

La población es la clase de todos los estudiantes de primer año en la universidad del entrenador. La muestra está compuesta por los 8 voluntarios. La muestra está mal elegida porque los voluntarios tienen más probabilidades de poder hacer volteretas que los estudiantes de primer año promedio; ¡la gente que no puede hacer volteretas probablemente no se ofreció como voluntaria! En el ejemplo, tampoco se nos dice del género de los voluntarios. ¿Eran todas mujeres, por ejemplo? Eso podría afectar el resultado, contribuyendo a la naturaleza no representativa de la muestra (si la escuela es co-ed).

Muestreo aleatorio simple

Los investigadores adoptan una variedad de estrategias de muestreo. El más directo es el muestreo aleatorio simple. Dicho muestreo requiere que todos los miembros de la población tengan las mismas posibilidades de ser seleccionados en la muestra. Además, la selección de un miembro debe ser independiente de la selección de cada otro miembro. Es decir, elegir a un miembro de la población no debe aumentar ni disminuir la probabilidad de elegir a otro miembro (relativo a los demás). En este sentido, podemos decir que el muestreo aleatorio simple elige una muestra por pura casualidad. Para verificar su comprensión del muestreo aleatorio simple, considere el siguiente ejemplo. ¿Cuál es la población? ¿Cuál es la muestra? ¿La muestra fue escogida por muestreo aleatorio simple? ¿Es sesgada?

Ejemplo\(\PageIndex{5}\)

Un científico investigador está interesado en estudiar las experiencias de gemelos criados juntos versus los criados aparte. Obtiene una lista de gemelos del Registro Nacional de Gemelos, y selecciona dos subconjuntos de individuos para su estudio. Primero, elige a todos aquellos en el registro cuyo apellido comienza con Z. Luego recurre a todos aquellos cuyo apellido comienza con B. Debido a que hay tantos nombres que empiezan por B, sin embargo, nuestra investigadora decide incorporar solo todos los demás nombres a su muestra. Finalmente, ella manda por correo una encuesta y compara características de gemelos separados versus juntos.

Solución

La población está compuesta por todos los gemelos registrados en el Registro Nacional de Gemelos. Es importante que el investigador sólo haga generalizaciones estadísticas a los gemelos de esta lista, no a todos los gemelos de la nación o del mundo. Es decir, el Registro Nacional de Gemelos puede no ser representativo de todos los gemelos. Aunque las inferencias se limiten al Registro, una serie de problemas afectan el procedimiento de muestreo que describimos. Por ejemplo, elegir solo gemelos cuyos apellidos comiencen por Z no le da a cada individuo la misma oportunidad de ser seleccionado en la muestra. Además, tal procedimiento corre el riesgo de sobrerepresentar grupos étnicos con muchos apellidos que comienzan por Z. Hay otras razones por las que elegir solo las Z's puede sesgar la muestra. ¡Quizás esas personas son más pacientes que la media porque a menudo se encuentran al final de la línea! El mismo problema ocurre con la elección de gemelos cuyo apellido comienza con B. Un problema adicional para las B es que el procedimiento “todos los demás” no permitió que los nombres adyacentes en la parte B de la lista fueran seleccionados. Solo este defecto solo significa que la muestra no se formó a través de muestreo aleatorio simple.

El tamaño de la muestra importa

Recordemos que la definición de una muestra aleatoria es una muestra en la que cada miembro de la población tiene las mismas posibilidades de ser seleccionado. Esto significa que el procedimiento de muestreo más que los resultados del procedimiento definen lo que significa que una muestra sea aleatoria. Las muestras aleatorias, especialmente si el tamaño de la muestra es pequeño, no son necesariamente representativas de toda la población. Por ejemplo, si se tomara una muestra aleatoria de 20 sujetos de una población con igual número de machos y hembras, habría una probabilidad no trivial (0.06) de que 70% o más de la muestra sería femenina. Tal muestra no sería representativa, aunque se dibujaría al azar. Sólo un gran tamaño muestral hace probable que nuestra muestra sea cercana a representativa de la población. Por esta razón, las estadísticas inferenciales toman en cuenta el tamaño de la muestra a la hora de generalizar los resultados de las muestras a las poblaciones. En capítulos posteriores, verás qué tipos de técnicas matemáticas aseguran esta sensibilidad al tamaño de la muestra.

Muestreo más complejo

A veces no es factible construir una muestra usando muestreo aleatorio simple. Para ver el problema, considere el hecho de que tanto Dallas como Houston están compitiendo para ser anfitriones de los Juegos Olímpicos de 2012. Imagina que te contratan para evaluar si la mayoría de los tejanos prefieren Houston a Dallas como anfitrión, o al revés. Ante la impracticabilidad de obtener la opinión de cada tejano, se debe construir una muestra de la población de Texas. Pero ahora fíjense lo difícil que sería proceder por muestreo aleatorio simple. Por ejemplo, ¿cómo se pondrá en contacto con aquellos individuos que no votan y no tienen teléfono? Incluso entre las personas que encuentras en la agenda telefónica, ¿cómo puedes identificar a quienes acaban de trasladarse a California (y no tenían razón para informarte de su mudanza)? ¿Qué hace con el hecho de que desde el inicio del estudio, 4,212 personas adicionales se instalaron en el estado de Texas? Como puede ver, a veces es muy difícil desarrollar un procedimiento verdaderamente aleatorio. Por esta razón, se han ideado otros tipos de técnicas de muestreo. Ahora discutimos dos de ellos.

Muestreo estratificado

Dado que el muestreo aleatorio simple a menudo no asegura una muestra representativa, a veces se utiliza un método de muestreo llamado muestreo aleatorio estratificado para hacer que la muestra sea más representativa de la población. Este método se puede utilizar si la población tiene un número de “estratos” o grupos distintos. En el muestreo estratificado, primero identificas a los miembros de tu muestra que pertenecen a cada grupo. Entonces se muestrea aleatoriamente de cada uno de esos subgrupos de tal manera que los tamaños de los subgrupos en la muestra sean proporcionales a sus tamaños en la población.

Tomemos un ejemplo: Supongamos que te interesaban las opiniones de la pena capital en una universidad urbana. Tienes el tiempo y los recursos para entrevistar a 200 alumnos. El cuerpo estudiantil es diverso con respecto a la edad; muchas personas mayores trabajan durante el día y se inscriben en cursos nocturnos (la edad promedio es de 39 años), mientras que los estudiantes más jóvenes generalmente se inscriben en clases diurnas (edad promedio de 19 años). Es posible que los estudiantes nocturnos tengan diferentes puntos de vista sobre la pena capital que los estudiantes diurnos. Si 70% de los estudiantes eran estudiantes diurnos, tiene sentido asegurar que el 70% de la muestra consistiera en estudiantes diurnos. Así, tu muestra de 200 alumnos consistiría en 140 estudiantes diurnos y 60 estudiantes nocturnos. La proporción de alumnos diurnos en la muestra y en la población (toda la universidad) sería la misma. Por lo tanto, las inferencias a toda la población de estudiantes de la universidad serían más seguras.

Muestreo Conveniente

No todos los métodos de muestreo son perfectos, y a veces eso está bien. Por ejemplo, si estamos comenzando la investigación en un área completamente no estudiada, a veces podemos tomar algunos atajos para recopilar datos rápidamente y tener una idea general de cómo funcionan las cosas antes de invertir completamente mucho tiempo y dinero en proyectos de investigación bien diseñados con un muestreo adecuado. Esto se conoce como muestreo de conveniencia, llamado así por su facilidad de uso. En casos limitados, como el que se acaba de describir, el muestreo de conveniencia está bien porque pretendemos dar seguimiento con una muestra representativa. Desafortunadamente, a veces se utiliza el muestreo de conveniencia debido únicamente a su conveniencia sin la intención de mejorarlo en futuros trabajos.