Saltar al contenido principal
LibreTexts Español

1.2: Datos, Muestreo y Variación en Datos y Muestreo

  • Page ID
    150695
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Los datos pueden provenir de una población o de una muestra. Las letras minúsculas como\(x\) o\(y\) generalmente se utilizan para representar valores de datos. La mayoría de los datos se pueden poner en las siguientes categorías:

    • Cualitativo
    • Cuantitativo

    Los datos cualitativos son el resultado de categorizar o describir atributos de una población. Los datos cualitativos también se denominan a menudo datos categóricos. El color del cabello, el tipo de sangre, el grupo étnico, el automóvil que conduce una persona y la calle en la que vive son ejemplos de datos cualitativos (categóricos). Los datos cualitativos (categóricos) generalmente se describen con palabras o letras. Por ejemplo, el color del cabello puede ser negro, marrón oscuro, marrón claro, rubio, gris o rojo. El tipo de sangre puede ser AB+, O- o B+. Los investigadores suelen preferir utilizar datos cuantitativos sobre datos cualitativos (categóricos) porque se presta más fácilmente al análisis matemático. Por ejemplo, no tiene sentido encontrar un color de pelo promedio o un tipo de sangre.

    Los datos cuantitativos son siempre números. Los datos cuantitativos son el resultado de contar o medir atributos de una población. La cantidad de dinero, la frecuencia del pulso, el peso, el número de personas que viven en tu pueblo y el número de estudiantes que toman estadísticas son ejemplos de datos cuantitativos. Los datos cuantitativos pueden ser discretos o continuos.

    Todos los datos que son el resultado del conteo se denominan datos discretos cuantitativos. Estos datos toman solo ciertos valores numéricos. Si cuentas el número de llamadas telefónicas que recibes por cada día de la semana, podrías obtener valores como cero, uno, dos o tres.

    Los datos que no solo están compuestos por contar números, sino que pueden incluir fracciones, decimales o números irracionales, se denominan datos cuantitativos continuos. Los datos continuos suelen ser el resultado de mediciones como longitudes, pesos o tiempos. Una lista de las duraciones en minutos para todas las llamadas telefónicas que hagas en una semana, con números como 2.4, 7.5 o 11.0, serían datos cuantitativos continuos.

    Ejemplo\(\PageIndex{1}\): DATA SAMPLE OF QUANTITATIVE DISCRETE DATA

    Los datos son la cantidad de libros que los alumnos llevan en sus mochilas. Muestreas a cinco alumnos. Dos estudiantes llevan tres libros, un estudiante lleva cuatro libros, un estudiante lleva dos libros y un estudiante lleva un libro. Los números de libros (tres, cuatro, dos y uno) son los datos discretos cuantitativos.

    Ejercicio\(\PageIndex{1}\)

    Los datos son el número de máquinas en un gimnasio. Muestreas cinco gimnasios. Un gimnasio tiene 12 máquinas, un gimnasio tiene 15 máquinas, un gimnasio tiene diez máquinas, un gimnasio tiene 22 máquinas y el otro gimnasio tiene 20 máquinas. ¿Qué tipo de datos son estos?

    Ejemplo\(\PageIndex{2}\): DATA SAMPLE OF QUANTITATIVE CONTINUOUS DATA

    Los datos son los pesos de mochilas con libros en ellas. Muestrea los mismos cinco alumnos. Los pesos (en libras) de sus mochilas son 6.2, 7, 6.8, 9.1, 4.3. Observe que las mochilas que llevan tres libros pueden tener diferentes pesos. Los pesos son datos cuantitativos continuos.

    Ejercicio\(\PageIndex{2}\)

    Los datos son las áreas de césped en pies cuadrados. Muestreas cinco casas. Las áreas de césped son 144 pies cuadrados, 160 pies cuadrados, 190 pies cuadrados, 180 pies cuadrados y 210 pies cuadrados. ¿Qué tipo de datos son estos?

    Ejemplo\(\PageIndex{3}\)

    Acudes al supermercado y compras tres latas de sopa (19 onzas) de bisque de tomate, 14.1 onzas de lentejas y 19 onzas boda italiana), dos paquetes de nueces (nueces y cacahuetes), cuatro tipos diferentes de vegetales (brócoli, coliflor, espinacas y zanahorias), y dos postres (16 onzas de helado de pistacho y 32 onzas de galletas con chispas de chocolate).

    Nombra conjuntos de datos cuantitativos discretos, cuantitativos continuos y cualitativos (categóricos).

    Contestar

    Una posible solución:

    • Las tres latas de sopa, dos paquetes de frutos secos, cuatro tipos de verduras y dos postres son datos discretos cuantitativos porque los cuentas.
    • Los pesos de las sopas (19 onzas, 14.1 onzas, 19 onzas) son datos cuantitativos continuos porque se miden los pesos con la mayor precisión posible.
    • Los tipos de sopas, frutos secos, verduras y postres son datos cualitativos (categóricos) porque son categóricos.

    Intente identificar conjuntos de datos adicionales en este ejemplo.

    Ejemplo\(\PageIndex{4}\)

    Los datos son los colores de las mochilas. Nuevamente, muestras a los mismos cinco alumnos. Un estudiante tiene una mochila roja, dos estudiantes tienen mochilas negras, un estudiante tiene una mochila verde y un estudiante tiene una mochila gris. Los colores rojo, negro, negro, verde y gris son datos cualitativos (categóricos).

    Ejercicio\(\PageIndex{4}\)

    Los datos son los colores de las casas. Muestreas cinco casas. Los colores de las casas son blanco, amarillo, blanco, rojo y blanco. ¿Qué tipo de datos son estos?

    Puedes recopilar datos como números y reportarlos categóricamente. Por ejemplo, los puntajes de los cuestionarios para cada alumno se registran a lo largo del trimestre. Al final del término, los puntajes del cuestionario se reportan como A, B, C, D o F

    Ejemplo\(\PageIndex{5}\)

    Trabajar en colaboración para determinar el tipo de datos correcto (cuantitativo o cualitativo). Indicar si los datos cuantitativos son continuos o discretos. Sugerencia: Los datos que son discretos a menudo comienzan con las palabras “el número de”.

    1. el número de pares de zapatos que tienes
    2. el tipo de auto que conduces
    3. la distancia de tu casa a la tienda de abarrotes más cercana
    4. el número de clases que tomas por año escolar
    5. el tipo de calculadora que usas
    6. pesos de luchadores de sumo
    7. número de respuestas correctas en un cuestionario
    8. Puntajes de coeficiente intelectual (Esto puede causar cierta discusión).
    Contestar

    Los ítems a, d y g son discretos cuantitativos; los ítems c, f y h son cuantitativos continuos; los ítems b y e son cualitativos o categóricos.

    Ejercicio\(\PageIndex{5}\)

    Determinar el tipo de datos correcto (cuantitativo o cualitativo) para el número de autos en un estacionamiento. Indicar si los datos cuantitativos son continuos o discretos.

    Ejemplo\(\PageIndex{6}\)

    Un profesor de estadística recopila información sobre la clasificación de sus alumnos como estudiantes de primer año, segundo año, juniors o seniors. Los datos que recoge se resumen en el gráfico circular Figura 1.2. ¿Qué tipo de datos muestra esta gráfica?

    Este es un gráfico circular que muestra la clasificación de clase de los estudiantes de estadística. El gráfico tiene 4 secciones etiquetadas como Freshman, Sophomore, Junior, Senior. Se hace una pregunta debajo del gráfico circular: ¿qué tipo de datos muestra esta gráfica?

    Figura 1.2

    Contestar

    Este gráfico circular muestra a los alumnos de cada año, que son datos cualitativos (o categóricos).

    Ejercicio\(\PageIndex{6}\)

    El registrador de la Universidad Estatal mantiene registros del número de horas de crédito que los estudiantes completan cada semestre. Los datos que recoge se resumen en el histograma. Los límites de clase son de 10 a menos de 13, de 13 a menos de 16, de 16 a menos de 19, de 19 a menos de 22 y de 22 a menos de 25.

    Este histograma consta de 5 barras con el eje x marcado a intervalos de 3 de 10 a 25, y el eje y en incrementos de 100 de 0 a 800. La altura de las barras muestra el número de alumnos en cada intervalo.
    Figura 1.3

    ¿Qué tipo de datos muestra esta gráfica?

    Discusión de datos cualitativos

    A continuación se muestran tablas que comparan el número de estudiantes de medio tiempo y tiempo completo en De Anza College y Foothill College matriculados para el trimestre de primavera de 2010. Las tablas muestran recuentos (frecuencias) y porcentajes o proporciones (frecuencias relativas). Las columnas porcentuales facilitan la comparación de las mismas categorías en los colegios. Mostrar porcentajes junto con los números suele ser útil, pero es particularmente importante a la hora de comparar conjuntos de datos que no tienen los mismos totales, como el total de inscripciones para ambas universidades en este ejemplo. Observe cuánto mayor es el porcentaje para estudiantes de medio tiempo en Foothill College en comparación con De Anza College.

    Tabla\(\PageIndex{1}\): Término de Otoño 2007 (Día del Censo)
    Colegio De Anza Colegio Foothill
    Número Por ciento Número Por ciento
    Tiempo completo 9,200 40.9% Tiempo completo 4,059 28.6%
    Medio tiempo 13,296 59.1% Medio tiempo 10,124 71.4%
    Total 22,496 100% Total 14,183 100%

    Las tablas son una buena manera de organizar y mostrar datos. Pero los gráficos pueden ser aún más útiles para comprender los datos. No existen reglas estrictas sobre qué gráficas usar. Dos gráficas que se utilizan para mostrar datos cualitativos (categóricos) son los gráficos circulares y los gráficos de barras.

    • En un gráfico circular, las categorías de datos están representadas por cuñas en un círculo y son proporcionales en tamaño al porcentaje de individuos en cada categoría.
    • En una gráfica de barras, la longitud de la barra para cada categoría es proporcional al número o porcentaje de individuos en cada categoría. Las barras pueden ser verticales u horizontales.
    • Un gráfico de Pareto consta de barras que se ordenan en orden por tamaño de categoría (de mayor a menor).

    Mire la Figura 1.5 y determine qué gráfico (pastel o barra) cree que muestra mejor las comparaciones.

    Es una buena idea mirar una variedad de gráficas para ver cuál es la más útil para mostrar los datos. Podríamos tomar diferentes decisiones de lo que creemos que es el “mejor” gráfico dependiendo de los datos y el contexto. Nuestra elección también depende de para qué estamos utilizando los datos.

    Figura 1.4a
    Figura 1.4B

    Figura 1.5

    Porcentajes que se suman a más (o menos) de 100%

    En ocasiones los porcentajes suman ser más del 100% (o menos del 100%). En la gráfica, los porcentajes se suman a más del 100% porque los estudiantes pueden estar en más de una categoría. Un gráfico de barras es apropiado para comparar el tamaño relativo de las categorías. No se puede utilizar un gráfico circular. Tampoco se podría utilizar si los porcentajes se sumaron a menos del 100%.

    Mesa\(\PageIndex{2}\): Colegio De Anza Primavera 2010
    Característico/categoría Por ciento
    Estudiantes de tiempo completo 40.9%
    Alumnos que pretendan trasladarse a una institución educativa de 4 años 48.6%
    Estudiantes menores de 25 años 61.0%
    TOTAL 150.5%
    Figura\(\PageIndex{2}\)

    Omitir categorías/Datos faltantes

    La tabla muestra Etnicidad de los estudiantes pero falta la categoría “Otros/Desconocido”. Esta categoría contiene personas que no sintieron que encajaban en ninguna de las categorías de etnia o que se negaron a responder. Observe que las frecuencias no suman el número total de alumnos. En esta situación, cree un gráfico de barras y no un gráfico circular.

    Tabla\(\PageIndex{3}\): Etnicidad de los estudiantes en De Anza College Fall Term 2007 (Día del Censo)
    Frecuencia Por ciento
    Asiático 8,794 36.1%
    Negro 1,412 5.8%
    Filipino 1,298 5.3%
    Hispano 4,180 17.1%
    Nativo americano 146 0.6%
    Isleños del Pacífico 236 1.0%
    Blanco 5,978 24.5%
    TOTAL 22,044 de 24,382 90.4% de 100%
    Figura\(\PageIndex{3}\)

    La siguiente gráfica es la misma que la gráfica anterior pero se ha incluido el porcentaje “Otros/Desconocido” (9.6%). La categoría “Otros/Desconocidos” es grande en comparación con algunas de las otras categorías (Nativo Americano, 0.6%, Isleño del Pacífico 1.0%). Esto es importante saber cuando pensamos en lo que nos están diciendo los datos.

    Este gráfico de barras en particular en la Figura 1.9 es un gráfico de Pareto. El gráfico de Pareto tiene las barras ordenadas de mayor a menor y es más fácil de leer e interpretar.

    Figura\(\PageIndex{4}\): Gráfico de barras con Otro/Categoría desconocida

    Figura\(\PageIndex{4}\): Gráfico de Pareto con Barras Ordenadas por Tamaño

    Gráficos circulares: No faltan datos

    Los siguientes gráficos circulares tienen incluida la categoría “Otros/Desconocidos” (ya que los porcentajes deben sumarse al 100%). El gráfico en la Figura 1.10.

    Figura\(\PageIndex{5}\): Pegar subtitulado aquí

    Muestreo

    Recopilar información sobre toda una población a menudo cuesta demasiado o es prácticamente imposible. En cambio, utilizamos una muestra de la población. Una muestra debe tener las mismas características que la población que representa. La mayoría de los estadísticos utilizan diversos métodos de muestreo aleatorio en un intento de lograr este objetivo. En esta sección se describirán algunos de los métodos más comunes. Existen varios métodos diferentes de muestreo aleatorio. En cada forma de muestreo aleatorio, cada miembro de una población inicialmente tiene las mismas posibilidades de ser seleccionado para la muestra. Cada método tiene pros y contras. El método más fácil de describir se llama una muestra aleatoria simple. Cualquier grupo de n individuos es igualmente probable que sea elegido como cualquier otro grupo de\(n\) individuos si se utiliza la técnica de muestreo aleatorio simple. Es decir, cada muestra del mismo tamaño tiene las mismas posibilidades de ser seleccionada.

    Además del muestreo aleatorio simple, existen otras formas de muestreo que implican un proceso casual para obtener la muestra. Otros métodos de muestreo aleatorio bien conocidos son la muestra estratificada, la muestra agrupada y la muestra sistemática.

    Para elegir una muestra estratificada, dividir la población en grupos llamados estratos y luego tomar un número proporcional de cada estrato. Por ejemplo, podrías estratificar (agrupar) tu población universitaria por departamento y luego elegir una muestra aleatoria simple proporcionada de cada estrato (cada departamento) para obtener una muestra aleatoria estratificada. Para elegir una muestra aleatoria simple de cada departamento, numerar a cada miembro del primer departamento, numerar a cada miembro del segundo departamento y hacer lo mismo para los departamentos restantes. Luego use muestreo aleatorio simple para elegir números proporcionales del primer departamento y hacer lo mismo para cada uno de los departamentos restantes. Esos números escogidos del primer departamento, escogidos del segundo departamento, y así sucesivamente representan a los integrantes que conforman la muestra estratificada.

    Para elegir una muestra de cluster, divida la población en clusters (grupos) y luego seleccionar aleatoriamente algunos de los clusters. Todos los miembros de estos clústeres están en la muestra del clúster. Por ejemplo, si muestreas aleatoriamente cuatro departamentos de tu población universitaria, los cuatro departamentos conforman la muestra del clúster. Divide tu facultad universitaria por departamento. Los departamentos son los clusters. Numere cada departamento y luego elija cuatro números diferentes usando muestreo aleatorio simple. Todos los miembros de los cuatro departamentos con esos números son la muestra del clúster.

    Para elegir una muestra sistemática, seleccionar aleatoriamente un punto de partida y tomar cada\(n^{th}\) dato de un listado de la población. Por ejemplo, supongamos que tienes que hacer una encuesta telefónica. Tu agenda telefónica contiene 20,000 anuncios de residencia. Debe elegir 400 nombres para la muestra. Numere la población entre 1 y 20,000 y luego use una muestra aleatoria simple para elegir un número que represente el nombre de la muestra. Luego elige cada quincuagésimo nombre a partir de entonces hasta que tengas un total de 400 nombres (es posible que tengas que volver al comienzo de tu lista telefónica). El muestreo sistemático se elige frecuentemente porque es un método sencillo.

    Un tipo de muestreo no aleatorio es el muestreo de conveniencia. El muestreo de conveniencia implica el uso de resultados que están fácilmente disponibles. Por ejemplo, una tienda de software informático realiza un estudio de marketing entrevistando a clientes potenciales que pasan a estar en la tienda navegando a través del software disponible. Los resultados del muestreo por conveniencia pueden ser muy buenos en algunos casos y altamente sesgados (favorecen ciertos resultados) en otros.

    Los datos de muestreo deben hacerse con mucho cuidado. Recopilar datos descuidadamente puede tener resultados devastadores. Las encuestas enviadas por correo a los hogares y luego devueltas pueden ser muy sesgadas (pueden favorecer a cierto grupo). Es mejor que la persona que realiza la encuesta seleccione a los encuestados de la muestra.

    El muestreo aleatorio verdadero se realiza con reemplazo. Es decir, una vez que se elige a un miembro, ese miembro regresa a la población y así puede ser elegido más de una vez. Sin embargo, por razones prácticas, en la mayoría de las poblaciones, el muestreo aleatorio simple se realiza sin reemplazo. Por lo general, las encuestas se realizan sin reemplazo. Es decir, un miembro de la población podrá ser elegido sólo una vez. La mayoría de las muestras se toman de poblaciones grandes y la muestra tiende a ser pequeña en comparación con la población. Dado que este es el caso, el muestreo sin reemplazo es aproximadamente lo mismo que el muestreo con reemplazo porque la posibilidad de recoger al mismo individuo más de una vez con reemplazo es muy baja.

    En una población universitaria de 10,000 personas, supongamos que desea elegir una muestra de 1,000 al azar para una encuesta. Para cualquier muestra particular de 1,000, si está muestreando con reemplazo,

    • la probabilidad de elegir a la primera persona es 1,000 de 10,000 (0.1000);
    • la probabilidad de elegir una segunda persona diferente para esta muestra es 999 de 10,000 (0.0999);
    • la posibilidad de volver a recoger a la misma persona es 1 de cada 10,000 (muy baja).

    Si está muestreando sin reemplazo,

    • la probabilidad de recoger a la primera persona para cualquier muestra en particular es 1000 de 10,000 (0.1000);
    • la probabilidad de elegir una segunda persona diferente es 999 de 9,999 (0.0999);
    • no reemplaces a la primera persona antes de elegir a la siguiente persona.

    Compara las fracciones 999/10,000 y 999/9,999. Para mayor precisión, lleve las respuestas decimales a cuatro decimales. A cuatro decimales, estos números son equivalentes (0.0999).

    El muestreo sin reemplazo en lugar de muestreo con reemplazo se convierte en un problema matemático solo cuando la población es pequeña. Por ejemplo, si la población es de 25 personas, la muestra es de diez, y estás muestreando con reemplazo para cualquier muestra en particular, entonces la probabilidad de recoger a la primera persona es de diez de 25, y la probabilidad de elegir una segunda persona diferente es de nueve de 25 (se reemplaza a la primera persona).

    Si realiza una muestra sin reemplazo, entonces la probabilidad de elegir a la primera persona es de diez de 25, y luego la posibilidad de elegir a la segunda persona (que es diferente) es de nueve de cada 24 (no reemplaza a la primera persona).

    Compara las fracciones 9/25 y 9/24. A cuatro decimales, 9/25 = 0.3600 y 9/24 = 0.3750. A cuatro decimales, estos números no son equivalentes.

    Al analizar los datos, es importante estar al tanto de los errores de muestreo y de no muestreo. El proceso real de muestreo provoca errores de muestreo. Por ejemplo, la muestra puede no ser lo suficientemente grande. Los factores no relacionados con el proceso de muestreo provocan errores de no muestreo. Un dispositivo de conteo defectuoso puede causar un error de no muestreo.

    En realidad, una muestra nunca será exactamente representativa de la población por lo que siempre habrá algún error de muestreo. Como regla general, cuanto mayor es la muestra, menor es el error de muestreo.

    En las estadísticas, se crea un sesgo de muestreo cuando se recolecta una muestra de una población y algunos miembros de la población no son tan propensos a ser elegidos como otros (recuerde, cada miembro de la población debe tener la misma probabilidad de ser elegido). Cuando ocurre un sesgo de muestreo, puede haber conclusiones incorrectas sobre la población que se está estudiando.

    Evaluación Crítica

    Necesitamos evaluar críticamente los estudios estadísticos sobre los que leemos y analizarlos antes de aceptar los resultados de los estudios. Los problemas comunes a tener en cuenta incluyen

    • Problemas con las muestras: Una muestra debe ser representativa de la población. Una muestra que no es representativa de la población está sesgada. Las muestras sesgadas que no son representativas de la población dan resultados inexactos y no válidos.
    • Muestras autoseleccionadas: Las respuestas solo de las personas que eligen responder, como las encuestas de llamadas, a menudo no son confiables.
    • Problemas con el tamaño de la muestra: Las muestras que son demasiado pequeñas pueden no ser confiables. Las muestras más grandes son mejores, si es posible. En algunas situaciones, tener muestras pequeñas es inevitable y todavía se puede utilizar para sacar conclusiones. Ejemplos: pruebas de choque de autos o pruebas médicas para afecciones raras
    • Influencia indebida: recopilar datos o hacer preguntas de una manera que influya en la respuesta
    • Inrespuesta o negativa de sujeto a participar: Las respuestas recopiladas pueden dejar de ser representativas de la población. A menudo, las personas con opiniones positivas o negativas fuertes pueden responder encuestas, lo que puede afectar los resultados.
    • Causalidad: Una relación entre dos variables no significa que una cause que ocurra la otra. Pueden estar relacionados (correlacionados) por su relación a través de una variable diferente.
    • Estudios autofinanciados o de interés propio: Un estudio realizado por una persona u organización para sustentar su reclamo. ¿El estudio es imparcial? Lea el estudio detenidamente para evaluar el trabajo. No asuma automáticamente que el estudio es bueno, pero tampoco asuma automáticamente que el estudio es malo. Evaluarlo sobre sus méritos y el trabajo realizado.
    • Uso engañoso de datos: gráficos mostrados incorrectamente, datos incompletos o falta de contexto
    • Confundir: Cuando no se pueden separar los efectos de múltiples factores sobre una respuesta. La confusión hace difícil o imposible sacar conclusiones válidas sobre el efecto de cada factor.

    Ejemplo\(\PageIndex{7}\)

    Se realiza un estudio para determinar la matrícula promedio que pagan los estudiantes de pregrado del estado de San José por semestre. A cada alumno de las siguientes muestras se le pregunta cuánta matrícula pagó para el semestre de otoño. ¿Cuál es el tipo de muestreo en cada caso?

    1. Se toma una muestra de 100 estudiantes de pregrado del estado de San José organizando los nombres de los estudiantes por clasificación (primer año, segundo año, junior o senior), y luego seleccionando 25 estudiantes de cada uno.
    2. Se utiliza un generador de números aleatorios para seleccionar a un estudiante del listado alfabético de todos los estudiantes de pregrado en el semestre de otoño. A partir de ese alumno, se elige a cada estudiante 50 hasta que se incluyen 75 alumnos en la muestra.
    3. Se utiliza un método completamente aleatorio para seleccionar a 75 alumnos. Cada estudiante de licenciatura en el semestre de otoño tiene la misma probabilidad de ser elegido en cualquier etapa del proceso de muestreo.
    4. Los estudiantes de primer año, segundo, junior y senior están numerados uno, dos, tres y cuatro, respectivamente. Se utiliza un generador de números aleatorios para elegir dos de esos años. Todos los alumnos en esos dos años están en la muestra.
    5. Se pide a un auxiliar administrativo que se pare frente a la biblioteca un miércoles y que pregunte a los primeros 100 estudiantes de pregrado que encuentre lo que pagaron por la matrícula el semestre de otoño. Esos 100 alumnos son la muestra.
    Contestar

    a. estratificado; b. sistemático; c. simple aleatorio; d. cúmulo; e. conveniencia

    Ejemplo\(\PageIndex{8}\)

    Determinar el tipo de muestreo utilizado (simple aleatorio, estratificado, sistemático, conglomerado o conveniencia).

    1. Un entrenador de futbol selecciona a seis jugadores de un grupo de chicos de ocho a diez años, siete jugadores de un grupo de chicos de 11 a 12 años, y tres jugadores de un grupo de chicos de 13 a 14 años para formar un equipo de futbol recreativo.
    2. Un encuestador entrevista a todo el personal de recursos humanos en cinco empresas diferentes de alta tecnología.
    3. Un investigador educativo de secundaria entrevista a 50 profesoras de secundaria y 50 profesores varones de secundaria.
    4. Un investigador médico entrevista a cada tres pacientes oncológicos de una lista de pacientes oncológicos en un hospital local.
    5. Un consejero de secundaria utiliza una computadora para generar 50 números aleatorios y luego elige a los estudiantes cuyos nombres corresponden a los números.
    6. Un alumno entrevista a compañeros de clase en su clase de álgebra para determinar cuántos pares de jeans posee un estudiante, en promedio.
    Contestar

    a. estratificado; b. cúmulo; c. estratificado; d. sistemático; e. simple aleatorio; f.conveniencia

    Si examináramos dos muestras que representan la misma población, aunque usáramos métodos de muestreo aleatorio para las muestras, no serían exactamente las mismas. Así como hay variación en los datos, hay variación en las muestras. A medida que te acostumbres al muestreo, la variabilidad comenzará a parecer natural.

    Ejemplo\(\PageIndex{8}\)

    Supongamos que ABC College tiene 10 mil estudiantes de medio tiempo (la población). Nos interesa la cantidad promedio de dinero que un estudiante de medio tiempo gasta en libros en el trimestre de otoño. Preguntar a los 10 mil alumnos es una tarea casi imposible.

    Supongamos que tomamos dos muestras diferentes.

    Primero, utilizamos muestreo de conveniencia y encuestamos a diez estudiantes de una clase de química orgánica de primer trimestre. Muchos de estos estudiantes están tomando cálculo de primer trimestre además de la clase de química orgánica. La cantidad de dinero que gastan en libros es la siguiente:

    $128; $87; $173; $116; $130; $204; $147; $189; $93; $153

    La segunda muestra se toma utilizando una lista de personas mayores que toman clases de P.E. y que toman cada cinco personas mayores de la lista, para un total de diez personas mayores. Gastan:

    $50; $40; $36; $15; $50; $100; $40; $53; $22; $22

    Es poco probable que algún estudiante esté en ambas muestras.

    a. ¿Cree que alguna de estas muestras es representativa de (o es característica de) la totalidad de la población estudiantil de 10 mil tiempo parcial?

    Contestar

    a. No. La primera muestra probablemente está formada por estudiantes orientados a la ciencia. Además del curso de química, algunos de ellos también están tomando cálculo de primer trimestre. Los libros para estas clases suelen ser caros. La mayoría de estos estudiantes están, más que probablemente, pagando más que el estudiante medio de medio tiempo por sus libros. La segunda muestra es un grupo de personas mayores que están, más que probablemente, tomando cursos de salud e interés. La cantidad de dinero que gastan en libros es probablemente mucho menor que la del estudiante medio tiempo promedio. Ambas muestras están sesgadas. Además, en ambos casos, no todos los alumnos tienen la posibilidad de estar en ninguna de las muestras.

    b. Dado que estas muestras no son representativas de toda la población, ¿es prudente utilizar los resultados para describir a toda la población?

    Contestar

    Solución 1.13

    b. No. Para estas muestras, cada miembro de la población no tuvo una probabilidad igual de probable de ser elegido.

    Ahora, supongamos que tomamos una tercera muestra. Elegimos diez estudiantes de medio tiempo diferentes de las disciplinas de química, matemáticas, inglés, psicología, sociología, historia, enfermería, educación física, arte y desarrollo de la primera infancia. (Suponemos que estas son las únicas disciplinas en las que están matriculados los estudiantes de medio tiempo en ABC College y que en cada una de las disciplinas se inscriben un número igual de alumnos de medio tiempo). Cada alumno es elegido mediante muestreo aleatorio simple. Usando una calculadora, se generan números aleatorios y se selecciona a un estudiante de una disciplina en particular si tiene un número correspondiente. Los alumnos gastan las siguientes cantidades:

    $180; $50; $150; $85; $260; $75; $180; $200; $200; $150

    c. ¿La muestra está sesgada?

    Contestar

    Solución 1.13

    c. La muestra es imparcial, pero se recomendaría una muestra mayor para aumentar la probabilidad de que la muestra sea cercana a representativa de la población. Sin embargo, para una técnica de muestreo sesgado, incluso una muestra grande corre el riesgo de no ser representativa de la población.

    Los estudiantes suelen preguntar si es “lo suficientemente bueno” tomar una muestra, en lugar de encuestar a toda la población. Si la encuesta se hace bien, la respuesta es sí.

    Ejercicio\(\PageIndex{8}\)

    Una estación de radio local tiene una base de fans de 20,000 oyentes. La emisora quiere saber si su público preferiría más música o más programas de entrevistas. Preguntar a los 20 mil oyentes es una tarea casi imposible.

    La estación utiliza muestreo de conveniencia y encuesta a las primeras 200 personas que conocen en uno de los eventos de conciertos musicales de la estación. 24 personas dijeron que preferirían más programas de entrevistas, y 176 personas dijeron que preferirían más música.

    ¿Cree que esta muestra es representativa de (o es característica de) toda la población de 20 mil oyentes?

    Variación en los datos

    La variación está presente en cualquier conjunto de datos. Por ejemplo, las latas de bebida de 16 onzas pueden contener más o menos de 16 onzas de líquido. En un estudio, se midieron ocho latas de 16 onzas y produjeron la siguiente cantidad (en onzas) de bebida:

    15.8; 16.1; 15.2; 14.8; 15.8; 15.9; 16.0; 15.5

    Las mediciones de la cantidad de bebida en una lata de 16 onzas pueden variar porque diferentes personas hacen las medidas o porque la cantidad exacta, 16 onzas de líquido, no se puso en las latas. Los fabricantes realizan pruebas regularmente para determinar si la cantidad de bebida en una lata de 16 onzas cae dentro del rango deseado.

    Tenga en cuenta que a medida que toma datos, sus datos pueden variar algo de los datos que otra persona está tomando para el mismo propósito. Esto es completamente natural. Sin embargo, si dos o más de ustedes están tomando los mismos datos y obtienen resultados muy diferentes, es hora de que usted y los demás reevalúen sus métodos de toma de datos y su precisión.

    Variación en Muestras

    Se mencionó anteriormente que dos o más muestras de una misma población, tomadas al azar, y que tienen cerca de las mismas características de la población probablemente serán diferentes entre sí. Supongamos que Doreen y Jung deciden estudiar la cantidad promedio de tiempo que los estudiantes de su universidad duermen cada noche. Doreen y Jung toman muestras cada una de 500 estudiantes. Doreen utiliza muestreo sistemático y Jung utiliza muestreo por conglomerados. La muestra de Doreen será diferente de la muestra de Jung. Aunque Doreen y Jung usaran el mismo método de muestreo, con toda probabilidad sus muestras serían diferentes. Tampoco estaría equivocado, sin embargo.

    Piensa en lo que contribuye a hacer diferentes las muestras de Doreen y Jung.

    Si Doreen y Jung tomaron muestras más grandes (es decir, se incrementa el número de valores de datos), los resultados de sus muestras (la cantidad promedio de tiempo que un estudiante duerme) podrían estar más cerca del promedio poblacional real. Pero aún así, sus muestras serían, con toda probabilidad, diferentes entre sí. Esta variabilidad en las muestras no puede ser suficientemente estresada.

    Tamaño de una muestra

    El tamaño de una muestra (a menudo llamado número de observaciones, generalmente dado el símbolo n) es importante. Los ejemplos que has visto en este libro hasta ahora han sido pequeños. Muestras de sólo unos pocos cientos de observaciones, o incluso más pequeñas, son suficientes para muchos propósitos. En sondeo, las muestras que son de 1,200 a 1,500 observaciones se consideran lo suficientemente grandes y lo suficientemente buenas si la encuesta es aleatoria y está bien hecha. Posteriormente encontraremos que incluso tamaños de muestra mucho más pequeños darán muy buenos resultados. Aprenderás por qué cuando estudias intervalos de confianza.

    Tenga en cuenta que muchas muestras grandes están sesgadas. Por ejemplo, las encuestas de llamadas son invariablemente sesgadas, porque las personas optan por responder o no.


    This page titled 1.2: Datos, Muestreo y Variación en Datos y Muestreo is shared under a CC BY 4.0 license and was authored, remixed, and/or curated by OpenStax via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.