Saltar al contenido principal
LibreTexts Español

5.1: Poblaciones y muestras

  • Page ID
    150167
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    La base de las pruebas de hipótesis con análisis estadístico es la inferencia. En definitiva, la inferencia —y la estadística inferencial por extensión— significa derivar conocimiento sobre una población de una muestra de esa población. Dado que en la mayoría de los contextos no es posible tener todos los datos sobre toda una población de interés, nosotros, por lo tanto, necesitamos muestrear de esa población. 8 Sin embargo, para poder confiar en la inferencia, la muestra debe cubrir las variables teóricamente relevantes, rangos de variables y contextos.

    5.1.1 Poblaciones y Muestras

    Al hacer el análisis estadístico diferenciamos entre poblaciones y muestras. La población es el conjunto total de artículos que nos importan. La muestra es un subconjunto de aquellos ítems que estudiamos para entender la población. Si bien estamos interesados en la población, a menudo necesitamos recurrir al estudio de una muestra debido a limitaciones de tiempo, financieras o logísticas que podrían hacer que el estudio de toda la población sea inviable. En cambio, utilizamos estadísticas inferenciales para hacer inferencias sobre la población a partir de una muestra.

    5.1.2 Muestreo y Conocimiento

    Tomemos una expresión relativamente común —pero quizás menos comúnmente examinada— sobre lo que “sabemos” del mundo que nos rodea. Comúnmente decimos que conocemos” a la gente, y algunos los conocemos mejor que otros. ¿Qué significa conocer a alguien? En parte, debe significar que podemos anticipar cómo se comportaría esa persona en una amplia gama de situaciones. Si conocemos a esa persona por experiencia, entonces debe ser que hayamos observado su comportamiento a través de una variedad suficiente de situaciones en el pasado para poder inferir cómo se comportaría en situaciones futuras. Dicho de otra manera, hemos “muestreado” su comportamiento a través de una gama relevante de situaciones y contextos para estar seguros de que podemos anticipar su comportamiento en el futuro. 9 Consideraciones similares sobre el muestreo podrían aplicarse para “conocer” un lugar, un grupo o una institución. De igual importancia, son necesarias muestras de observaciones a través de diferentes combinaciones de variables para identificar las relaciones (o funciones) entre las variables. En definitiva, las muestras —ya sean deliberadamente dibujadas y sistemáticas o no— son parte integral de lo que creemos saber del mundo que nos rodea.

    5.1.3 Estrategias de muestreo

    Dada la importancia del muestreo, no debería sorprender que existan numerosas estrategias diseñadas para proporcionar inferencia útil sobre las poblaciones. Por ejemplo, ¿cómo podemos juzgar si la temperatura de la sopa es apropiada antes de servirla? Podríamos agitar la olla, para asegurar la uniformidad de la temperatura a través de posibles muestras (del tamaño de una cuchara), luego muestrear una cucharada. Un problema particularmente espinoso en el muestreo se refiere a la práctica del cortejo, en el que los participantes pueden intentar dar “lo mejor de sí mismos” para causar una buena impresión. Dicho de otra manera, los participantes a menudo buscan sesgar la muestra de experiencias relacionales para verse mejor de lo que podrían en promedio. El muestreo en este contexto generalmente implica (a) obtener opiniones de otros, ampliando así (aunque sólo indirectamente) el tamaño de la muestra, y (b) observar al compañero de cortejo en una amplia gama de circunstancias en las que el sesgo pretendido puede ser difícil de mantener. Dicho formalmente, podemos tratar de estratificar la muestra tomando observaciones inapropiadas de “células” que corresponden a diferentes influencias potenciales sobre el comportamiento — digamos ambientes de alto estrés que implican la preparación para los exámenes finales o el encuentro con los padres. En el mejor de los casos posibles, sin embargo, tratamos de lavar el efecto de diversas influencias en nuestras muestras a través de la aleatorización. Para perseguir el ejemplo de cortejo (¡quizás un poco demasiado lejos!) , las observaciones del comportamiento podrían tomarse a través de interacciones de una serie de parejas y situaciones asignadas aleatoriamente. Pero, claro, para entonces todas las apuestas están apagadas en que las cosas funcionen de todos modos.

    5.1.4 Técnicas de muestreo

    Al realizar estadísticas inferenciales para inferir las características de una población a partir de una muestra, es esencial tener claro cómo se dibujó la muestra. El muestreo puede ser una práctica muy compleja con múltiples etapas involucradas en el dibujo de la muestra final. Es deseable que la muestra sea alguna forma de muestra probabilística, es decir, una muestra en la que cada miembro de la población tenga una probabilidad conocida de ser muestreada. La forma más directa de una muestra probabilística apropiada es una muestra aleatoria donde todos tienen la misma probabilidad de ser muestreados. Una muestra aleatoria tiene las ventajas de simplicidad (en teoría) y facilidad de inferencia, ya que no se necesitan ajustes a los datos. Pero, la realidad de realizar una muestra aleatoria puede hacer que el proceso sea bastante desafiante. Antes de poder dibujar temas al azar, necesitamos una lista de todos los miembros de la población. Para muchas poblaciones (por ejemplo, residentes adultos de Estados Unidos) esa lista es imposible de obtener. No hace mucho tiempo, era razonable concluir que una lista de números telefónicos era una aproximación razonable de tal listado para los hogares estadounidenses. Durante la época en que los teléfonos fijos eran ubicuos, los encuestadores podían llamar aleatoriamente a números (y quizás preguntar por el adulto en el hogar que tuvo el cumpleaños más reciente) para obtener una buena aproximación de una muestra aleatoria nacional. (También fue una época antes de la identificación de las llamadas y los tonos de llamada especializados, lo que significaba que las llamadas se respondían rutinariamente, por lo tanto, disminuyendo -pero no eliminando- la preocupación por el sesgo de respuesta.) Por supuesto, los hábitos telefónicos han cambiado y a los encuestadores les resulta cada vez más difícil argumentar que la marcación aleatoria de teléfonos fijos sirve como muestra representativa de estadounidenses adultos.

    Otras formas de muestreo probabilístico se utilizan frecuentemente para superar algunas de las dificultades que presenta el muestreo puro aleatorio. Supongamos que nuestro análisis nos llamará a hacer comparaciones basadas en la raza. Sólo 12.6% de los estadounidenses son afroamericanos. Supongamos que también queremos tomar en cuenta la preferencia religiosa. Sólo el 5% de los afroamericanos son católicos, lo que significa que solo .6% de la población es ambos. Si nuestro tamaño de muestra es 500, podríamos terminar con tres afroamericanos católicos. Una muestra aleatoria estratificada (también llamada muestra de cuota) puede abordar ese problema. Una muestra aleatoria estratificada es similar a una muestra aleatoria simple pero se extraerá de diferentes subpoblaciones, estratos, a diferentes tasas. La muestra total necesita ser ponderada, entonces, para ser representativa de toda la población.

    Otro tipo de muestra probabilística común en las encuestas presenciales se basa en el muestreo por conglomerados. Muestreo de conglomerados inicialmente muestras basadas en clústeres (generalmente unidades geográficas, como tractos censales) y luego muestrea a los participantes dentro de esas unidades. De hecho, este enfoque a menudo utiliza muestreo multinivel donde el primer nivel podría ser una muestra de distritos del Congreso, luego distritos censales y luego hogares. La muestra final deberá ser ponderada de manera compleja para reflejar diferentes probabilidades de que los individuos sean incluidos en la muestra.

    Las muestras no probabilísticas, o aquellas para las que se desconoce la probabilidad de inclusión de un miembro de la población en la muestra, pueden plantear cuestiones difíciles de inferencia estadística; sin embargo, bajo algunas condiciones, pueden considerarse representativas y utilizarse para estadísticas inferenciales.

    Las muestras de conveniencia (por ejemplo, estudiantes de pregrado en el grupo de asignaturas del Departamento de Psicología) son accesibles y de costo relativamente bajo, pero pueden diferir de la población más grande a la que desea inferir en aspectos importantes. La necesidad puede empujar a un investigador a usar una muestra de conveniencia, pero la inferencia debe abordarse con precaución. Una muestra de conveniencia basada en “Le pregunté a las personas que salieron del banco” podría proporcionar resultados bastante diferentes de una muestra basada en “Le pregunté a las personas que salieron de un establecimiento de préstamos de día de pago”.

    Se utilizan algunas muestras no probabilísticas porque el investigador no quiere hacer inferencias a una población mayor. Una muestra intencional o crítica se basa en la discreción del investigador con respecto a quién puede aportar información útil sobre el tema. Si queremos saber por qué se promulgó una pieza legislativa, tiene sentido muestrear al autor y coautores del proyecto de ley, a los miembros del comité, a la dirigencia, etc., en lugar de una muestra aleatoria de miembros del cuerpo legislativo.

    El muestreo de bola de nieve es similar a una muestra intencional en que buscamos personas con ciertas características pero confiamos en sujetos para recomendar otros que cumplan con los criterios que tenemos establecidos. Quizá queramos saber sobre artistas jóvenes que luchan. Sin embargo, pueden ser difíciles de encontrar, ya que sus obras no están colgadas en galerías por lo que podemos comenzar con una o más que podamos encontrar y luego preguntarles a quién más debemos entrevistar.

    Cada vez más, se emplean diversos tipos de muestras no probabilísticas en la investigación en ciencias sociales, y cuando esto se hace es crítico que se evalúen los sesgos potenciales asociados a las muestras. Pero también hay cada vez más evidencia de que las muestras no probabilísticas pueden usarse de manera inferencial, cuando se hacen con mucho cuidado, utilizando ajustes complejos. Wang, et al. (2014) demuestran que una muestra de usuarios de Xbox podría utilizarse para pronosticar el resultado de las elecciones presidenciales de 2012. 10 Una visión general de su técnica es relativamente simple, pero la ejecución es más desafiante. Dividieron sus datos en celdas a partir de variables políticamente y demográficamente relevantes (por ejemplo, id de partido, género, raza, etc.) y terminaron con más de 175 mil celdas, posestratificación. (Había alrededor de tres cuartos de millón de participantes en la encuesta de Xbox). Básicamente, encontraron la intención de voto dentro de cada celda y luego ponderaron cada celda con base en una encuesta nacional utilizando regresión multinivel. Sus resultados finales fueron sorprendentemente precisos. De igual manera, Nate Silver, con FiveThirtyEight, ha demostrado notable capacidad para pronosticar con base en su muestra ponderada de encuestas tomadas por otros.

    Las técnicas de muestreo pueden ser relativamente sencillas, pero a medida que uno se aleja del muestreo aleatorio simple, el proceso de muestreo se vuelve más complejo o limita nuestra capacidad para extraer inferencias sobre una población. Los investigadores utilizan todas estas técnicas para buenos propósitos y la mejor técnica dependerá de una variedad de factores, como presupuesto, experiencia, necesidad de precisión y qué pregunta de investigación se está abordando. Para el resto de este texto, sin embargo, cuando hablamos de hacer inferencias, los datos se basarán en una muestra probabilística apropiadamente dibujada.

    5.1.5 Entonces, ¿cómo es que sabemos?

    Entonces, ¿por qué es que las características de las muestras pueden decirnos mucho sobre las características de las poblaciones? Si se extraen adecuadamente las muestras, las observaciones tomadas proporcionarán un rango de valores sobre las medidas de interés que reflejen las de la población más grande. La conexión es que esperamos que el fenómeno que estamos midiendo tenga distribución dentro de la población, y una muestra de observaciones extraídas de la población proporcionará información útil sobre esa distribución. La conexión teórica proviene de la teoría de la probabilidad, que se refiere al análisis de fenómenos aleatorios. Para los propósitos actuales, si dibujamos aleatoriamente una muestra de observaciones sobre una medida para un individuo (digamos, actos discretos de bondad), podemos usar la teoría de la probabilidad para hacer inferencias sobre las características de la población general del fenómeno en cuestión. Más específicamente, la teoría de la probabilidad nos permite hacer inferencia sobre la forma de esa distribución — ¿con qué frecuencia se cometen actos de bondad, o qué proporción de actos evidencia amabilidad?

    En suma, las muestras proporcionan información sobre distribuciones de probabilidad. Las distribuciones de probabilidad incluyen todos los valores posibles y las probabilidades asociadas a esos valores. La distribución normal es la distribución de probabilidad clave en estadísticas inferenciales.


    This page titled 5.1: Poblaciones y muestras is shared under a CC BY 4.0 license and was authored, remixed, and/or curated by Jenkins-Smith et al. (University of Oklahoma Libraries) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.