Saltar al contenido principal
LibreTexts Español

5.1: Estudios de un Paramete Poblacional

  • Page ID
    149828
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    Supongamos que estamos estudiando alguna población, y en particular una variable definida sobre esa población. Normalmente nos interesa conocer el siguiente tipo de características de nuestra población:

    DEFINICIÓN 5.1.1. Un parámetro [población] es un número que se calcula conociendo los valores de una variable para cada individuo de la población.

    EJEMPLO 5.1.2. Si X es una variable cuantitativa en alguna población, la media poblacional μ X de X es un parámetro poblacional —para calcular esta media, es necesario sumar los valores de X para todos los individuos de la población. Asimismo, la desviación estándar poblacional σ X de X es otro parámetro.

    Por ejemplo, afirmamos en el Ejemplo 4.3.28 que las alturas de los hombres estadounidenses adultos son N (69, 2.8). Tanto el 69 como el 2.8 son parámetros poblacionales aquí.

    EJEMPLO 5.1.3. Si, en cambio, X fuera una variable categórica en alguna población, entonces la frecuencia relativa (también llamada proporción poblacional) de algún valor A de X —la fracción de la población que tiene ese valor— es otro parámetro poblacional. Después de todo, para calcular esta fracción, hay que mirar a cada individuo de la población, todos N de ellos, digamos, y ver cuántos de ellos, digamos NA, hacer que la X tome el valor A, luego compute la frecuencia relativa NA/N.

    A veces no se tiene que mirar a los individuos específicos y calcular esa fracción Na/N para encontrar una proporción poblacional. Por ejemplo, en el Ejemplo 4.3.28, encontramos que 14.1988% de los hombres estadounidenses adultos son más altos que 6 pies, asumiendo, como se indicó anteriormente, que las alturas de los hombres estadounidenses adultos se distribuyen como N (69, 2.8) —usando, note, aquellos parámetros μ X y σ X de la distribución de altura, para lo cual se utiliza el toda la población debió haber sido examinada. Lo que esto significa es que la frecuencia relativa del valor “sí” para la variable categórica “¿es esta persona más alta que 6 pies?” es .141988. Esta frecuencia relativa es también un parámetro de la misma población de machos americanos adultos.

    Los parámetros deben ser pensados como números fijos, allá afuera en el mundo, que tienen un único valor específico. No obstante, son muy difíciles de conseguir para los investigadores, ya que para calcular un parámetro se deben medir los valores variables para toda la población. Entonces, si bien el parámetro es un valor único, fijo, generalmente ese valor es desconocido.

    Lo que puede (y cambia) es un valor proveniente de una muestra.

    DEFINICIÓN 5.1.4. Un estadístico de [muestra] es un número que se calcula conociendo los valores de una variable para los individuos de solo una muestra.

    EJEMPLO 5.1.5. Claramente, si tenemos una población y una variable cuantitativa X, entonces cada vez que elegimos una muestra de esa población, obtenemos una media muestral y desviación estándar muestral S x, ambas estadísticas.

    De igual manera, si en cambio tenemos una variable categórica Y en alguna población, tomamos una muestra de tamaño n de la población y contamos cuántos individuos en la muestra —digamos nA— tienen algún valor A por su valor de Y, entonces el nA/n es un estadístico (que también se llama la proporción muestral y denotado frecuentemente\(\ \hat{p}\) ≡ ╳).

    Dos investigadores diferentes elegirán muestras diferentes y por lo que casi con certeza tendrán valores diferentes para las estadísticas que computen, incluso si están usando la misma fórmula para su estadística y están mirando a la misma población. De igual manera, un investigador que tome muestras repetidas de una misma población probablemente obtendrá valores diferentes cada vez para las estadísticas que computen. Entonces deberíamos pensar en una estadística como un número fácil, accesible, cambiando con cada muestra que tomamos, eso es meramente una estimación de lo que queremos, el parámetro, que es uno, número fijo en el mundo, pero oculto al conocimiento.

    Entonces, si bien es práctico obtener estadísticas de muestra, debemos tener cuidado de que sean buenas estimaciones de los parámetros correspondientes. Aquí hay algunas formas de obtener mejores estimaciones de este tipo:

    1. Escoja una muestra más grande. Esto parece bastante obvio, porque cuanto más grande sea la muestra, más cerca está de ser toda la población y así mejor sus estadísticas aproximadas estimarán los parámetros de interés. Pero, de hecho, las cosas no son realmente tan simples. En muchas situaciones muy prácticas, sería completamente inviable recolectar datos de muestra sobre una muestra que fuera algo más que una minúscula parte de la población de interés. Por ejemplo, una organización nacional de noticias podría querer hacer encuestas a la población estadounidense, pero sería totalmente prohibitivo obtener más de unos pocos miles de valores de datos de muestra, de una población de cientos de millones —así, del orden de décimas de porcentaje.

      Afortunadamente, hay un teorema general que nos dice que, a la larga, una estadística en particular es un buen estimador de un parámetro en particular:

    HECHO 5.1.6. La Ley de Grandes Números: Que X sea una variable cuantitativa en alguna población. Entonces, a medida que los tamaños de las muestras (cada una compuesta por individuos elegidos al azar e independientemente de la población) se hacen cada vez más grandes, la muestra correspondiente significa x se acercan cada vez más a la población media μ X.

    1. Elige una mejor estadística. Tiene sentido utilizar la media muestral como estadística para estimar la media poblacional y la proporción muestral para estimar la proporción poblacional. Pero es menos claro de dónde vino la fórmula un tanto extraña para la desviación estándar de la muestra — recuerden, difiere de la desviación estándar de la población por tener un n − 1 en el denominador en lugar de un n. La razón, cuya prueba es demasiado técnica para ser incluida aquí, es que la fórmula que dimos para S X es un estimador mejor para σ X de lo que habría sido la versión que simplemente tenía la misma n en el denominador.

      En un sentido más amplio, “elegir una mejor estadística” se trata de obtener estimaciones de mayor calidad de su muestra. Ciertamente, usar una estadística con una fórmula inteligente es una forma de hacerlo. Otra es asegurarse de que sus datos sean de la más alta calidad posible. Por ejemplo, si estás encuestando a la gente por sus opiniones, la forma en que haces una pregunta puede tener enormes consecuencias en la forma en que tus sujetos responden: “¿Apoyas el derecho de una mujer a controlar su propio cuerpo y su reproducción?” y “¿Quieres proteger la vida de los niños por nacer?” son dos enfoques de mano dura para hacer una pregunta sobre el aborto. Colectivamente, los impactos de cómo se hace una pregunta se denominan efectos de redacción, y son un tema importante que los científicos sociales deben entender bien.

    2. Escoja una mejor muestra. La calidad de la muestra es, en muchos sentidos, el tema más importante y más difícil en este tipo de estudios estadísticos. Lo que queremos, por supuesto, es una muestra para la cual la (s) estadística (es) que podamos calcular den buenas aproximaciones para los parámetros en los que nos interese. Hay un nombre para este tipo de muestra, y una técnica que es mejor capaz de crear estas buenas muestras: la aleatoriedad.

    DEFINICIÓN 5.1.7. Se dice que una muestra es representativa de su población si los valores de sus medias muestrales y proporciones muestrales para todas las variables relevantes para el tema del proyecto de investigación son buenas aproximaciones de las medias y proporciones poblacionales correspondientes.

    Se deduce casi por definición que una muestra representativa es buena para usar en el proceso de, como hemos descrito anteriormente, usar un estadístico de muestra como estimación de un parámetro de población en el que te interese. La pregunta es, por supuesto, cómo obtener una muestra representativa.

    La respuesta es que es extremadamente difícil construir un procedimiento para elegir muestras que garantice muestras representativas, pero existe un método —usando aleatoriedad— que al menos puede reducir tanto como sea posible un tipo específico de problema que las muestras puedan tener.

    DEFINICIÓN 5.1.8. Cualquier proceso en un estudio estadístico que tiende a producir resultados que son sistemáticamente diferentes de los valores verdaderos de los parámetros poblacionales investigados se denomina sesgado. Tal desviación sistemática de los valores correctos se llama sesgo.

    La palabra clave en esta definición es sistemáticamente: un proceso que tiene mucha variación puede ser molesto de usar, podría requerir que el investigador recopile una gran cantidad de datos para promediar juntos, por ejemplo, para que la estimación se asiente en algo cercano al valor verdadero, pero podría, sin embargo, no estar sesgada. Un proceso sesgado podría tener menos variación, podría parecer acercarse a algún valor particular muy rápidamente, con pocos datos, pero nunca daría la respuesta correcta, debido a la desviación sistemática que contenía.

    La parte difícil de encontrar sesgo es averiguar qué podría estar causando esa desviación sistemática en los resultados. Cuando se nos presenta un método de muestreo para el que deseamos pensar en fuentes de posible sesgo, tenemos que ser creativos.

    EJEMPLO 5.1.9. En una democracia, la opinión de los ciudadanos sobre el buen trabajo que están haciendo sus funcionarios electos parece una medida interesante de la salud de esa democracia. Al momento de escribir este artículo, aproximadamente dos meses después de la toma de posesión del 45 presidente de Estados Unidos, el ampliamente respetado organismo de encuestas Gallup informa [Gal17] que 56% de la población aprueba el trabajo que está haciendo el presidente y 40% desaprueba. [Presumiblemente, 4% eran neutrales o no tenían opinión alguna.]

    Según el sitio del que se toman estos números,

    “Gallup rastrea diariamente el porcentaje de estadounidenses que aprueban o desaprueban el trabajo que Donald Trump está haciendo como presidente. Los resultados diarios se basan en entrevistas telefónicas con aproximadamente 1,500 adultos nacionales...”

    Presumiblemente, Gallup utilizó la proporción muestral como estimador calculado con las re- sponses de su muestra de 1500 adultos. Por lo que fue una buena estadística para el trabajo, y el tamaño muestral es bastante respetable, aunque no sea una fracción muy grande de toda la población adulta Amer- ican, que presumiblemente es la población objetivo de este estudio. Gallup tiene la reputación de ser una organización bastante neutral y cuidadosa, por lo que también podemos esperar que la forma en que formularon sus preguntas no introdujera ningún sesgo.

    Una fuente de sesgo que quizás cause cierta preocupación aquí es esa frase “entrevistas telefónicas”. Es imposible hacer entrevistas telefónicas con personas que no cuentan con teléfonos, por lo que hay una parte de la población a la que echarán de menos por completo. Presumiblemente, también, Gallup sabía que si llamaban durante los días y horas normales de trabajo, no conseguirían a la gente trabajadora en casa o incluso en los celulares. Entonces tal vez llamaron también, o solo, por las tardes y los fines de semana —pero este enfoque tendería sistemáticamente a extrañar a las personas que tenían que trabajar muy largo y/o tarde.

    Entonces podríamos preocuparnos de que una estrategia de entrevistas telefónicas solo estaría sesgada contra quienes trabajan las horas más largas, y esas personas podrían tender a tener opiniones políticas similares. Al final, eso resultaría en un error sistemático en este método de muestreo.

    Otra fuente potencial de sesgo es que incluso cuando una persona es capaz de contestar su teléfono, es su elección hacerlo: hay poca recompensa en tomarse el tiempo para responder una encuesta de opinión, y es fácil simplemente no contestar o colgar. Es probable, entonces, que solo aquellos que tienen sentimientos bastante fuertes, ya sean positivos o negativos, o alguna otra razón personal o emocional fuerte para tomarse el tiempo, hayan brindado respuestas completas a esta encuesta telefónica. Esto es potencialmente distorsionante, aunque no podamos estar seguros de que los efectos sean sistemáticamente en una dirección u otra.

    [Por supuesto, los encuestadores de Gallup tienen una enorme experiencia y presumiblemente han pensado completamente los temas anteriores y han descubierto cómo resolverlo, pero no tenemos ninguna razón particular para estar completamente seguros de sus resultados aparte de nuestra fe en su reputación, sin más detalles sobre qué soluciones alternativas utilizaron. En la ciencia, la duda siempre es apropiada.]

    Uno de los temas que acabamos de mencionar sobre la encuesta Gallup de calificaciones de aprobación presidencial tiene su propio nombre:

    DEFINICIÓN 5.1.10. Un método de selección de muestras que implica cualquier elección sustancial de si participar o no sufre de lo que se llama sesgo voluntario de la muestra.

    El sesgo voluntario de la muestra es increíblemente común, y sin embargo es una fuente de sesgo tan fuerte que debe tomarse como una razón para ignorar completamente los supuestos resultados de cualquier estudio que afecte. Los voluntarios tienden a tener fuertes sentimientos que los impulsan a participar, lo que puede tener una influencia distorsionadora completamente impredecible pero sistemática en los datos que proporcionan. Encuestas de opinión basadas en la web, números de pulgares arriba o abajo o de comentarios positivos o negativos en una publicación en redes sociales, porcentajes de personas que llaman para votar a favor o en contra de alguna declaración pública, etc., etc., etc., estos métodos de sondeo ampliamente utilizados producen resultados sin sentido que serán rechazados instantáneamente por cualquier persona con incluso un modesto conocimiento estadístico. ¡No caigas en ellos!

    Prometemos por encima de una técnica que puede combatir robustamente el sesgo: la aleatoriedad. Dado que el sesgo se basa en una distorsión sistemática de los datos, cualquier método que rompa completamente todos los procesos sistemáticos en, por ejemplo, la selección de muestras, evitará el sesgo. El método de muestreo más fuerte es el siguiente.

    DEFINICIÓN 5.1.11. Una muestra aleatoria simple [SRS] es una muestra de tamaño n, digamos, elegida de una población por un método que produce todas las muestras de tamaño n de esa población con igual probabilidad.

    Es extrañamente difícil saber si una muestra en particular es un SRS. Dado solo una muestra, de hecho, no hay manera de decir —hay que pedir ver el procedimiento que se había seguido para hacer esa muestra y luego verificar para ver si ese procedimiento produciría algún subconjunto de la población, del mismo tamaño que la muestra, con igual probabilidad. A menudo, es más fácil ver que un método de muestreo no produce SRS, al encontrar algunos subconjuntos de la población que tienen el tamaño correcto pero que el método de muestreo nunca elegiría, lo que significa que tienen probabilidad cero de ser elegidos. Eso significaría que algunos subconjuntos del tamaño correcto tendrían probabilidad cero y otros tendrían una probabilidad positiva, lo que significa que no todos los subconjuntos de ese tamaño tendrían la misma probabilidad de ser elegidos.

    Obsérvese también que en un SRS no es que cada individuo tenga la misma probabilidad de ser elegido, debe ser que cada grupo de individuos del tamaño de la muestra deseada tenga la misma probabilidad de ser elegido. ¡Esto no es lo mismo!

    EJEMPLO 5.1.12. Supongamos que en el Arca de Noé, los animales deciden que formarán un consejo asesor compuesto por un SRS de 100 animales, para ayudar a Noé y a su familia a dirigir un barco apretado. Entonces un chimpancé (porque tiene buenas manos) pone muchos pequeños trozos de papel en una canasta, uno por cada tipo de animal en el Arca, con el nombre del animal escrito en el papel. Entonces el chimpancé sacude bien la canasta y recoge cincuenta nombres de la canasta. Ambos miembros de la pareja reproductora de ese tipo de animal nombrado son luego puestos en el consejo asesor. ¿Es esto un SRS de toda la población de animales en el Arca?

    En primer lugar, cada nombre de animal tiene una probabilidad de 50/N, donde N es el número total de tipos de animales en el Arca, de ser elegidos. Entonces tanto el macho como la hembra de ese tipo de animales son puestos en el cabildo. Es decir, cada animal individual tiene la misma probabilidad —50/N— de estar en el consejo. Y sin embargo, ciertamente hay colecciones de 100 animales del Arca que no constan de 50 parejas reproductoras: por ejemplo, tomar 50 aves hembra y 50 mamíferos hembra; esa colección de 100 animales no tiene parejas reproductoras en absoluto.

    Por lo tanto, se trata de un método de selección que recoge cada individuo para la muestra con igual probabilidad, pero no cada colección de 100 animales con la misma probabilidad. Entonces no es un SRS.

    Con una computadora, es bastante rápido y fácil generar un SRS:

    HECHO 5.1.13. Supongamos que tenemos una población de tamaño N de la cual queremos elegir un SRS de tamaño n, donde n < N. Aquí hay una forma de hacerlo: asignarle a cada individuo en la publicación un número de identificación único, con digamos d dígitos (tal vez identificaciones de estudiante, números de Seguro Social, números nuevos del 1 al N elegidos de la manera que desee; la aleatoriedad no es necesaria aquí, hay mucha aleatoriedad en el siguiente paso). Hacer que una computadora genere un número de dígito d completamente aleatorio, uno tras otro. Cada vez, escoja al individuo de la población con ese número de identificación como nuevo miembro de la muestra. Si el siguiente número aleatorio generado por la computadora es una repetición de uno visto antes, o si es un número de dígito d que no resulta ser el número de identificación de ningún individuo, entonces simplemente salta al siguiente número aleatorio desde la computadora. Sigue hasta que tengas n individuos en tu muestra.

    La muestra creada de esta manera será un SRS.


    This page titled 5.1: Estudios de un Paramete Poblacional is shared under a CC BY-SA 4.0 license and was authored, remixed, and/or curated by Jonathan A. Poritz via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.