CO-6: Aplicar conceptos básicos de probabilidad, variación aleatoria y distribuciones de probabilidad estadística de uso común.
NOTA: Los siguientes videos discuten las tres páginas relacionadas con las distribuciones de muestreo.
Revisión: Aplicaremos los conceptos de variables aleatorias normales a dos variables aleatorias que son estadísticas resumidas de una muestra, estas son la media muestral (barra x) y la proporción muestral (p-hat).
Introducción
Ya en varias ocasiones hemos señalado la importante distinción entre una población y una muestra. En Análisis Exploratorio de Datos, aprendimos a resumir y mostrar valores de una variable para una muestra, como mostrar los tipos de sangre de 100 adultos estadounidenses elegidos al azar usando un gráfico circular, o mostrar las alturas de 150 machos usando un histograma y complementándolo con números apropiados medidas como la media de la muestra (barra x) y la desviación estándar de la muestra.
En nuestro estudio de Probabilidad y Variables Aleatorias, discutimos el comportamiento a largo plazo de una variable, considerando la población de todos los valores posibles tomados por esa variable. Por ejemplo, hablamos sobre la distribución de los tipos de sangre entre todos los adultos estadounidenses y la distribución de la variable aleatoria X, que representa la estatura de un macho.
Ahora nos enfocamos directamente en la relación entre los valores de una variable para una muestra y sus valores para toda la población de la que se tomó la muestra. Este material es el puente entre la probabilidad y nuestro objetivo final del curso, la inferencia estadística. En inferencia, miramos una muestra y preguntamos qué podemos decir sobre la población de la que se extrajo.
Ahora, plantearemos la pregunta inversa: Si sé cómo es la población, ¿cómo puedo esperar que se vea la muestra? Claramente, la inferencia plantea la pregunta más práctica, ya que en la práctica podemos mirar una muestra, pero rara vez sabemos cómo es toda la población. Este material será de carácter más teórico, ya que plantea un problema que no es realmente práctico, sino que presentará ideas importantes que son la base de la inferencia estadística.
Parámetros vs. estadísticas
Objetivos de aprendizaje
LO 6.19: Identificar y distinguir entre un parámetro y un estadístico.
Objetivos de aprendizaje
LO 6.20: Explicar los conceptos de variabilidad muestral y distribución muestral.
Para comprender mejor la relación entre muestra y población, consideremos los dos ejemplos que se mencionaron en la introducción.
EJEMPLO 1: Tipo de sangre - Variabilidad de
En la sección de probabilidad, presentamos la distribución de los tipos de sangre en toda la población estadounidense:
Supongamos ahora que tomamos una muestra de 500 personas en Estados Unidos, registramos su tipo de sangre y mostramos los resultados de la muestra:
Obsérvese que los porcentajes (o proporciones) que encontramos en nuestra muestra son ligeramente diferentes a los porcentajes poblacionales. Esto realmente no es sorprendente. Dado que tomamos una muestra de solo 500, no podemos esperar que nuestra muestra se comporte exactamente como la población, pero si la muestra es aleatoria (como era), esperamos obtener resultados que no estén tan lejos de la población (como hicimos nosotros). Si tomamos otra muestra más de tamaño 500:
nuevamente obtenemos resultados de muestra que son ligeramente diferentes de las cifras de población, y también diferentes de lo que encontramos en la primera muestra. Esta idea muy intuitiva, que los resultados de la muestra cambian de muestra a muestra, se llama variabilidad de muestreo.
Veamos otro ejemplo:
EJEMPLO 2: Alturas de Adultos Varones - Variabilidad
Las alturas entre la población de todos los machos adultos siguen una distribución normal con una media μ = mu =69 pulgadas y una desviación estándar σ = sigma =2.8 pulgadas. Aquí hay una visualización de probabilidad de esta distribución poblacional:
Se escogió una muestra de 200 machos y se registraron sus alturas. Aquí están los resultados de la muestra:
La media de la muestra (barra x) es de 68.7 pulgadas y la desviación estándar de la muestra es de 2.95 pulgadas.
Nuevamente, tenga en cuenta que los resultados de la muestra son ligeramente diferentes de la población. El histograma para esta muestra se asemeja a la distribución normal, pero no es tan fino, y además la media de la muestra y la desviación estándar son ligeramente diferentes de la media poblacional y la desviación estándar. Tomemos otra muestra de 200 machos:
La media de la muestra (barra x) es de 69.1 pulgadas y la desviación estándar de la muestra es de 2.66 pulgadas.
Nuevamente, como en el Ejemplo 1 vemos la idea de variabilidad muestral. En esta segunda muestra, los resultados son bastante cercanos a la población, pero diferentes de los resultados que encontramos en la primera muestra.
En ambos ejemplos, tenemos números que describen la población, y números que describen la muestra. En el Ejemplo 1, el número 42% es la proporción poblacional del tipo sanguíneo A, y 39.6% es la proporción muestral (en la muestra 1) del tipo sanguíneo A. En el Ejemplo 2, 69 y 2.8 son la media poblacional y la desviación estándar, y (en la muestra 1) 68.7 y 2.95 son la media muestral y la desviación estándar.
Un parámetro es un número que describe la población.
Un estadístico es un número que se calcula a partir de la muestra.
EJEMPLO 3: Parámetros vs. Estadística de los Ejemplos 1 y 2
En el Ejemplo 1:42% (0.42) es el parámetro y 39.6% (0.396) es un estadístico (y 43.2% es otro estadístico).
En el Ejemplo 2:69 y 2.8 son los parámetros y 68.7 y 2.95 son estadísticas (69.1 y 2.66 también son estadísticas).
En este curso, como en los ejemplos anteriores, nos enfocamos en los siguientes parámetros y estadísticas:
- proporción poblacional y proporción muestral
- media poblacional y media muestral
- desviación estándar de la población y desviación estándar de la muestra
La siguiente tabla resume los tres pares, y da la notación
La única notación nueva aquí es p para la proporción de población (p = 0.42 para el tipo A en el Ejemplo 1), y p-hat (usando el símbolo “hat” sobre la p) para la proporción muestral que es 0.396 en el Ejemplo 1, muestra 1).
Comentarios:
- Los parámetros suelen ser desconocidos, porque es poco práctico o imposible saber exactamente qué valores toma una variable para cada miembro de la población.
- Las estadísticas se calculan a partir de la muestra y varían de una muestra a otra debido a la variabilidad del muestreo.
En la última parte del curso, inferencia estadística, aprenderemos a utilizar una estadística para sacar conclusiones sobre un parámetro desconocido, ya sea estimarlo o decidiendo si es razonable concluir que el parámetro es igual a un valor propuesto.
Ahora aprenderemos sobre el comportamiento de las estadísticas asumiendo que conocemos los parámetros. Entonces, por ejemplo, si sabemos que la proporción poblacional del tipo sanguíneo A en la población es de 0.42, y tomamos una muestra aleatoria de talla 500, ¿cuál esperamos que sea la proporción muestral p-hat? Específicamente preguntamos:
- ¿Cuál es la distribución de todas las proporciones de muestra posibles a partir de muestras de tamaño 500?
- ¿Dónde está centrada?
- ¿Cuánta variación existe entre diferentes proporciones de muestra de muestras de tamaño 500?
- ¿Qué tan lejos del verdadero valor de 0.42 podríamos esperar estar?
Aquí hay algunos ejemplos más:
EJEMPLO 4: Parámetros vs. Estadística
Si los estudiantes escogieron números completamente al azar de los números del 1 al 20, la proporción de veces que se elegiría el número 7 es de 0.05. Cuando 15 alumnos escogieron un número “al azar” del 1 al 20, 3 de ellos escogieron el número 7. Identificar el parámetro y estadística acompañante en esta situación.
El parámetro es la proporción poblacional de selecciones aleatorias dando como resultado el número 7, que es p = 0.05. El estadístico que acompaña es la proporción muestral (p-hat) de selecciones dando como resultado el número 7, que es 3/15=0.20.
Nota: Sin relación con nuestra discusión actual, esta es una ilustración interesante de cómo nosotros (los humanos) no somos muy buenos para hacer las cosas al azar. Solía hacer una pregunta similar en cursos introductorios de estadística donde les pedía a los alumnos que escogieran aleatoriamente un número entre 1 y 10. El número de estudiantes que eligen 7 es casi siempre MUCHO mayor de lo que se predeciría si los resultados fueran verdaderamente aleatorios.
Pruébalo con algunos de tus amigos y familiares y mira si obtienes resultados similares. ¡Nos gusta mucho el número 7! Curiosamente, si los estudiantes estaban al tanto de este fenómeno, entonces tendían a elegir 3 con mayor frecuencia. Esto es interesante ya que si las elecciones fueran verdaderamente aleatorias, deberíamos ver una proporción relativamente igual para cada número :-)
EJEMPLO 5: Parámetros vs. Estadística
La duración de los embarazos humanos tiene una media de 266 días y una desviación estándar de 16 días. Se observó una muestra aleatoria de 9 mujeres embarazadas con una duración media del embarazo de 270 días, con una desviación estándar de 14 días. Identificar los parámetros y estadísticas acompañantes en esta situación.
Los parámetros son la media poblacional μ = mu =266 y la desviación estándar poblacional σ = sigma = 16. Los estadísticos acompañantes son la media muestral (barra x) = 270 y la desviación estándar muestral = 14.
El primer paso para sacar conclusiones sobre los parámetros basados en las estadísticas acompañantes es comprender cómo se comportan las estadísticas de muestra en relación con el parámetro o parámetros que resumen a toda la población. Comenzamos con el comportamiento de la proporción muestral relativa a la proporción poblacional (cuando la variable de interés es categórica). Después de eso, exploraremos el comportamiento de la media muestral relativa a la media poblacional (cuando la variable de interés es cuantitativa).