1.4: Estadística Inferencial
- Page ID
- 152472
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)Objetivos de aprendizaje
- Distinguir entre una muestra y una población
- Definir estadísticas inferenciales
- Identificar muestras sesgadas
- Distinguir entre muestreo aleatorio simple y muestreo estratificado
- Distinguir entre muestreo aleatorio y asignación aleatoria
Poblaciones y muestras
En estadística, a menudo nos basamos en una muestra, es decir, un pequeño subconjunto de un conjunto más grande de datos, para extraer inferencias sobre el conjunto más grande. El conjunto más grande se conoce como la población de la que se extrae la muestra.
Ejemplo\(\PageIndex{1}\)
Usted ha sido contratado por la Comisión Nacional Electoral para examinar cómo se siente el pueblo estadounidense acerca de la imparcialidad de los procedimientos de votación en Estados Unidos. ¿A quién le preguntará?
No es práctico preguntar a cada estadounidense cómo se siente acerca de la imparcialidad de los procedimientos de votación. En cambio, consultamos a un número relativamente pequeño de estadounidenses y sacamos inferencias sobre todo el país a partir de sus respuestas. Los estadounidenses consultados constituyen nuestra muestra de la mayor población de todos los estadounidenses. Los procedimientos matemáticos mediante los cuales convertimos información sobre la muestra en conjeturas inteligentes sobre la población caen bajo la rúbrica de estadísticas inferenciales.
Una muestra suele ser un pequeño subconjunto de la población. En el caso de las actitudes de voto, tomaríamos muestras de unos pocos miles de estadounidenses extraídos de los cientos de millones que conforman el país. Al elegir una muestra, por lo tanto, es crucial que no sobre-represente a un tipo de ciudadano a expensas de otros. Por ejemplo, algo estaría mal con nuestra muestra si pasara a estar conformada íntegramente por residentes de Florida. Si la muestra solo contenía floridanos, no podría ser utilizada para inferir las actitudes de otros estadounidenses. El mismo problema se plantearía si la muestra estuviera compuesta únicamente por republicanos. Las estadísticas inferenciales se basan en el supuesto de que el muestreo es aleatorio. Confiamos en una muestra aleatoria para representar diferentes segmentos de la sociedad en proporciones cercanas a las apropiadas (siempre que la muestra sea lo suficientemente grande; ver abajo).
Ejemplo\(\PageIndex{2}\)
Nos interesa examinar cuántas clases de matemáticas han sido tomadas en promedio por estudiantes de último año que se gradúan actualmente en colegios y universidades estadounidenses durante sus cuatro años en la escuela. Mientras que nuestra población en el último ejemplo incluía a todos los ciudadanos estadounidenses, ahora solo involucra a los estudiantes de último año que se gradúan en todo el país. Este sigue siendo un conjunto grande ya que hay miles de colegios y universidades, cada uno inscribiendo a muchos estudiantes. (La Universidad de Nueva York, por ejemplo, inscribe a\(48,000\) los estudiantes.) Sería prohibitivamente costoso examinar la transcripción de cada estudiante de último año universitario. Por lo tanto, tomamos una muestra de estudiantes de último año universitario y luego hacemos inferencias a toda la población en base a lo que encontremos. Para hacer la muestra, primero podríamos elegir algunos colegios y universidades públicas y privadas en todo Estados Unidos. Entonces podríamos tomar muestras de\(50\) estudiantes de cada una de estas instituciones. Supongamos que el promedio de clases de matemáticas tomadas por las personas de nuestra muestra fueron\(3.2\). Entonces podríamos especular que\(3.2\) se aproxima al número que encontraríamos si tuviéramos los recursos para examinar a cada senior de toda la población. Pero hay que tener cuidado con la posibilidad de que nuestra muestra no sea representativa de la población. Quizás elegimos una sobreabundancia de especializaciones en matemáticas, o elegimos demasiadas instituciones técnicas que tienen requisitos matemáticos pesados. Este mal muestreo hace que nuestra muestra no sea representativa de la población de todos los adultos mayores.
Para solidificar su comprensión del sesgo de muestreo, considere el siguiente ejemplo. Intentar identificar la población y la muestra, y luego reflexionar sobre si es probable que la muestra arroje la información deseada.
Ejemplo\(\PageIndex{3}\)
Un profesor suplente quiere saber cómo le fue a los alumnos de la clase en su última prueba. El maestro pide a los\(10\) alumnos sentados en primera fila que indiquen su último puntaje de prueba. Concluye de su reporte que a la clase le fue sumamente bien. ¿Cuál es la muestra? ¿Cuál es la población? ¿Se puede identificar algún problema con la elección de la muestra de la manera que lo hizo el profesor?
En Ejemplo\(\PageIndex{3}\), la población está formada por todos los alumnos de la clase. La muestra está conformada solo por los\(10\) alumnos sentados en primera fila. No es probable que la muestra sea representativa de la población. Quienes se sientan en primera fila tienden a estar más interesados en la clase y tienden a rendir más alto en las pruebas. De ahí que la muestra pueda desempeñarse a un nivel superior al de la población.
Ejemplo\(\PageIndex{4}\)
A un entrenador le interesa saber cuántas volteretas pueden hacer los estudiantes de primer año universitario promedio en su universidad. Ocho voluntarios de la clase de primer año dan un paso adelante. Después de observar su desempeño, el entrenador concluye que los estudiantes de primer año universitarios pueden hacer un\(16\) promedio de volteretas seguidas sin detenerse.
En Ejemplo\(\PageIndex{4}\), la población es la clase de todos los estudiantes de primer año en la universidad del entrenador. La muestra está compuesta por los\(8\) voluntarios. La muestra está mal elegida porque los voluntarios tienen más probabilidades de poder hacer volteretas que los estudiantes de primer año promedio; ¡la gente que no puede hacer volteretas probablemente no se ofreció como voluntaria! En el ejemplo, tampoco se nos habla del género de los voluntarios. ¿Eran todas mujeres, por ejemplo? Eso podría afectar el resultado, contribuyendo a la naturaleza no representativa de la muestra (si la escuela es co-ed). El sesgo de muestreo se discute con más detalle aquí
Muestreo aleatorio simple
Los investigadores adoptan una variedad de estrategias de muestreo. El más directo es el muestreo aleatorio simple. Dicho muestreo requiere que todos los miembros de la población tengan las mismas posibilidades de ser seleccionados en la muestra. Además, la selección de un miembro debe ser independiente de la selección de cada otro miembro. Es decir, elegir a un miembro de la población no debe aumentar ni disminuir la probabilidad de elegir a otro miembro (relativo a los demás). En este sentido, podemos decir que el muestreo aleatorio simple elige una muestra por pura casualidad. Para verificar su comprensión del muestreo aleatorio simple, considere el siguiente ejemplo. ¿Cuál es la población? ¿Cuál es la muestra? ¿La muestra fue escogida por muestreo aleatorio simple? ¿Es sesgada?
Ejemplo\(\PageIndex{5}\)
Un científico investigador está interesado en estudiar las experiencias de gemelos criados juntos versus los criados aparte. Obtiene una lista de gemelos del Registro Nacional de Gemelos, y selecciona dos subconjuntos de individuos para su estudio. En primer lugar, elige a todos aquellos en el registro cuyo apellido comienza con\(Z\). Entonces recurre a todos aquellos cuyo apellido comienza con\(B\). Debido a que hay tantos nombres con los que empiezan\(B\), sin embargo, nuestra investigadora decide incorporar solo todos los demás nombres a su muestra. Finalmente, ella manda por correo una encuesta y compara características de gemelos separados versus juntos.
En Ejemplo\(\PageIndex{5}\), la población está formada por todos los gemelos registrados en el Registro Nacional de Gemelos. Es importante que el investigador sólo haga generalizaciones estadísticas a los gemelos de esta lista, no a todos los gemelos de la nación o del mundo. Es decir, el Registro Nacional de Gemelos puede no ser representativo de todos los gemelos. Aunque las inferencias se limiten al Registro, una serie de problemas afectan el procedimiento de muestreo que describimos. Por ejemplo, elegir solo gemelos cuyos apellidos comienzan con\(Z\) no da a cada individuo la misma oportunidad de ser seleccionado en la muestra. Además, tal procedimiento corre el riesgo de sobrerepresentar a grupos étnicos con muchos apellidos que comienzan con\(Z\). Hay otras razones por las que elegir solo el\(Z's\) puede sesgar la muestra. ¡Quizás esas personas son más pacientes que la media porque a menudo se encuentran al final de la línea! El mismo problema ocurre con la elección de gemelos cuyo apellido comienza con\(B\). Un problema adicional para el\(B's\) es que el procedimiento “cada otro-uno” no permitía que los nombres adyacentes de la\(B\) parte de la lista fueran seleccionados. Solo este defecto solo significa que la muestra no se formó a través de muestreo aleatorio simple.
El tamaño de la muestra importa
Recordemos que la definición de una muestra aleatoria es una muestra en la que cada miembro de la población tiene las mismas posibilidades de ser seleccionado. Esto significa que el procedimiento de muestreo más que los resultados del procedimiento definen lo que significa que una muestra sea aleatoria. Las muestras aleatorias, especialmente si el tamaño de la muestra es pequeño, no son necesariamente representativas de toda la población. Por ejemplo, si se tomara una muestra aleatoria de\(20\) sujetos de una población con igual número de machos y hembras, habría una probabilidad no trivial (\(0.06\)) de que\(70\%\) o más de la muestra sería femenina. (Para ver cómo obtener esta probabilidad, consulte la sección sobre la distribución binomial.) Tal muestra no sería representativa, aunque se dibujaría al azar. Sólo un gran tamaño muestral hace probable que nuestra muestra sea cercana a representativa de la población. Por esta razón, las estadísticas inferenciales toman en cuenta el tamaño de la muestra a la hora de generalizar los resultados de las muestras a las poblaciones. En capítulos posteriores, verás qué tipos de técnicas matemáticas aseguran esta sensibilidad al tamaño de la muestra.
Muestreo más complejo
A veces no es factible construir una muestra usando muestreo aleatorio simple. Para ver el problema, considere el hecho de que tanto Dallas como Houston están compitiendo para ser anfitriones de los\(2012\) Juegos Olímpicos. Imagina que te contratan para evaluar si la mayoría de los tejanos prefieren Houston a Dallas como anfitrión, o al revés. Ante la impracticabilidad de obtener la opinión de cada tejano, se debe construir una muestra de la población de Texas. Pero ahora fíjense lo difícil que sería proceder por muestreo aleatorio simple. Por ejemplo, ¿cómo se pondrá en contacto con aquellos individuos que no votan y no tienen teléfono? Incluso entre las personas que encuentras en la agenda telefónica, ¿cómo puedes identificar a quienes acaban de trasladarse a California (y no tenían razón para informarte de su mudanza)? ¿Qué hace con el hecho de que desde el inicio del estudio, una\(4,212\) gente adicional se instaló en el estado de Texas? Como puede ver, a veces es muy difícil desarrollar un procedimiento verdaderamente aleatorio. Por esta razón, se han ideado otros tipos de técnicas de muestreo. Ahora discutimos dos de ellos.
Asignación Aleatoria
En la investigación experimental, las poblaciones suelen ser hipotéticas. Por ejemplo, en un experimento que compara la efectividad de un nuevo fármaco antidepresivo con un placebo, no hay población real de individuos que toman el medicamento. En este caso, se define una población específica de personas con algún grado de depresión y se toma una muestra aleatoria de esta población. Luego, la muestra se divide aleatoriamente en dos grupos; un grupo se asigna a la condición de tratamiento (fármaco) y el otro grupo se asigna a la condición de control (placebo). Esta división aleatoria de la muestra en dos grupos se denomina asignación aleatoria. La asignación aleatoria es crítica para la validez de un experimento. Por ejemplo, considere el sesgo que podría introducirse si los primeros\(20\) sujetos que se presentaron en el experimento fueran asignados al grupo experimental y los segundos\(20\) sujetos se asignaran al grupo control. Es posible que los sujetos que se presentan tarde tiendan a estar más deprimidos que los que se presentan temprano, lo que hace que el grupo experimental sea menos deprimido que el grupo control incluso antes de que se administrara el tratamiento.
En investigaciones experimentales de este tipo, el hecho de no asignar sujetos aleatoriamente a grupos es generalmente más grave que tener una muestra no aleatoria. El hecho de no aleatorizar (el primer error) invalida los hallazgos experimentales. Una muestra no aleatoria (este último error) simplemente restringe la generalizabilidad de los resultados.
Muestreo estratificado
Dado que el muestreo aleatorio simple a menudo no asegura una muestra representativa, a veces se utiliza un método de muestreo llamado muestreo aleatorio estratificado para hacer que la muestra sea más representativa de la población. Este método se puede utilizar si la población tiene un número de “estratos” o grupos distintos. En el muestreo estratificado, primero identificas a los miembros de tu muestra que pertenecen a cada grupo. Entonces se muestrea aleatoriamente de cada uno de esos subgrupos de tal manera que los tamaños de los subgrupos en la muestra sean proporcionales a sus tamaños en la población.
Tomemos un ejemplo: Supongamos que te interesaban las opiniones de la pena capital en una universidad urbana. Tienes el tiempo y los recursos para entrevistar a\(200\) los alumnos. El alumnado es diverso con respecto a la edad; muchas personas mayores trabajan durante el día y se inscriben en cursos nocturnos (la edad promedio es\(39\)), mientras que los estudiantes más jóvenes generalmente se inscriben en clases diurnas (edad promedio de\(19\)). Es posible que los estudiantes nocturnos tengan diferentes puntos de vista sobre la pena capital que los estudiantes diurnos. Si\(70\%\) de los alumnos fueran alumnos diurnos, tiene sentido asegurar que\(70\%\) de la muestra consistiera en alumnos diurnos. Así, tu muestra de\(200\) alumnos consistiría en estudiantes\(140\) diurnos y\(60\) nocturnos. La proporción de alumnos diurnos en la muestra y en la población (toda la universidad) sería la misma. Por lo tanto, las inferencias a toda la población de estudiantes de la universidad serían más seguras.
- Mikki Hebl y David Lane