10.2: La Ley de los Grandes Números
- Page ID
- 151446
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)En la sección anterior te mostré los resultados de un experimento ficticio de CI con un tamaño de muestra de N=100. Los resultados fueron algo alentadores: la media poblacional real es 100, y la media muestral de 98.5 es una aproximación bastante razonable a la misma. En muchos estudios científicos ese nivel de precisión es perfectamente aceptable, pero en otras situaciones hay que ser mucho más preciso. Si queremos que nuestras estadísticas muestrales estén mucho más cerca de los parámetros poblacionales, ¿qué podemos hacer al respecto?
La respuesta obvia es recopilar más datos. Supongamos que hicimos un experimento mucho mayor, esta vez midiendo el coeficiente intelectual de 10 mil personas. Podemos simular los resultados de este experimento usando R. En la Sección 9.5 introduje la función rnorm ()
, que genera números aleatorios muestreados a partir de una distribución normal. Para un experimento con un tamaño de muestra de n = 10000
, y una población con media = 100
y sd = 15
, R produce nuestros datos falsos de CI usando estos comandos:
IQ <- rnorm(n = 10000, mean = 100, sd = 15) # generate IQ scores
IQ <- round(IQ) # IQs are whole numbers!
print(head(IQ))
## [1] 82 91 123 129 104 96
Puedo calcular el coeficiente intelectual medio usando el comando mean (IQ)
y la desviación estándar usando el comando sd (IQ)
, y puedo dibujar un histgrama usando hist ()
. El histograma de esta muestra mucho más grande se muestra en la Figura 10.4c. Incluso las inspecciones de un momento dejan claro que la muestra más grande es una aproximación mucho mejor a la verdadera distribución de la población que la más pequeña. Esto se refleja en la estadística muestral: el coeficiente intelectual medio para la muestra más grande resulta ser 99.9, y la desviación estándar es 15.1. Estos valores están ahora muy cerca de la verdadera población.
Me siento un poco tonto diciendo esto, pero lo que quiero que le quites a esto es que las muestras grandes generalmente te dan mejor información. Me siento tonto diciéndolo porque es tan malditamente obvio que no debería ser necesario decirlo. De hecho, es un punto tan obvio que cuando Jacob Bernoulli —uno de los fundadores de la teoría de la probabilidad— formalizó esta idea allá por 1713, era una especie de imbécil al respecto. Así es como describió el hecho de que todos compartimos esta intuición:
Porque incluso el más estúpido de los hombres, por algún instinto de la naturaleza, por sí mismo y sin ninguna instrucción (lo cual es algo notable), está convencido de que cuantas más observaciones se hayan hecho, menos peligro hay de vagar de la meta Stigler (1986)
Bien, entonces el pasaje se presenta como un poco condescendiente (sin mencionar sexista), pero su punto principal es correcto: realmente se siente obvio que más datos te darán mejores respuestas. La pregunta es, ¿por qué es así? No en vano, esta intuición que todos compartimos resulta ser correcta, y los estadísticos se refieren a ella como la ley de los grandes números. La ley de los grandes números es una ley matemática que se aplica a muchas estadísticas de muestra diferentes, pero la forma más sencilla de pensarla es como una ley sobre promedios. La media muestral es el ejemplo más obvio de una estadística que se basa en promediar (porque eso es lo que es la media... un promedio), así que veamos eso. Cuando se aplica a la media de la muestra, lo que establece la ley de los grandes números es que a medida que la muestra aumenta, la media muestra tiende a acercarse a la verdadera media poblacional. O, para decirlo un poco más precisamente, a medida que el tamaño muestral “se acerca” al infinito (escrito como N→∞) la media muestral se acerca a la media poblacional (\(\bar{X}\)→μ). 149
No pretendo someterte a una prueba de que la ley de los grandes números es cierta, pero es una de las herramientas más importantes para la teoría estadística. La ley de los grandes números es lo que podemos usar para justificar nuestra creencia de que la recopilación de más y más datos eventualmente nos llevará a la verdad. Para cualquier conjunto de datos en particular, las estadísticas de muestra que calculemos a partir de él serán erróneas, pero la ley de grandes números nos dice que si seguimos recopilando más datos esas estadísticas de muestra tenderán a acercarse cada vez más a los verdaderos parámetros poblacionales.