5: La distribución de datos
( \newcommand{\kernel}{\mathrm{null}\,}\)
Cuando medimos algo, como el porcentaje de M&Ms amarillos en una bolsa de M&Ms, esperamos dos cosas:
- que hay un valor subyacente “verdadero” que nuestras mediciones deben aproximarse, y
- que los resultados de las mediciones individuales mostrarán alguna variación sobre ese valor “verdadero”
Las visualizaciones de datos, como gráficos de puntos, gráficos de franjas, gráficas de caja y bigotes, gráficas de barras, histogramas y diagramas de dispersión, a menudo sugieren que hay una estructura subyacente en nuestros datos. Por ejemplo, vimos en el Capítulo 3 que la distribución de las M&Ms amarillas en bolsas de M&Ms es más o menos simétrica alrededor de su mediana, mientras que la distribución de M&Ms naranjas estaba sesgada hacia valores más altos. Esta estructura subyacente, o distribución, de nuestros datos, ya que afectan la forma en que elegimos analizar nuestros datos. En este capítulo vamos a echar un vistazo más de cerca a varias formas en que se distribuyen los datos.