9.1: Media
- Page ID
- 150514
La media se define como la suma de valores dividida por el número de valores que se suman:
\(\ \bar{X} =\frac{\sum_{i=1}^nx_i}{n}\)
Digamos que queremos obtener la estatura media para adultos en la base de datos NHANES (contenida en los datos Altura
). Sumaríamos las alturas individuales (usando la función sum ())
y luego dividiríamos por el número de valores:
sum(NHANES$Height)/length(NHANES$Height)
## [1] NA
Esto devuelve el valor NA, porque faltan valores para algunas filas, y la función sum ()
no los maneja automáticamente. Para abordar esto, podríamos filtrar el marco de datos usando drop_na ()
para soltar filas con valores NA para esta variable:
height_noNA <- NHANES %>%
drop_na(Height) %>%
pull(Height)
sum(height_noNA)/length(height_noNA)
## [1] 160
Hay, por supuesto, una función incorporada en R llamada mean ()
que calculará la media. Al igual que la función sum ()
, mean ()
devolverá NA si hay algún valor de NA en los datos:
mean(NHANES$Height)
## [1] NA
La función mean ()
incluye un argumento opcional llamado na.rm
que eliminará los valores NA si se establece en TRUE:
mean(NHANES$Height, na.rm=TRUE)
## [1] 160