4.2: Uso de R para resumir datos

Última actualización
Guardar como PDF

Page ID: 69258

$ \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } $ $ \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} $$\newcommand{\id}{\mathrm{id}}$ $ \newcommand{\Span}{\mathrm{span}}$ $ \newcommand{\kernel}{\mathrm{null}\,}$ $ \newcommand{\range}{\mathrm{range}\,}$ $ \newcommand{\RealPart}{\mathrm{Re}}$ $ \newcommand{\ImaginaryPart}{\mathrm{Im}}$ $ \newcommand{\Argument}{\mathrm{Arg}}$ $ \newcommand{\norm}[1]{\| #1 \|}$ $ \newcommand{\inner}[2]{\langle #1, #2 \rangle}$ $ \newcommand{\Span}{\mathrm{span}}$ $\newcommand{\id}{\mathrm{id}}$ $ \newcommand{\Span}{\mathrm{span}}$ $ \newcommand{\kernel}{\mathrm{null}\,}$ $ \newcommand{\range}{\mathrm{range}\,}$ $ \newcommand{\RealPart}{\mathrm{Re}}$ $ \newcommand{\ImaginaryPart}{\mathrm{Im}}$ $ \newcommand{\Argument}{\mathrm{Arg}}$ $ \newcommand{\norm}[1]{\| #1 \|}$ $ \newcommand{\inner}[2]{\langle #1, #2 \rangle}$ $ \newcommand{\Span}{\mathrm{span}}$$\newcommand{\AA}{\unicode[.8,0]{x212B}}$

Una de las fortalezas de R es su paquete Stats, que brinda acceso a un rico cuerpo de herramientas para analizar datos. El paquete forma parte de la instalación base de R y está disponible siempre que use R sin necesidad de usar library () para ponerlo a disposición. Casi todas las funciones estadísticas que usaremos en este libro de texto están incluidas en el paquete Estadísticas.

Traer sus datos a R

Esta sección utiliza los datos de M&M del Cuadro 1 del Capítulo 3.1. Puede descargar una copia de los datos como una hoja de cálculo.csv utilizando este enlace. Antes de poder resumir nuestros datos, necesitamos ponerlos a disposición de R. El siguiente código utiliza la función read.csv para leer en los datos del archivo MandM.csv () como marco de datos. El texto "MandM.csv" asume que el archivo se encuentra en su directorio de trabajo.

mm_data = read.csv (” MandM.csv “)

Encontrar la tendencia central de los datos usando R

Para reportar la media de un conjunto de datos utilizamos la función mean (x) donde x es el objeto que contiene nuestros datos, normalmente un vector o una sola columna de un marco de datos. Un argumento importante para esto, y para muchas otras funciones, es cómo manejar los valores faltantes o NA. El valor por defecto es mantenerlos, lo que lleva a un error cuando intentamos calcular la media. Este es un valor por defecto razonable ya que nos obliga a tomar nota de los valores faltantes y establecer na.rm = VERDADERO si queremos eliminarlos del cálculo. Como a nuestro vector de datos no le falta ningún valor, no necesitamos incluir na.rm = VERDADERO aquí, pero lo hacemos para ilustrar su importancia.

media (mm_data$net_weight, na.rm = VERDADERO)

[1] 48.9803

Para reportar la mediana de un conjunto de datos utilizamos la función median (x) donde x es el objeto que contiene nuestros datos, normalmente un vector o una sola columna de un marco de datos.

mediana (mm_data$net_weight, na.rm = VERDADERO)

[1] 48.7345

Encontrar la propagación de datos usando R

Para reportar la varianza de un conjunto de datos utilizamos la función var (x) donde x es el objeto que contiene nuestros datos, normalmente un vector o una sola columna de un marco de datos.

var (mm_data$net_weight, na.rm = VERDADERO)

[1] 2.052068

Para reportar la desviación estándar utilizamos la función sd (x) donde x es el objeto que contiene nuestros datos, típicamente un vector o una sola columna de un marco de datos.

sd (mm_data$net_weight, na.rm = VERDADERO)

[1] 1.432504

Para reportar el rango tenemos que ser creativos ya que la función range () de R no informa directamente del rango. En cambio, devuelve el mínimo como su primer valor y el máximo como su segundo valor, que podemos extraer usando el operador de corchetes y luego usar para calcular el rango.

range (mm_data$net_weight, na.rm = VERDADERO) [2] - range (mm_data$net_weight, na.rm = VERDADERO) [1]

[1] 5.325

Otro enfoque para calcular el rango es usar las funciones max () y min () de R.

max (mm_data$net_weight) - min (mm_data$net_weight)

[1] 5.325

Para reportar el rango intercuartílico utilizamos la función IQR (x) donde x es el objeto que contiene nuestros datos, típicamente un vector o una sola columna de un marco de datos. La función cuenta con nueve algoritmos diferentes para calcular el IQR, identificados usando type como argumento. Para obtener un IQR equivalente al generado por la función boxplot () de R, usamos type = 5 para un número par de valores y type = 7 para un número impar de valores.

IQR (mm_data$net_weight, na.rm = VERDADERO, tipo = 5)

[1] 1.841

Para encontrar la desviación absoluta mediana utilizamos la función mad (x) donde x es el objeto que contiene nuestros datos, típicamente un vector o una sola columna de un marco de datos. La función incluye una constante de escalado, cuyo valor predeterminado no coincide con nuestra descripción para calcular el MAD; el argumento constante = 1 da un resultado que es consistente con nuestra descripción del MAD.

mad (mm_data$net_weight, na.rm = VERDADERO, constante = 1)

[1] 0.818