2.1: Formas de describir datos

Última actualización
Guardar como PDF

Page ID: 69302

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Si vamos a considerar cómo describir los datos, entonces necesitamos algunos datos con los que podamos trabajar. Idealmente, queremos datos que sean fáciles de recopilar y fáciles de entender. También es útil si puedes recopilar datos similares por tu cuenta para que puedas repetir lo que cubrimos aquí. Un sistema sencillo que cumple con estos criterios es analizar el contenido de bolsas de M&Ms. Aunque este sistema pueda parecer trivial, tenga en cuenta que reportar el porcentaje de M&Ms amarillos en una bolsa es análogo a reportar la concentración de Cu ² ⁺ en una muestra de un mineral o agua: ambos expresan la cantidad de un analito presente en una unidad de su matriz.

Al inicio de este capítulo identificamos cuatro formas contrastantes de describir los datos: categórica vs numérica, ordenada vs. desordenada, referencia absoluta vs. referencia arbitraria y discreta vs continua. Para dar sentido a estos términos descriptivos, consideremos los datos en la Tabla\(\PageIndex{1}\), que incluye el año en que se compró y analizó la bolsa, el peso listado en el paquete, el tipo de M&Ms, el número de M&Ms amarillos en la bolsa, el porcentaje de las M&Ms que fueron rojas, el número total de M&Ms en la bolsa y sus filas correspondientes.

Mesa\(\PageIndex{1}\). Distribución de M&Ms Amarillas y Rojas en Bolsas de M&Ms.
ID de bolsa	año	peso (oz)	tipo	número amarillo	% rojo	M&Ms totales	rango (para total)
a	2006	1.74	maní	2	27.8	18	sexto
b	2006	1.74	maní	3	4.35	23	cuarto
c	2000	0.80	llano	1	22.7	22	quinto
d	2000	0.80	llano	5	20.8	24	tercero
e	1994	10.0	llano	56	23.0	331	segundo
f	1994	10.0	llano	63	21.9	333	primero

Las entradas en Tabla\(\PageIndex{1}\) están organizadas por columna y por fila. La primera fila, a veces llamada fila de encabezado, identifica las variables que componen los datos. Cada fila adicional es el registro de una muestra y cada entrada en el registro de una muestra proporciona información sobre una de sus variables; así, los datos en la tabla enumeran el resultado para cada variable y para cada muestra.

Datos categóricos vs. numéricos

De las variables incluidas en la Tabla\(\PageIndex{1}\), algunas son categóricas y otras numéricas. Una variable categórica proporciona información cualitativa que podemos usar para describir las muestras relativas entre sí, o que podemos usar para organizar las muestras en grupos (o categorías). Para los datos en Tabla\(\PageIndex{1}\), id de bolsa, tipo y rango son variables categóricas.

Una variable numérica proporciona información cuantitativa que podemos usar en un cálculo significativo; por ejemplo, podemos usar el número de M&Ms amarillos y el número total de M&Ms para calcular una nueva variable que reporta el porcentaje de M&Ms que son amarillos. Para los datos en Tabla\(\PageIndex{1}\), año, peso (oz), número amarillo,% rojo M&Ms y M&Ms totales son variables numéricas.

También podemos usar una variable numérica para asignar muestras a grupos. Por ejemplo, podemos dividir las M&Ms simples en la Tabla\(\PageIndex{1}\) en dos grupos en función del peso de la muestra. Lo que hace que una variable numérica sea más interesante, sin embargo, es que podemos usarla para hacer comparaciones cuantitativas entre muestras; así, podemos informar que hay\(14.4 \times\) tantas M&Ms lisas en una bolsa de 10 oz. como en una bolsa de 0.8-oz.

\[\frac{333 + 331}{24 + 22} = \frac{664}{46} = 14.4 \nonumber\]

Aunque podríamos clasificar el año como una variable categórica, no una elección irrazonable, ya que podría servir como una forma útil de agrupar muestras, lo enumeramos aquí como una variable numérica porque puede servir como una variable predictiva útil en un análisis de regresión. Por otro lado, el rango no es una variable numérica, aunque reescribamos los rangos como números, ya que no hay cálculos significativos que podamos completar usando esta variable.

Datos nominales vs. ordinales

Las variables categóricas se describen como nominales u ordinales. Una variable categórica nominal no implica un orden particular; una variable categórica ordinal, por otro lado, coveys un sentido de orden significativo. Para las variables categóricas en Tabla\(\PageIndex{1}\), id de bolsa y tipo son variables nominales, y el rango es una variable ordinal.

Relación vs. datos de intervalo

Una variable numérica se describe como ratio o intervalo dependiendo de si tiene (ratio) o no tiene (intervalo) una referencia absoluta. Aunque podemos completar cálculos significativos usando cualquier variable numérica, el tipo de cálculo que podemos realizar depende de si los valores de la variable tienen o no una referencia absoluta.

Una variable numérica tiene una referencia absoluta si tiene un cero significativo, es decir, un cero que significa una cantidad medida de ninguno, contra el cual hacemos referencia a todas las demás mediciones de esa variable. Para las variables numéricas en Tabla\(\PageIndex{1}\), peso (oz), número amarillo,% rojo y M&Ms totales son variables de relación porque cada una tiene un cero significativo; año es una variable de intervalo porque su escala se refiere a un punto arbitrario en el tiempo, 1 BCE, y no al inicio del tiempo.

Para una variable ratio, podemos hacer comparaciones absolutas y relativas significativas entre dos resultados, pero solo comparaciones absolutas significativas para una variable de intervalo. Por ejemplo, considere la muestra e, que se colectó en 1994 y tiene 331 M&Ms, y la muestra d, que se colectó en 2000 y tiene 24 M&Ms. Podemos reportar una comparación absoluta significativa para ambas variables: la muestra e es seis años mayor que la muestra d y la muestra e tiene 307 M&Ms más que la muestra d. puede reportar una comparación relativa significativa para el número total de M&MS; hay

\[\frac{331}{24} = 13.8 \times \nonumber\]

tantas M&Ms en la muestra e como en la muestra d, pero no podemos reportar una comparación relativa significativa para el año porque una muestra recolectada en 2000 no es

\[\frac{2000}{1994} = 1.003 \times \nonumber\]

mayor que una muestra recolectada en 1994.

Datos discretos frente a datos continuos

Finalmente, la granularidad de una variable numérica proporciona una forma más de describir nuestros datos. Por ejemplo, podemos describir una variable numérica como discreta o continua. Una variable numérica es discreta si puede tomar solo valores específicos —típicamente, pero no siempre, un valor entero— entre sus límites; una variable continua puede tomar cualquier valor posible dentro de sus límites. Para los datos numéricos en la Tabla\(\PageIndex{1}\), año, número amarillo y M&M totales son discretos ya que cada uno está limitado a valores enteros. Las variables numéricas peso (oz) y% rojo, por otro lado, son variables continuas. Tenga en cuenta que el peso es una variable continua incluso si el dispositivo que usamos para medir el peso produce valores discretos.