2.1: Mostrar datos

Última actualización
Guardar como PDF

Page ID: 150821

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

\( \newcommand{\dsum}{\displaystyle\sum\limits} \)

\( \newcommand{\dint}{\displaystyle\int\limits} \)

\( \newcommand{\dlim}{\displaystyle\lim\limits} \)

\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\id}{\mathrm{id}}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\kernel}{\mathrm{null}\,}\)

\( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\)

\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\)

\( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)

\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)

\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vectorC}[1]{\textbf{#1}} \)

\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\(\newcommand{\longvect}{\overrightarrow}\)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)

Gráficas de tallo y hoja (Stemplots), gráficas de líneas y gráficas de barras

Una gráfica simple, la gráfica de tallo y hoja o estemplot, proviene del campo del análisis exploratorio de datos. Es una buena opción cuando los conjuntos de datos son pequeños. Para crear la parcela, divida cada observación de datos en un tallo y una hoja. La hoja consiste en un dígito significativo final. Por ejemplo, 23 tiene tallo dos y hoja tres. El número 432 tiene tallo 43 y hoja dos. De igual manera, el número 5,432 tiene tallo 543 y hoja dos. El decimal 9.3 tiene tallo nueve y hoja tres. Escribe los tallos en una línea vertical desde el más pequeño hasta el más grande. Dibuja una línea vertical a la derecha de los tallos. Después escribe las hojas en orden creciente junto a su tallo correspondiente.

Ejemplo\(\PageIndex{2}\).1

Para la clase de pre-cálculo de primavera de Susan Dean, los puntajes para el primer examen fueron los siguientes (de menor a mayor):

33; 42; 49; 49; 53; 55; 55; 61; 63; 67; 68; 68; 69; 69; 72; 73; 74; 78; 80; 83; 88; 88; 88; 90; 92; 94; 94; 94; 94; 94; 94; 96; 100

\ (\ PageIndex {1}\) Gráfico de tallo y hoja “>

Tabla\(\PageIndex{2}\) .1 Gráfica de tallo y hoja
Vástago	Hoja
3	3
4	2 9 9
5	3 5 5
6	1 3 7 8 8 9 9
7	2 3 4 8
8	0 3 8 8 8
9	0 2 4 4 4 4 6
10	0

El stemplot muestra que la mayoría de los puntajes cayeron en los años 60, 70, 80 y 90. Ocho de los 31 puntajes o aproximadamente 26% (831) (831) fueron en los 90 o 100, un número bastante alto de As.

Ejercicio\(\PageIndex{2}\).1

Para el equipo de basquetbol de Park City, los puntajes de los últimos 30 juegos fueron los siguientes (de menor a mayor):

32; 32; 33; 34; 38; 40; 42; 42; 43; 44; 46; 47; 47; 48; 48; 48; 49; 50; 50; 51; 52; 52; 52; 53; 54; 56; 57; 57; 60; 61

Construir una gráfica de tallo para los datos.

El stemplot es una forma rápida de graficar datos y da una imagen exacta de los datos. Quieres buscar un patrón general y cualquier valor atípicos. Un valor atípico es una observación de datos que no se ajusta al resto de los datos. A veces se le llama un valor extremo. Cuando graficas un valor atípico, aparecerá que no se ajusta al patrón de la gráfica. Algunos valores atípicos se deben a errores (por ejemplo, anotar 50 en lugar de 500) mientras que otros pueden indicar que algo inusual está sucediendo. Se necesitan algunos antecedentes para explicar los valores atípicos, por lo que los cubriremos con más detalle más adelante.

Ejemplo\(\PageIndex{2}\).2

Los datos son las distancias (en kilómetros) de un hogar a supermercados locales. Cree un stemplot usando los datos:

1.1; 1.5; 2.3; 2.5; 2.7; 3.2; 3.3; 3.3; 3.5; 3.8; 4.0; 4.2; 4.5; 4.5; 4.7; 4.8; 5.5; 5.6; 6.5; 6.7; 12.3

¿Los datos parecen tener alguna concentración de valores?

NOTA

Las hojas están a la derecha del decimal.

Contestar

El valor 12.3 puede ser un valor atípico. Los valores parecen concentrarse a tres y cuatro kilómetros.

\ (\ PageIndex {2}\) “>

Cuadro\(\PageIndex{2}\) .2
Vástago	Hoja
1	1 5
2	3 5 7
3	2 3 3 5 8
4	0 2 5 5 7 8
5	5 6
6	5 7
7
8
9
10
11
12	3

Ejercicio\(\PageIndex{2}\).2

Los siguientes datos muestran las distancias (en millas) desde los hogares de los estudiantes de estadística fuera del campus hasta la universidad. Cree una gráfica de tallo usando los datos e identifique los valores atípicos:

0.5; 0.7; 1.1; 1.2; 1.2; 1.3; 1.3; 1.5; 1.5; 1.7; 1.7; 1.8; 1.9; 2.0; 2.2; 2.5; 2.6; 2.8; 2.8; 2.8; 3.5; 3.8; 4.4; 4.8; 4.9; 5.2; 5.5; 5.7; 5.8; 8.0

Ejemplo\(\PageIndex{2}\).3

Una gráfica de tallo y hoja lado a lado permite una comparación de los dos conjuntos de datos en dos columnas. En una parcela lado a lado de tallo y hoja, dos conjuntos de hojas comparten el mismo tallo. Las hojas están a la izquierda y a la derecha de los tallos. En el Cuadro\(\PageIndex{2}\) .4 y en el Cuadro\(\PageIndex{2}\) .5 se muestran las edades de los presidentes en su toma de posesión y a su muerte. Construya una parcela lado a lado de tallo y hoja usando estos datos.

Contestar

\ (\ PageIndex {3}\) “>

Cuadro\(\PageIndex{2}\) .3
Edades en la Inauguración		Edades a la Muerte
9 9 8 7 7 7 6 3 2	4	6 9
8 7 7 7 7 6 6 6 5 5 5 5 5 4 4 4 4 4 4 2 2 1 1 1 1 1 1 0	5	3 6 6 7 7 8
9 8 5 4 4 2 1 1 1 0	6	0 0 3 3 4 4 5 6 7 7 7 8
	7	0 0 1 1 1 4 7 8 8 9
	8	0 1 3 5 8
	9	0 0 3

\ (\ PageIndex {4}\) Edades Presidenciales en Inauguración “>

Cuadro\(\PageIndex{2}\) .4 Edades Presidenciales en Inauguración
Presidente	Edad	Presidente	Edad	Presidente	Edad
Washington	57	Lincoln	52	Hoover	54
J. Adams	61	A. Johnson	56	Roosevelt	51
Jefferson	57	Grant	46	Truman	60
Madison	57	Hayes	54	Eisenhower	62
Monroe	58	Garfield	49	Kennedy	43
J. Q. Adams	57	Arthur	51	L. Johnson	55
Jackson	61	Cleveland	47	Nixon	56
Van Buren	54	B. Harrison	55	Ford	61
W. H. Harrison	68	Cleveland	55	Carter	52
Tyler	51	McKinley	54	Reagan	69
Polk	49	T. Roosevelt	42	G.H.W. Bush	64
Taylor	64	Taft	51	Clinton	47
Fillmore	50	Wilson	56	G. W. Bush	54
Pierce	48	Harding	55	Obama	47
Buchanan	65	Coolidge	51	Trump	70

\ (\ PageIndex {5}\) Edad presidencial al morir “>

Cuadro\(\PageIndex{2}\) .5 Edad presidencial al morir
Presidente	Edad	Presidente	Edad	Presidente	Edad
Washington	67	Lincoln	56	Hoover	90
J. Adams	90	A. Johnson	66	Roosevelt	63
Jefferson	83	Grant	63	Truman	88
Madison	85	Hayes	70	Eisenhower	78
Monroe	73	Garfield	49	Kennedy	46
J. Q. Adams	80	Arthur	56	L. Johnson	64
Jackson	78	Cleveland	71	Nixon	81
Van Buren	79	B. Harrison	67	Ford	93
W. H. Harrison	68	Cleveland	71	Reagan	93
Tyler	71	McKinley	58
Polk	53	T. Roosevelt	60
Taylor	65	Taft	72
Fillmore	74	Wilson	67
Pierce	64	Harding	57
Buchanan	77	Coolidge	60

Otro tipo de gráfico que es útil para valores de datos específicos es un gráfico de líneas. En el gráfico de líneas particular que se muestra en Ejemplo\(\PageIndex{4}\), el eje x (eje horizontal) consiste en valores de datos y el eje y (eje vertical) consiste en puntos de frecuencia. Los puntos de frecuencia se conectan mediante segmentos de línea.

Ejemplo\(\PageIndex{2}\).4

En una encuesta, se preguntó a 40 madres cuántas veces a la semana se le debe recordar a un adolescente que haga sus tareas. Los resultados se muestran en la Tabla\(\PageIndex{2}\) .6 y en la Figura\(\PageIndex{2}\) .2.

\ (\ PageIndex {6}\) “>

Número de veces que se le recuerda a un adolescente	Frecuencia
0	2
1	5
2	8
3	14
4	7
5	4

Cuadro 2.6

Un gráfico de líneas que muestra el número de veces que un adolescente necesita ser recordado para hacer tareas en el eje x y la frecuencia en el eje y.

Figura 2.2

Ejercicio\(\PageIndex{4}\)

En una encuesta, se preguntó a 40 personas cuántas veces al año tenían su automóvil en el taller para reparaciones. Los resultados se muestran en la Tabla\(\PageIndex{7}\). Construir un gráfico de líneas.

\ (\ PageIndex {7}\) “>

Número de veces en tienda	Frecuencia
0	7
1	10
2	14
3	9

Cuadro 2.2.7

Los gráficos de barras consisten en barras que están separadas entre sí. Las barras pueden ser rectángulos o pueden ser cajas rectangulares (utilizadas en parcelas tridimensionales), y pueden ser verticales u horizontales. El gráfico de barras que se muestra en Ejemplo\(\PageIndex{5}\) tiene grupos de edad representados en el eje x y proporciones en el eje y.

Ejercicio\(\PageIndex{1}\)

Agrega texto de ejercicios aquí.

Contestar: Solución 2.5

Figura\(\PageIndex{2}\) .3

Ejemplo\(\PageIndex{5}\)

A finales de 2011, Facebook contaba con más de 146 millones de usuarios en Estados Unidos. En el cuadro\(\PageIndex{2}\) .8 se muestran tres grupos de edad, el número de usuarios en cada grupo de edad y la proporción (%) de usuarios en cada grupo de edad. Construye un gráfico de barras usando estos datos.

\ (\ PageIndex {8}\) “>

Grupos de edad	Número de usuarios de Facebook	Proporción (%) de usuarios de Facebook
13—25	65,082,280	45%
26—44	53,300,200	36%
45—64	27,885,100	19%

Cuadro 2.2.8

Solución

Ejercicio\(\PageIndex{5}\)

Agrega texto de ejercicios aquí.

Contestar

La población en Park City está conformada por niños, adultos en edad de trabajar y jubilados. En el cuadro se\(\PageIndex{9}\) muestran los tres grupos de edad, el número de personas en la localidad de cada grupo de edad y la proporción (%) de personas en cada grupo de edad. Construir un gráfico de barras que muestre las proporciones.

\ (\ PageIndex {9}\) “>

Grupos de edad	Número de personas	Proporción de la población
Niños	67,059	19%
Adultos en edad de trabajar	152,198	43%
Jubilados	131,662	38%

Cuadro 2.2.9

Ejemplo\(\PageIndex{2}\).6

Las columnas de la Tabla\(\PageIndex{2}\) .10 contienen: la raza o etnia de los estudiantes en las Escuelas Públicas de Estados Unidos para la clase de 2011, los porcentajes para la Colocación Avanzada examinan la población para esa clase y los porcentajes para la población estudiantil general. Crear un gráfico de barras con la raza o etnia estudiantil (datos cualitativos) en el eje x, y los porcentajes de población examinada de Colocación Avanzada en el eje y.

\ (\ PageIndex {10}\) “>

Raza/etnia	Población examinada AP	Población estudiantil general
1 = asiático, asiáticoamericano o isleño del Pacífico	10.3%	5.7%
2 = Negro o Afroamericano	9.0%	14.7%
3 = Hispano o Latino	17.0%	17.6%
4 = Indio Americano o Nativo de Alaska	0.6%	1.1%
5 = Blanco	57.1%	59.2%
6 = No informado/otro	6.0%	1.7%

Cuadro 2.2.10

Contestar: Solución 2.6

Figura\(\PageIndex{2}\) .4

Ejercicio\(\PageIndex{2}\).6

Agrega texto de ejercicios aquí.

Contestar

Park City se divide en seis distritos electorales. En la tabla se muestra el porcentaje de la población electoral total registrada que vive en cada distrito así como el porcentaje total de la población total que vive en cada distrito. Construir un gráfico de barras que muestre la población electoral registrada por distrito.

\ (\ PageIndex {11}\) “>

Cuadro\(\PageIndex{2}\) .11
Distrito	Población elector registrada	Población general de la ciudad
1	15.5%	19.4%
2	12.2%	15.6%
3	9.8%	9.0%
4	17.4%	18.5%
5	22.8%	20.7%
6	22.3%	16.8%

Ejemplo\(\PageIndex{2}\).7

A continuación se muestra una tabla bidireccional que muestra los tipos de mascotas propiedad de hombres y mujeres:

\ (\ PageIndex {12}\) “>

Cuadro\(\PageIndex{2}\) .12
	Perros	Gatos	Pescados	Total
Hombres	4	2	2	8
Mujeres	4	6	2	12
Total	8	8	4	20

Dados estos datos, calcular las distribuciones condicionales para la subpoblación de hombres que poseen cada tipo de mascota.

Contestar

Hombres que poseen perros = 4/8 = 0.5
Hombres que poseen gatos = 2/8 = 0.25
Hombres que poseen peces = 2/8 = 0.25

Nota: La suma de todas las distribuciones condicionales debe ser igual a una. En este caso, 0.5 + 0.25 + 0.25 = 1; por lo tanto, la solución “comprueba”.

Histogramas, Polígonos de Frecuencia y Gráficas de Series de Tiempo

Para la mayor parte del trabajo que realices en este libro, utilizarás un histograma para mostrar los datos. Una ventaja de un histograma es que puede mostrar fácilmente grandes conjuntos de datos. Una regla general es usar un histograma cuando el conjunto de datos consta de 100 valores o más.

Un histograma consiste en cajas contiguas (contiguas). Tiene tanto un eje horizontal como un eje vertical. El eje horizontal está etiquetado con lo que representan los datos (por ejemplo, la distancia de tu casa a la escuela). El eje vertical está etiquetado ya sea frecuencia o frecuencia relativa (o porcentaje de frecuencia o probabilidad). La gráfica tendrá la misma forma con cualquiera de las etiquetas. El histograma (como el stemplot) puede darle la forma de los datos, el centro y la dispersión de los datos.

La frecuencia relativa es igual a la frecuencia para un valor observado de los datos dividido por el número total de valores de datos en la muestra. (Recuerde, la frecuencia se define como el número de veces que ocurre una respuesta). Si:

\(f\)= frecuencia
\(n\)= número total de valores de datos (o la suma de las frecuencias individuales), y
\(RF\)= frecuencia relativa,

entonces:

\ [\ RF=\ frac {f} {n}\ nonumber]

Por ejemplo, si tres alumnos de la clase de inglés del señor Ahab de 40 estudiantes recibieron del 90% al 100%, entonces\(f = 3\),\(n = 40\), y\(RF = \frac{f}{n} = \frac{3}{40} = 0.075\). 7.5% de los estudiantes recibieron 90— 100%. 90— 100% son medidas cuantitativas.

Para construir un histograma, primero decida cuántas barras o intervalos, también llamados clases, representan los datos. Muchos histogramas constan de cinco a 15 barras o clases para mayor claridad. Se debe elegir el número de barras. Elija un punto de partida para que el primer intervalo sea menor que el valor de datos más pequeño. Un punto de partida conveniente es un valor menor llevado a cabo a una posición decimal más que el valor con más decimales. Por ejemplo, si el valor con más decimales es 6.1 y este es el valor más pequeño, un punto de partida conveniente es 6.05 (6.1 — 0.05 = 6.05). Decimos que 6.05 tiene más precisión. Si el valor con más decimales es 2.23 y el valor más bajo es 1.5, un punto de partida conveniente es 1.495 (1.5 — 0.005 = 1.495). Si el valor con más decimales es 3.234 y el valor más bajo es 1.0, un punto de partida conveniente es 0.9995 (1.0 — 0.0005 = 0.9995). Si todos los datos resultan ser enteros y el valor más pequeño es dos, entonces un punto de partida conveniente es 1.5 (2 — 0.5 = 1.5). Además, cuando el punto de partida y otros límites se llevan a un decimal adicional, ningún valor de datos caerá sobre un límite. Los siguientes dos ejemplos entran en detalle sobre cómo construir un histograma usando datos continuos y cómo crear un histograma usando datos discretos.

Ejemplo\(\PageIndex{2}\).8

Los siguientes datos son las alturas (en pulgadas a la media pulgada más cercana) de 100 futbolistas semiprofesionales masculinos. Las alturas son datos continuos, ya que se mide la altura.

60; 60.5; 61; 61; 61.5
63.5; 63.5; 63.5 64;
64; 64; 64; 64; 64; 64; 64.5; 64.5; 64.5; 64.5; 64.5; 64.5; 64.5; 64.5; 66; 66;
66; 66; 66; 66; 66; 66; 66; 66; 66; 66,5; 66.5; 66,5; 66,5; 66,5; 66,5; 66,5; 66.5; 66.5; 66.5; 66.5; 66.5; 66,5; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67.5; 67.5; 67.5; 67.5; 67.5; 67.5;
68; 68; 69; 69; 69; 69; 69; 69; 69; 69; 69; 69; 69; 69,5; 69.5; 69.5; 69.5
; 69.5 70; 70; 70; 70; 70; 70.5; 70.5; 70.5; 71; 71; 71;
72; 72; 72.5; 2.5; 73; 73.5
74

El valor de datos más pequeño es 60. Dado que los datos con más decimales tienen un decimal (por ejemplo, 61.5), queremos que nuestro punto de partida tenga dos decimales. Dado que los números 0.5, 0.05, 0.005, etc. son números convenientes, usa 0.05 y restarlo de 60, el valor más pequeño, para el punto de partida conveniente.

60 — 0.05 = 59.95 que es más preciso que, digamos, 61.5 por un decimal. El punto de partida es, entonces, 59.95.

El valor más grande es 74, por lo que 74 + 0.05 = 74.05 es el valor final.

A continuación, calcule el ancho de cada barra o intervalo de clase. Para calcular este ancho, resta el punto inicial del valor final y divídalo por el número de barras (debes elegir el número de barras que deseas). Supongamos que eliges ocho barras.

\[\frac{74.05−59.95}{8}=1.76\non\nonumber\]

NOTA

Redondearemos hasta dos y haremos que cada barra o intervalo de clase sea de dos unidades de ancho. Redondear hasta dos es una forma de evitar que un valor caiga sobre un límite. El redondeo al siguiente número suele ser necesario incluso si va en contra de las reglas estándar de redondeo. Para este ejemplo, usar 1.76 como ancho también funcionaría. Una pauta que es seguida por algunos para el ancho de una barra o intervalo de clase es tomar la raíz cuadrada del número de valores de datos y luego redondear al número entero más cercano, si es necesario. Por ejemplo, si hay 150 valores de datos, tomar la raíz cuadrada de 150 y redondear a 12 barras o intervalos.

Los límites son:

59.95
59.95 + 2 = 61.95
61.95 + 2 = 63.95
63.95 + 2 = 65.95
65.95 + 2 = 67.95
67.95 + 2 = 69.95
69.95 + 2 = 71.95
71.95 + 2 = 73.95
73.95 + 2 = 75.95

Las alturas de 60 a 61.5 pulgadas están en el intervalo 59.95—61.95. Las alturas que son 63.5 están en el intervalo 61.95—63.95. Las alturas que son de 64 a 64.5 están en el intervalo 63.95—65.95. Las alturas 66 a 67.5 están en el intervalo 65.95—67.95. Las alturas 68 a 69.5 están en el intervalo 67.95—69.95. Las alturas 70 a 71 están en el intervalo 69.95—71.95. Las alturas 72 a 73.5 están en el intervalo 71.95—73.95. La altura 74 está en el intervalo 73.95—75.95.

El siguiente histograma muestra las alturas en el eje x y la frecuencia relativa en el eje y.

El histograma consta de 8 barras con el eje y en incrementos de 0.05 de 0-0.4 y el eje x en intervalos de 2 de 59.95-75.95. — Figura\(\PageIndex{2}\) .5

Ejercicio\(\PageIndex{2}\).8

Los siguientes datos son las tallas de zapatos de 50 estudiantes varones. Los tamaños son datos continuos ya que se mide el tamaño del zapato. Construir un histograma y calcular el ancho de cada barra o intervalo de clase. Supongamos que eliges seis barras.

9; 9; 9.5; 9.5; 10; 10; 10; 10; 10; 10.5; 10.5; 10.5; 10.5; 10.5; 10.5; 10.5; 10.5; 10.5 11; 11; 11;
11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 12; 12; 12;
12; 12; 12.5; 12.5; 12.5; 12.5; 12.5; 12.5; 12.5; 12.5; 12.5; 12.5; 12.5; 14

Ejemplo\(\PageIndex{2}\).9

Crear un histograma para los siguientes datos: el número de libros comprados por 50 estudiantes universitarios de medio tiempo en ABC College. El número de libros son datos discretos, ya que se cuentan los libros.

1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 2; 2;
2; 2; 2; 2; 2; 2; 2; 2; 2; 2; 2; 2; 2;
2; 2; 2; 2; 2; 2; 2; 2; 2; 2; 2; 2; 2; 2; 2; 2; 2; 2; 2; 2;
2; 2; 2; 2; 2; 2; 2; 2
; 2; 2; 2; 2; 2; 2; 2; 2

Once alumnos compran un libro. Diez alumnos compran dos libros. Dieciséis alumnos compran tres libros. Seis alumnos compran cuatro libros. Cinco estudiantes compran cinco libros. Dos estudiantes compran seis libros.

Debido a que los datos son enteros, resta 0.5 de 1, el valor de datos más pequeño y suma 0.5 a 6, el valor de datos más grande. Entonces el punto de partida es 0.5 y el valor final es 6.5.

A continuación, calcule el ancho de cada barra o intervalo de clase. Si los datos son discretos y no hay demasiados valores diferentes, lo más conveniente es un ancho que coloque los valores de datos en medio del intervalo de barra o clase. Dado que los datos constan de los números 1, 2, 3, 4, 5, 6, y el punto de partida es 0.5, un ancho de uno coloca el 1 en el medio del intervalo de 0.5 a 1.5, el 2 en el medio del intervalo de 1.5 a 2.5, el 3 en el medio del intervalo de 2.5 a 3.5, el 4 en el medio del intervalo de _____ __ a _______, el 5 en el medio del intervalo de _______ a _______, y el _______ en el medio del intervalo de _______ a _______.

Solución

Calcule el número de barras de la siguiente manera:

\[\frac{6.5−0.5}{\text{number of bars}}=1\nonumber\]

donde 1 es el ancho de una barra. Por lo tanto, barras = 6.

El siguiente histograma muestra el número de libros en el eje x y la frecuencia en el eje y.

El histograma consta de 6 barras con el eje y en incrementos de 2 de 0-16 y el eje x en intervalos de 1 de 0.5-6.5. — Figura\(\PageIndex{2}\) .6

Ejemplo\(\PageIndex{2}\).10

Usando este conjunto de datos, construya un histograma.

\ (\ PageIndex {13}\) “>

Cuadro\(\PageIndex{2}\) .13
Número de horas que mis compañeros pasaron jugando videojuegos los fines de semana
9.95	10	2.25	16.75	0
19.5	22.5	7.5	15	12.75
5.5	11	10	20.75	17.5
23	21.9	24	23.75	18
20	15	22.9	18.8	20.5

Contestar

Solución 2.10

Este es un histograma que coincide con los datos suministrados. El eje x consta de 5 barras en intervalos de 5 de 0 a 25. El eje y se marca en incrementos de 1 de 0 a 10. El eje x muestra el número de horas dedicadas a jugar videojuegos los fines de semana, y el eje y muestra el número de estudiantes. — Figura\(\PageIndex{2}\) .7

Algunos valores en este conjunto de datos caen en los límites para los intervalos de clase. Un valor se cuenta en un intervalo de clase si cae en el límite izquierdo, pero no si cae en el límite derecho. Diferentes investigadores pueden configurar histogramas para los mismos datos de diferentes maneras. Hay más de una forma correcta de configurar un histograma.

Polígonos de frecuencia

Los polígonos de frecuencia son análogos a los gráficos de líneas, y así como los gráficos de líneas hacen que los datos continuos sean visualmente fáciles de interpretar, también lo hacen los polígonos de frecuencia.

Para construir un polígono de frecuencia, primero examine los datos y decida el número de intervalos, o intervalos de clase, a utilizar en el eje x y el eje y. Después de elegir los rangos apropiados, comience a trazar los puntos de datos. Después de trazar todos los puntos, dibuja segmentos de línea para conectarlos.

Ejemplo\(\PageIndex{2}\).11

Se construyó un polígono de frecuencia a partir de la tabla de frecuencias a continuación.

\ (\ PageIndex {14}\) “>

Cuadro\(\PageIndex{2}\) .14: Distribución de frecuencias para los puntajes finales de las pruebas de cálculo
Enlazado inferior	Borde superior	Frecuencia	Frecuencia acumulativa
49.5	59.5	5	5
59.5	69.5	10	15
69.5	79.5	30	45
79.5	89.5	40	85
89.5	99.5	15	100

Se construyó un polígono de frecuencia a partir de la tabla de frecuencias a continuación. — Figura\(\PageIndex{2}\) .8

La primera etiqueta en el eje x es 44.5. Esto representa un intervalo que se extiende de 39.5 a 49.5. Dado que el puntaje de prueba más bajo es 54.5, este intervalo se usa solo para permitir que la gráfica toque el eje x. El punto etiquetado 54.5 representa el siguiente intervalo, o el primer intervalo “real” de la tabla, y contiene cinco puntuaciones. Este razonamiento se sigue para cada uno de los intervalos restantes con el punto 104.5 representando el intervalo de 99.5 a 109.5. Nuevamente, este intervalo no contiene datos y solo se usa para que la gráfica toque el eje x. Al mirar la gráfica, decimos que esta distribución está sesgada porque un lado de la gráfica no refleja el otro lado.

Ejercicio\(\PageIndex{2}\).11

Construir un polígono de frecuencia de las edades de los presidentes de Estados Unidos en la inauguración que se muestra en la Tabla\(\PageIndex{15}\).

\ (\ PageIndex {15}\) “>

Edad en la inauguración	Frecuencia
41.5—46.5	4
46.5—51.5	11
51.5—56.5	14
56.5—61.5	9
61.5—66.5	4
66.5—71.5	2

Cuadro 2.2.15

Los polígonos de frecuencia son útiles para comparar distribuciones. Esto se logra superponiendo los polígonos de frecuencia dibujados para diferentes conjuntos de datos.

Ejemplo\(\PageIndex{2}\).12

Construiremos un polígono de frecuencia de superposición comparando las puntuaciones de Ejemplo\(\PageIndex{11}\) con la calificación numérica final de los estudiantes.

\ (\ PageIndex {16}\) “>

Cuadro\(\PageIndex{2}\) .16: Distribución de frecuencias para los puntajes finales de las pruebas de cálculo
Enlazado inferior	Borde superior	Frecuencia	Frecuencia acumulativa
49.5	59.5	5	5
59.5	69.5	10	15
69.5	79.5	30	45
79.5	89.5	40	85
89.5	99.5	15	100

\ (\ PageIndex {17}\) “>

Cuadro\(\PageIndex{2}\) .17: Distribución de frecuencias para calificaciones finales de cálculo
Enlazado inferior	Borde superior	Frecuencia	Frecuencia acumulativa
49.5	59.5	10	10
59.5	69.5	10	20
69.5	79.5	30	50
79.5	89.5	45	95
89.5	99.5	5	100

Este es un polígono de frecuencia de superposición que coincide con los datos suministrados. El eje x muestra las calificaciones, y el eje y muestra la frecuencia. — Figura\(\PageIndex{2}\) .9

Construyendo un gráfico de series de tiempo

Supongamos que queremos estudiar el rango de temperatura de una región durante todo un mes. Todos los días al mediodía notamos la temperatura y anotamos esto en un registro. Se podrían realizar diversos estudios estadísticos con estos datos. Podríamos encontrar la temperatura media o mediana del mes. Podríamos construir un histograma que muestre el número de días que las temperaturas alcanzan cierto rango de valores. Sin embargo, todos estos métodos ignoran una parte de los datos que hemos recopilado.

Una característica de los datos que tal vez queramos considerar es la del tiempo. Dado que cada fecha está emparejada con la lectura de temperatura del día, no tenemos que pensar en los datos como aleatorios. En cambio, podemos usar los tiempos dados para imponer un orden cronológico a los datos. Un gráfico que reconoce este orden y muestra la temperatura cambiante a medida que avanza el mes se llama gráfico de series de tiempo.

Para construir un gráfico de series de tiempo, debemos mirar ambas piezas de nuestro conjunto de datos emparejados. Comenzamos con un sistema de coordenadas cartesianas estándar. El eje horizontal se utiliza para trazar los incrementos de fecha u hora, y el eje vertical se utiliza para trazar los valores de la variable que estamos midiendo. Al hacer esto, hacemos que cada punto de la gráfica corresponda a una fecha y una cantidad medida. Los puntos en la gráfica suelen estar conectados por líneas rectas en el orden en que ocurren.

Ejemplo\(\PageIndex{2}\).13

Los siguientes datos muestran el Índice Anual de Precios al Consumidor, cada mes, por diez años. Construya una gráfica de serie temporal solo para los datos del Índice Anual de Precios al Consumidor.

\ (\ PageIndex {18}\) “>

Cuadro\(\PageIndex{2}\) .18
Año	Ene	Feb	Mar	Abr	Mayo	Jun	Jul
2003	181.7	183.1	184.2	183.8	183.5	183.7	183.9
2004	185.2	186.2	187.4	188.0	189.1	189.7	189.4
2005	190.7	191.8	193.3	194.6	194.4	194.5	195.4
2006	198.3	198.7	199.8	201.5	202.5	202.9	203.5
2007	202.416	203.499	205.352	206.686	207.949	208.352	208.299
2008	211.080	211.693	213.528	214.823	216.632	218.815	219.964
2009	211.143	212.193	212.709	213.240	213.856	215.693	215.351
2010	216.687	216.741	217.631	218.009	218.178	217.965	218.011
2011	220.223	221.309	223.467	224.906	225.964	225.722	225.922
2012	226.665	227.663	229.392	230.085	229.815	229.478	229.104

\ (\ PageIndex {19}\) “>

Cuadro\(\PageIndex{2}\) .19
Año	Ago	Sep	Oct	Nov	Dic	Anual
2003	184.6	185.2	185.0	184.5	184.3	184.0
2004	189.5	189.9	190.9	191.0	190.3	188.9
2005	196.4	198.8	199.2	197.6	196.8	195.3
2006	203.9	202.9	201.8	201.5	201.8	201.6
2007	207.917	208.490	208.936	210.177	210.036	207.342
2008	219.086	218.783	216.573	212.425	210.228	215.303
2009	215.834	215.969	216.177	216.330	215.949	214.537
2010	218.312	218.439	218.711	218.803	219.179	218.056
2011	226.545	226.889	226.421	226.230	225.672	224.939
2012	230.379	231.407	231.317	230.221	229.601	229.594

Contestar: Solución 2.13

Figura\(\PageIndex{2}\) .10

Ejercicio\(\PageIndex{2}\).13

La siguiente tabla es una porción de un conjunto de datos de www.worldbank.org. Utilice la tabla para construir una gráfica de series de tiempo para las emisiones de CO ₂ para Estados Unidos.

\ (\ PageIndex {20}\) “>

Cuadro\(\PageIndex{20}\): Emisiones de CO ₂
Año	Ucrania	Reino Unido	Estados Unidos
2003	352,259	540,640	5,681,664
2004	343,121	540,409	5,790,761
2005	339,029	541,990	5,826,394
2006	327,797	542,045	5,737,615
2007	328,357	528,631	5,828,697
2008	323,657	522,247	5,656,839
2009	272,176	474,579	5,299,563

Usos de un gráfico de series de tiempo

Los gráficos de series temporales son herramientas importantes en diversas aplicaciones de la estadística. Al registrar valores de la misma variable durante un periodo prolongado de tiempo, a veces es difícil discernir alguna tendencia o patrón. Sin embargo, una vez que se muestran gráficamente los mismos puntos de datos, algunas entidades saltan. Los gráficos de series temporales hacen que las tendencias sean fáciles de detectar.

Cómo NO mentir con las estadísticas

Es importante recordar que la razón misma por la que desarrollamos una variedad de métodos para presentar datos es para desarrollar ideas sobre el tema de lo que representan las observaciones. Queremos tener un “sentido” de los datos. Son todas las observaciones muy similares o están repartidas en una amplia gama de valores, están agrupadas en un extremo del espectro o están distribuidas de manera uniforme y así sucesivamente. Estamos tratando de obtener una imagen visual de los datos numéricos. En breve desarrollaremos medidas matemáticas formales de los datos, pero nuestra presentación gráfica visual puede decir mucho. Puede, desgraciadamente, decir también mucho que distraiga, confuso y simplemente incorrecto en cuanto a la impresión que deja la visual. Hace muchos años Darrell Huff escribió el libro Cómo mentir con las estadísticas. Ha pasado por más de 25 impresiones y vendió más de un millón y medio de copias. Su perspectiva era dura y utilizó muchos ejemplos reales que fueron diseñados para engañar. Quería concienciar a la gente de tal engaño, pero quizás lo más importante, educar para que otros no cometan los mismos errores inadvertidamente.

Nuevamente, el objetivo es iluminar con visuales que cuenten la historia de los datos. Los gráficos circulares tienen una serie de problemas comunes cuando se utilizan para transmitir el mensaje de los datos. Demasiados pedazos del pastel abruman al lector. Más de quizás cinco o seis categorías deberían dar una idea de la importancia relativa de cada pieza. Esto es después de todo el objetivo de un gráfico circular, qué subconjunto importa más en relación con los demás. Si hay más componentes que este entonces tal vez sería mejor un enfoque alternativo o quizás algunos puedan consolidarse en una categoría “otra”. Los gráficos circulares no pueden mostrar cambios a lo largo del tiempo, aunque vemos que esto se intenta con demasiada frecuencia. En los documentos financieros federales, estatales y municipales, a menudo se presentan gráficos circulares para mostrar los componentes de los ingresos disponibles para el órgano rector para su apropiación: impuesto sobre la renta, impuesto a las ventas impuestos a los vehículos automotores, etc. En sí misma esta es información interesante y se puede hacer muy bien con un gráfico circular. El error ocurre cuando se establecen dos años uno al lado del otro. Debido a que los ingresos totales cambian de año a año, pero el tamaño del pastel es fijo, no se proporciona información real y el tamaño relativo de cada pieza del pastel no se puede comparar de manera significativa.

Los histogramas pueden ser muy útiles para comprender los datos. Presentado correctamente, pueden ser una manera visual rápida de presentar probabilidades de diferentes categorías por lo simple visual de comparar áreas relativas en cada categoría. Aquí el error, intencionado o no, es variar el ancho de las categorías. Esto por supuesto hace imposible la comparación con las otras categorías. Si embellece la importancia de la categoría con el ancho ampliado porque tiene un área mayor, de manera inapropiada, y así visualmente “dice” que esa categoría tiene una mayor probabilidad de ocurrencia.

Los gráficos de series de tiempo quizás sean los más abusados. Una gráfica de alguna variable a través del tiempo nunca debe presentarse en ejes que cambien parcialmente a lo largo de la página, ya sea en la dimensión vertical u horizontal. Quizás el marco de tiempo se cambia de años a meses. Quizás esto sea para ahorrar espacio o porque los datos mensuales no estaban disponibles para los primeros años. En cualquier caso esto confunde la presentación y destruye cualquier valor de la gráfica. Si esto no se hace para confundir a propósito al lector, entonces ciertamente es un trabajo perezoso o descuidado.

Cambiar las unidades de medida del eje puede suavizar una gota o acentuar una. Si quieres mostrar grandes cambios, entonces mide la variable en unidades pequeñas, centavo en lugar de miles de dólares. Y claro para continuar con el fraude, asegúrate de que el eje no comience en cero, cero. Si comienza en cero, cero, entonces se hace evidente que el eje ha sido manipulado.

A lo mejor tienes un cliente que se preocupa por la volatilidad de la cartera que manejas. Una manera fácil de presentar los datos es usar largos periodos de tiempo en el gráfico de series de tiempo. Use meses o mejor, trimestres en lugar de datos diarios o semanales. Si eso no reduce la volatilidad, entonces difunda el eje de tiempo en relación con la tasa de rendimiento o el eje de valoración de cartera. Si quieres mostrar un crecimiento dramático “rápido”, entonces encoge el eje de tiempo. Cualquier crecimiento positivo mostrará visualmente tasas de crecimiento “altas”. Tenga en cuenta que si el crecimiento es negativo entonces este truco mostrará que la cartera se está colapsando a un ritmo dramático.

Nuevamente, el objetivo de la estadística descriptiva es transmitir visuales significativos que cuenten la historia de los datos. La manipulación intencionada es fraude y poco ética en el peor de los casos, pero incluso en su mejor momento, cometer este tipo de errores provocará confusión por parte del análisis.

Search

Text Color

Text Size

Margin Size

Font Type