Saltar al contenido principal
LibreTexts Español

2.1: Mostrar datos

  • Page ID
    150821
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Gráficas de tallo y hoja (Stemplots), gráficas de líneas y gráficas de barras

    Una gráfica simple, la gráfica de tallo y hoja o estemplot, proviene del campo del análisis exploratorio de datos. Es una buena opción cuando los conjuntos de datos son pequeños. Para crear la parcela, divida cada observación de datos en un tallo y una hoja. La hoja consiste en un dígito significativo final. Por ejemplo, 23 tiene tallo dos y hoja tres. El número 432 tiene tallo 43 y hoja dos. De igual manera, el número 5,432 tiene tallo 543 y hoja dos. El decimal 9.3 tiene tallo nueve y hoja tres. Escribe los tallos en una línea vertical desde el más pequeño hasta el más grande. Dibuja una línea vertical a la derecha de los tallos. Después escribe las hojas en orden creciente junto a su tallo correspondiente.

    Ejemplo\(\PageIndex{2}\).1

    Para la clase de pre-cálculo de primavera de Susan Dean, los puntajes para el primer examen fueron los siguientes (de menor a mayor):

    33; 42; 49; 49; 53; 55; 55; 61; 63; 67; 68; 68; 69; 69; 72; 73; 74; 78; 80; 83; 88; 88; 88; 90; 92; 94; 94; 94; 94; 94; 94; 96; 100

    \ (\ PageIndex {1}\) Gráfico de tallo y hoja “>
    Vástago Hoja
    3 3
    4 2 9 9
    5 3 5 5
    6 1 3 7 8 8 9 9
    7 2 3 4 8
    8 0 3 8 8 8
    9 0 2 4 4 4 4 6
    10 0
    Tabla\(\PageIndex{2}\) .1 Gráfica de tallo y hoja

    El stemplot muestra que la mayoría de los puntajes cayeron en los años 60, 70, 80 y 90. Ocho de los 31 puntajes o aproximadamente 26% (831) (831) fueron en los 90 o 100, un número bastante alto de As.

    Ejercicio\(\PageIndex{2}\).1

    Para el equipo de basquetbol de Park City, los puntajes de los últimos 30 juegos fueron los siguientes (de menor a mayor):

    32; 32; 33; 34; 38; 40; 42; 42; 43; 44; 46; 47; 47; 48; 48; 48; 49; 50; 50; 51; 52; 52; 52; 53; 54; 56; 57; 57; 60; 61

    Construir una gráfica de tallo para los datos.

    El stemplot es una forma rápida de graficar datos y da una imagen exacta de los datos. Quieres buscar un patrón general y cualquier valor atípicos. Un valor atípico es una observación de datos que no se ajusta al resto de los datos. A veces se le llama un valor extremo. Cuando graficas un valor atípico, aparecerá que no se ajusta al patrón de la gráfica. Algunos valores atípicos se deben a errores (por ejemplo, anotar 50 en lugar de 500) mientras que otros pueden indicar que algo inusual está sucediendo. Se necesitan algunos antecedentes para explicar los valores atípicos, por lo que los cubriremos con más detalle más adelante.

    Ejemplo\(\PageIndex{2}\).2

    Los datos son las distancias (en kilómetros) de un hogar a supermercados locales. Cree un stemplot usando los datos:

    1.1; 1.5; 2.3; 2.5; 2.7; 3.2; 3.3; 3.3; 3.5; 3.8; 4.0; 4.2; 4.5; 4.5; 4.7; 4.8; 5.5; 5.6; 6.5; 6.7; 12.3

    ¿Los datos parecen tener alguna concentración de valores?

    NOTA

    Las hojas están a la derecha del decimal.

    Contestar

    El valor 12.3 puede ser un valor atípico. Los valores parecen concentrarse a tres y cuatro kilómetros.

    \ (\ PageIndex {2}\) “>
    Vástago Hoja
    1 1 5
    2 3 5 7
    3 2 3 3 5 8
    4 0 2 5 5 7 8
    5 5 6
    6 5 7
    7
    8
    9
    10
    11
    12 3
    Cuadro\(\PageIndex{2}\) .2

    Ejercicio\(\PageIndex{2}\).2

    Los siguientes datos muestran las distancias (en millas) desde los hogares de los estudiantes de estadística fuera del campus hasta la universidad. Cree una gráfica de tallo usando los datos e identifique los valores atípicos:

    0.5; 0.7; 1.1; 1.2; 1.2; 1.3; 1.3; 1.5; 1.5; 1.7; 1.7; 1.8; 1.9; 2.0; 2.2; 2.5; 2.6; 2.8; 2.8; 2.8; 3.5; 3.8; 4.4; 4.8; 4.9; 5.2; 5.5; 5.7; 5.8; 8.0

    Ejemplo\(\PageIndex{2}\).3

    Una gráfica de tallo y hoja lado a lado permite una comparación de los dos conjuntos de datos en dos columnas. En una parcela lado a lado de tallo y hoja, dos conjuntos de hojas comparten el mismo tallo. Las hojas están a la izquierda y a la derecha de los tallos. En el Cuadro\(\PageIndex{2}\) .4 y en el Cuadro\(\PageIndex{2}\) .5 se muestran las edades de los presidentes en su toma de posesión y a su muerte. Construya una parcela lado a lado de tallo y hoja usando estos datos.

    Contestar
    \ (\ PageIndex {3}\) “>
    Edades en la Inauguración Edades a la Muerte
    9 9 8 7 7 7 6 3 2 4 6 9
    8 7 7 7 7 6 6 6 5 5 5 5 5 4 4 4 4 4 4 2 2 1 1 1 1 1 1 0 5 3 6 6 7 7 8
    9 8 5 4 4 2 1 1 1 0 6 0 0 3 3 4 4 5 6 7 7 7 8
    7 0 0 1 1 1 4 7 8 8 9
    8 0 1 3 5 8
    9 0 0 3
    Cuadro\(\PageIndex{2}\) .3
    \ (\ PageIndex {4}\) Edades Presidenciales en Inauguración “>
    Presidente Edad Presidente Edad Presidente Edad
    Washington 57 Lincoln 52 Hoover 54
    J. Adams 61 A. Johnson 56 Roosevelt 51
    Jefferson 57 Grant 46 Truman 60
    Madison 57 Hayes 54 Eisenhower 62
    Monroe 58 Garfield 49 Kennedy 43
    J. Q. Adams 57 Arthur 51 L. Johnson 55
    Jackson 61 Cleveland 47 Nixon 56
    Van Buren 54 B. Harrison 55 Ford 61
    W. H. Harrison 68 Cleveland 55 Carter 52
    Tyler 51 McKinley 54 Reagan 69
    Polk 49 T. Roosevelt 42 G.H.W. Bush 64
    Taylor 64 Taft 51 Clinton 47
    Fillmore 50 Wilson 56 G. W. Bush 54
    Pierce 48 Harding 55 Obama 47
    Buchanan 65 Coolidge 51 Trump 70
    Cuadro\(\PageIndex{2}\) .4 Edades Presidenciales en Inauguración
    \ (\ PageIndex {5}\) Edad presidencial al morir “>
    Presidente Edad Presidente Edad Presidente Edad
    Washington 67 Lincoln 56 Hoover 90
    J. Adams 90 A. Johnson 66 Roosevelt 63
    Jefferson 83 Grant 63 Truman 88
    Madison 85 Hayes 70 Eisenhower 78
    Monroe 73 Garfield 49 Kennedy 46
    J. Q. Adams 80 Arthur 56 L. Johnson 64
    Jackson 78 Cleveland 71 Nixon 81
    Van Buren 79 B. Harrison 67 Ford 93
    W. H. Harrison 68 Cleveland 71 Reagan 93
    Tyler 71 McKinley 58
    Polk 53 T. Roosevelt 60
    Taylor 65 Taft 72
    Fillmore 74 Wilson 67
    Pierce 64 Harding 57
    Buchanan 77 Coolidge 60
    Cuadro\(\PageIndex{2}\) .5 Edad presidencial al morir

    Otro tipo de gráfico que es útil para valores de datos específicos es un gráfico de líneas. En el gráfico de líneas particular que se muestra en Ejemplo\(\PageIndex{4}\), el eje x (eje horizontal) consiste en valores de datos y el eje y (eje vertical) consiste en puntos de frecuencia. Los puntos de frecuencia se conectan mediante segmentos de línea.

    Ejemplo\(\PageIndex{2}\).4

    En una encuesta, se preguntó a 40 madres cuántas veces a la semana se le debe recordar a un adolescente que haga sus tareas. Los resultados se muestran en la Tabla\(\PageIndex{2}\) .6 y en la Figura\(\PageIndex{2}\) .2.

    \ (\ PageIndex {6}\) “>
    Número de veces que se le recuerda a un adolescente Frecuencia
    0 2
    1 5
    2 8
    3 14
    4 7
    5 4

    Cuadro 2.6

    Un gráfico de líneas que muestra el número de veces que un adolescente necesita ser recordado para hacer tareas en el eje x y la frecuencia en el eje y.

    Figura 2.2

    Ejercicio\(\PageIndex{4}\)

    En una encuesta, se preguntó a 40 personas cuántas veces al año tenían su automóvil en el taller para reparaciones. Los resultados se muestran en la Tabla\(\PageIndex{7}\). Construir un gráfico de líneas.

    \ (\ PageIndex {7}\) “>
    Número de veces en tienda Frecuencia
    0 7
    1 10
    2 14
    3 9

    Cuadro 2.2.7

    Los gráficos de barras consisten en barras que están separadas entre sí. Las barras pueden ser rectángulos o pueden ser cajas rectangulares (utilizadas en parcelas tridimensionales), y pueden ser verticales u horizontales. El gráfico de barras que se muestra en Ejemplo\(\PageIndex{5}\) tiene grupos de edad representados en el eje x y proporciones en el eje y.

    Ejercicio\(\PageIndex{1}\)

    Agrega texto de ejercicios aquí.

    Contestar

    Solución 2.5

    Este es un gráfico de barras que coincide con los datos suministrados. El eje x muestra los grupos de edad, y el eje y muestra los porcentajes de usuarios de Facebook.
    Figura\(\PageIndex{2}\) .3

    Ejemplo\(\PageIndex{5}\)

    A finales de 2011, Facebook contaba con más de 146 millones de usuarios en Estados Unidos. En el cuadro\(\PageIndex{2}\) .8 se muestran tres grupos de edad, el número de usuarios en cada grupo de edad y la proporción (%) de usuarios en cada grupo de edad. Construye un gráfico de barras usando estos datos.

    \ (\ PageIndex {8}\) “>
    Grupos de edad Número de usuarios de Facebook Proporción (%) de usuarios de Facebook
    13—25 65,082,280 45%
    26—44 53,300,200 36%
    45—64 27,885,100 19%

    Cuadro 2.2.8

    Solución

    Ejercicio\(\PageIndex{5}\)

    Agrega texto de ejercicios aquí.

    Contestar

    La población en Park City está conformada por niños, adultos en edad de trabajar y jubilados. En el cuadro se\(\PageIndex{9}\) muestran los tres grupos de edad, el número de personas en la localidad de cada grupo de edad y la proporción (%) de personas en cada grupo de edad. Construir un gráfico de barras que muestre las proporciones.

    \ (\ PageIndex {9}\) “>
    Grupos de edad Número de personas Proporción de la población
    Niños 67,059 19%
    Adultos en edad de trabajar 152,198 43%
    Jubilados 131,662 38%

    Cuadro 2.2.9

    Ejemplo\(\PageIndex{2}\).6

    Las columnas de la Tabla\(\PageIndex{2}\) .10 contienen: la raza o etnia de los estudiantes en las Escuelas Públicas de Estados Unidos para la clase de 2011, los porcentajes para la Colocación Avanzada examinan la población para esa clase y los porcentajes para la población estudiantil general. Crear un gráfico de barras con la raza o etnia estudiantil (datos cualitativos) en el eje x, y los porcentajes de población examinada de Colocación Avanzada en el eje y.

    \ (\ PageIndex {10}\) “>
    Raza/etnia Población examinada AP Población estudiantil general
    1 = asiático, asiáticoamericano o isleño del Pacífico 10.3% 5.7%
    2 = Negro o Afroamericano 9.0% 14.7%
    3 = Hispano o Latino 17.0% 17.6%
    4 = Indio Americano o Nativo de Alaska 0.6% 1.1%
    5 = Blanco 57.1% 59.2%
    6 = No informado/otro 6.0% 1.7%

    Cuadro 2.2.10

    Contestar

    Solución 2.6

    Este es un gráfico de barras que coincide con los datos suministrados. El eje x muestra la raza y etnia, y el eje y muestra los porcentajes de los examinados AP.
    Figura\(\PageIndex{2}\) .4

    Ejercicio\(\PageIndex{2}\).6

    Agrega texto de ejercicios aquí.

    Contestar

    Park City se divide en seis distritos electorales. En la tabla se muestra el porcentaje de la población electoral total registrada que vive en cada distrito así como el porcentaje total de la población total que vive en cada distrito. Construir un gráfico de barras que muestre la población electoral registrada por distrito.

    \ (\ PageIndex {11}\) “>
    Distrito Población elector registrada Población general de la ciudad
    1 15.5% 19.4%
    2 12.2% 15.6%
    3 9.8% 9.0%
    4 17.4% 18.5%
    5 22.8% 20.7%
    6 22.3% 16.8%
    Cuadro\(\PageIndex{2}\) .11

    Ejemplo\(\PageIndex{2}\).7

    A continuación se muestra una tabla bidireccional que muestra los tipos de mascotas propiedad de hombres y mujeres:

    \ (\ PageIndex {12}\) “>
    Perros Gatos Pescados Total
    Hombres 4 2 2 8
    Mujeres 4 6 2 12
    Total 8 8 4 20
    Cuadro\(\PageIndex{2}\) .12

    Dados estos datos, calcular las distribuciones condicionales para la subpoblación de hombres que poseen cada tipo de mascota.

    Contestar
    • Hombres que poseen perros = 4/8 = 0.5
    • Hombres que poseen gatos = 2/8 = 0.25
    • Hombres que poseen peces = 2/8 = 0.25

    Nota: La suma de todas las distribuciones condicionales debe ser igual a una. En este caso, 0.5 + 0.25 + 0.25 = 1; por lo tanto, la solución “comprueba”.

    Histogramas, Polígonos de Frecuencia y Gráficas de Series de Tiempo

    Para la mayor parte del trabajo que realices en este libro, utilizarás un histograma para mostrar los datos. Una ventaja de un histograma es que puede mostrar fácilmente grandes conjuntos de datos. Una regla general es usar un histograma cuando el conjunto de datos consta de 100 valores o más.

    Un histograma consiste en cajas contiguas (contiguas). Tiene tanto un eje horizontal como un eje vertical. El eje horizontal está etiquetado con lo que representan los datos (por ejemplo, la distancia de tu casa a la escuela). El eje vertical está etiquetado ya sea frecuencia o frecuencia relativa (o porcentaje de frecuencia o probabilidad). La gráfica tendrá la misma forma con cualquiera de las etiquetas. El histograma (como el stemplot) puede darle la forma de los datos, el centro y la dispersión de los datos.

    La frecuencia relativa es igual a la frecuencia para un valor observado de los datos dividido por el número total de valores de datos en la muestra. (Recuerde, la frecuencia se define como el número de veces que ocurre una respuesta). Si:

    • \(f\)= frecuencia
    • \(n\)= número total de valores de datos (o la suma de las frecuencias individuales), y
    • \(RF\)= frecuencia relativa,

    entonces:

    \ [\ RF=\ frac {f} {n}\ nonumber]

    Por ejemplo, si tres alumnos de la clase de inglés del señor Ahab de 40 estudiantes recibieron del 90% al 100%, entonces\(f = 3\),\(n = 40\), y\(RF = \frac{f}{n} = \frac{3}{40} = 0.075\). 7.5% de los estudiantes recibieron 90— 100%. 90— 100% son medidas cuantitativas.

    Para construir un histograma, primero decida cuántas barras o intervalos, también llamados clases, representan los datos. Muchos histogramas constan de cinco a 15 barras o clases para mayor claridad. Se debe elegir el número de barras. Elija un punto de partida para que el primer intervalo sea menor que el valor de datos más pequeño. Un punto de partida conveniente es un valor menor llevado a cabo a una posición decimal más que el valor con más decimales. Por ejemplo, si el valor con más decimales es 6.1 y este es el valor más pequeño, un punto de partida conveniente es 6.05 (6.1 — 0.05 = 6.05). Decimos que 6.05 tiene más precisión. Si el valor con más decimales es 2.23 y el valor más bajo es 1.5, un punto de partida conveniente es 1.495 (1.5 — 0.005 = 1.495). Si el valor con más decimales es 3.234 y el valor más bajo es 1.0, un punto de partida conveniente es 0.9995 (1.0 — 0.0005 = 0.9995). Si todos los datos resultan ser enteros y el valor más pequeño es dos, entonces un punto de partida conveniente es 1.5 (2 — 0.5 = 1.5). Además, cuando el punto de partida y otros límites se llevan a un decimal adicional, ningún valor de datos caerá sobre un límite. Los siguientes dos ejemplos entran en detalle sobre cómo construir un histograma usando datos continuos y cómo crear un histograma usando datos discretos.

    Ejemplo\(\PageIndex{2}\).8

    Los siguientes datos son las alturas (en pulgadas a la media pulgada más cercana) de 100 futbolistas semiprofesionales masculinos. Las alturas son datos continuos, ya que se mide la altura.

    60; 60.5; 61; 61; 61.5
    63.5; 63.5; 63.5 64;
    64; 64; 64; 64; 64; 64; 64.5; 64.5; 64.5; 64.5; 64.5; 64.5; 64.5; 64.5; 66; 66;
    66; 66; 66; 66; 66; 66; 66; 66; 66; 66,5; 66.5; 66,5; 66,5; 66,5; 66,5; 66,5; 66.5; 66.5; 66.5; 66.5; 66.5; 66,5; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67.5; 67.5; 67.5; 67.5; 67.5; 67.5;
    68; 68; 69; 69; 69; 69; 69; 69; 69; 69; 69; 69; 69; 69,5; 69.5; 69.5; 69.5
    ; 69.5 70; 70; 70; 70; 70; 70.5; 70.5; 70.5; 71; 71; 71;
    72; 72; 72.5; 2.5; 73; 73.5
    74

    El valor de datos más pequeño es 60. Dado que los datos con más decimales tienen un decimal (por ejemplo, 61.5), queremos que nuestro punto de partida tenga dos decimales. Dado que los números 0.5, 0.05, 0.005, etc. son números convenientes, usa 0.05 y restarlo de 60, el valor más pequeño, para el punto de partida conveniente.

    60 — 0.05 = 59.95 que es más preciso que, digamos, 61.5 por un decimal. El punto de partida es, entonces, 59.95.

    El valor más grande es 74, por lo que 74 + 0.05 = 74.05 es el valor final.

    A continuación, calcule el ancho de cada barra o intervalo de clase. Para calcular este ancho, resta el punto inicial del valor final y divídalo por el número de barras (debes elegir el número de barras que deseas). Supongamos que eliges ocho barras.

    \[\frac{74.05−59.95}{8}=1.76\non\nonumber\]

    NOTA

    Redondearemos hasta dos y haremos que cada barra o intervalo de clase sea de dos unidades de ancho. Redondear hasta dos es una forma de evitar que un valor caiga sobre un límite. El redondeo al siguiente número suele ser necesario incluso si va en contra de las reglas estándar de redondeo. Para este ejemplo, usar 1.76 como ancho también funcionaría. Una pauta que es seguida por algunos para el ancho de una barra o intervalo de clase es tomar la raíz cuadrada del número de valores de datos y luego redondear al número entero más cercano, si es necesario. Por ejemplo, si hay 150 valores de datos, tomar la raíz cuadrada de 150 y redondear a 12 barras o intervalos.

    Los límites son:

    • 59.95
    • 59.95 + 2 = 61.95
    • 61.95 + 2 = 63.95
    • 63.95 + 2 = 65.95
    • 65.95 + 2 = 67.95
    • 67.95 + 2 = 69.95
    • 69.95 + 2 = 71.95
    • 71.95 + 2 = 73.95
    • 73.95 + 2 = 75.95

    Las alturas de 60 a 61.5 pulgadas están en el intervalo 59.95—61.95. Las alturas que son 63.5 están en el intervalo 61.95—63.95. Las alturas que son de 64 a 64.5 están en el intervalo 63.95—65.95. Las alturas 66 a 67.5 están en el intervalo 65.95—67.95. Las alturas 68 a 69.5 están en el intervalo 67.95—69.95. Las alturas 70 a 71 están en el intervalo 69.95—71.95. Las alturas 72 a 73.5 están en el intervalo 71.95—73.95. La altura 74 está en el intervalo 73.95—75.95.

    El siguiente histograma muestra las alturas en el eje x y la frecuencia relativa en el eje y.

    El histograma consta de 8 barras con el eje y en incrementos de 0.05 de 0-0.4 y el eje x en intervalos de 2 de 59.95-75.95.
    Figura\(\PageIndex{2}\) .5

    Ejercicio\(\PageIndex{2}\).8

    Los siguientes datos son las tallas de zapatos de 50 estudiantes varones. Los tamaños son datos continuos ya que se mide el tamaño del zapato. Construir un histograma y calcular el ancho de cada barra o intervalo de clase. Supongamos que eliges seis barras.

    9; 9; 9.5; 9.5; 10; 10; 10; 10; 10; 10.5; 10.5; 10.5; 10.5; 10.5; 10.5; 10.5; 10.5; 10.5 11; 11; 11;
    11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 11.5; 12; 12; 12;
    12; 12; 12.5; 12.5; 12.5; 12.5; 12.5; 12.5; 12.5; 12.5; 12.5; 12.5; 12.5; 14

    Ejemplo\(\PageIndex{2}\).9

    Crear un histograma para los siguientes datos: el número de libros comprados por 50 estudiantes universitarios de medio tiempo en ABC College. El número de libros son datos discretos, ya que se cuentan los libros.

    1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 1; 2; 2;
    2; 2; 2; 2; 2; 2; 2; 2; 2; 2; 2; 2; 2;
    2; 2; 2; 2; 2; 2; 2; 2; 2; 2; 2; 2; 2; 2; 2; 2; 2; 2; 2; 2;
    2; 2; 2; 2; 2; 2; 2; 2
    ; 2; 2; 2; 2; 2; 2; 2; 2

    Once alumnos compran un libro. Diez alumnos compran dos libros. Dieciséis alumnos compran tres libros. Seis alumnos compran cuatro libros. Cinco estudiantes compran cinco libros. Dos estudiantes compran seis libros.

    Debido a que los datos son enteros, resta 0.5 de 1, el valor de datos más pequeño y suma 0.5 a 6, el valor de datos más grande. Entonces el punto de partida es 0.5 y el valor final es 6.5.

    A continuación, calcule el ancho de cada barra o intervalo de clase. Si los datos son discretos y no hay demasiados valores diferentes, lo más conveniente es un ancho que coloque los valores de datos en medio del intervalo de barra o clase. Dado que los datos constan de los números 1, 2, 3, 4, 5, 6, y el punto de partida es 0.5, un ancho de uno coloca el 1 en el medio del intervalo de 0.5 a 1.5, el 2 en el medio del intervalo de 1.5 a 2.5, el 3 en el medio del intervalo de 2.5 a 3.5, el 4 en el medio del intervalo de _____ __ a _______, el 5 en el medio del intervalo de _______ a _______, y el _______ en el medio del intervalo de _______ a _______.

    Solución

    Calcule el número de barras de la siguiente manera:

    \[\frac{6.5−0.5}{\text{number of bars}}=1\nonumber\]

    donde 1 es el ancho de una barra. Por lo tanto, barras = 6.

    El siguiente histograma muestra el número de libros en el eje x y la frecuencia en el eje y.

    El histograma consta de 6 barras con el eje y en incrementos de 2 de 0-16 y el eje x en intervalos de 1 de 0.5-6.5.
    Figura\(\PageIndex{2}\) .6

    Ejemplo\(\PageIndex{2}\).10

    Usando este conjunto de datos, construya un histograma.

    \ (\ PageIndex {13}\) “>
    Número de horas que mis compañeros pasaron jugando videojuegos los fines de semana
    9.95 10 2.25 16.75 0
    19.5 22.5 7.5 15 12.75
    5.5 11 10 20.75 17.5
    23 21.9 24 23.75 18
    20 15 22.9 18.8 20.5
    Cuadro\(\PageIndex{2}\) .13
    Contestar

    Solución 2.10

    Este es un histograma que coincide con los datos suministrados. El eje x consta de 5 barras en intervalos de 5 de 0 a 25. El eje y se marca en incrementos de 1 de 0 a 10. El eje x muestra el número de horas dedicadas a jugar videojuegos los fines de semana, y el eje y muestra el número de estudiantes.
    Figura\(\PageIndex{2}\) .7

    Algunos valores en este conjunto de datos caen en los límites para los intervalos de clase. Un valor se cuenta en un intervalo de clase si cae en el límite izquierdo, pero no si cae en el límite derecho. Diferentes investigadores pueden configurar histogramas para los mismos datos de diferentes maneras. Hay más de una forma correcta de configurar un histograma.

    Polígonos de frecuencia

    Los polígonos de frecuencia son análogos a los gráficos de líneas, y así como los gráficos de líneas hacen que los datos continuos sean visualmente fáciles de interpretar, también lo hacen los polígonos de frecuencia.

    Para construir un polígono de frecuencia, primero examine los datos y decida el número de intervalos, o intervalos de clase, a utilizar en el eje x y el eje y. Después de elegir los rangos apropiados, comience a trazar los puntos de datos. Después de trazar todos los puntos, dibuja segmentos de línea para conectarlos.

    Ejemplo\(\PageIndex{2}\).11

    Se construyó un polígono de frecuencia a partir de la tabla de frecuencias a continuación.

    \ (\ PageIndex {14}\) “>
    Enlazado inferior Borde superior Frecuencia Frecuencia acumulativa
    49.5 59.5 5 5
    59.5 69.5 10 15
    69.5 79.5 30 45
    79.5 89.5 40 85
    89.5 99.5 15 100
    Cuadro\(\PageIndex{2}\) .14: Distribución de frecuencias para los puntajes finales de las pruebas de cálculo
    Se construyó un polígono de frecuencia a partir de la tabla de frecuencias a continuación.
    Figura\(\PageIndex{2}\) .8

    La primera etiqueta en el eje x es 44.5. Esto representa un intervalo que se extiende de 39.5 a 49.5. Dado que el puntaje de prueba más bajo es 54.5, este intervalo se usa solo para permitir que la gráfica toque el eje x. El punto etiquetado 54.5 representa el siguiente intervalo, o el primer intervalo “real” de la tabla, y contiene cinco puntuaciones. Este razonamiento se sigue para cada uno de los intervalos restantes con el punto 104.5 representando el intervalo de 99.5 a 109.5. Nuevamente, este intervalo no contiene datos y solo se usa para que la gráfica toque el eje x. Al mirar la gráfica, decimos que esta distribución está sesgada porque un lado de la gráfica no refleja el otro lado.

    Ejercicio\(\PageIndex{2}\).11

    Construir un polígono de frecuencia de las edades de los presidentes de Estados Unidos en la inauguración que se muestra en la Tabla\(\PageIndex{15}\).

    \ (\ PageIndex {15}\) “>
    Edad en la inauguración Frecuencia
    41.5—46.5 4
    46.5—51.5 11
    51.5—56.5 14
    56.5—61.5 9
    61.5—66.5 4
    66.5—71.5 2

    Cuadro 2.2.15

    Los polígonos de frecuencia son útiles para comparar distribuciones. Esto se logra superponiendo los polígonos de frecuencia dibujados para diferentes conjuntos de datos.

    Ejemplo\(\PageIndex{2}\).12

    Construiremos un polígono de frecuencia de superposición comparando las puntuaciones de Ejemplo\(\PageIndex{11}\) con la calificación numérica final de los estudiantes.

    \ (\ PageIndex {16}\) “>
    Enlazado inferior Borde superior Frecuencia Frecuencia acumulativa
    49.5 59.5 5 5
    59.5 69.5 10 15
    69.5 79.5 30 45
    79.5 89.5 40 85
    89.5 99.5 15 100
    Cuadro\(\PageIndex{2}\) .16: Distribución de frecuencias para los puntajes finales de las pruebas de cálculo
    \ (\ PageIndex {17}\) “>
    Enlazado inferior Borde superior Frecuencia Frecuencia acumulativa
    49.5 59.5 10 10
    59.5 69.5 10 20
    69.5 79.5 30 50
    79.5 89.5 45 95
    89.5 99.5 5 100
    Cuadro\(\PageIndex{2}\) .17: Distribución de frecuencias para calificaciones finales de cálculo
    Este es un polígono de frecuencia de superposición que coincide con los datos suministrados. El eje x muestra las calificaciones, y el eje y muestra la frecuencia.
    Figura\(\PageIndex{2}\) .9

    Construyendo un gráfico de series de tiempo

    Supongamos que queremos estudiar el rango de temperatura de una región durante todo un mes. Todos los días al mediodía notamos la temperatura y anotamos esto en un registro. Se podrían realizar diversos estudios estadísticos con estos datos. Podríamos encontrar la temperatura media o mediana del mes. Podríamos construir un histograma que muestre el número de días que las temperaturas alcanzan cierto rango de valores. Sin embargo, todos estos métodos ignoran una parte de los datos que hemos recopilado.

    Una característica de los datos que tal vez queramos considerar es la del tiempo. Dado que cada fecha está emparejada con la lectura de temperatura del día, no tenemos que pensar en los datos como aleatorios. En cambio, podemos usar los tiempos dados para imponer un orden cronológico a los datos. Un gráfico que reconoce este orden y muestra la temperatura cambiante a medida que avanza el mes se llama gráfico de series de tiempo.

    Para construir un gráfico de series de tiempo, debemos mirar ambas piezas de nuestro conjunto de datos emparejados. Comenzamos con un sistema de coordenadas cartesianas estándar. El eje horizontal se utiliza para trazar los incrementos de fecha u hora, y el eje vertical se utiliza para trazar los valores de la variable que estamos midiendo. Al hacer esto, hacemos que cada punto de la gráfica corresponda a una fecha y una cantidad medida. Los puntos en la gráfica suelen estar conectados por líneas rectas en el orden en que ocurren.

    Ejemplo\(\PageIndex{2}\).13

    Los siguientes datos muestran el Índice Anual de Precios al Consumidor, cada mes, por diez años. Construya una gráfica de serie temporal solo para los datos del Índice Anual de Precios al Consumidor.

    \ (\ PageIndex {18}\) “>
    Año Ene Feb Mar Abr Mayo Jun Jul
    2003 181.7 183.1 184.2 183.8 183.5 183.7 183.9
    2004 185.2 186.2 187.4 188.0 189.1 189.7 189.4
    2005 190.7 191.8 193.3 194.6 194.4 194.5 195.4
    2006 198.3 198.7 199.8 201.5 202.5 202.9 203.5
    2007 202.416 203.499 205.352 206.686 207.949 208.352 208.299
    2008 211.080 211.693 213.528 214.823 216.632 218.815 219.964
    2009 211.143 212.193 212.709 213.240 213.856 215.693 215.351
    2010 216.687 216.741 217.631 218.009 218.178 217.965 218.011
    2011 220.223 221.309 223.467 224.906 225.964 225.722 225.922
    2012 226.665 227.663 229.392 230.085 229.815 229.478 229.104
    Cuadro\(\PageIndex{2}\) .18
    \ (\ PageIndex {19}\) “>
    Año Ago Sep Oct Nov Dic Anual
    2003 184.6 185.2 185.0 184.5 184.3 184.0
    2004 189.5 189.9 190.9 191.0 190.3 188.9
    2005 196.4 198.8 199.2 197.6 196.8 195.3
    2006 203.9 202.9 201.8 201.5 201.8 201.6
    2007 207.917 208.490 208.936 210.177 210.036 207.342
    2008 219.086 218.783 216.573 212.425 210.228 215.303
    2009 215.834 215.969 216.177 216.330 215.949 214.537
    2010 218.312 218.439 218.711 218.803 219.179 218.056
    2011 226.545 226.889 226.421 226.230 225.672 224.939
    2012 230.379 231.407 231.317 230.221 229.601 229.594
    Cuadro\(\PageIndex{2}\) .19
    Contestar

    Solución 2.13

    Se trata de una gráfica de series de tiempos que coincide con los datos suministrados. El eje x muestra los años de 2003 a 2012, y el eje y muestra el IPC anual.
    Figura\(\PageIndex{2}\) .10

    Ejercicio\(\PageIndex{2}\).13

    La siguiente tabla es una porción de un conjunto de datos de www.worldbank.org. Utilice la tabla para construir una gráfica de series de tiempo para las emisiones de CO 2 para Estados Unidos.

    \ (\ PageIndex {20}\) “>
    Año Ucrania Reino Unido Estados Unidos
    2003 352,259 540,640 5,681,664
    2004 343,121 540,409 5,790,761
    2005 339,029 541,990 5,826,394
    2006 327,797 542,045 5,737,615
    2007 328,357 528,631 5,828,697
    2008 323,657 522,247 5,656,839
    2009 272,176 474,579 5,299,563
    Cuadro\(\PageIndex{20}\): Emisiones de CO 2

    Usos de un gráfico de series de tiempo

    Los gráficos de series temporales son herramientas importantes en diversas aplicaciones de la estadística. Al registrar valores de la misma variable durante un periodo prolongado de tiempo, a veces es difícil discernir alguna tendencia o patrón. Sin embargo, una vez que se muestran gráficamente los mismos puntos de datos, algunas entidades saltan. Los gráficos de series temporales hacen que las tendencias sean fáciles de detectar.

    Cómo NO mentir con las estadísticas

    Es importante recordar que la razón misma por la que desarrollamos una variedad de métodos para presentar datos es para desarrollar ideas sobre el tema de lo que representan las observaciones. Queremos tener un “sentido” de los datos. Son todas las observaciones muy similares o están repartidas en una amplia gama de valores, están agrupadas en un extremo del espectro o están distribuidas de manera uniforme y así sucesivamente. Estamos tratando de obtener una imagen visual de los datos numéricos. En breve desarrollaremos medidas matemáticas formales de los datos, pero nuestra presentación gráfica visual puede decir mucho. Puede, desgraciadamente, decir también mucho que distraiga, confuso y simplemente incorrecto en cuanto a la impresión que deja la visual. Hace muchos años Darrell Huff escribió el libro Cómo mentir con las estadísticas. Ha pasado por más de 25 impresiones y vendió más de un millón y medio de copias. Su perspectiva era dura y utilizó muchos ejemplos reales que fueron diseñados para engañar. Quería concienciar a la gente de tal engaño, pero quizás lo más importante, educar para que otros no cometan los mismos errores inadvertidamente.

    Nuevamente, el objetivo es iluminar con visuales que cuenten la historia de los datos. Los gráficos circulares tienen una serie de problemas comunes cuando se utilizan para transmitir el mensaje de los datos. Demasiados pedazos del pastel abruman al lector. Más de quizás cinco o seis categorías deberían dar una idea de la importancia relativa de cada pieza. Esto es después de todo el objetivo de un gráfico circular, qué subconjunto importa más en relación con los demás. Si hay más componentes que este entonces tal vez sería mejor un enfoque alternativo o quizás algunos puedan consolidarse en una categoría “otra”. Los gráficos circulares no pueden mostrar cambios a lo largo del tiempo, aunque vemos que esto se intenta con demasiada frecuencia. En los documentos financieros federales, estatales y municipales, a menudo se presentan gráficos circulares para mostrar los componentes de los ingresos disponibles para el órgano rector para su apropiación: impuesto sobre la renta, impuesto a las ventas impuestos a los vehículos automotores, etc. En sí misma esta es información interesante y se puede hacer muy bien con un gráfico circular. El error ocurre cuando se establecen dos años uno al lado del otro. Debido a que los ingresos totales cambian de año a año, pero el tamaño del pastel es fijo, no se proporciona información real y el tamaño relativo de cada pieza del pastel no se puede comparar de manera significativa.

    Los histogramas pueden ser muy útiles para comprender los datos. Presentado correctamente, pueden ser una manera visual rápida de presentar probabilidades de diferentes categorías por lo simple visual de comparar áreas relativas en cada categoría. Aquí el error, intencionado o no, es variar el ancho de las categorías. Esto por supuesto hace imposible la comparación con las otras categorías. Si embellece la importancia de la categoría con el ancho ampliado porque tiene un área mayor, de manera inapropiada, y así visualmente “dice” que esa categoría tiene una mayor probabilidad de ocurrencia.

    Los gráficos de series de tiempo quizás sean los más abusados. Una gráfica de alguna variable a través del tiempo nunca debe presentarse en ejes que cambien parcialmente a lo largo de la página, ya sea en la dimensión vertical u horizontal. Quizás el marco de tiempo se cambia de años a meses. Quizás esto sea para ahorrar espacio o porque los datos mensuales no estaban disponibles para los primeros años. En cualquier caso esto confunde la presentación y destruye cualquier valor de la gráfica. Si esto no se hace para confundir a propósito al lector, entonces ciertamente es un trabajo perezoso o descuidado.

    Cambiar las unidades de medida del eje puede suavizar una gota o acentuar una. Si quieres mostrar grandes cambios, entonces mide la variable en unidades pequeñas, centavo en lugar de miles de dólares. Y claro para continuar con el fraude, asegúrate de que el eje no comience en cero, cero. Si comienza en cero, cero, entonces se hace evidente que el eje ha sido manipulado.

    A lo mejor tienes un cliente que se preocupa por la volatilidad de la cartera que manejas. Una manera fácil de presentar los datos es usar largos periodos de tiempo en el gráfico de series de tiempo. Use meses o mejor, trimestres en lugar de datos diarios o semanales. Si eso no reduce la volatilidad, entonces difunda el eje de tiempo en relación con la tasa de rendimiento o el eje de valoración de cartera. Si quieres mostrar un crecimiento dramático “rápido”, entonces encoge el eje de tiempo. Cualquier crecimiento positivo mostrará visualmente tasas de crecimiento “altas”. Tenga en cuenta que si el crecimiento es negativo entonces este truco mostrará que la cartera se está colapsando a un ritmo dramático.

    Nuevamente, el objetivo de la estadística descriptiva es transmitir visuales significativos que cuenten la historia de los datos. La manipulación intencionada es fraude y poco ética en el peor de los casos, pero incluso en su mejor momento, cometer este tipo de errores provocará confusión por parte del análisis.


    This page titled 2.1: Mostrar datos is shared under a CC BY 4.0 license and was authored, remixed, and/or curated by OpenStax via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.