Saltar al contenido principal
LibreTexts Español

1.1: Estadística Descriptiva

  • Page ID
    149481
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Una población es el grupo a estudiar, y los datos poblacionales son una recopilación de todos los elementos de la población. Por ejemplo:

    • Todos los peces en Long Lake.
    • Todos los lagos del Parque Adirondack.
    • Todos los osos pardos en el Parque Nacional Yellowstone.

    Una muestra es un subconjunto de datos extraídos de la población de interés. Por ejemplo:

    • 100 peces muestreados aleatoriamente de Long Lake.
    • 25 lagos seleccionados al azar del Parque Adirondack.
    • 60 osos grizzly con un rango local en el Parque Nacional Yellowstone.

    Image35759.PNG

    Figura 1. Utilizando estadísticas de muestra para estimar parámetros poblacionales.

    Las poblaciones se caracterizan por medidas descriptivas llamadas parámetros. Las inferencias sobre los parámetros se basan en estadísticas de muestra. Por ejemplo, la media poblacional (\(μ\)) se estima por la media muestral (\( \bar x\)). La varianza poblacional (\(\sigma ^2\)) se estima por la varianza muestral (\(s^2\)).

    Las variables son las características que nos interesan. Por ejemplo:

    • La longitud de los peces en Long Lake.
    • El pH de los lagos en el Parque Adirondack.
    • El peso de los osos pardos en el Parque Nacional Yellowstone.

    Las variables se dividen en dos grupos principales: cualitativas y cuantitativas. Las variables cualitativas tienen valores que son atributos o categorías. Las operaciones matemáticas no pueden aplicarse a variables cualitativas. Ejemplos de variables cualitativas son el género, la raza y el color de los pétalos. Las variables cuantitativas tienen valores que suelen ser numéricos, como las mediciones. Las operaciones matemáticas se pueden aplicar a estos datos. Ejemplos de variables cuantitativas son la edad, la talla y la longitud. Las variables cuantitativas se pueden desglosar en dos categorías más: variables discretas y continuas. Las variables discretas tienen un número finito o contable de valores posibles. Piense en las variables discretas como “gallinas”. Las gallinas pueden poner 1 huevo, o 2 huevos, o 13 huevos... Hay un número limitado y definible de valores que la variable podría asumir.

    958.png

    Las variables continuas tienen un número infinito de valores posibles. Piense en las variables continuas como “vacas”. Las vacas pueden dar 4.6713245 galones de leche, o 7.0918754 galones de leche, o 13.272698 galones de leche... Hay un número casi infinito de valores que una variable continua podría asumir.

    948.png

    Ejemplo\(\PageIndex{1}\):

    ¿La variable es cualitativa o cuantitativa?

    1. Especies
    2. Peso
    3. Diámetro
    4. Código Postal

    Solución

    (cualitativo cuantitativo, cuantitativo, cualitativo)

    Medidas Descriptivas

    Las medidas descriptivas de las poblaciones se denominan parámetros y generalmente se escriben con letras griegas. La media poblacional es\(\mu\) (mu). La varianza poblacional es\(\sigma ^2\) (sigma cuadrada) y la desviación estándar poblacional es\(\sigma \) (sigma). Las medidas descriptivas de las muestras se denominan estadísticas y generalmente se escriben con letras romanas. La media de la muestra es\(\bar x\) (barra x). La varianza muestral es\(s^2\) y la desviación estándar de la muestra es\(s\). Se utilizan estadísticas de muestra para estimar parámetros poblacionales desconocidos. En esta sección, examinaremos estadísticas descriptivas en términos de medidas de centro y medidas de dispersión. Estas estadísticas descriptivas nos ayudan a identificar el centro y la difusión de los datos.

    Medidas de Centro

    Media

    La media aritmética de una variable, a menudo llamada promedio, se calcula sumando todos los valores y dividiendo por el número total de valores. La media poblacional está representada por la letra griega\(\mu\) (mu). La media de la muestra está representada por\(\bar x\) (barra x). La media muestral suele ser la mejor estimación imparcial de la media poblacional. Sin embargo, la media está influenciada por valores extremos (valores atípicos) y puede no ser la mejor medida del centro con datos fuertemente sesgados. Las siguientes ecuaciones calculan la media poblacional y la media muestral.

    $$\ mu =\ frac {\ sum x_i} {N}\]

    $$\ bar x =\ frac {\ sum x_i} {n}\]

    donde\(x_i\) es un elemento en el conjunto de datos,\(N\) es el número de elementos en la población, y\(n\) es el número de elementos en el conjunto de datos de muestra.

    Ejemplo\(\PageIndex{2}\): mean

    Encuentre la media para el siguiente conjunto de datos de muestra:

    6.4, 5.2, 7.9, 3.4

    Solución

    $$\ bar x =\ frac {6.4+5.2+7.9+3.4} {4} = 5.725\]

    Mediana

    La mediana de una variable es el valor medio del conjunto de datos cuando los datos se ordenan en orden de menor a mayor. Divide los datos en dos mitades iguales con 50% de los datos por debajo de la mediana y 50% por encima de la mediana. La mediana es resistente a la influencia de valores atípicos, y puede ser una mejor medida del centro con datos fuertemente sesgados.

    Image35835.PNG

    El cálculo de la mediana depende del número de observaciones en el conjunto de datos.

    Para calcular la mediana con un número impar de valores (n es impar), primero ordene los datos de menor a mayor.

    Ejemplo\(\PageIndex{3}\): Calculating Median with Odd number of values

    Encuentre la mediana para el siguiente conjunto de datos de muestra:

    $23, 27, 29, 31, 35, 39, 40, 42, 44, 47, 51\]

    Solución

    La mediana es 39. Es el valor medio el que separa el 50% inferior de los datos del 50% superior de los datos.

    Para calcular la mediana con un número par de valores (n es par), primero ordene los datos de menor a mayor y tome el promedio de los dos valores medios.

    Ejemplo\(\PageIndex{4}\): Calculating Median with even number of values

    Encuentre la mediana para el siguiente conjunto de datos de muestra:

    $23, 27, 29, 31, 35, 39, 40, 42, 44, 47\]

    Solución

    $$M =\ frac {35+39} {2} = 37\]

    Modo

    El modo es el valor que ocurre con mayor frecuencia y se usa comúnmente con datos cualitativos ya que los valores son categóricos. Los datos categóricos no se pueden sumar, restar, multiplicar o dividir, por lo que no se pueden calcular la media y la mediana. El modo es menos utilizado con datos cuantitativos como medida del centro. A veces cada valor ocurre solo una vez y el modo no será significativo.

    Comprender la relación entre la media y la mediana es importante. Nos da una idea de la distribución de la variable. Por ejemplo, si la distribución está sesgada a la derecha (sesgada positivamente), la media aumentará para dar cuenta de las pocas observaciones más grandes que tiran la distribución hacia la derecha. La mediana se verá menos afectada por estos valores extremadamente grandes, por lo que en esta situación, la media será mayor que la mediana. En una distribución simétrica, la media, la mediana y el modo serán todos similares en valor. Si la distribución está sesgada a la izquierda (sesgada negativamente), la media disminuirá para dar cuenta de las pocas observaciones más pequeñas que tiran de la distribución hacia la izquierda. Nuevamente, la mediana se verá menos afectada por estas observaciones extremadamente pequeñas, y en esta situación, la media será menor que la mediana.

    Image35846.PNG

    Figura 2. Ilustración de distribuciones sesgadas y simétricas.

    Medidas de Dispersión

    Las medidas del centro miran los valores promedio o medios de un conjunto de datos. Las medidas de dispersión observan la propagación o variación de los datos. La variación se refiere a la cantidad que los valores varían entre ellos. Los valores en un conjunto de datos que están relativamente cerca entre sí tienen menores medidas de variación. Los valores que se encuentran más separados tienen mayores medidas de variación.

    Examine los dos histogramas a continuación. Ambos grupos tienen el mismo peso medio, pero los valores del Grupo A están más dispersos en comparación con los valores del Grupo B. Ambos grupos tienen un peso promedio de 267 lb pero los pesos del Grupo A son más variables.

    860.png

    Figura 3. Histogramas del Grupo A y Grupo B.

    En esta sección se examinarán cinco medidas de dispersión: rango, varianza, desviación estándar, error estándar y coeficiente de variación.

    Rango

    El rango de una variable es el valor más grande menos el valor más pequeño. Es la medida más simple y utiliza sólo estos dos valores en un conjunto de datos cuantitativos.

    Ejemplo\(\PageIndex{5}\): Computing Range

    Encuentre el rango para el conjunto de datos dado.

    $12, 29, 32, 34, 38, 49, 57\]

    $$Rango = 57 — 12 = 45\]

    Varianza

    La varianza utiliza la diferencia entre cada valor y su media aritmética. Las diferencias son cuadradas para hacer frente a las diferencias positivas y negativas. La varianza muestral (\(s^2\)) es un estimador imparcial de la varianza poblacional (\(\sigma ^2\)), con n-1 grados de libertad.

    Grados de libertad: En general, los grados de libertad para una estimación son iguales al número de valores menos el número de parámetros estimados en ruta a la estimación en cuestión.

    La varianza muestral es imparcial debido a la diferencia en el denominador. Si usáramos “n” en el denominador en lugar de “n — 1”, subestimaríamos consistentemente la verdadera varianza poblacional. Para corregir este sesgo, el denominador se modifica a “n — 1”.

    Definición: varianza poblacional

    $$\ sigma ^2 =\ frac {\ sum (x_i-\ mu) ^2} {N}\]

    Definición: varianza muestral

    $$ s^2 =\ frac {\ sum (x_i-\ bar x) ^2} {n-1} =\ frac {\ sum x_i^2 -\ frac {(\ sum x_i) ^2} {n}} {n-1}\ label {samplevar}\]

    Ejemplo\(\PageIndex{6}\): Computing Variance

    Calcular la varianza de los datos de la muestra: 3, 5, 7.

    Solución

    La media muestral (\( \bar x\)) es 5. Luego usa Ecuación\ ref {samplevar}

    $s^2 =\ frac {(3-5) ^2 + (5-5) ^2 + (7-5) ^2} {3-1} = 4\]

    Desviación estándar

    La desviación estándar es la raíz cuadrada de la varianza (tanto población como muestra). Mientras que la varianza muestral es el estimador positivo e imparcial para la varianza poblacional, las unidades para la varianza son cuadradas. La desviación estándar es un método común para describir numéricamente la distribución de una variable. La desviación estándar de la población es σ (sigma) y la desviación estándar de la muestra es s.

    Definición: Desviación estándar de muestra

    $$s =\ sqrt {s^2}\]

    Definición: DESVIACIÓN ESTÁNDAR DE

    $$\ sigma =\ sqrt {\ sigma ^2}\]

    Ejemplo\(\PageIndex{7}\):

    Calcular la desviación estándar de los datos de la muestra: 3, 5, 7 con una media muestral de 5.

    Solución

    La media muestral (\(\bar x\)) es 5, utilizando la definición de desviación estándar

    $$s =\ sqrt {\ frac {(3-5) ^2+ (5-5) ^2+ (7-5) ^2} {3-1}} =\ sqrt {4} = 2\]

    Error estándar de la media

    Comúnmente, se utiliza la media muestral para estimar la media poblacional μ. Por ejemplo, si queremos estimar las alturas de los cerezos de ochenta años, podemos proceder de la siguiente manera:

    • Seleccionar 100 árboles al azar
    • Calcular la media muestral de las 100 alturas
    • Utilízalo como nuestra estimación

    Queremos utilizar esta media muestral para estimar la media poblacional verdadera pero desconocida. Pero nuestra muestra de 100 árboles es solo una de las muchas muestras posibles (del mismo tamaño) que podrían haber sido seleccionadas al azar. Imagínese si tomamos una serie de diferentes muestras aleatorias de la misma población y todas del mismo tamaño:

    • Muestra 1—calculamos la media de la muestra\(\bar x\)
    • Muestra 2: calculamos la media de la muestra\(\bar x\)
    • Muestra 3: calculamos la media de la muestra\(\bar x\)
    • Etc.

    Cada vez que hacemos una muestra, podemos obtener un resultado diferente ya que estamos usando un subconjunto diferente de datos para calcular la media de la muestra. ¡Esto nos muestra que la media muestral es una variable aleatoria!

    La media muestral (\(\bar x\)) es una variable aleatoria con su propia distribución de probabilidad llamada distribución muestral de la media muestral. La distribución de la media muestral tendrá una media igual a µ y una desviación estándar igual a\(\frac {s} {\sqrt {n}}\)

    Nota

    El error estándar\(\frac {s} {\sqrt {n}}\) es la desviación estándar de todas las medias de muestra posibles.

    En realidad, solo tomaríamos una muestra, pero necesitamos entender y cuantificar la variabilidad muestra a muestra que ocurre en el proceso de muestreo.

    El error estándar es la desviación estándar de las medias de la muestra y se puede expresar de diferentes maneras.

    $s_ {\ bar x} =\ sqrt {\ frac {s^2} {n}} =\ frac {s} {\ sqrt {n}}\]

    Nota

    \ (s^2\) es la varianza de la muestra y s es la desviación estándar de la muestra

    Ejemplo\(\PageIndex{8}\):

    Describir la distribución de la media muestral.

    Una población de peces tiene pesos que normalmente se distribuyen con µ = 8 lb. y s = 2.6 lb. Si se toma una muestra de tamaño n=6, la media muestral tendrá una distribución normal con una media de 8 y una desviación estándar (error estándar) de\(\frac {2.6}{\sqrt {6}}\) = 1.061 lb.

    Si aumenta el tamaño de la muestra a 10, la media de la muestra se distribuirá normalmente con una media de 8 lb y una desviación estándar (error estándar) de\(\frac {2.6}{\sqrt {10}}\) = 0.822 lb.

    Observe cómo el error estándar disminuye a medida que aumenta el tamaño de la muestra.

    El Teorema del Límite Central (CLT) establece que la distribución muestral de las medias muestrales se aproximará a una distribución normal a medida que aumente el tamaño de la muestra. Si no tenemos una distribución normal, o no sabemos nada de nuestra distribución de nuestra variable aleatoria, el CLT nos dice que la distribución de los se volverá normal a medida que n aumente. ¿Qué tan grande tiene que ser n? Una regla general nos dice que n ≥ 30.

    Nota

    El Teorema del Límite Central nos dice que independientemente de la forma de nuestra población, la distribución muestral de la media muestral será normal a medida que aumente el tamaño de la muestra.

    Coeficiente de variación

    Comparar las desviaciones estándar entre diferentes poblaciones o muestras es difícil porque la desviación estándar depende de las unidades de medida. El coeficiente de variación expresa la desviación estándar como porcentaje de la media de la muestra o población. Es una medida sin unidades.

    Definición: CV de Población

    $$CV=\ frac {\ sigma} {\ mu}\ times 100\]

    Definición: cv de muestra

    $$CV=\ frac {s} {\ bar x}\ veces 100\]

    Ejemplo\(\PageIndex{9}\):

    Los biólogos pesqueros estudiaban la longitud y el peso del salmón del Pacífico. Tomaron una muestra aleatoria y calcularon la media y la desviación estándar para la longitud y el peso (dados a continuación). Si bien las desviaciones estándar son similares, las diferencias en unidades entre longitudes y pesos dificultan la comparación de la variabilidad. El cálculo del coeficiente de variación para cada variable permite a los biólogos determinar qué variable tiene la mayor desviación estándar.

    Media de la muestra Desviación estándar de muestra
    Largo 63 cm 19.97 cm
    Peso 37.6 kg 19.39 kg
    685.png 678.png

    Existe una mayor variabilidad en el peso del salmón del Pacífico en comparación con la longitud.

    Variabilidad

    La variabilidad se describe de muchas maneras diferentes. La desviación estándar mide la variabilidad punto a punto dentro de una muestra, es decir, la variación entre unidades de muestreo individuales. El coeficiente de variación también mide la variabilidad punto a punto pero sobre una base relativa (relativa a la media), y no está influenciado por las unidades de medida. El error estándar mide la variabilidad de muestra a muestra, es decir, la variación entre muestras repetidas en el proceso de muestreo. Normalmente, solo tenemos una muestra y el error estándar nos permite cuantificar la incertidumbre en nuestro proceso de muestreo.

    Ejemplo de estadísticas básicas usando Excel y Minitab Software

    Considere el siguiente recuento de 11 parcelas de muestra en el bosque de Heiburg, donde Xi es el número de troncos caídos por acre. Calcular estadísticas básicas para las parcelas de muestra.

    661.png

    Cuadro 1. Datos de muestra sobre el número de troncos caídos por acre del bosque de Heiburg.

    (1) Media de la muestra:654.png

    (2) Mediana = 35

    (3) Varianza:

    644.png

    (4) Desviación estándar:634.png

    (5) Rango: 55 — 5 = 50

    (6) Coeficiente de variación:

    625.png

    (7) Error estándar de la media:

    618.png

    Soluciones de Software

    Minitab

    Abra Minitab e ingrese datos en la hoja de cálculo. Seleccione ESTADO>Estadísticas descriptivas y verifique todas las estadísticas requeridas.

    008_1.tif008_2.tif

    Estadística Descriptiva: Datos

    Variable

    N

    N*

    Media

    SE Media

    StDev

    Varianza

    CoefVar

    Mínimo

    Q1

    Datos

    11

    0

    32.27

    4.83

    16.03

    256.82

    49.66

    5.00

    20.00

    Variable

    Mediana

    Q3

    Máximo

    IQR

    Datos

    35.00

    45.00

    55.00

    25.00

    Excel

    Abre Excel e ingresa los datos en la primera columna de la hoja de cálculo. Seleccionar datos>Análisis de datos>Estadística Descriptiva. Para el Rango de Entrada, seleccione los datos en la columna A. Marque “Etiquetas en Primera Fila” y “Estadísticas de Resumen”. También marque “Rango de salida” y seleccione la ubicación para la salida.

    009_2.tif

    009_1.tif

    Datos

    Media

    32.27273

    Error estándar

    4.831884

    Mediana

    35

    Modo

    25

    Desviación estándar

    16.02555

    Varianza de la muestra

    256.8182

    Curtosis

    -0.73643

    Asimetría

    -0.05982

    Rango

    50

    Mínimo

    5

    Máximo

    55

    Suma

    355

    Contar

    11

    Representación Gráfica

    La organización y el resumen de los datos se pueden hacer gráficamente, así como numéricamente. Las tablas y gráficas permiten una rápida visión general de la información recopilada y apoyan la presentación de los datos utilizados en el proyecto. Si bien hay multitud de gráficos disponibles, este capítulo se centrará en algunas herramientas específicas de uso común.

    Gráficos circulares

    Los gráficos circulares son una buena herramienta visual que permite al lector ver rápidamente la relación entre categorías. Es importante etiquetar claramente cada categoría, y agregar la frecuencia o frecuencia relativa suele ser útil. Sin embargo, demasiadas categorías pueden resultar confusas. Tenga cuidado de poner demasiada información en un gráfico circular. El primer gráfico circular da una idea clara de la representación de los tipos de peces en relación con toda la muestra. El segundo gráfico circular es más difícil de interpretar, con demasiadas categorías. Es importante seleccionar el mejor gráfico a la hora de presentar la información al lector.

    542.png

    Figura 4. Comparación de gráficos circulares.

    Gráficos de barras e histogramas

    Los gráficos de barras describen gráficamente la distribución de una variable cualitativa (tipo pez) mientras que los histogramas describen la distribución de una variable cuantitativa variables discretas o continuas (peso del oso).

    534.png

    Figura 5. Comparación de un gráfico de barras para datos cualitativos y un histograma para datos cuantitativos.

    En ambos casos, el ancho igual de las barras y el eje y están claramente definidos. Con datos cualitativos, cada categoría está representada por una barra específica. Con datos continuos, los límites de clase inferior y superior deben definirse con anchos de clase iguales. No debe haber brechas entre clases y cada observación debe caer en una, y sólo una, clase.

    Parcelas de caja

    Las gráficas de caja utilizan el resumen de 5 números (valores mínimo y máximo con los tres cuartiles) para ilustrar el centro, la dispersión y la distribución de sus datos. Cuando se emparejan con histogramas, dan una excelente descripción, tanto numérica como gráfica, de los datos.

    Con datos simétricos, la distribución es acampanada y algo simétrica. En la gráfica de caja, vemos que Q1 y Q3 son aproximadamente equidistantes de la mediana, al igual que los valores mínimo y máximo. Además, ambos bigotes (líneas que se extienden desde las cajas) son aproximadamente iguales en longitud.

    012_2.tif

    012_1.tif

    Figura 6. Histograma y diagrama de caja de una distribución normal.

    Con distribuciones sesgadas a la izquierda, vemos que el histograma parece “tirado” hacia la izquierda. En la gráfica de caja, Q1 está más lejos de la mediana al igual que los valores mínimos, y el bigote izquierdo es más largo que el bigote derecho.

    013_2.tif

    Figura 7. Histograma y diagrama de caja de una distribución sesgada a la izquierda.

    013_1.tif

    Con distribuciones derechas sesgadas, vemos que el histograma parece “tirado” a la derecha. En la gráfica de caja, Q3 está más lejos de la mediana, al igual que el valor máximo, y el bigote derecho es más largo que el bigote izquierdo.

    014_2.tif

    014_1.tif

    Figura 8. Histograma y diagrama de caja de una distribución derecha sesgada.


    This page titled 1.1: Estadística Descriptiva is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Diane Kiernan (OpenSUNY) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.