Saltar al contenido principal
LibreTexts Español

6.1: Descripciones y Resúmenes

  • Page ID
    88804
    • Anonymous
    • LibreTexts

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    Objetivos de aprendizaje

    • El objetivo de esta sección es revisar las medidas de distribución, tendencia central y dispersión más utilizadas.

    Ninguna discusión sobre el análisis geoespacial estaría completa sin una breve descripción de los conceptos estadísticos básicos. Las estadísticas básicas aquí descritas representan un punto de partida para cualquier intento de describir, resumir y analizar conjuntos de datos geoespaciales. Un ejemplo de un esfuerzo estadístico geoespacial común es el análisis de datos puntuales obtenidos por una serie de pluviómetros modelados a lo largo de una región en particular. Dados estos pluviómetros, se podría determinar la cantidad y variabilidad típica de las precipitaciones en cada estación, así como las precipitaciones típicas en toda la región en su conjunto. Además, se podría interpolar la cantidad de lluvia que cae entre cada estación o el lugar donde se produce la mayor (o menor) precipitación. Además, se podría predecir la cantidad esperada de precipitaciones en el futuro en cada estación, entre cada estación o dentro de la región en su conjunto.

    El aumento del poder computacional en las últimas décadas ha dado lugar a vastos conjuntos de datos que no se pueden resumir fácilmente. Las estadísticas descriptivas proporcionan descripciones numéricas simples de estos grandes conjuntos de datos. Las estadísticas descriptivas tienden a ser análisis univariados, es decir, examinan una variable a la vez. Hay tres familias de estadísticas descriptivas que discutiremos aquí: medidas de distribución, medidas de tendencia central y medidas de dispersión. Sin embargo, antes de profundizar demasiado en diversas técnicas estadísticas, primero debemos definir algunos términos.

    • Variable: un símbolo utilizado para representar cualquier valor dado o conjunto de valores
    • Valor: una observación individual de una variable (en un sistema de información geográfica [SIG] esto también se llama registro)
    • Población: el universo de todos los valores posibles para una variable
    • Muestra: un subconjunto de la población
    • n: el número de observaciones para una variable
    • Array: una secuencia de medidas observadas (en un SIG esto también se llama campo y se representa en una tabla de atributos como columna)
    • Arreglo ordenado: una matriz ordenada y cuantitativa

    Medidas de Distribución

    La medida de distribución de una variable es simplemente un resumen de la frecuencia de valores sobre el rango del conjunto de datos (por lo tanto, esto a menudo se llama distribución de frecuencia). Normalmente, los valores para la variable dada se agruparán en una serie predeterminada de clases (también llamadas intervalos, bins o categorías), y se resumirá el número de valores de datos que caen en cada clase. Un gráfico que muestra el número de valores de datos dentro de cada rango de clases se llama histograma. Por ejemplo, el porcentaje de calificaciones que recibe una clase en un examen puede resultar en la siguiente matriz (n = 30):

    Matriz de calificaciones de exámenes: {87, 76, 89, 90, 64, 67, 59, 79, 88, 74, 72, 99, 81, 77, 75, 86, 94, 66, 75, 74, 83, 100, 92, 75, 73, 70, 60, 80, 85, 57}

    Al colocar esta matriz en una distribución de frecuencias, se deben observar las siguientes pautas generales. En primer lugar, se deben emplear entre cinco y quince clases diferentes, aunque el número exacto de clases depende del número de observaciones. Segundo, cada observación va en una y sólo una clase. En tercer lugar, cuando sea posible, utilizar clases que cubran un rango igual de valores (Freund y Perles 2006) .Freund, J., y B. Perles. 2006. Estadística Primaria Moderna. Englewood Cliffs, NJ: Prentice Hall. Con estas pautas en mente, la matriz de calificaciones del examen mostrada anteriormente se puede visualizar con el siguiente histograma (Figura 6.1 “Histograma que muestra la distribución de frecuencias de las puntuaciones de los exámenes”).

    Figura 6.1 Histograma que muestra la distribución de frecuencias de las puntuaciones de los exámenes

    Como puede ver en el histograma, ciertas observaciones descriptivas se pueden hacer fácilmente. La mayoría de los alumnos recibieron una C en el examen (70—79). Dos alumnos reprobaron el examen (50—59). Cinco estudiantes recibieron una A (90-99). Tenga en cuenta que este histograma viola la tercera regla básica de que cada clase cubre un rango igual porque una calificación F varía de 0 a 59, mientras que las otras calificaciones tienen rangos de igual tamaño. Independientemente, en este caso nos preocupa más describir la distribución de las calificaciones recibidas durante el examen. Por lo tanto, tiene mucho sentido crear rangos de clase que mejor se adapten a nuestras necesidades individuales.

    Medidas de Tendencia Central

    Podemos explorar más a fondo la matriz de calificaciones del examen aplicando medidas de tendencia central. Hay tres medidas primarias de tendencia central: la media, el modo y la mediana. La media, más comúnmente conocida como la media, es la medida de tendencia central más utilizada. Para calcular la media, simplemente agregue todos los valores de la matriz y divida esa suma por el número de observaciones. Para volver al ejemplo de puntaje de examen de antes, la suma de esa matriz es de 2.340, y hay 30 observaciones (n = 30). Entonces, la media es de 2,340/30 = 78.

    El modo es la medida de la tendencia central que representa el valor que ocurre con mayor frecuencia en la matriz. En el caso de las puntuaciones de los exámenes, la modalidad de la matriz es de 75 ya que ésta fue recibida por la mayor cantidad de alumnos (tres, en total). Finalmente, la mediana es la observación de que, cuando la matriz se ordena de menor a mayor, cae exactamente en el centro de la matriz ordenada. Más específicamente, la mediana es el valor en el medio de la matriz ordenada cuando hay un número impar de observaciones. Alternativamente, cuando hay un número par de observaciones, la mediana se calcula encontrando la media de los dos valores centrales. Si la matriz de puntajes de los exámenes se reordenara en una matriz ordenada, las puntuaciones se enumerarían así:

    Arreglo ordenado de puntuaciones de exámenes: {57, 59, 60, 64, 66, 67, 70, 72, 73, 74, 74, 75, 75, 75, 75, 76, 77, 79, 80, 81, 83, 85, 86, 87, 88, 89, 90, 92, 93, 94, 99}

    Dado que n = 30 en este ejemplo, hay un número par de observaciones. Por lo tanto, se utiliza la media de los dos valores centrales (15 th = 76 y 16 th = 77) para calcular la mediana como se describió anteriormente, resultando en (76 + 77)/2 = 76.5. Tomados en conjunto, la media, el modo y la mediana representan las formas más básicas de examinar las tendencias en un conjunto de datos.

    Medidas de Dispersión

    El tercer tipo de estadística descriptiva son las medidas de dispersión (también denominadas medidas de variabilidad). Estas medidas describen la difusión de datos alrededor de la media. La medida más simple de dispersión es el rango. El rango es igual al valor más grande menos en el conjunto de datos el más pequeño. En nuestro caso, el rango es 99 − 57 = 42.

    El rango intercuartil representa una medida de dispersión ligeramente más sofisticada. Este método divide los datos en cuartiles. Para lograr esto, la mediana se utiliza para dividir la matriz ordenada en dos mitades. Estas mitades se dividen nuevamente en mitades por su propia mediana. El primer cuartil (Q1) es la mediana de la mitad inferior de la matriz ordenada y también se conoce como el cuartil inferior. Q2 representa la mediana. Q3 es la mediana de la mitad superior de la matriz ordenada y se conoce como el cuartil superior. La diferencia entre el cuartil superior e inferior es el rango intercuartil. En el ejemplo de puntuación del examen, Q1 = 72.25 y Q3 = 86.75. Por lo tanto, el rango intercuartil para este conjunto de datos es 86.75 − 72.25 = 14.50.

    Una tercera medida de dispersión es la varianza (s 2). Para calcular la varianza, restar el valor bruto de cada puntaje de examen de la media de las calificaciones del examen. Como puedes adivinar, algunas de las diferencias serán positivas, y otras serán negativas, resultando en que la suma de diferencias sea igual a cero. A medida que nos interesa más la magnitud de las diferencias (o desviaciones) de la media, un método para superar esta propiedad de “puesta a cero” es cuadrar cada desviación, eliminando así los valores negativos de la salida (Figura 6.2). Esto da como resultado lo siguiente:

    Figura 6.2

    Luego dividimos la suma de cuadrados entre n − 1 (en el caso de trabajar con una muestra) o n (en el caso de trabajar con una población). Como las puntuaciones de los exámenes que aquí se dan representan a toda la población de la clase, emplearemos la Figura 6.3 “Varianza”, lo que resulta en una varianza de s 2 = 116.4. Si quisiéramos utilizar estos puntajes de exámenes para extrapolar información sobre el cuerpo estudiantil más grande, estaríamos trabajando con una muestra de la población. En ese caso, dividiríamos la suma de cuadrados por n − 1.

    Figura 6.3 Varianza

    La desviación estándar, la medida final de dispersión discutida aquí, es la medida de dispersión más utilizada. Para compensar la cuadratura de cada diferencia a partir de la media realizada durante el cálculo de la varianza, la desviación estándar toma la raíz cuadrada de la varianza. Como se determina a partir de la Figura 6.4 “Desviación Estándar”, nuestro ejemplo de puntaje de examen da como resultado una desviación estándar de s = SQRT (116.4) = 10.8.

    Figura 6.4 Desviación estándar

    El cálculo de la desviación estándar nos permite hacer algunas inferencias notables sobre la dispersión de nuestro conjunto de datos. Una pequeña desviación estándar sugiere que los valores en el conjunto de datos se agrupan alrededor de la media, mientras que una gran desviación estándar sugiere que los valores están ampliamente dispersos alrededor de la media. Se pueden hacer inferencias adicionales sobre la desviación estándar si el conjunto de datos se ajusta a una distribución normal. Una distribución normal implica que los datos, cuando se colocan en una distribución de frecuencia (histograma), se ven simétricos o “en forma de campana”. Cuando no es “normal”, se dice que la distribución de frecuencia del conjunto de datos está positiva o negativamente “sesgada” (Figura 6.5 “Histogramas de conjuntos de datos normalmente curvos, sesgados positivamente y sesgados negativamente”). Los datos sesgados son aquellos que mantienen valores que no son simétricos alrededor de la media. Independientemente, los datos normalmente distribuidos mantienen la propiedad de tener aproximadamente 68 por ciento de los valores de los datos caen dentro de ± 1 desviación estándar de la media, y 95 por ciento del valor de los datos caen dentro de ± 2 desviaciones estándar de la media. En nuestro ejemplo, la media es 78, y la desviación estándar es 10.8. Por lo tanto, se puede afirmar que 68 por ciento de los puntajes caen entre 67.2 y 88.8 (es decir, 78 ± 10.8), mientras que 95 por ciento de los puntajes caen entre 56.4 y 99.6 (es decir, 78 ± [10.8 * 2]). Para conjuntos de datos que no se ajustan a la curva normal, se puede suponer que el 75 por ciento de los valores de los datos se encuentran dentro de ± 2 desviaciones estándar de la media.

    Figura 6.5 Histogramas de conjuntos de datos normalmente curvos, sesgados positivamente y sesgados negativamente

    Conclusiones clave

    • La medida de distribución para una variable dada es un resumen de la frecuencia de valores sobre el rango del conjunto de datos y se muestra comúnmente usando un histograma.
    • Las medidas de tendencia central intentan proporcionar información sobre el valor “típico” de un conjunto de datos.
    • Las medidas de dispersión (o variabilidad) describen la dispersión de los datos alrededor de la media o mediana.

    Ejercicios

    1. Crear una tabla que contenga al menos treinta valores de datos.
    2. Para la tabla que creó, calcule la media, el modo, la mediana, el rango, el rango intercuartil, la varianza y la desviación estándar.

    This page titled 6.1: Descripciones y Resúmenes is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Anonymous.