Saltar al contenido principal
LibreTexts Español

6.3: Clasificación de datos

  • Page ID
    88805
    • Anonymous
    • LibreTexts

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    Objetivos de aprendizaje

    • El objetivo de esta sección es describir las metodologías disponibles para analizar datos en diversas clases para su representación visual en un mapa.

    El proceso de clasificación de datos combina datos brutos en clases predefinidas o bins. Estas clases pueden estar representadas en un mapa por algunos símbolos únicos o, en el caso de los mapas de coropletas, por un color o matiz únicos (para más información sobre el color y el tono, consulte la Sección 8.1 “Geoprocesamiento básico con ráster”). Los mapas de coropletas son mapas temáticos sombreados con colores graduados para representar alguna variable estadística de interés. Aunque aparentemente sencillo, hay varias metodologías de clasificación diferentes disponibles para un cartógrafo. Estas metodologías desglosan los valores de los atributos a lo largo de varios patrones de intervalo. Monmonier (1991) Monmonier, M. 1991. Cómo mentir con mapas. Chicago: University of Chicago Press. señaló que diferentes metodologías de clasificación pueden tener un gran impacto en la interpretabilidad de un mapa dado ya que el patrón visual presentado se distorsiona fácilmente manipulando los intervalos específicos de la clasificación. Además de la metodología empleada, el número de clases elegidas para representar la característica de interés también afectará significativamente la capacidad del espectador para interpretar la información mapeada. Incluir demasiadas clases puede hacer que un mapa parezca demasiado complejo y confuso. Muy pocas clases pueden simplificar demasiado el mapa y ocultar tendencias de datos importantes. Los intentos de clasificación más efectivos utilizan aproximadamente de cuatro a seis clases distintas.

    Si bien existen problemas potencialmente con cualquier técnica de clasificación, una coropleta bien construida aumenta la interpretabilidad de cualquier mapa dado. En la siguiente discusión se describen los métodos de clasificación comúnmente disponibles en los paquetes de software de sistemas de información geográfica (SIG). En estos ejemplos, utilizaremos la estadística de población de la Oficina del Censo de Estados Unidos para los condados estadounidenses en 1997. Estos datos están disponibles gratuitamente en el sitio web del Censo de Estados Unidos (http://www.census.gov).

    El método de clasificación de intervalo igual (o paso igual) divide el rango de valores de atributo en clases de igual tamaño. El número de clases lo determina el usuario. El método de clasificación de intervalos iguales se usa mejor para conjuntos de datos continuos como precipitación o temperatura. En el caso de los datos de la Oficina del Censo de 1997, los valores de población de condados en los Estados Unidos oscilan entre 40 (Yellowstone National Park County, MO) y 9,184,770 (condado de Los Ángeles, CA) para un rango total de 9,184,770 − 40 = 9,184,730. Si decidimos clasificar estos datos en 5 clases de intervalos iguales, el rango de cada clase cubriría una dispersión poblacional de 9,184,730/5 = 1,836,946 (Figura 6.19 “Clasificación de intervalos iguales para 1997 Datos de población del condado de Estados Unidos”). La ventaja del método de clasificación de intervalos iguales es que crea una leyenda que es fácil de interpretar y presentar a una audiencia no técnica. La principal desventaja es que ciertos conjuntos de datos terminarán con la mayoría de los valores de datos cayendo en solo una o dos clases, mientras que pocos o ningún valor ocupará las otras clases. Como puede ver en la Figura 6.19 “Clasificación de intervalos iguales para los datos de población del condado de Estados Unidos de 1997”, casi todos los condados están asignados al primer bin (amarillo).

    Figura 6.19 Clasificación de intervalos iguales para 1997 Datos de población de condados de Estados Unidos

    El método de clasificación cuantil coloca el mismo número de observaciones en cada clase. Este método es el mejor para los datos que se distribuyen uniformemente en su rango. La Figura 6.20 “Cuantiles” muestra el método de clasificación de cuantiles con cinco clases totales. Como hay 3,140 condados en Estados Unidos, cada clase en la metodología de clasificación cuantil contendrá 3,140/5 = 628 condados diferentes. La ventaja de este método es que a menudo sobresale por enfatizar la posición relativa de los valores de los datos (es decir, qué condados contienen el 20 por ciento superior de la población estadounidense). La principal desventaja de la metodología de clasificación de cuantiles es que las entidades ubicadas dentro de la misma clase pueden tener valores muy diferentes, particularmente si los datos no están distribuidos uniformemente en su rango. Además, también puede suceder lo contrario mediante el cual los valores con pequeñas diferencias de rango se pueden colocar en diferentes clases, lo que sugiere una diferencia más amplia en el conjunto de datos de lo que realmente existe.

    Figura 6.20 Cuantiles

    El método de clasificación natural breaks (o Jenks) utiliza un algoritmo para agrupar valores en clases que están separadas por distintos puntos de ruptura. Este método se usa mejor con datos que están distribuidos de manera desigual pero no sesgados hacia ninguno de los extremos de la distribución. La Figura 6.21 “Natural Breaks” muestra la clasificación de roturas naturales para los datos de densidad poblacional de los condados estadounidenses de 1997. Una desventaja potencial es que este método puede crear clases que contienen rangos numéricos ampliamente variables. En consecuencia, la clase 1 se caracteriza por un rango de poco más de 150,000, mientras que la clase 5 se caracteriza por un rango de más de 6,000,000. En casos como este, a menudo es útil “ajustar” las clases siguiendo el esfuerzo de clasificación o cambiar las etiquetas a alguna escala ordinal como “pequeña, mediana o grande”. Este último ejemplo, en particular, puede dar como resultado un mapa que sea más comprensible para el espectador. Una segunda desventaja es el hecho de que puede ser difícil comparar dos o más mapas creados con el método de clasificación de roturas naturales porque los rangos de clases son muy específicos para cada conjunto de datos. En estos casos, los datasets que pueden no ser demasiado dispares pueden aparecer así en el gráfico de salida.

    Figura 6.21 Roturas naturales

    Finalmente, el método de clasificación de desviación estándar forma cada clase sumando y restando la desviación estándar de la media del conjunto de datos. El método es el más adecuado para ser utilizado con datos que se ajustan a una distribución normal. En el ejemplo de población de condado, la media es de 85,108 y la desviación estándar es de 277,080. Por lo tanto, como puede verse en la leyenda de la Figura 6.22 “Desviación Estándar”, la clase central contiene valores dentro de una desviación estándar de 0.5 de la media, mientras que las clases superior e inferior contienen valores que son 0.5 o más desviaciones estándar por encima o por debajo de la media, respectivamente.

    Figura 6.22 Desviación estándar

    En conclusión, existen varias metodologías viables de clasificación de datos que se pueden aplicar a los mapas de coropletas. Aunque hay otros métodos disponibles (por ejemplo, área igual, óptima), los descritos aquí representan los más utilizados y ampliamente disponibles. Cada uno de estos métodos presenta los datos de una manera diferente y destaca diferentes aspectos de las tendencias en el conjunto de datos. De hecho, la metodología de clasificación, así como el número de clases utilizadas, pueden resultar en interpretaciones muy variadas del conjunto de datos. Le corresponde a usted, el cartógrafo, seleccionar el método que mejor se adapte a las necesidades del estudio y presente los datos de la manera más significativa y transparente posible.

    Conclusiones clave

    • Los mapas de coropletas son mapas temáticos sombreados con colores graduados para representar alguna variable estadística de interés.
    • Cuatro métodos para clasificar los datos presentados aquí incluyen intervalos iguales, cuartil, roturas naturales y desviación estándar. Estos métodos transmiten ciertas ventajas y desventajas a la hora de visualizar una variable de interés.

    EJERCICIOS

    1. Dados los mapas de coropletas que se presentan en este capítulo, ¿cuál crees que representa mejor el conjunto de datos? ¿Por qué?
    2. Conéctese y describa otros dos métodos de clasificación de datos disponibles para los usuarios de SIG.
    3. Para la tabla de treinta valores de datos creada en la Sección 6.1 “Descripciones y Resúmenes”, Ejercicio 1, determina los rangos de datos para cada clase como si estuvieras creando esquemas de clasificación de intervalos iguales y cuantiles.

    This page titled 6.3: Clasificación de datos is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Anonymous.