Saltar al contenido principal
LibreTexts Español

5.4: Calidad de los datos

  • Page ID
    88787
    • Anonymous
    • LibreTexts

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    Objetivos de aprendizaje

    • El objetivo de esta sección es conocer los diferentes tipos de error inherentes a los datasets geoespaciales.

    No todos los datos geoespaciales se crean por igual. La calidad de los datos se refiere a la capacidad de un conjunto de datos dado para satisfacer el objetivo para el que fue creado. Con las voluminosas cantidades de datos geoespaciales que se crean y se sirven a la comunidad cartográfica, los usuarios individuales del sistema de información geográfica (SIG) deben tener cuidado para garantizar que los datos empleados para su proyecto sean adecuados para la tarea en cuestión.

    Dos atributos primarios caracterizan la calidad de los datos. La precisión describe lo cerca que está una medición de su valor real y a menudo se expresa como una probabilidad (por ejemplo, el 80 por ciento de todos los puntos están dentro de +/- 5 metros de sus ubicaciones verdaderas). La precisión se refiere a la varianza de un valor cuando se toman mediciones repetidas. Un reloj puede ser correcto a 1/1000 th de segundo (preciso) pero puede ser 30 minutos lento (no exacto). Como puede ver en la Figura 5.12 “Precisión y Precisión”, los dardos azules son precisos y precisos, mientras que los dardos rojos son precisos pero inexactos.

    Figura 5.12 Exactitud y precisión

    Pueden surgir varios tipos de error cuando no se cumplen los requisitos de precisión y/o precisión durante la captura y creación de datos. La precisión posicional es la probabilidad de que una entidad esté dentro de +/- unidades de su ubicación verdadera en la tierra (precisión posicional absoluta) o su ubicación en relación con otras entidades mapeadas (precisión posicional relativa). Por ejemplo, podría decirse que un esfuerzo de mapeo particular puede resultar en que 95 por ciento de los árboles sean mapeados dentro de +/− 5 pies para su ubicación verdadera (absoluta), o 95 por ciento de los árboles se mapean dentro de +/− 5 pies de su ubicación como se observa en un cuadrángulo digital de cuarto orto (relativo).

    Hablar de error posicional absoluto plantea la pregunta, sin embargo, ¿cuál es exactamente la verdadera ubicación de un objeto? Como se discute en la Figura 5.13 “Relación entre Error Posicional y Escala”. De igual manera, la precisión vertical de no más del 10 por ciento de las elevaciones en un mapa de curvas de nivel deberá tener un error de más de la mitad del intervalo de contorno. Cualquier mapa que no cumpla con estos estándares de precisión horizontal y vertical se considerará inaceptable para su publicación.

    Figura 5.13 Relación entre el error posicional y la escala

    Los errores posicionales surgen a través de múltiples fuentes. El proceso de digitalización de mapas en papel comúnmente introduce tales imprecisiones. Pueden surgir errores al registrar el mapa en el tablero de digitalización. Un mapa en papel puede encogerse, estirarse o romperse con el tiempo, cambiando las dimensiones de la escena. Los errores de entrada creados a partir de puntos digitalizados apresuradamente son comunes. Finalmente, convertir entre sistemas de coordenadas y transformar entre puntos de datos también puede introducir errores en el conjunto de datos.

    El error cuadrático medio (RMS) se utiliza frecuentemente para evaluar el grado de inexactitud en un mapa digitalizado. Esta estadística mide la desviación entre las ubicaciones reales (verdaderas) y estimadas (digitalizadas) de los puntos de control. La Figura 5.14 “Error potencial de digitalización” ilustra las imprecisiones de las líneas que representan los tipos de suelo que resultan de los errores de ubicación del punto de control de entrada. Al aplicar un cálculo de error RMS al conjunto de datos, se podría determinar la precisión del mapa digitalizado y así determinar su idoneidad para su inclusión en un estudio determinado.

    Figura 5.14 Posible error de digitalización

    Los errores posicionales también pueden surgir cuando las entidades que se van a mapear son inherentemente vagas. Tomemos el ejemplo de un humedal (Figura 5.15 “Definiendo un Límite de Humedales”). ¿Qué define un límite de humedal? Los humedales están determinados por una combinación de factores hidrológicos, vegetativos y edáficos. Si bien el Cuerpo de Ingenieros del Ejército de Estados Unidos se encarga actualmente de definir el límite de los humedales en todo el país, esta tarea no es tan sencilla como puede parecer. En particular, las diferencias regionales en las características de un humedal hacen que delinear estas características sea particularmente problemático. Por ejemplo, la definición de un límite de humedal para los humedales ribereños en el este de Estados Unidos, donde el agua es abundante, a menudo es inútil al delinear tipos similares de humedales en el desierto suroeste de Estados Unidos. En efecto, la complejidad y confusión asociada con la concepción de lo que es un “humedal” puede resultar en dificultades para definir la característica en el campo, lo que posteriormente conduce a errores de precisión posicional en la base de datos SIG.

    Figura 5.15 Definición de un límite de humedal

    Además de la precisión posicional, la precisión de atributo es una fuente común de error en un SIG. Los errores de atributo pueden ocurrir cuando se registra un valor incorrecto dentro del campo de atributo o cuando a un campo le falta un valor. Las palabras mal escritas y otros errores tipográficos también son comunes. De manera similar, una inexactitud común ocurre cuando los desarrolladores ingresan “0” en un campo de atributo cuando el valor es realmente “nulo”. Esto es común en los datos de conteo donde “0” representaría cero hallazgos, mientras que un “nulo” representaría un lugar donde no se realizó ningún esfuerzo de recolección de datos. En el caso de los valores categóricos, ocasionalmente ocurren imprecisiones cuando los atributos están mal etiquetados. Por ejemplo, un mapa de uso del tierra/cobertura del suelo puede incluir un polígono como “agrícola” cuando es, de hecho, “residencial”. Esto es particularmente cierto si el conjunto de datos está desactualizado, lo que nos lleva a nuestra siguiente fuente de error.

    La precisión temporal aborda la edad o la puntualidad de un conjunto de datos. Ningún conjunto de datos es completamente actual. En el tiempo que lleva crear el conjunto de datos, ya se ha vuelto obsoleto. Independientemente, hay varias fechas a tener en cuenta al usar un conjunto de datos. Estas fechas deben encontrarse dentro de los metadatos. La fecha de publicación te indicará cuándo se creó y/o liberó el conjunto de datos. La fecha del campo relaciona la fecha y hora en que se recolectaron los datos. Si el conjunto de datos contiene alguna predicción futura, también debe haber un período y/o fecha de pronóstico. Para abordar la precisión temporal, muchos datasets se someten a un régimen regular de actualización de datos. Por ejemplo, el Departamento de Pesca y Caza de California actualiza sus bases de datos de especies sensibles casi mensualmente a medida que continuamente se realizan nuevos hallazgos. Es importante asegurarse de que, como usuario final, esté constantemente utilizando los datos más actualizados para su aplicación SIG.

    El cuarto tipo de precisión en un SIG es la consistencia lógica. La consistencia lógica requiere que los datos sean topológicamente correctos. Por ejemplo, ¿un segmento de flujo de un shapefile de línea se encuentra dentro de la llanura aluvial del shapefile polígono correspondiente? ¿Las carreteras conectan en los nodos? ¿Todas las conexiones y flujos apuntan en la dirección correcta en una red? En lo que respecta a la última pregunta, el autor estaba utilizando recientemente una aplicación de teléfono inteligente sin nombre para navegar por una transitada calzada de la ciudad y se le dijo dos veces que girara la dirección equivocada por calles de un solo sentido. Así que ten cuidado, los errores en la consistencia lógica pueden llevar a infracciones de tránsito, ¡o peor!

    El tipo final de precisión es la integridad de los datos. Se requiere la inclusión integral de todas las características dentro de la base de datos SIG para garantizar resultados precisos de mapeo. En pocas palabras, todos los datos deben estar presentes para que un conjunto de datos sea preciso. ¿Están representados todos los condados del estado? ¿Todos los segmentos de arroyos están incluidos en la red fluvial? ¿Todas las tiendas de conveniencia figuran en la base de datos? ¿En la base de datos solo figuran ciertos tipos de tiendas de conveniencia? En efecto, los datos incompletos conducirán inevitablemente a un análisis incompleto o insuficiente.

    Conclusiones clave

    • Todos los datos geoespaciales contienen errores.
    • La precisión representa lo cerca que está una medición de su valor real, mientras que la precisión se refiere a la varianza de un valor cuando se toman mediciones repetidas.
    • Los cinco tipos de error en un dataset geoespacial están relacionados con la precisión posicional, la precisión de atributos, la precisión temporal, la consistencia lógica y la integridad de los datos.

    EJERCICIOS

    1. ¿Cuáles son los cinco tipos de errores de precisión/precisión asociados a la información geográfica? Proporcione un ejemplo de cada tipo de error.
    2. Según la descripción de la precisión posicional de los límites de los humedales, discuta una entidad de mapa cuyos límites son inherentemente vagos y difíciles de mapear.

    This page titled 5.4: Calidad de los datos is shared under a CC BY-NC-SA 3.0 license and was authored, remixed, and/or curated by Anonymous.