Saltar al contenido principal
LibreTexts Español

1.7: Evaluación de la precisión

  • Page ID
    89336
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)

    Una vez que hemos producido una clasificación de cobertura terrestre (u otra) a partir de una imagen de teledetección, una pregunta obvia es “¿qué tan preciso es ese mapa?” Es importante responder a esta pregunta porque queremos que los usuarios del mapa tengan una cantidad adecuada de confianza en él. Si el mapa es perfecto, queremos que la gente sepa esto para que puedan obtener la máxima cantidad de uso de él. Y si el mapa no es más exacto que hubiera sido una asignación aleatoria de clases a píxeles, también queremos que la gente lo sepa, para que no lo usen para nada (excepto tal vez colgarlo en la pared o mostrárselo a los alumnos como ejemplo de lo que no se debe hacer...).

    El tema de la evaluación de la precisión también va más allá de las clasificaciones a mapas de variables continuas, como la temperatura superficial de la Tierra, la concentración de CO 2 cercana a la superficie, la salud de la vegetación u otras variables que vienen en forma de variables continuas en lugar de discretas. Independientemente de lo que muestre tu mapa, querrás que la gente sepa lo bueno que es, cuánto pueden confiar en él. Si bien existen similitudes entre evaluar mapas de variables categóricas y continuas, las medidas específicas utilizadas para cuantificar la precisión son diferentes entre las dos, por lo que en este capítulo trataremos cada una a su vez.

    Evaluación de precisión para clasificaciones

    El principio básico para toda evaluación de precisión es comparar estimaciones con la realidad, y cuantificar la diferencia entre ambas. En el contexto de las clasificaciones de cobertura terrestre basadas en teledetección, las 'estimaciones' son las clases mapeadas para cada píxel, y 'realidad' es la cobertura real del suelo en las áreas correspondientes a cada píxel. Dado que el algoritmo de clasificación ya nos ha proporcionado las 'estimaciones', el primer reto en la evaluación de la precisión es encontrar datos sobre 'realidad'. Dichos datos a menudo se denominan datos de “veracidad sobre el suelo”, y generalmente consisten en observaciones de campo georreferenciadas de la cobertura del suelo. Una técnica que a menudo se usa es ir físicamente al área de estudio con un GPS y una cámara, y tomar fotos georreferenciadas que a su vez permiten determinar visualmente la cobertura del suelo a partir de cada foto. Debido a que las personas pueden distinguir visualmente entre diferentes tipos de cobertura terrestre con gran precisión, se puede considerar razonablemente que dichos datos representan 'realidad'. En muchos casos, sin embargo, el término 'verdad fundamental' sobrevende la precisión de este tipo de información. La gente puede ser buena para distinguir entre 'desierto' y 'bosque' en una foto, pero claramente son menos buenas para distinguir entre 'bosque de alta densidad' y 'bosque de densidad media'. Especialmente si la diferencia entre dos clases se basa en el porcentaje de cobertura (por ejemplo, la diferencia entre bosques de densidad media y alta densidad puede ser si los árboles cubren más o menos del 50% de la superficie) las observaciones de campo pueden no siempre conducir a una descripción perfecta de la realidad. Por lo tanto, muchos científicos de teledetección prefieren el término 'datos de validación', sugiriendo que estos datos son apropiados como base para la comparación con clasificaciones basadas en teledetección, al tiempo que reconocen el potencial de que no corresponden perfectamente a la 'verdad'.

    Creación de datos de validación

    Si quieres producir una evaluación honesta e imparcial de la exactitud de tu mapa de cobertura terrestre (¡y supongo que sí!) , hay un par de cosas a considerar al crear su conjunto de datos de validación:

    • Debes tener datos de validación que cubran todas las diferentes clases de cobertura del suelo en tu mapa. Si no lo haces realmente solo podrás evaluar la exactitud de las partes del mapa cubiertas por las clases para las que tienes datos.
    • También deberías tener datos de validación que se distribuyan aleatoriamente (o más o menos uniformemente) a lo largo de tu área de estudio. Para producir un conjunto de datos de validación que cubra todas las clases y tenga una buena distribución espacial en su área de estudio, a menudo se usa una selección aleatoria estratificada de puntos de validación (es decir, incluyendo un número de puntos de cada clase, con esos puntos pertenecientes a cada clase distribuidos aleatoriamente dentro de el área cubierta por esa clase).
    • El número de puntos de datos utilizados para cada clase debe ser el mismo, o debe reflejar la extensión relativa de cada clase en su mapa. El primer enfoque es el más adecuado si quieres comparar clases y averiguar cuáles se mapean mejor que otras. Este último enfoque es el más adecuado si desea producir una sola estimación de precisión para todo el mapa.
    • Cuantos más datos de validación, mejor. Sin embargo, crear datos de validación puede llevar tiempo y dinero, por lo que obtener “suficientes” datos suele ser un objetivo razonable. Existen reglas generales sobre lo que constituye datos “suficientes” (por ejemplo, 50 por clase), pero hay muchas excepciones a esas reglas.

    Si utilizas observaciones de campo para crear tus datos de validación, es importante recordar que los datos de validación deben ser comparables a las clases derivadas de tu imagen, de varias maneras:

    • Las definiciones utilizadas para cada clase deben ser las mismas entre la clasificación y los datos de validación. Por ejemplo, si en tu clasificación consideraste que un 'cuerpo de agua' tiene al menos 0.1 km 2 de tamaño, debes tenerlo en cuenta a medida que creas tus datos de validación, así que cuando vas al campo y uno de tus puntos de datos está en un charco no lo consideras un 'cuerpo de agua' sino que descubres cuál es la cobertura terrestre alrededor del charco.
    • Relacionado con el punto anterior, tenga en cuenta la resolución espacial de la imagen utilizada para producir su clasificación. Si ha basado su clasificación en imágenes Landsat (TM, ETM+, OLI) sin nitidez panorámica, cada píxel corresponde a un área de aproximadamente 30 x 30 metros en el suelo. Entonces, cuando vas al campo, deberías estar documentando la cobertura terrestre dominante en áreas de 30 x 30 metros, en lugar de la cobertura terrestre en las coordenadas exactas del punto de datos.

    Un enfoque alternativo para crear datos de validación, útil cuando se va al área de estudio y la recolección de observaciones de campo es demasiado costoso, es la inspección visual de imágenes de teledetección de alta resolución. Si eliges este enfoque, tienes que estar seguro de que puedes distinguir visualmente todas las diferentes clases, de la imagen, con alta precisión. Las personas a veces usan imágenes de Google Earth para la validación, o utilizan la interpretación visual de la misma imagen utilizada para la clasificación. Esta última opción parece un poco circular — como en '¿por qué usar un clasificador en primer lugar, si puedes asignar con confianza clases basadas en la interpretación visual de la imagen?' Sin embargo, la interpretación visual puede ser completamente apropiada para definir con precisión la cobertura del suelo para una serie de puntos de datos de validación, mientras que hacer la interpretación visual de una imagen completa podría ser una tarea enormemente intensiva en mano de obra. Las mismas consideraciones descritas en las viñetas anteriores aplican si los datos de validación se crean utilizando observaciones de campo de interpretación visual de imágenes.

    Un nuevo enfoque interesante para crear datos de validación es utilizar fotos geoetiquetadas disponibles públicamente, como las disponibles a través de Flickr u otros sitios donde las personas comparten sus fotos. Especialmente para ciudades y sitios turísticos populares, Internet contiene un vasto repositorio de fotos geoetiquetadas que pueden ser utilizadas por cualquier persona como observaciones de campo. Sin embargo, se necesita cierto control de calidad, ya que no todas las fotos disponibles en línea se geoetiquetan automáticamente con GPS (algunas se 'geoetiquetan' manualmente cuando se publican en línea), y la mayoría de las fotos muestran las condiciones de cobertura del suelo en un momento diferente de cuando se adquirió la imagen de detección remota (por ejemplo, invierno vs verano).

    La matriz de confusión

    Una vez que haya creado un conjunto de datos de validación en los que confíe, puede utilizar su georreferencia para emparejarlos con la cobertura terrestre correspondiente mapeada en la clasificación. Se puede pensar en la comparación resultante como una tabla que se ve algo así:

    Cuadro 5: Comparación de estimaciones derivadas de un algoritmo de clasificación (izquierda) con datos de validación (derecha).

    Cobertura terrestre cartografiada (estimación)

    Datos de validación (realidad)

    Bosque

    Bosque

    Agua

    Agua

    Bosque

    Pastizales

    Pastizales

    Pastizales

    Pastizales

    Suelo desnudo

    Suelo desnudo

    Suelo desnudo

    ...

    ...

    Con muchos puntos de datos de validación, se requiere un método para resumir toda esta información, y en la teledetección el método que se usa universalmente, y ha sido desde hace décadas, se llama la matriz de confusión (también llamada 'matriz de errores' o 'tabla de contingencia'). Usando las cuatro clases enumeradas en el ejemplo anterior, el marco de la matriz de confusión se vería así:

    Cuadro 6: Ejemplo de una matriz de confusión, antes de que se hayan ingresado valores.

    Datos de validación

    Clase

    Bosque

    Agua

    Pastizales

    Suelo desnudo

    Total

    Clasificación

    Bosque

    Agua

    Pastizales

    Suelo desnudo

    Total

    Al leer a lo largo de las filas, cada línea le dice cuáles son en realidad los píxeles clasificados en una clase dada según los datos de validación. Al leer a lo largo de las columnas, cada columna le dice en qué se clasificaron los datos de validación conocidos por ser una clase determinada. Por ejemplo:

    Cuadro 7: Matriz de confusión con valores ingresados.

    Datos de validación

    Clase

    Bosque

    Agua

    Pastizales

    Suelo desnudo

    Total

    Clasificación

    Bosque

    56

    0

    4

    2

    62

    Agua

    1

    67

    1

    0

    69

    Pastizales

    5

    0

    34

    7

    46

    Suelo desnudo

    2

    0

    9

    42

    53

    Total

    64

    67

    48

    51

    230

    Al leer a lo largo de las filas, la tabla anterior indica que 56 píxeles clasificados como 'bosque' también se consideraron 'bosque' en los datos de validación, que 0 píxeles clasificados como 'bosque' se consideraron 'agua' en los datos de validación, 4 píxeles clasificados como 'bosque' se consideraron 'pastizales' en los datos de validación, y 2 píxeles clasificados como 'bosque' fueron considerados 'suelo desnudo' en los datos de validación, para un total de 62 píxeles clasificados como bosque. Y así sucesivamente.

    Usuario, productor y precisión general

    Utilizando la información de la matriz de confusión, podemos encontrar respuestas a preguntas razonables sobre la exactitud del mapa de cobertura terrestre producido con la clasificación. Hay tres tipos de preguntas que normalmente se hacen y responden con la matriz de confusión.

    La precisión del usuario responde a una pregunta del siguiente tipo: 'Si tengo tu mapa, y voy a un píxel que tu mapa muestra como clase 'x', ¿qué probabilidad tengo de encontrar allí la clase 'x'? ' Usando el ejemplo de 'pastizal' de la tabla anterior, podemos ver que un total de 46 píxeles clasificados como 'pastizales' fueron verificados contra los datos de validación. De esos 46 píxeles, 34 fueron considerados como 'pastizales' en los datos de validación. Es decir, 34 píxeles, de los 46 píxeles clasificados como 'pastizales' son en realidad 'pastizal'. 34 de 46 es 74%, por lo que la precisión del usuario de la clasificación, para la clase 'pastizal', es 74%. Las precisiones de los usuarios varían entre clases, ya que algunas clases son más fáciles de distinguir del resto que otras clases. Las características del agua tienden a ser fáciles de mapear porque son oscuras y azuladas y no muchas características que se encuentran en tierra se parecen a ellas. En el ejemplo anterior, la precisión del usuario para la clase 'agua' es 67 de 69, o 97%.

    La precisión del productor responde a una pregunta del siguiente tipo: 'Si un área es realmente clase 'x', ¿qué tan probable es que también se haya mapeado como tal? ' Nuevamente usando el ejemplo de 'pastizales', vemos que un total de 48 puntos de datos de validación fueron considerados como 'pastizales', y 34 de ellos también se clasificaron como tales. 34 de 48 es 71%, por lo que la precisión del productor para la clase 'pastizales' es 71%.

    Si bien las precisiones de usuario y productor se centran en clases individuales, la precisión general responde a la siguiente pregunta: '¿Qué proporción del mapa se clasifica correctamente?' , que a menudo se puede interpretar simplemente como '¿qué tan preciso es el mapa?'. Al observar los valores en la diagonal de la matriz de confusión en el ejemplo anterior, vemos que 56 píxeles se consideraron 'bosque' en los datos de validación y también se habían clasificado como 'bosque', y vemos números similares de 67 para 'agua', 34 para 'pastizales' y 42 para 'suelo desnudo'. Estos suman hasta 56+67+34+42=199, de un total de 230 píxeles en el conjunto de datos de validación. 199 de 230 es 87%, por lo que con base en los datos de validación estimamos que 87% del mapa está clasificado correctamente.

    La precisión general debe ser reportada con cuidado, como lo ilustrará el siguiente ejemplo. Imagínese que la imagen que utilizó para la clasificación cubría una zona costera, y la vía suborbital del satélite había sido un poco off-shore, por lo que 80% de la imagen estaba cubierta por 'agua'. El 20% restante de la imagen estaba cubierto por 'suelo desnudo' o 'vegetación'. Si reflejaste esta distribución desigual en la creación de tus datos de validación, el 80% de tus datos de validación serían sobre el agua, y dado que el agua es relativamente fácil de distinguir de los otros tipos de superficie, tu matriz de confusión podría verse así:

    Cuadro 8: Otro ejemplo de una matriz de confusión. Tenga en cuenta el número muy diferente de puntos de validación utilizados para cada clase.

    Datos de validación

    Clase

    Agua

    Vegetación

    Suelo desnudo

    Total

    Clasificación

    Agua

    82

    1

    0

    83

    Vegetación

    0

    12

    2

    14

    Suelo desnudo

    0

    2

    9

    11

    Total

    82

    15

    11

    108

    Si bien las precisiones de usuario y productor para 'vegetación' y 'suelo desnudo' no son impresionantes en este escenario, como se esperaba el 'agua' se ha clasificado casi a la perfección. El dominio de los píxeles 'agua' influye en el cálculo de la precisión general, que termina en 82+12+9=103 de 108, una precisión global del 95%. Si el propósito del mapa es averiguar dónde está la costa, o algo más que realmente solo requiera separar el agua de la tierra, esto podría ser aceptable como estimación de lo bueno que es el mapa. Pero si ha hecho el mapa para una agencia de gobierno local encargada de monitorear la vegetación costera, la precisión general del 95% puede proporcionar falsamente la idea de que el mapa debe usarse con confianza para ese propósito, lo que requerirá en gran medida separar la 'vegetación' del 'suelo desnudo'.

    En general, siempre y cuando informe a) cómo produjo el mapa, b) cómo produjo los datos de validación, y c) toda la matriz de confusión junto con cualquier medida de precisión adicional derivada de ella, un lector inteligente podrá juzgar si el mapa es apropiado para un propósito determinado, o no.

    Evaluación de precisión para clasificaciones cuando solo está tratando de mapear una cosa

    Un caso especial de evaluación de precisión se presenta cuando se está haciendo un mapa de un tipo de objeto, como casas, piscinas, etc. Si bien esto sigue siendo raro en la teledetección, cada vez es más necesario con el análisis de imágenes basado en objetos, que es un medio efectivo para mapear tipos de objetos específicos. Vamos a usar las piscinas como ejemplo. Imagine que ha creado un flujo de trabajo de análisis de imágenes basado en objetos que toma una imagen satelital de alta resolución e intenta detectar todas las piscinas del área cubierta por la imagen. El producto de ese flujo de trabajo es un conjunto de polígonos que describe todas las piscinas identificadas en la imagen. De igual manera, tus datos de validación consisten en un conjunto de polígonos que delinean todas las piscinas identificadas manualmente en la imagen, para una pequeña parte de la imagen que estás utilizando para la validación. Entonces ahora tienes dos conjuntos de polígonos para comparar, siendo uno tu 'estimación', el otro siendo 'realidad'. Su matriz de confusión se puede configurar para que se vea así (la explicación sigue a continuación):

    Cuadro 9: Matriz de confusión utilizada para calcular la puntuación F1 cuando se evalúa la precisión para la detección de un solo tipo de objetos.

    Datos de validación

    Clase

    Presencia

    Ausencia

    Total

    Clasificación

    Presencia

    TP

    FP

    Precisión = TP/(TP + FP)

    Ausencia

    FN

    Total

    Recordar = TP/(TP + FN)

    En esta tabla, 'presencia' indica la presencia de una piscina (en cualquiera de los dos conjuntos de datos) y la ausencia indica la ausencia de una piscina (también en cualquiera de los dos conjuntos de datos). TP es el número de True Positives — piscinas que existen en los datos de validación, y que fueron identificadas correctamente en tu mapa como piscinas. FP es el número de Presencias Falsas — objeto identificado en tu mapa como piscinas, pero que en realidad son otra cosa. FN es el número de Falsos Negativos — piscinas que existen en la realidad, pero que tu mapa no pudo detectar. Tenga en cuenta que en esta tabla, no hay verdaderos negativos (objetos que en realidad no son piscinas, y tampoco fueron identificados en la imagen como piscinas). Esto se ha omitido porque, en el caso de un análisis de imagen que tiene como objetivo encontrar una sola cosa, no se identifican otros objetos en la imagen, ni en los datos de validación.

    El objetivo de un buen análisis de imagen es, por supuesto, tener un gran número de Presencias Verdaderas, y un pequeño número de Presencias Falsas y un pequeño número de Falsos Negativos. Para cuantificar qué tan bien el análisis de imagen tuvo éxito en esto, el valor calculado típicamente se denomina puntaje F1, que se calcula como: F1 = (2*Precisión*Recall)/(Precisión+Recall). El puntaje F1 tiene la propiedad agradable de tener valores que van desde 0 (peor) hasta 1 (mejor), lo que hace que sea fácil de interpretar.

    Evaluación de precisión para variables continuas

    Al tratar variables continuas, comparar 'estimaciones' y 'realidad' ya no es un caso de verificar si son idénticas o no, porque cuando se miden con suficiente detalle nunca lo son. Por ejemplo, es posible que haya mapeado un píxel con una temperatura de superficie de 31.546 °C mientras que su observación de campo correspondiente dice que en realidad es de 31.543 °C A pesar de que los dos valores no son idénticos, probablemente no querría que eso simplemente se considerara 'sin coincidencia'. En cambio, lo que tenemos que hacer es proporcionar a los usuarios del mapa una idea de cuál es la diferencia típica entre la estimación mapeada y la realidad.

    Creación de datos de validación

    Al igual que al evaluar la precisión de la clasificación, se necesita un conjunto de datos de validación que se consideran que representan la realidad. Estos casi universalmente provienen de mediciones de campo, y es importante recordar que, ya que al evaluar la precisión de las clasificaciones, los datos de validación deben ser comparables a las medidas derivadas de su imagen. Especialmente el tema de la resolución espacial puede ser problemático aquí, porque es difícil realizar mediciones precisas sobre grandes áreas con la mayoría de los equipos de campo. Consideremos el caso de la temperatura superficial, que normalmente se mide con un termómetro infrarrojo de mano (Figura 62).

    Un termómetro infrarrojo (como los termómetros de oído utilizados para verificar si tienes fiebre o no) mide la radiación proveniente de una pequeña área circular de la superficie de la Tierra, donde sea que apunte el termómetro. Los satélites miden esencialmente la misma radiación y estiman la temperatura de la misma manera que un termómetro infrarrojo portátil, excepto que integran la radiación medida sobre un área mayor (100 x 100 metros, en el caso de TIRS en Landsat 8) mientras que la versión portátil mide un área muy pequeña (por ejemplo, 0.5 x 0.5 metros). Debido a que la temperatura de la superficie varía con la humedad del suelo, la cobertura vegetal y el material superficial, entre otras cosas, tomar una medición en campo que sea representativa de la temperatura promedio de la superficie en un área de 100 x 100 m es un desafío casi insuperable en ambientes heterogéneos. Una forma de evitar esto es crear todos sus datos de validación en áreas que sean lo más homogéneas posible, otra es tomar múltiples mediciones y usar valores promedio en cada sitio para producir un solo punto de datos de validación. Sea cual sea su estrategia, hacer coincidir los datos de validación con la resolución espacial de la imagen es esencial para producir una evaluación de precisión significativa.

    imagen

    62: Termómetro infrarrojo de mano del tipo utilizado para medir la temperatura superficial para un área pequeña. Isométrico Médico Digital Termómetro Infrarrojo Sin Contacto Dispositivo de Medición de Temperatura azul blanco de Jernej Furman, Flickr, CC BY 2.0.

    Una vez que se tiene un buen conjunto de datos de validación, la tabla que es la base para la evaluación de precisión es aquella que compara valores numéricos, como en el siguiente ejemplo de biomasa leñosa por ha en un bosque:

    Tabla 10: Ejemplo de tabla utilizada para comparar estimaciones mapeadas de una variable continua con datos de validación de observaciones de campo:

    Biomasa mapeada, toneladas por ha (estimación)

    Biomasa observada, toneladas por ha (realidad)

    10.1

    9.2

    5.7

    4.8

    3.2

    4.0

    6.7

    6.6

    7.8

    7.1

    9.3

    9.1

    ...

    ...

    Una de las primeras cosas que podemos cuantificar con este tipo de datos es si las estimaciones mapeadas suelen ser subestimadas o sobreestimadas, cuando se comparan con los datos de validación. Si este es el caso, el flujo de trabajo (algoritmo) que produjo las estimaciones se considera sesgado, y revisarlo puede estar en orden. El sesgo se puede calcular como el error medio, es decir, el valor medio de la estimación menos la validación. Podemos calcular eso actualizando la Tabla 10 para llegar a la Tabla 11:

    Cuadro 11: El sesgo se calcula como el error medio de las estimaciones.

    Biomasa mapeada, toneladas por ha (estimación)

    Biomasa observada, toneladas por ha (realidad)

    Error

    (estimación — realidad)

    10.1

    9.2

    0.9

    5.7

    4.8

    0.9

    3.2

    4.0

    -0.8

    6.7

    6.6

    0.1

    7.8

    7.1

    0.7

    9.3

    9.1

    0.2

    ...

    ...

    Error medio:

    0.33

    En el Cuadro 11, podemos ver que las estimaciones tienen un error medio de 0.33. Es decir, en promedio las estimaciones de biomasa en nuestro mapa sobreestiman la realidad en 0.33 toneladas por ha. Esto puede o no garantizar refinar el algoritmo utilizado para producir las estimaciones, pero al menos es algo que vale la pena informar a los usuarios potenciales del mapa de biomasa que contiene las sobreestimaciones.

    Otra cosa crucial a cuantificar es lo equivocadas que suelen ser las estimaciones. Esto es importante porque se puede imaginar tener un mapa imparcial que sobreestima severamente la biomasa en una parte y la subestima severamente en otras partes. ¡Un mapa así, imparcial, seguiría estando equivocado en todas partes! La forma más sencilla de reportarlo es usando el Error Medio Absoluto, como se muestra en la Tabla 12:

    Cuadro 12: El Error Absoluto Medio (MAE) se reporta típicamente para mostrar qué tan 'preciso' es el mapa.

    Biomasa mapeada, toneladas por ha (estimación)

    Biomasa observada, toneladas por ha (realidad)

    Error

    (estimación — realidad)

    Error Absoluto

    10.1

    9.2

    0.9

    0.9

    5.7

    4.8

    0.9

    0.9

    3.2

    4.0

    -0.8

    0.8

    6.7

    6.6

    0.1

    0.1

    7.8

    7.1

    0.7

    0.7

    9.3

    9.1

    0.2

    0.2

    ...

    ...

    Error absoluto medio:

    0.6

    El MAE te dice qué diferencia debes esperar entre la estimación y la realidad, pero no si esta diferencia toma la forma de una sobreestimación o una subestimación. Como la mayoría de los algoritmos utilizados para mapear variables continuas son muy efectivos para minimizar el sesgo, el MAE se usa a menudo para comparar diferentes enfoques para mapear una variable continua, considerando el enfoque que conduce al MAE más bajo como el “mejor”.

    Una medida alternativa de 'precisión' para variables continuas es el Error Cuadrado Medio Raíz (RMSE), el cual se calcula como en la Tabla 13:

    Cuadro 13: Cálculo del Error Cuadrático Medio Raíz.

    Biomasa mapeada, toneladas por ha (estimación)

    Biomasa observada, toneladas por ha (realidad)

    Error

    (estimación — realidad)

    Error al cuadrado

    10.1

    9.2

    0.9

    0.81

    5.7

    4.8

    0.9

    0.81

    3.2

    4.0

    -0.8

    0.64

    6.7

    6.6

    0.1

    0.01

    7.8

    7.1

    0.7

    0.49

    9.3

    9.1

    0.2

    0.04

    ...

    ...

    Error cuadrático medio:

    0.47

    Error cuadrático medio de raíz:

    0.68

    El RMSE es mayor que el MAE (o igual a él, en casos extremadamente raros) ya que pesa más errores grandes en su cálculo. Los algoritmos que evitan errores grandes se benefician así cuando se comparan usando el RMSE, mientras que los algoritmos que a menudo tienen errores muy bajos pero ocasionalmente tienen errores muy grandes no lo hacen.

    Finalmente, otro valor que normalmente se reporta al mapear la variable continua es el coeficiente de determinación, o R2, que indica cuánta varianza en los valores de los datos de validación ('realidad') es predecible a partir de las estimaciones.

    Si bien es importante entender por qué y cómo informar sobre la exactitud de cualquier mapa que produzca, en términos prácticos es más fácil de lo que podría parecer en los apartados anteriores. La mayoría del software utilizado para el procesamiento de imágenes tiene funciones integradas para la evaluación de la precisión y, a menudo, incluso proporciona funcionalidad para ayudarlo a crear los datos de validación. Si el software que usas no te permite calcular una medida específica (por ejemplo, el MAE, o la puntuación F1), probablemente te ayudará a exportar los datos necesarios a un archivo que se lee fácilmente en Excel, R o cualquier otro software con el que estés familiarizado y puedas usar para hacer el resto de los cálculos manualmente.


    This page titled 1.7: Evaluación de la precisión is shared under a CC BY 4.0 license and was authored, remixed, and/or curated by Anders Knudby (eCampus Ontario) .