6.4: Reconocimiento de objetos invariantes en el camino “Qué”

Última actualización
Guardar como PDF

Page ID: 122964

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\id}{\mathrm{id}}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\kernel}{\mathrm{null}\,}\)

\( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\)

\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\)

\( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)

\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)

\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vectorC}[1]{\textbf{#1}} \)

\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

El reconocimiento de objetos es la función definitoria de la vía ventral del “qué” del procesamiento visual: identificar lo que estás viendo. Las neuronas en la corteza inferotemporal (IT) pueden detectar objetos enteros, como rostros, autos, etc., sobre una gran región del espacio visual. Esta invarianza espacial (donde la respuesta neuronal sigue siendo la misma o invariante sobre ubicaciones espaciales) es crítica para un comportamiento efectivo en el mundo: los objetos pueden aparecer en todas las ubicaciones diferentes, y necesitamos reconocerlos independientemente de dónde aparezcan. Lograr este resultado es un proceso muy desafiante, uno que ha perplejo a los investigadores de inteligencia artificial (IA) durante mucho tiempo; en los primeros días de la IA, la década de 1960, se pensó con optimismo que el reconocimiento de objetos podría resolverse como un proyecto de investigación de verano, y 50 años después estamos haciendo mucho progreso, pero sigue sin resolverse en el sentido de que la gente sigue siendo mucho mejor que nuestros modelos. Debido a que nuestros cerebros hacen reconocimiento de objetos sin esfuerzo todo el tiempo, realmente no apreciamos lo difícil que es un problema.

Figura\(6.10\): Por qué el reconocimiento de objetos es difícil: las cosas que deben clasificarse como iguales (es decir, tienen la misma etiqueta de salida) a menudo no tienen superposición en sus entidades de entrada retinianas cuando aparecen en diferentes ubicaciones, tamaños, etc., pero las cosas que deberían clasificarse como diferentes a menudo tienen niveles altos de solapamiento cuando aparecen en la misma ubicación. Por lo tanto, la estructura de similitud de abajo hacia arriba se opone directamente a la estructura de similitud de salida deseada, lo que dificulta mucho el problema.

La razón por la que el reconocimiento de objetos es tan difícil es que a menudo no puede haber superposición alguna entre las entradas visuales del mismo objeto en diferentes ubicaciones (tamaños, rotaciones, colores, etc), mientras que puede haber altos niveles de superposición entre diferentes objetos en una misma ubicación (Figura 6.10). Por lo tanto, no se puede confiar en la estructura de similitud visual de abajo hacia arriba, sino que a menudo funciona directamente contra la categorización de salida deseada de estos estímulos. Como vimos en el Capítulo de Aprendizaje, el aprendizaje exitoso en esta situación requiere un aprendizaje impulsado por errores, porque el aprendizaje autoorganizado tiende a estar fuertemente impulsado por la estructura de similitud de entrada.

Figura\(6.11\): Esquema de cómo múltiples niveles de procesamiento pueden resultar en el reconocimiento de objetos invariantes, donde un objeto puede ser reconocido en cualquier ubicación a través de la entrada. Cada nivel de procesamiento incrementa incrementalmente la complejidad featural y la invarianza espacial de lo que detecta. Hacer esto de manera incremental permite al sistema unir adecuadamente las características y sus relaciones, al tiempo que construye gradualmente la invarianza espacial general.

Figura\(6.12\): Otra forma de representar la jerarquía de complejidad featural creciente que surge sobre las áreas de las vías visuales ventrales. V1 tiene detectores de características elementales (bordes orientados). A continuación, estos se combinan en cruces de líneas en V2, seguidos de características visuales más complejas en V4. Los rostros individuales se reconocen en el siguiente nivel en TI (incluso en este caso, las unidades faciales múltiples están activas en proporción graduada a la apariencia de las personas). Por último, al más alto nivel se encuentran importantes categorías funcionales “semánticas” que sirven como una buena base para las acciones que uno podría tomar —poder desarrollar categorías de tan alto nivel es crítico para el comportamiento inteligente—, este nivel corresponde a áreas más anteriores de TI.

El enfoque más exitoso del problema de reconocimiento de objetos, que fue defendido inicialmente en un modelo por Fukushima (1980), es resolver de manera incremental dos problemas sobre una secuencia jerárquicamente organizada de capas (Figura 6.11, Figura 6.12):

El problema de la invarianza, al tener cada capa integrada en un rango de ubicaciones (y tamaños, rotaciones, etc) para las entidades en la capa anterior, de tal manera que las neuronas se vuelven cada vez más invariantes a medida que uno se mueve hacia arriba en la jerarquía.
El problema de discriminación de patrones (distinguir una A de una F, por ejemplo), al hacer que cada capa construya combinaciones más complejas de detectores de características, como resultado de detectar combinaciones de las características presentes en la capa anterior, de manera que las neuronas son más capaces de discriminar incluso patrones de entrada similares a medida que uno mueve hacia arriba en la jerarquía.

La visión crítica de estos modelos es que dividir estos dos problemas en pasos jerárquicos incrementales permite al sistema resolver ambos problemas sin que uno cause problemas al otro. Por ejemplo, si tuvieras un detector simple de línea vertical totalmente invariante que respondiera a una línea vertical en cualquier ubicación, sería imposible saber qué relación espacial tiene esta línea con otras entidades de entrada, y esta información de relación es crítica para distinguir diferentes objetos (por ejemplo, una T y L difieren sólo en la relación de los dos elementos de línea). Entonces no se puede resolver el problema de la invarianza en una pasada inicial, y luego tratar de resolver el problema de discriminación de patrones además de eso. Deben estar intercalados, de manera incremental. Del mismo modo, sería completamente poco práctico intentar reconocer patrones de objetos altamente complejos en cada ubicación posible en la entrada visual, y luego simplemente hacer una integración de invarianza espacial sobre ubicaciones después de eso. Hay demasiados objetos diferentes para discriminar, y tendrías que aprender sobre ellos de nuevo en cada ubicación visual diferente. Es mucho más práctico construir de manera incremental una “biblioteca parcial” de características visuales cada vez más invariantes, para que puedas aprender sobre objetos complejos solo hacia la cima de la jerarquía, de una manera que ya es espacialmente invariante y por lo tanto solo necesita aprenderse una vez.

Figura\(6.13\): Resumen de las propiedades de respuesta neuronal en V2, V4 e IT para el mono macaco, de acuerdo tanto a la medida en que las áreas responden a características visuales complejas vs simples (columna Smax/MAX, mostrando cómo se compara la respuesta a entradas visuales simples (Smax) con la respuesta máxima a cualquier imagen de entrada visual probada (MAX), y el tamaño general del campo receptivo visual, sobre el cual las neuronas muestran una respuesta relativamente invariante a las características visuales. Para V2, casi todas las neuronas respondieron al máximo a estímulos simples, y los tamaños de campo receptivo fueron los más pequeños. Para V4, solo 50% de las neuronas tuvieron respuestas simples como respuesta máxima, y los tamaños de campo receptivo aumentan sobre V2. La TI posterior aumenta (ligeramente) en ambas dimensiones, mientras que la TI anterior presenta una respuesta featural casi completamente compleja y campos receptivos significativamente mayores. Estos incrementos incrementales en complejidad e invarianza (tamaño de campo receptivo) son exactamente como lo predice la solución computacional incremental para el reconocimiento de objetos invariantes como se muestra en la figura anterior. Reproducido de Kobatake & Tanaka (1994).

En una convergencia satisfactoria de motivación computacional de arriba hacia abajo y datos de neurociencia de abajo hacia arriba, esta solución jerárquica incremental proporciona un buen ajuste a las propiedades conocidas de las áreas visuales a lo largo de la vía ventral qué (V1, V2, V4, IT). La Figura 6.13 resume los registros neuronales de estas áreas en el mono macaco, y muestra que las neuronas aumentan en la complejidad de los estímulos que impulsan su respuesta, y el tamaño del campo receptivo sobre el que exhiben una respuesta invariante a estos estímulos, a medida que uno avanza hacia arriba del jerarquía de áreas. La Figura 6.14 muestra estímulos complejos de ejemplo que evocaban una respuesta máxima en cada una de estas áreas, para dar una idea de qué tipo de conjunciones características complejas pueden detectar estas neuronas.

Figura\(6.14\): Estímulos complejos que evocaron una respuesta máxima de las neuronas en V2, V4 y TI, proporcionando alguna sugerencia sobre qué tipo de características complejas pueden detectar estas neuronas. La mayoría de las neuronas V2 respondieron al máximo a estímulos simples (bordes orientados, no mostrados). Reproducido de Kobatake & Tanaka (1994).

Consulte Datos de la trayectoria ventral para una discusión más detallada de los datos sobre las respuestas neuronales a las características de forma visual en estas vías ventrales, incluidas varias cifras de datos más. Existen algunas sutilezas y controversias interesantes en esta literatura, pero las principales conclusiones aquí presentadas aún se mantienen.

Exploración del reconocimiento de objetos

Figura\(6.15\): Conjunto de 20 objetos compuestos a partir de elementos de línea horizontal y vertical utilizados para la simulación de reconocimiento de objetos. Mediante el uso de un conjunto restringido de elementos visuales, podemos entender más fácilmente cómo funciona el modelo, y también probar la generalización a objetos novedosos (los objetos 18 y 19 no se entrenan inicialmente, y luego se entrenan posteriormente solo en relativamente pocos lugares; el aprendizaje allí generaliza bien a otros ubicaciones).

Vaya a Objrec para el modelo computacional de reconocimiento de objetos, que demuestra la solución jerárquica incremental al problema de reconocimiento de objetos. Utilizamos un conjunto simplificado de “objetos” (Figura 6.15) compuestos a partir de elementos lineales verticales y horizontales. Este conjunto simplificado de características visuales nos permite comprender mejor cómo funciona el modelo, y también permite probar la generalización a objetos novedosos compuestos a partir de estos mismos conjuntos de características. Verá que el modelo aprende combinaciones más simples de elementos de línea en el área V4, y combinaciones más complejas de entidades en TI, que también son invariantes sobre el campo receptivo completo. Estas representaciones de TI no son idénticas a objetos enteros, sino que representan un código distribuido invariante para los objetos en términos de sus características constituyentes. La prueba de generalización muestra cómo este código distribuido puede soportar el aprendizaje rápido de nuevos objetos, siempre y cuando compartan este conjunto de características. Aunque probablemente sean mucho más complejos y menos bien definidos, parece que un vocabulario similar de características visuales de forma se aprende en representaciones de TI de primates.

Search

Text Color

Text Size

Margin Size

Font Type