6.4: Reconocimiento de objetos invariantes en el camino “Qué”
- Page ID
- 122964
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
El reconocimiento de objetos es la función definitoria de la vía ventral del “qué” del procesamiento visual: identificar lo que estás viendo. Las neuronas en la corteza inferotemporal (IT) pueden detectar objetos enteros, como rostros, autos, etc., sobre una gran región del espacio visual. Esta invarianza espacial (donde la respuesta neuronal sigue siendo la misma o invariante sobre ubicaciones espaciales) es crítica para un comportamiento efectivo en el mundo: los objetos pueden aparecer en todas las ubicaciones diferentes, y necesitamos reconocerlos independientemente de dónde aparezcan. Lograr este resultado es un proceso muy desafiante, uno que ha perplejo a los investigadores de inteligencia artificial (IA) durante mucho tiempo; en los primeros días de la IA, la década de 1960, se pensó con optimismo que el reconocimiento de objetos podría resolverse como un proyecto de investigación de verano, y 50 años después estamos haciendo mucho progreso, pero sigue sin resolverse en el sentido de que la gente sigue siendo mucho mejor que nuestros modelos. Debido a que nuestros cerebros hacen reconocimiento de objetos sin esfuerzo todo el tiempo, realmente no apreciamos lo difícil que es un problema.
La razón por la que el reconocimiento de objetos es tan difícil es que a menudo no puede haber superposición alguna entre las entradas visuales del mismo objeto en diferentes ubicaciones (tamaños, rotaciones, colores, etc), mientras que puede haber altos niveles de superposición entre diferentes objetos en una misma ubicación (Figura 6.10). Por lo tanto, no se puede confiar en la estructura de similitud visual de abajo hacia arriba, sino que a menudo funciona directamente contra la categorización de salida deseada de estos estímulos. Como vimos en el Capítulo de Aprendizaje, el aprendizaje exitoso en esta situación requiere un aprendizaje impulsado por errores, porque el aprendizaje autoorganizado tiende a estar fuertemente impulsado por la estructura de similitud de entrada.
El enfoque más exitoso del problema de reconocimiento de objetos, que fue defendido inicialmente en un modelo por Fukushima (1980), es resolver de manera incremental dos problemas sobre una secuencia jerárquicamente organizada de capas (Figura 6.11, Figura 6.12):
- El problema de la invarianza, al tener cada capa integrada en un rango de ubicaciones (y tamaños, rotaciones, etc) para las entidades en la capa anterior, de tal manera que las neuronas se vuelven cada vez más invariantes a medida que uno se mueve hacia arriba en la jerarquía.
- El problema de discriminación de patrones (distinguir una A de una F, por ejemplo), al hacer que cada capa construya combinaciones más complejas de detectores de características, como resultado de detectar combinaciones de las características presentes en la capa anterior, de manera que las neuronas son más capaces de discriminar incluso patrones de entrada similares a medida que uno mueve hacia arriba en la jerarquía.
La visión crítica de estos modelos es que dividir estos dos problemas en pasos jerárquicos incrementales permite al sistema resolver ambos problemas sin que uno cause problemas al otro. Por ejemplo, si tuvieras un detector simple de línea vertical totalmente invariante que respondiera a una línea vertical en cualquier ubicación, sería imposible saber qué relación espacial tiene esta línea con otras entidades de entrada, y esta información de relación es crítica para distinguir diferentes objetos (por ejemplo, una T y L difieren sólo en la relación de los dos elementos de línea). Entonces no se puede resolver el problema de la invarianza en una pasada inicial, y luego tratar de resolver el problema de discriminación de patrones además de eso. Deben estar intercalados, de manera incremental. Del mismo modo, sería completamente poco práctico intentar reconocer patrones de objetos altamente complejos en cada ubicación posible en la entrada visual, y luego simplemente hacer una integración de invarianza espacial sobre ubicaciones después de eso. Hay demasiados objetos diferentes para discriminar, y tendrías que aprender sobre ellos de nuevo en cada ubicación visual diferente. Es mucho más práctico construir de manera incremental una “biblioteca parcial” de características visuales cada vez más invariantes, para que puedas aprender sobre objetos complejos solo hacia la cima de la jerarquía, de una manera que ya es espacialmente invariante y por lo tanto solo necesita aprenderse una vez.
En una convergencia satisfactoria de motivación computacional de arriba hacia abajo y datos de neurociencia de abajo hacia arriba, esta solución jerárquica incremental proporciona un buen ajuste a las propiedades conocidas de las áreas visuales a lo largo de la vía ventral qué (V1, V2, V4, IT). La Figura 6.13 resume los registros neuronales de estas áreas en el mono macaco, y muestra que las neuronas aumentan en la complejidad de los estímulos que impulsan su respuesta, y el tamaño del campo receptivo sobre el que exhiben una respuesta invariante a estos estímulos, a medida que uno avanza hacia arriba del jerarquía de áreas. La Figura 6.14 muestra estímulos complejos de ejemplo que evocaban una respuesta máxima en cada una de estas áreas, para dar una idea de qué tipo de conjunciones características complejas pueden detectar estas neuronas.
Consulte Datos de la trayectoria ventral para una discusión más detallada de los datos sobre las respuestas neuronales a las características de forma visual en estas vías ventrales, incluidas varias cifras de datos más. Existen algunas sutilezas y controversias interesantes en esta literatura, pero las principales conclusiones aquí presentadas aún se mantienen.
Exploración del reconocimiento de objetos
Vaya a Objrec para el modelo computacional de reconocimiento de objetos, que demuestra la solución jerárquica incremental al problema de reconocimiento de objetos. Utilizamos un conjunto simplificado de “objetos” (Figura 6.15) compuestos a partir de elementos lineales verticales y horizontales. Este conjunto simplificado de características visuales nos permite comprender mejor cómo funciona el modelo, y también permite probar la generalización a objetos novedosos compuestos a partir de estos mismos conjuntos de características. Verá que el modelo aprende combinaciones más simples de elementos de línea en el área V4, y combinaciones más complejas de entidades en TI, que también son invariantes sobre el campo receptivo completo. Estas representaciones de TI no son idénticas a objetos enteros, sino que representan un código distribuido invariante para los objetos en términos de sus características constituyentes. La prueba de generalización muestra cómo este código distribuido puede soportar el aprendizaje rápido de nuevos objetos, siempre y cuando compartan este conjunto de características. Aunque probablemente sean mucho más complejos y menos bien definidos, parece que un vocabulario similar de características visuales de forma se aprende en representaciones de TI de primates.