8.8: Situación, Visión y Acción

Última actualización
Guardar como PDF

Page ID: 143808

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

¿Por qué es importante la propuesta de Pylyshyn (2003b, 2007) de índices visuales preatentos? Se ha señalado que uno de los problemas clave que enfrenta la ciencia cognitiva clásica es que necesita algún mecanismo para referirse al mundo que sea preconceptual, y que el impacto de la teoría de la cognición visual de Pylyshyn es que proporciona un relato de exactamente tal mecanismo (Fodor, 2009). Cómo se logra esto se esboza en la Figura 8-8, que proporciona un esquema de las diversas etapas en la teoría de la cognición visual de Pylyshyn.

8.8.png

Figura 8-8. La teoría de Pylyshyn sobre la indexación visual preatenta proporciona vínculos referenciales desde archivos de objetos hasta objetos distales en el mundo.

Las etapas iniciales de la teoría plantean vínculos causales a partir de objetos distales dispuestos en el espacio en un mundo tridimensional y representaciones mentales que se producen a partir de estos vínculos. Las leyes de la óptica y la geometría proyectiva comienzan por crear un estímulo proximal, un patrón de estimulación en la retina, que se determina de manera única, pero debido al problema de la subdeterminación no puede invertirse de manera única. El problema de la subdeterminación es abordado inicialmente por una variedad de módulos visuales que componen la visión temprana, y que utilizan restricciones naturales para ofrecer representaciones únicas y útiles del mundo (por ejemplo, el boceto primitivo y el boceto 2½-D). La teoría de la cognición visual de Pylyshyn elabora la visión de computación natural de Marr (1982). Además de usar las representaciones de Marr, Pylyshyn afirma que la visión temprana puede individualizar objetos visuales asignándoles una de un número limitado de etiquetas (FinsT). Además, los procesos preatentos permiten que estas etiquetas permanezcan unidas, incluso si cambian las propiedades de los objetos etiquetados. Este resultado de la visión temprana se ilustra en la Figura 8-8 como las secuencias de flechas sólidas que vinculan cada objeto visual a su propio FINST interno.

Una vez individualizados los objetos por la asignación de índices visuales, se pueden aplicar las operaciones de cognición visual (Treisman, 1986, 1988; Ullman, 1984, 2000). La atención se puede dirigir a los elementos individuales, permitiendo detectar propiedades visuales o calcular las relaciones espaciales entre objetos individuales. El resultado es que la cognición visual se puede utilizar para crear una descripción de un objeto individuado en su archivo de objetos (Kahneman, Treisman, & Gibbs, 1992). Como se muestra en la Figura 8-8, la cognición visual ha creado un archivo de objeto interno para cada uno de los tres objetos distales involucrados en el diagrama.

Una vez creados los archivos objeto, se puede explotar el conocimiento general del mundo—procesos cognitivos isotrópicos (Fodor, 1983). Los archivos objeto pueden ser utilizados para acceder a representaciones clásicas del mundo, permitiendo aplicar categorías semánticas a la escena visual.

Sin embargo, los archivos objeto permiten otra función importante en la teoría de la cognición visual de Pylyshyn debido a la naturaleza preatenta de los procesos que los crearon: un vínculo referencial de un archivo de objeto a un objeto distal en el mundo. Esto es posible porque los archivos objeto están asociados con FinsT, y los propios FinsT fueron el producto final de una cadena de eventos causal y no cognitiva:

Un índice corresponde a dos tipos de vínculos o relaciones: por un lado, corresponde a una cadena causal que va desde objetos visuales hasta ciertos tokens en la representación de la escena que se está construyendo (quizás un archivo objeto), y por otro lado, también es un relación referencial que permite al sistema visual referirse a esos [objetos visuales] particulares. La segunda de estas funciones es posible porque la primera existe y tiene las propiedades adecuadas. (Pylyshyn, 2003b, p. 269)

Los vínculos referenciales de regreso al mundo distal se ilustran como las líneas discontinuas en la Figura 8-8.

La disponibilidad de los vínculos referenciales proporciona a la teoría de la cognición visual de Pylyshyn (2003b, 2007) distintas ventajas sobre un modelo puramente clásico. Recordemos que un modelo de arriba hacia abajo opera creando y manteniendo descripciones internas de objetos distales. Anteriormente se señaló que un problema con este enfoque es que la información proyectada desde un objeto cambia constantemente, a pesar de que la identidad del objeto es constante. Esto plantea desafíos para resolver el problema de correspondencia mediante descripciones coincidentes. Sin embargo, esto también lleva a un modelo clásico directamente a lo que se conoce como el problema del marco (Ford & Pylyshyn, 1996; Pylyshyn, 1987). El problema del marco se enfrenta a cualquier sistema que tenga que actualizar las descripciones clásicas de un mundo cambiante. Esto se debe a que a medida que cambia una propiedad, un sistema clásico debe dedicarse a una serie de deducciones para determinar las implicaciones del cambio. El número de posibles deducciones es astronómico, resultando en la intratabilidad computacional de un sistema puramente descriptivo.

Los enlaces referenciales proporcionan una solución al problema del marco. Esto se debe a que el seguimiento de un objeto FinsTED y la perseverancia del archivo objeto para ese objeto ocurren sin la necesidad de actualizar constantemente la descripción del objeto. El vínculo entre el FINST y el mundo se establece a través del vínculo causal desde el mundo a través del estímulo proximal a la operación de la visión temprana. La existencia del enlace referencial permite que el contenido del archivo objeto se actualice o actualice, no constantemente, sino solo cuando sea necesario. “Uno de los propósitos de una etiqueta era permitir que el sistema visual volviera a visitar el objeto etiquetado para codificar alguna propiedad nueva” (Pylyshyn, 2003b, p. 208).

La noción de revisitar un objeto indexado para actualizar los contenidos de un archivo objeto cuando sea necesario, combinada con la suposición de que el procesamiento visual se materializa de tal manera que sea de orden limitado, vincula la teoría de la cognición visual de Pylyshyn (2003b, 2007) con una teoría diferente que es central para encarnarse ciencia cognitiva, percepción activa (Noë, 2004). La percepción enactiva se da cuenta de que la experiencia fenomenal detallada de la visión es una ilusión porque solo una pequeña cantidad de información visual está disponible para nosotros (Noë, 2002). En cambio, la percepción activa ve la percepción como una habilidad sensoriomotora que puede acceder a la información en el mundo cuando es necesaria. En lugar de construir modelos internos detallados del mundo, la percepción activa ve al mundo como su propia representación (Noë, 2009); no codificamos un modelo interno del mundo, inspeccionamos el mundo exterior cuando se requiere o se desea. Este relato de percepción activa refleja el papel de los vínculos referenciales con el mundo distal en la teoría de la cognición visual de Pylyshyn.

Por supuesto, la percepción enactiva asume mucho más de lo que se accede a la información en el mundo, y no se codifica. También asume que el objetivo de la percepción es guiar las acciones corporales sobre el mundo. “Percibir es una forma de actuar. La percepción no es algo que nos pasa a nosotros, o en nosotros. Es algo que hacemos” (Noë, 2004, p. 1). Esta visión de la percepción surge porque la percepción enactiva se inspira en gran medida en el enfoque ecológico de la percepción de Gibson (1966, 1979). Las acciones en el mundo fueron centrales para Gibson. Propuso que los agentes perceptores “captaron” las posibilidades de los objetos en el mundo, donde una asequibilidad es una posible acción que un agente podría realizar sobre o con un objeto.

Acciones sobre el mundo (Anclors) proporcionan un vínculo adicional entre la teoría de la cognición visual y la percepción activa de Pylyshyn (2003b, 2007) y, en consecuencia, con la ciencia cognitiva encarnada. La teoría de Pylyshyn también da cuenta de tales acciones, porque se presume que los FINST existen en diferentes modalidades sensoriales. En particular, las anclas son análogas a las FINST y sirven como índices a lugares en el espacio de mando motor, o en el espacio propioceptivo (Pylyshyn, 1989). El papel de los Anclors es servir como índices a los que se pueden dirigir los movimientos motores. Por ejemplo, en la versión de 1989 de su teoría, Pylyshyn planteó la hipótesis de que las Anclas podrían usarse para dirigir la mirada (moviendo la fóvea hacia el ANCHOR) o para dirigir un puntero.

La necesidad de indexación multimodal es obvia porque podemos señalar fácilmente lo que estamos viendo. Por el contrario, si no estamos viendo algo, no se puede indexar, y por lo tanto no se puede señalar con tanta precisión. Por ejemplo, cuando los sujetos ven una matriz de objetos objetivo en una habitación, cierran los ojos y luego imaginan ver los objetos desde un nuevo punto de vista (una rotación desde su posición original), su precisión al apuntar a los objetivos disminuye (Rieser, 1989). Del mismo modo, existen diferencias sustanciales entre alcances hacia objetos visibles y alcances hacia objetos que ya no son visibles sino que solo están presentes a través de imágenes o memoria (Goodale, Jakobson, & Keillor, 1994). Asimismo, cuando los sujetos alcanzan hacia un objeto evitando obstáculos, se explota la retroalimentación visual para optimizar el rendimiento; cuando la retroalimentación visual no está disponible, el comportamiento de alcance cambia drásticamente (Chapman & Goodale, 2010).

En la teoría de la cognición visual de Pylyshyn (2003b, 2007), la coordinación entre visión y acción se produce a través de interacciones entre índices visuales y motores, que generan mapeos entre los espacios de los diferentes tipos de índices. Requerir transformaciones entre sistemas espaciales hace que la ubicación de los mecanismos de indexación y seguimiento en la corteza parietal sea perfectamente sensible. Esto se debe a que hay mucha evidencia que sugiere que la corteza parietal instancia una variedad de mapeos espaciales, y que uno de sus papeles clave es calcular transformaciones entre diferentes representaciones espaciales (Andersen et al., 1997; Colby & Goldberg, 1999; Merriam, Genovese, & Colby, 2003; Merriam & Colby, 2005). Una de esas transformaciones podría producir coordinación entre los FINST visuales y los anclajes motores.

Una razón por la que la teoría de la cognición visual de Pylyshyn (2003b, 2007) también se refiere a la acción guiada visualmente es su conciencia del trabajo de Goodale sobre módulos visuomotores (Goodale, 1988, 1990, 1995; Goodale & Humphrey, 1998; Goodale et al., 1991), obra que se introdujo anteriormente en relación con encarnados ciencia cognitiva. La evidencia que sustenta la noción de módulos visuomotores de Goodale indica claramente que parte de la información visual utilizada para controlar acciones no está disponible para procesos cognitivos isotrópicos, ya que puede afectar acciones sin requerir o producir conciencia consciente. Parece muy natural, entonces, incluir índices motores (es decir, anclas) en una teoría en la que tales etiquetas son asignadas y mantenidas de manera preventiva.

La discusión en esta sección parecería situar la teoría de la cognición visual de Pylyshyn (2003b, 2007) directamente en el campo de la ciencia cognitiva encarnada. Los vínculos referenciales entre archivos de objetos y objetos distales permiten acceder a la información visual sin requerir la actualización constante de las representaciones descriptivas. La postulación de índices que pueden guiar acciones y movimientos y la capacidad de coordinar estos índices con etiquetas visuales ponen un fuerte énfasis en la acción en el enfoque de Pylyshyn.

Sin embargo, la teoría de la cognición visual de Pylyshyn tiene muchas propiedades que hacen imposible encasillarse como una posición encarnada. En particular, una diferencia clave entre la teoría de Pylyshyn y la percepción activa es que Pylyshyn no cree que el único objetivo de la visión sea guiar la acción. La visión también se ocupa de las descripciones y conceptos—la cognición clásica de las categorías representadas:

Prepararse para la acción no es el único propósito de la visión. La visión es, sobre todo, una manera de conocer el mundo, y puede haber muchas razones por las que un organismo inteligente puede desear conocer el mundo, aparte de querer actuar sobre él. (Pylyshyn, 2003b, p. 133)