Saltar al contenido principal
LibreTexts Español

8.7: Indización de objetos en el mundo

  • Page ID
    143812
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    La teoría de la cognición visual de Pylyshyn comenzó a fines de la década de 1970 con su interés en explicar cómo se usaban los diagramas en el razonamiento (Pylyshyn, 2007). Pylyshyn y sus colegas intentaron investigar este tema construyendo una simulación por computadora que construiría e inspeccionaría diagramas como parte de la derivación de pruebas en geometría plana.

    Desde el inicio, los planes para esta simulación por computadora hicieron contacto con dos de las características clave de la ciencia cognitiva encarnada. En primer lugar, los diagramas creados y utilizados por la simulación por computadora tenían la intención de ser externos a la misma y andamiar el razonamiento geométrico del programa.

    Como queríamos que el sistema fuera lo más psicológicamente realista posible, no queríamos que todos los aspectos del diagrama estuvieran 'en su cabeza' sino que, como en la geometría real resolviendo problemas, permaneceríamos en el diagrama que estaba dibujando y examinando. (Pylyshyn, 2007, p. 10)

    En segundo lugar, también se asumió que el sistema visual de la computadora era psicológicamente realista en términos de su encarnación. En particular, se presumió que el sistema visual era una fóvea en movimiento que era de orden limitado: sólo podía examinar el diagrama en partes, en lugar de todo a la vez.

    Tampoco queríamos suponer que todas las propiedades de todo el diagrama estaban disponibles a la vez, sino que tenían que ser notadas a lo largo del tiempo ya que el diagrama estaba siendo dibujado y examinado. Si el diagrama estaba siendo inspeccionado moviendo los ojos, entonces las propiedades deberían estar dentro del alcance de la fóvea en movimiento. (Pylyshyn, 2007, p. 10)

    Estas dos intersecciones con la ciencia cognitiva encarnada, un mundo visual de andamios y una encarnización de orden limitado, plantearon inmediatamente un problema fundamental de procesamiento de la información. A medida que se agregaron diferentes líneas o vértices a un diagrama, o como estos componentes fueron escaneados por el sistema visual, sus diferentes identidades tuvieron que ser mantenidas o rastreadas a lo largo del tiempo. Para funcionar como se pretendía, el programa tenía que ser capaz de afirmar, por ejemplo, que “esta línea observada aquí” es la misma que “esa línea observada ahí” cuando se está escaneando el diagrama. En definitiva, al considerar cómo crear este sistema en particular, Pylyshyn reconoció que requería de dos habilidades centrales: poder individualizar entidades visuales, y poder rastrear o mantener las identidades de las entidades visuales a lo largo del tiempo.

    Mantener las identidades de los elementos individualizados a lo largo del tiempo es resolver el problema de correspondencia. ¿Cómo se hace un seguimiento de las identidades de diferentes entidades percibidas en diferentes miradas? Según Pylyshyn (2003b, 2007), la respuesta clásica a esta pregunta debe apelar al contenido de las representaciones. Para afirmar que alguna entidad vista en una mirada posterior fue la misma que la observada anteriormente, se deben comparar las descripciones de las entidades actuales y anteriores. Si las descripciones coincidían, entonces las entidades deberían considerarse como las mismas. A esto se le llama la solución de coincidencia de imágenes al problema de correspondencia, que también dicta cómo deben ser individuadas las entidades: deben describirse de manera única, cuando se observan, como un conjunto de propiedades que pueden representarse como una descripción mental, y que pueden compararse con otras descripciones.

    Pylyshyn rechaza la solución clásica de coincidencia de imágenes al problema de correspondencia por varias razones. Primero, se pueden rastrear múltiples objetos a medida que se mueven a diferentes ubicaciones, incluso si son idénticos en apariencia (Pylyshyn & Storm, 1988). De hecho, se pueden rastrear múltiples objetos a medida que cambian sus propiedades, incluso cuando su ubicación es constante y compartida (Blaser, Pylyshyn, & Holcombe, 2000). Estos resultados plantean problemas para la coincidencia de imágenes, ¡porque es difícil individuar y rastrear objetos idénticos usando sus descripciones!

    En segundo lugar, la pobreza del estímulo en un mundo dinámico plantea graves desafíos para el emparejamiento de imágenes. A medida que los objetos se mueven en el mundo o a medida que nosotros (o nuestros ojos) cambiamos de posición, la proyección de un objeto distal como estímulo proximal cambiará de propiedades, aunque el objeto siga siendo el mismo. “Si los objetos pueden cambiar sus propiedades, no sabemos bajo qué descripción se almacenó el objeto por última vez” (Pylyshyn, 2003b, p. 205).

    Una tercera razón para rechazar la coincidencia de imágenes proviene del estudio del movimiento aparente, lo que requiere que se resuelva el problema de correspondencia antes de que se pueda agregar la ilusión de movimiento entre ubicaciones (Dawson, 1991; Wright & Dawson, 1994). Los estudios del movimiento aparente han demostrado que la correspondencia de movimiento es mayormente insensible a las manipulaciones de las propiedades figurales, como la forma, el color o la frecuencia espacial (Baro & Levinson, 1988; Cavanagh, Arguin, & von Grunau, 1989; Dawson, 1989; Goodman, 1978; Kolers, 1972; Kolers & Green, 1984; Kolers & Pomerantz, 1971; Kolers & von Grunau, 1976; Krumhansl, 1984; Navon, 1976; Victor & Conte, 1990). Esta insensibilidad a la forma llevó a Nelson Goodman (1978, p. 78) a concluir que “claramente el sistema visual es persistente, inventivo y a veces bastante perverso en la construcción de un mundo según sus propias luces”. Una razón de esta perversidad puede ser que los circuitos neuronales para procesar el movimiento son en gran parte independientes de los que se utilizan para procesar la forma (Botez, 1975; Livingstone & Hubel, 1988; Maunsell & Newsome, 1987; Ungerleider & Mishkin, 1982).

    Una cuarta razón para rechazar la coincidencia de imágenes es que se trata de un enfoque puramente cognitivo para individuar y rastrear entidades. “Los filósofos suelen suponer que para individuar algo debemos conceptualizar sus propiedades relevantes. Es decir, primero debemos representar (o conocer o conceptualizar) las condiciones relevantes de individuación” (Pylyshyn, 2007, p. 31). Pylyshyn rechazó este enfoque porque padece el mismo problema central que el New Look: carece de vínculos causales con el mundo.

    La exploración inicial de Pylyshyn sobre cómo los diagramas ayudaban al razonamiento le llevó a darse cuenta de que la individuación y el seguimiento de las entidades visuales son fundamentales para dar cuenta de cómo la visión nos vincula con el mundo. Por las razones que acabamos de presentar, rechazó un enfoque puramente clásico —descripciones mentales de entidades— por dotar de estas habilidades fundamentales. Propuso en cambio una teoría paralela a la estructura de los ejemplos de cognición visual descritos anteriormente. Es decir, la teoría de la cognición visual de Pylyshyn (2003b, 2007) incluye un componente no cognitivo (visión temprana), que entrega representaciones a las que se puede acceder mediante la atención visual (cognición visual), que a su vez entregan representaciones que pueden vincularse al conocimiento general del mundo (cognición).

    Por un lado, el componente de visión temprana de la teoría de la cognición visual de Pylyshyn (2003b, 2007) es compatible con los relatos de percepción de cómputos naturales (Ballard, 1997; Marr, 1982). Para Pylyshyn, el papel de la visión temprana es proporcionar vínculos causales entre el mundo y el agente perceptor sin invocar cognición o inferencia:

    Solo un conjunto altamente restringido de propiedades puede ser seleccionado por visión temprana, o puede ser directamente 'recogido'. En términos generales, estas son las que en otros lugares me han referido como propiedades 'transducibles'. Estas son las propiedades cuya detección no requiere acceder a la memoria y dibujar inferencias. (Pylyshyn, 2003b, p. 163)

    El uso de restricciones naturales para entregar representaciones como el boceto primitivo y el boceto 2½-D es consistente con la vista de Pylyshyn.

    Por otro lado, Pylyshyn (2003b, 2007) agregó innovaciones a las teorías tradicionales de computación natural que tienen enormes implicaciones para las explicaciones de ver y visualizar. Primero, Pylyshyn argumentó que uno de los procesos primitivos de la visión temprana es la individuación—la selección de una entidad como distinta de otras. En segundo lugar, utilizó evidencia de la teoría de la integración de características y la neurociencia cognitiva para afirmar que la individuación escoge objetos, pero no sobre la base de sus ubicaciones. Es decir, los procesos preatentos pueden detectar elementos o entidades a través de características primitivas pero simultáneamente no entregar la ubicación de las entidades, como es el caso en el pop-out. En tercer lugar, Pylyshyn argumentó que una entidad individuada—un objeto visual— es etiquetada de manera preventiva por un índice, llamado FINST (“para instanciación de dedos”), que solo puede usarse para acceder a un objeto individuado (por ejemplo, para recuperar sus propiedades cuando sea necesario). Además, solo se dispone de un número limitado (cuatro) de FINST. Cuarto, una vez asignado a un objeto, un FINST permanece unido a él incluso cuando el objeto cambia su ubicación u otras propiedades. Así, un componente primitivo de la visión temprana es la solución del problema de correspondencia, donde el papel de esta solución es mantener el vínculo entre los FINSTs y los objetos dinámicos e individuados.

    El aspecto revolucionario de los FinsT es que se presume que individualizan y rastrean objetos visuales sin entregar una descripción de ellos y sin fijar su ubicación. Pylyshyn (2007) argumentó que este es el equivalente visual del uso de indexados o demostrativos en el lenguaje: “Piensa en demostrativos en lenguaje natural, típicamente palabras como esta o aquella. Tales palabras nos permiten referirnos a las cosas sin especificar cuáles son o qué propiedades tienen” (p. 18). Los FINST son índices visuales que operan exactamente de esta manera. Son análogas a colocar un dedo sobre un objeto en el mundo, y, sin mirar, mantener el dedo en contacto con él a medida que el objeto se mueve o cambia, de ahí el término instanciación de dedo. Mientras el dedo esté en su lugar, se puede hacer referencia al objeto (“esta cosa a la que estoy apuntando ahora”), aunque el dedo no entregue ninguna propiedad visual.

    Existe una literatura creciente que proporciona soporte empírico para la hipótesis FINST de Pylyshyn. Muchos de estos experimentos involucran el paradigma de rastreo de objetos múltiples (Flombaum, Scholl, & Pylyshyn, 2008; Franconeri et al., 2008; Pylyshyn, 2006; Pylyshyn & Annan, 2006; Pylyshyn et al., 2008; Pylyshyn & Storm, 1988; Scholl, Pylyshyn, & Feldman, 2001; Sears & Pylyshyn, 2000). En la versión original de este paradigma (Pylyshyn & Storm, 1988), se mostró a los sujetos una exhibición estática compuesta por una serie de objetos de idéntica apariencia. Un subconjunto de estos objetos parpadeó durante un corto período de tiempo, indicando que eran objetivos a seguir. Entonces el parpadeo se detuvo, y todos los objetos de la pantalla comenzaron a moverse de forma independiente y aleatoria durante un periodo de unos diez segundos. Los sujetos tuvieron la tarea de rastrear las dianas, solo con atención; un monitor terminó ensayos en los que se detectaron movimientos oculares. Al término de un juicio, un objeto parpadeó y los sujetos tuvieron que indicar si se trataba o no de un objetivo.

    Los resultados de este estudio (ver Pylyshyn & Storm, 1988) indicaron que los sujetos podían rastrear simultáneamente hasta cuatro objetivos en movimiento independiente con alta precisión. Los múltiples resultados de seguimiento de objetos se explican argumentando que los FINST se asignan a los objetivos parpadeantes antes del movimiento, y los objetos son rastreados por el mecanismo primitivo que mantiene el vínculo del objeto visual al FINST. Este vínculo permite a los sujetos juzgar la targethood al término de un juicio.

    El paradigma de seguimiento de múltiples objetos se ha utilizado para explorar algunas de las propiedades básicas del mecanismo FINST. Los análisis indican que este proceso es paralelo, porque se pueden rastrear hasta cuatro objetos, y los resultados del seguimiento no pueden explicarse por un modelo que desplaza un foco de atención en serie de un objetivo a otro (Pylyshyn & Storm, 1988). Sin embargo, el hecho de que no se puedan rastrear más de cuatro objetivos también muestra que este procesamiento tiene una capacidad limitada. Los FinsT se asignan a objetos, y no a ubicaciones; los objetos se pueden rastrear a través de un espacio de entidades sin ubicación (Blase, Pylyshyn, & Holcombe, 2000). El uso de características para hacer que los objetos sean distinguibles entre sí no ayuda al seguimiento, y las propiedades de los objetos pueden cambiar durante el seguimiento sin que los sujetos sean conscientes de los cambios (Bahrami, 2003; Pylyshyn, 2007). Así, los FinsT individualizan y rastrean los objetos visuales pero no entregan descripciones de las propiedades de los objetos que indexan.

    Otra fuente de apoyo empírico para la hipótesis del FINST proviene de estudios de subitización (Trick & Pylyshyn, 1993, 1994). La subitización es un fenómeno en el que el número de elementos en un conjunto de objetos (la cardinalidad del conjunto) se puede detectar sin esfuerzo y rápidamente si el conjunto tiene cuatro o menos elementos (Jensen, Reese, & Reese, 1950; Kaufman et al., 1949). Los conjuntos más grandes no pueden ser subitizados; se requiere un proceso mucho más lento para contar en serie los elementos de conjuntos más grandes. Subitizar requiere necesariamente que los artículos a contar se individualicen entre sí. Trick y Pylyshyn (1993, 1994) plantearon la hipótesis de que la subitización podría lograrse mediante el mecanismo FINST; los elementos se individualizan de manera preventiva al ser indexados, y contar simplemente requiere acceder al número de índices que se han asignado.

    Trick y Pylyshyn (1993, 1994) probaron esta hipótesis examinando la subitización en condiciones en las que la indexación visual no era posible. Por ejemplo, si los objetos de un conjunto están definidos por conjunciones de entidades, entonces no pueden ser finsted preatentemente. Es importante destacar que tampoco pueden ser subitizados. En general, la subitización no ocurre cuando los elementos de un conjunto que se están contando son definidos por propiedades que requieren un procesamiento serial, atento para ser detectados (e.g., conjuntos de contornos concéntricos que tienen que ser trazados para ser individuados; o conjuntos de elementos definidos por estar en el mismo contorno, que también requieren el rastreo para ser identificado).

    En el núcleo de la teoría de la cognición visual de Pylyshyn (2003b, 2007) se encuentra la afirmación de que los objetos visuales pueden ser individuados e indexados de manera preventiva. El apoyo empírico para este relato de visión temprana proviene de estudios de seguimiento de múltiples objetos y de subitización. La necesidad de un procesamiento visual tan temprano proviene del objetivo de proporcionar vínculos causales entre el mundo y las representaciones clásicas, y de encarnar la visión de tal manera que la información solo se puede obtener de un vistazo a la vez. Así, la teoría de la cognición visual de Pylyshyn, como se describe hasta este punto, tiene características de la ciencia cognitiva clásica y encarnada. ¿Cómo hace contacto la teoría con la ciencia cognitiva coneccionista? La respuesta a esta pregunta proviene del examen de las propuestas de Pylyshyn (2003b, 2007) sobre los mecanismos de preatención para individuar objetos visuales y rastrearlos. Los mecanismos que Pylyshyn propuso son las redes neuronales artificiales.

    Por ejemplo, Pylyshyn (2000, 2003b) señaló que un tipo particular de red neuronal artificial, llamada red ganador-toma-todo (Feldman & Ballard, 1982), es ideal para la individuación preatenta. Se han propuesto muchas versiones de tal red para explicar cómo se puede llamar automáticamente la atención hacia un objeto o hacia una característica distintiva (Fukushima, 1986; Gerrissen, 1991; Grossberg, 1980; Koch & Ullman, 1985; LaVerge Carter, & Brown, 1992; Sandon, 1992). En una red que el ganador se lleva todo, se asigna una matriz de unidades de procesamiento a diferentes objetos o a ubicaciones de entidades. Por ejemplo, estos procesadores podrían distribuirse a través de los mapas de características preatentos en la teoría de integración de características (Treisman, 1988; Treisman y Gelade, 1980). Típicamente, un procesador tendrá una conexión excitatoria consigo mismo y tendrá conexiones inhibitorias a sus procesadores vecinos. Este patrón de conectividad da como resultado que el procesador que recibe la entrada más distintiva se active y al mismo tiempo apague a sus vecinos.

    Que tales mecanismos puedan estar involucrados en la individuación está respaldado por resultados que muestran que el curso temporal de la búsqueda visual puede ser alterado por manipulaciones visuales que afectan el procesamiento inhibitorio de tales redes (Dawson & Thibodeau, 1998). Pylyshyn avala una red modificada de ganador-tomarlo todo como mecanismo de individuación; la modificación permite interrogar a un objeto indexado por la red para recuperar sus propiedades (Pylyshyn, 2000).

    Otra intersección entre la teoría de la cognición visual de Pylyshyn (2003b, 2007) y la ciencia cognitiva coneccionista proviene de sus propuestas sobre el seguimiento preatento. ¿Cómo se puede lograr dicho seguimiento sin el uso de la coincidencia de imágenes? Nuevamente, Pylyshyn señaló que las redes neuronales artificiales, como las que se han propuesto para resolver el problema de la correspondencia de movimiento (Dawson, 1991; Dawson, Nevin-Meadows, & Wright, 1994; Dawson & Pylyshyn, 1988; Dawson & Wright, 1994), servirían como mecanismos de rastreo. Esto se debe a que dichos modelos pertenecen al enfoque de computación natural y han demostrado cómo el seguimiento puede proceder de manera preventiva a través de la explotación de restricciones naturales que se implementan como patrones de conectividad entre las unidades de procesamiento.

    Además, Dawson (1991) ha argumentado que muchas de las regularidades que rigen las soluciones al problema de la correspondencia de movimiento son consistentes con la hipótesis de que resolver este problema equivale a rastrear etiquetas visuales asignadas. Por ejemplo, considere algunas observaciones sobre la ubicación del procesamiento de correspondencia de movimiento y los procesos de seguimiento atencional en el cerebro. Dawson argumentó que el procesamiento de correspondencia de movimiento es probablemente realizado por neuronas ubicadas en el Área 7 de la corteza parietal, sobre la base de señales de movimiento transmitidas desde áreas anteriores, como el área sensible al movimiento MT. El área 7 de la corteza parietal también es un buen candidato para el locus de rastreo de entidades individuadas.

    En primer lugar, muchos investigadores han observado células que parecen mediar el rastreo de objetos en el Área 7, como las neuronas de fijación visual y las neuronas de seguimiento visual. Tales células no son evidentes antes en la vía visual (Goldberg & Bruce, 1985; Hyvarinen & Poranen, 1974; Lynch et al., 1977; Motter & Mountcastle, 1981; Robinson, Goldberg, & Stanton, 1978; Sakata et al., 1985).

    En segundo lugar, las células en esta área también se rigen por influencias extraretinales (es decir, atencionales): responden a objetivos atendidos, pero no a objetivos desatendidos, incluso cuando ambos son igualmente visibles (Robinson, Goldberg y Stanton, 1978). Esto se requiere de mecanismos que puedan seleccionar y rastrear objetivos a partir de distractores de forma idéntica, como en una tarea de rastreo de objetos múltiples.

    Tercero, las células del Área 7 que parecen estar involucradas en el rastreo parecen ser capaces de hacerlo a través de modalidades sensoriales. Por ejemplo, las neuronas de proyección de la mano responden a objetivos a los que se van a dirigir los movimientos de la mano y no responden cuando el alcance o el objetivo están presentes solos (Robinson Goldberg, & Stanton, 1978). Del mismo modo, existen muchas celdas del Área Y que responden durante el alcance manual, rastreo o manipulación, y que también tienen una dirección de alcance preferida (Hyvarinen & Poranen, 1974). Dicha coordinación intermodal del seguimiento es crítica, ya que como vemos en la siguiente sección, la teoría de la cognición visual de Pylyshyn (2003b, 2007) asume que los índices pueden aplicarse, y rastrearse, en diferentes modalidades sensoriales, permitiendo que los agentes de visión apunten a objetos que han sido visualmente individuados.

    La innovación clave y contribución de la teoría de la cognición visual de Pylyshyn (2003b, 2007) es la propuesta de individuación y seguimiento preatentos. Esta propuesta se puede interconectar sin problemas con propuestas relacionadas con la cognición visual. Por ejemplo, una vez que los objetos han sido etiquetados por FinsT, pueden ser operados por rutinas visuales (Ullman, 1984, 2000). Pylyshyn (2003b) señaló que para ejecutar, las rutinas visuales requieren tal individuación:

    El sistema visual debe tener algún mecanismo para seleccionar y hacer referencia a elementos particulares en una pantalla para decidir si dos o más elementos de este tipo forman un patrón, como ser colineales, o estar dentro, sobre, o parte de otro elemento, así sucesivamente. Pilyshyn (2003b, pp. 206—207)

    En otras palabras, la cognición visual puede dirigir los recursos atencionales a las entidades FinsTED.

    La teoría de la cognición visual de Pylyshyn (2003b, 2007) también hace contacto con la cognición clásica. Señaló que una vez que los objetos han sido etiquetados, el sistema visual puede examinar sus propiedades espaciales aplicando rutinas visuales o utilizando la atención focal para recuperar características visuales. El objetivo de tales actividades por cognición visual sería actualizar descripciones de objetos almacenados como archivos de objetos (Kahneman, Treisman, & Gibbs, 1992). Las descripciones de los archivos de objetos se pueden utilizar para hacer contacto con las categorías semánticas de la cognición clásica. Así, la teoría de la indexación visual proporciona una fundamentación causal de los conceptos visuales:

    Los índices pueden servir como base para la individuación real de los objetos físicos. Si bien es claro que no se pueden individuar objetos en el sentido de sangre plena sin un aparato conceptual, también está claro que no se pueden individualizar los objetos con sólo un aparato conceptual. Tarde o temprano los conceptos deben estar fundados en una conexión causal primitiva entre pensamientos y cosas. (Pylyshyn, 2001, p. 154)

    Es la necesidad de tal base lo que ha llevado a Pylyshyn a proponer una teoría de la cognición visual que incluya características de la ciencia cognitiva clásica, conexionista y encarnada.


    This page titled 8.7: Indización de objetos en el mundo is shared under a not declared license and was authored, remixed, and/or curated by Michael R. W. Dawson (Athabasca University Press) .