Saltar al contenido principal
LibreTexts Español

8.6: Visión, Cognición y Cognición Visual

  • Page ID
    143817
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Se argumentó anteriormente que el enfoque clásico de la subdeterminación, inferencia inconsciente, sufrió por el hecho de que no incluía ningún vínculo causal entre el mundo y las representaciones internas. El enfoque de computación natural no sufre este problema, porque sus teorías tratan la visión como un proceso basado en datos o de abajo hacia arriba. Es decir, la información visual del mundo entra en contacto con módulos visuales, máquinas de propósito especial, que aplican automáticamente restricciones naturales y ofrecen representaciones determinadas de manera única. ¿Qué tan complejas son las representaciones que se pueden entregar mediante el procesamiento basado en datos? ¿Hasta qué punto podría tener éxito una teoría pura de la percepción de abajo hacia arriba?

    Por un lado, las teorías de abajo hacia arriba son capaces de entregar una variedad de ricas representaciones del mundo visual (Marr, 1982). Estos incluyen el boceto primario, que representa el estímulo proximal como una matriz de primitivas visuales, como barras orientadas, bordes y terminadores (Marr, 1976). Otro es el boceto 2½-D, que hace explícitas las propiedades de las superficies visibles en coordenadas centradas en el espectador, incluyendo su profundidad, color, textura y orientación (Marr & Nishihara, 1978). La información que se hace explícita en el boceto 2½-D está disponible porque los procesos basados en datos pueden resolver una serie de problemas de subdeterminación, a menudo llamados problemas de “forma a partir de”, mediante el uso de restricciones naturales para determinar formas tridimensionales y distancias de elementos visibles. Estos incluyen la estructura del movimiento (Hildreth, 1983; Horn & Schunk, 1981; Ullman, 1979; Vidal y Hartley, 2008), la forma del sombreado (Horn y Brooks, 1989), la profundidad de la disparidad binocular (Marr, Palm, & Poggio, 1978; Marr y Poggio, 1979) y la forma a partir de la textura (Lobay y Forsyth, 2006; Witkin, 1981).

    No sería una gran exageración decir que la visión temprana —parte del procesamiento visual que es previo al acceso al conocimiento general— calcula casi todo lo que podría llamarse una 'apariencia visual' del mundo excepto las identidades y nombres de los objetos. (Pylyshyn, 2003b, p. 51)

    Por otro lado, a pesar de los impresionantes intentos (Biederman, 1987), generalmente se reconoce que los procesos propuestos por los computacionalistas naturales no pueden entregar representaciones lo suficientemente ricas como para hacer pleno contacto con el conocimiento semántico del mundo. Esto se debe a que el reconocimiento de objetos, la asignación de información visual a categorías semánticas, requiere identificar las partes del objeto y determinar las relaciones espaciales entre estas partes (Hoffman & Singh, 1997; Singh y Hoffman, 1997). Sin embargo, esto a su vez requiere dirigir la atención a entidades específicas en representaciones visuales (es decir, individuar las partes críticas) y usar procesos seriales para determinar las relaciones espaciales entre las entidades individuadas (Pylyshyn, 1999, 200 1, 2003c, 2007; Ullman, 1984). Los cálculos paralelos basados en datos que caracterizan las teorías de computación natural de la visión son pobres candidatos para computar las relaciones entre objetos individuados o sus partes. En consecuencia, lo que la visión temprana “no hace es identificar las cosas que estamos viendo, en el sentido de relacionarlas con cosas que hemos visto antes, los contenidos de nuestra memoria. Y no hace juicios sobre cómo son realmente las cosas” (Pylyshyn, 2003b, p. 51).

    Así parece que una teoría de la visión pura y natural de abajo hacia arriba no será suficiente. De igual manera, se argumentó anteriormente que una teoría cognitiva pura y descendente de la visión también es insuficiente. Una teoría completa de la visión requiere interacciones de cooperación entre los procesos impulsados por datos y de arriba hacia abajo. Como ha señalado el filósofo Jerry Fodor (1985, p. 2), “la percepción es inteligente como la cognición en que es típicamente inferencial, sin embargo es tonta como reflejos en el sentido de que normalmente está encapsulada”. Esto lleva a lo que Pylyshyn llama la hipótesis de la independencia: la propuesta de que algún procesamiento visual debe ser independiente de la cognición. Sin embargo, debido a que somos conscientes de la información visual, un corolario de la hipótesis de independencia es que debe haber alguna interfaz entre el procesamiento visual que no es cognitivo y el procesamiento visual que es.

    Esta interfaz se llama cognición visual (Enns, 2004; Humphreys & Bruce, 1989; Jacob & Jeannerod, 2003; Ullman, 2000), porque implica atención visual (Wright, 1998). Las teorías en la cognición visual sobre la identificación de objetos (Treisman, 1988; Ullman, 2000) y la interpretación del movimiento (Wright & Dawson, 1994) suelen describir tres etapas de procesamiento: la entrega precognitiva de información visual, el análisis atencional de esta información visual, y la vinculación de los resultados de estos análisis con el conocimiento general del mundo.

    Un ejemplo de teoría en cognición visual se llama teoría de integración de características (Treisman, 1986, 1988; Treisman & Gelade, 1980). La teoría de integración de características surgió de dos hallazgos experimentales básicos. La primera se refería a las funciones de latencia de búsqueda, que representan el tiempo requerido para detectar la presencia o ausencia de un objetivo en función del número total de elementos de visualización en una tarea de búsqueda visual. Un trabajo pionero en la búsqueda visual descubrió el llamado “efecto pop-out”: para algunos objetivos, la función de latencia de búsqueda es esencialmente plana. Esto indicó que el tiempo para encontrar un objetivo es independiente del número de elementos distractores en la pantalla. Este resultado se encontró para objetivos definidos por una característica visual única (por ejemplo, color, contraste, orientación, movimiento), que parecía salir de una pantalla, llamando la atención automáticamente sobre el objetivo (Treisman & Gelade, 1980). En contraste, el tiempo para detectar un objetivo definido por una combinación única de características generalmente aumenta con el número de elementos distractores, produciendo funciones de latencia de búsqueda con pendientes positivas.

    El segundo hallazgo experimental que condujo a la teoría de integración de características fue el descubrimiento de conjunciones ilusorias (Treisman & Schmidt, 1982). Las conjunciones ilusorias ocurren cuando las características se combinan erróneamente. Por ejemplo, a los sujetos se les puede presentar un triángulo rojo y un círculo verde en una visualización, pero experimentan una conjunción ilusoria: un triángulo verde y un círculo rojo.

    La teoría de integración de características surgió para explicar diferentes tipos de funciones de latencia de búsqueda y conjunciones ilusorias. Se asume que la visión comienza con una primera etapa no cognitiva de detección de características en la que los mapas separados para un pequeño número de características básicas, como el color, la orientación, el tamaño o el movimiento, registran la presencia y ubicación de las propiedades detectadas. Si un objetivo se define de manera única en términos de poseer una de estas características, entonces será la única fuente de actividad en ese mapa de características y, por lo tanto, aparecerá, explicando algunos de los resultados de búsqueda visuales.

    Una segunda etapa del procesamiento pertenece adecuadamente a la cognición visual. En esta etapa, un foco de atención se dirige volicionalmente a un punto particular en un mapa maestro de ubicaciones. Este foco de atención permite que el sistema visual integre características al traer al registro diferentes mapas de características en la ubicación de interés. Diferentes características presentes en esa ubicación se pueden unir en una representación temporal de objetos llamada archivo de objetos (Kahneman, Treisman, & Gibbs, 1992; Treisman, Kahneman, & Burkell, 1983). Así, en la teoría de integración de características, la búsqueda de objetos definidos por combinaciones únicas de características requiere un escaneo en serie del foco atencional de ubicación en ubicación, explicando la naturaleza de las funciones de latencia de búsqueda para dichos objetos. Esta etapa de procesamiento también explica conjunciones ilusorias, que generalmente ocurren cuando se divide el procesamiento atencional, lo que perjudica la capacidad de combinar correctamente las características en archivos de objetos.

    Una tercera etapa del procesamiento pertenece a la cognición de orden superior. Implica usar información sobre objetos detectados (es decir, características unidas en archivos de objetos) como enlaces al conocimiento general del mundo.

    La percepción consciente depende de representaciones temporales de objetos en las que las diferentes características se recogen de los módulos dimensionales y se interrelacionan, luego se emparejan con descripciones almacenadas en una memoria visual a largo plazo para permitir el reconocimiento. (Treisman, 1988, p. 204)

    Otra propuesta que se basa en la noción de cognición visual se refiere a las rutinas visuales (Ullman, 1984). Ullman (1984) señaló que la percepción de las relaciones espaciales es fundamental para el procesamiento visual. Sin embargo, muchas relaciones espaciales no pueden ser entregadas directamente por los procesos paralelos, impulsados por datos postulados por los computacionalistas naturales, porque estas relaciones no se definen sobre escenas enteras, sino que se definen sobre entidades particulares en escenas (es decir, objetos o sus partes). Además, muchas de estas relaciones deben calcularse utilizando un procesamiento en serie del tipo que no se propone para formar parte de las redes que propagan restricciones naturales.

    Por ejemplo, considere determinar si algún punto x está dentro de un contorno y. Ullman (1984) señaló que se sabe poco sobre cómo se calcula realmente la relación interior (x, y), y argumentó que lo más probable es que requiera un procesamiento en serie en el que la activación comience en x, extendiéndose hacia afuera. Se puede concluir que x está dentro de y si la activación de propagación está contenida por y. Además, antes de que se pueda calcular dentro (x, y), las dos entidades, x e y, tienen que ser individuadas y seleccionadas, dentro no tiene sentido computar sin su especificación. “Lo que el sistema visual necesita es una manera de referirse a elementos individuales qua token individuos” (Pylyshyn, 2003b, p. 207).

    Con tales consideraciones en mente, Ullman (1984) desarrolló una teoría de rutinas visuales que comparte muchas de las características generales de la teoría de integración de características. En una etapa inicial de procesamiento, los procesos basados en datos ofrecen representaciones tempranas de la escena visual. En la segunda etapa, la cognición visual ejecuta rutinas visuales en ubicaciones específicas en las representaciones entregadas por la primera etapa de procesamiento. Las rutinas visuales se construyen a partir de un conjunto de operaciones elementales y se utilizan para establecer relaciones espaciales y propiedades de forma. Las operaciones elementales candidatas incluyen indexar un elemento saliente, extender la activación sobre una región y trazar límites. Una rutina visual es así un programa, ensamblado a partir de operaciones elementales, que se activa cuando es necesario para calcular una propiedad espacial necesaria. Las rutinas visuales son parte de la cognición visual porque la atención se utiliza para seleccionar una rutina necesaria (y posiblemente crear una nueva), y para dirigir la rutina a una ubicación específica de interés. Sin embargo, una vez que se activa la rutina, puede entregar su juicio espacial sin requerir recursos adicionales de orden superior.

    En la tercera etapa, las relaciones espaciales calculadas por la cognición visual están vinculadas, como en la teoría de integración de características, a procesos cognitivos de orden superior. Así, Ullman (1984) considera que las rutinas visuales proporcionan una interfaz entre las representaciones creadas por módulos visuales basados en datos y el procesamiento de cognición basado en contenido y de arriba hacia abajo. Dicha interfaz permite combinar procesos basados en datos y teóricos, superando las limitaciones que dichos procesos enfrentarían por sí mismos.

    Las rutinas visuales operan en el término medio que, a diferencia de la creación de abajo hacia arriba de las representaciones base, es parte del procesamiento de arriba hacia abajo y, sin embargo, es independiente del conocimiento específico del objeto. Por lo tanto, su estudio tiene la ventaja de ir más allá de las representaciones base evitando muchas de las complicaciones adicionales asociadas con componentes de nivel superior del sistema. (Ullman, 1984, p. 119)

    Las teorías ejemplares de la cognición visual presentadas anteriormente son teorías híbridas en el sentido de que incluyen procesos tanto de abajo hacia arriba como de arriba hacia abajo, e invocan mecanismos atencionales como vínculo entre ambos. En la siguiente sección vemos que la teoría de la indexación visual de Pylyshyn (2003b, 2007) es similar en espíritu a estas teorías y así exhibe sus características híbridas. Sin embargo, la teoría de la cognición visual de Pylyshyn es híbrida en otro sentido importante: entra en contacto con la ciencia cognitiva clásica, conexionista y encarnada.

    La teoría de la cognición visual de Pylyshyn es clásica porque uno de los principales problemas que intenta resolver es cómo identificar o reidentificar entidades individualizadas. Como resultado se invoca el procesamiento clásico, porque “individuar y reidentificar en general requieren la maquinaria pesada de conceptos y descripciones” (Pylyshyn, 2007, p. 32). Parte de la teoría de la cognición visual de Pylyshyn también es coneccionista, porque apela a mecanismos no clásicos para entregar representaciones visuales (es decir, computación natural), así como a redes coneccionistas (en particular, a mecanismos de ganador-tomarlo todo; ver Feldman & Ballard, 1982) para rastrear entidades después de haber sido individualizados con etiquetas atencionales (Pylyshyn, 2001, 2003c). Finalmente, partes de la teoría de la cognición visual de Pylyshyn se basan en la ciencia cognitiva encarnada. Por ejemplo, la razón por la que rastrear identidades de elementos —resolver el problema de correspondencia— es fundamental porque Pylyshyn asume una encarnación particular del aparato visual, una retina de orden limitado que no puede captar toda la información de un vistazo. De igual manera, Pylyshyn utiliza la noción de andamiaje cognitivo para dar cuenta de las propiedades espaciales de las imágenes mentales.


    This page titled 8.6: Visión, Cognición y Cognición Visual is shared under a CC BY-NC-ND license and was authored, remixed, and/or curated by Michael R. W. Dawson (Athabasca University Press) .