Saltar al contenido principal
LibreTexts Español

8.3: La pobreza del estímulo

  • Page ID
    143813
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Algunos investigadores han notado una tensión llamativa entre la experiencia y la ciencia (Varela, Thompson, & Rosch, 1991). Por un lado, nuestra experiencia cotidiana proporciona un sentido convincente y anclado de autoconciencia. Por otro lado, la ciencia cognitiva asume una autofragmentación fundamental, porque gran parte del pensamiento está supuestamente mediado por mecanismos que son modulares, independientes y completamente incapaces de formar parte de la experiencia consciente. “Así el cognitivismo desafía nuestra convicción de que la conciencia y la mente o bien equivalen a lo mismo o [de que] existe una conexión esencial o necesaria entre ellas” (p. 49).

    La tensión entre la experiencia y la ciencia es abundantemente evidente en la investigación de la visión. Ciertamente es cierto que el estudio científico de la percepción visual se basa en gran medida en el análisis de la experiencia visual (Pylyshyn, 2003c). Sin embargo, los investigadores están convencidos de que este análisis debe realizarse con precaución y complementarse con metodologías adicionales. Esto se debe a que la experiencia visual no es completa, en el sentido de que no proporciona acceso directo ni experiencia del procesamiento visual. Pylyshyn (2003b) escribió:

    lo que hacemos [experimentamos] es engañoso porque siempre es el mundo como nos parece que vemos, no el trabajo real que está haciendo la mente al pasar de los estímulos proximales, generalmente patrones ópticos en la retina, a la experiencia familiar de ver (o imaginar) el mundo. (Pylyshyn, 2003b, p. xii)

    Los investigadores de la visión han sido conscientes desde hace mucho tiempo de que la maquinaria de la visión no es parte de nuestra experiencia visual. Helmholtz señaló que “podría parecer que nada podría ser más fácil que ser consciente de las propias sensaciones; y sin embargo la experiencia demuestra que para el descubrimiento de sensaciones subjetivas se necesita algún talento especial” (Helmholtz & Southall, 1962b, p. 6). El psicólogo cognitivo Roger Shepard observó que,

    primero no experimentamos una imagen bidimensional y luego calculamos o inferimos conscientemente la escena tridimensional que es más probable, dada esa imagen. Lo primero que experimentamos es el mundo tridimensional, ya que nuestro sistema visual ya lo ha inferido para nosotros sobre la base de la entrada bidimensional. (Shepard, 1990, p. 168)

    En el siglo XIX, Hermann von Helmholtz argumentó que nuestra experiencia visual resulta del trabajo de mecanismos inconscientes. “Las actividades psíquicas que nos llevan a inferir que ahí frente a nosotros en cierto lugar hay cierto objeto de cierto carácter, generalmente no son actividades conscientes, sino inconscientes” (Helmholtz & Southall, 1962b, p. 4). Sin embargo, la extensión y naturaleza de este procesamiento inconsciente solo se reveló cuando los investigadores intentaron programar computadoras para ver. Luego se descubrió que los procesos visuales enfrentan un problema difícil que también estimuló avances en la teoría lingüística moderna: la pobreza del estímulo.

    La lingüística generativa distinguió entre aquellas teorías del lenguaje que eran descriptivamente adecuadas y aquellas que eran explicativamente adecuadas (Chomsky, 1965). Una teoría del lenguaje descriptivamente adecuada proporcionó una gramática capaz de describir la estructura de cualquier posible oración gramatical en un idioma e incapaz de describir la estructura de cualquier oración que no pertenecía a esta lengua. Una teoría explicativamente adecuada más poderosa fue descriptivamente adecuada, pero también proporcionó un relato de cómo se aprendió esa gramática. “En la medida en que una teoría lingüística logre seleccionar una gramática descriptivamente adecuada a partir de datos lingüísticos primarios, podemos decir que cumple con la condición de adecuación explicativa” (p. 25).

    ¿Por qué Chomsky utilizó la capacidad de dar cuenta del aprendizaje de idiomas como una característica definitoria de la adecuación explicativa? Fue porque Chomsky se dio cuenta de que el aprendizaje de idiomas enfrentaba la pobreza del estímulo. El argumento de la pobreza del estímulo es la afirmación de que los datos lingüísticos primarios, es decir, las expresiones lingüísticas escuchadas por un niño, no contienen suficiente información para especificar de manera única la gramática utilizada para producirlos.

    Parece que un niño debe tener la capacidad de 'inventar' una gramática generativa que defina la buena formación y asigne interpretaciones a las oraciones aunque los datos lingüísticos primarios que utiliza como base para este acto de construcción teórica puedan, desde el punto de vista de la teoría constructos, ser deficientes en diversos aspectos. (Chomsky, 1965, p. 201)

    La pobreza del estímulo es responsable de pruebas formales de que el aprendizaje textual de una lengua no es posible si el idioma está definido por una gramática compleja (Gold, 1967; Pinker, 1979; Wexler & Culicover, 1980).

    La adquisición del lenguaje puede describirse como resolver el problema de proyección: determinar el mapeo desde los datos lingüísticos primarios hasta la gramática adquirida (Baker, 1979; Peters, 1972). Cuando se interpreta así el aprendizaje de idiomas, la pobreza del estímulo se convierte en un problema de subdeterminación. Es decir, la proyección de los datos a la gramática no es única, sino que es uno a muchos: un conjunto de datos lingüísticos primarios es consistente con muchas gramáticas potenciales.

    Para los individuos videntes, nuestra experiencia visual nos hace dar por sentada la percepción visual. Tenemos el sentido de que simplemente miramos el mundo y lo vemos. En efecto, la fenomenología de la visión llevó a los pioneros de la inteligencia artificial a esperar que construir la visión en las computadoras sería un problema sencillo. Por ejemplo, Marvin Minsky asignó a un estudiante, como proyecto de verano, la tarea de programar una computadora para ver (Horgan, 1993). Sin embargo, las fallas en el desarrollo de la visión por computador hicieron evidente que el sistema visual humano estaba resolviendo sin esfuerzo, en tiempo real, problemas de procesamiento de información enormemente complicados. Al igual que el aprendizaje de idiomas, la visión está drásticamente subdeterminada. Es decir, si se ve la visión como la proyección desde los datos visuales primarios (el estímulo proximal en la retina) hasta la interpretación o representación interna de la escena distal, esta proyección es de uno a muchos. Un único estímulo proximal es consistente con un número infinito de interpretaciones diferentes (Gregory, 1970; Marr, 1982; Pylyshyn, 2003c; Rock, 1983; Shepard, 1990).

    Una razón por la que la visión está subdeterminada es porque el mundo distal está dispuesto en tres dimensiones del espacio, pero la fuente primaria de información visual que tenemos al respecto proviene de patrones de luz proyectados sobre una superficie esencialmente bidimensional, la retina. “Según un teorema fundamental de la topología, las relaciones entre objetos en un espacio de tres dimensiones no pueden conservarse todas en una proyección bidimensional” (Shepard, 1990, pp. 173—175).

    Esta fuente de subdeterminación se ilustra en la Figura 8-1, que ilustra una vista desde la parte superior de un ojo observando un punto en el mundo distal a medida que se mueve de la posición X1 a la posición Y1 durante un intervalo de tiempo dado.

    8.1.png

    Figura 8-1. Indeterminación del movimiento proyectado.

    El dato visual primario causado por este movimiento es el movimiento, del punto A al punto B, de un punto proyectado sobre la parte posterior de la retina. La proyección del mundo a la parte posterior del ojo está definida de manera única por las leyes de la óptica y de la geometría proyectiva.

    Sin embargo, la proyección en la otra dirección, desde la retina hasta el mundo distal, no es única. Si se intenta usar solo la información retiniana para identificar las condiciones distales que la causaron, entonces hay infinitamente muchas posibilidades disponibles. Cualquiera de las diferentes trayectorias de movimiento en el mundo (que ocurren en la misma duración) que se ilustran en la Figura 8-1 son consistentes con la información proximal proyectada sobre el ojo. De hecho, el movimiento desde cualquier posición a lo largo de la línea discontinua a través de los puntos marcados con X hasta cualquier posición a lo largo de la otra línea discontinua es una causa potencial del estímulo proximal.

    Una razón de la pobreza del estímulo visual, como se ilustra en la Figura 8-1, es que la información se pierde necesariamente cuando una imagen de un espacio tridimensional se proyecta sobre una superficie bidimensional.

    Estamos tan familiarizados con ver, que se necesita un salto de imaginación para darnos cuenta de que hay problemas por resolver. Pero considérelo. Se nos dan diminutas imágenes distorsionadas al revés en los ojos, y vemos objetos sólidos separados en el espacio circundante. A partir de los patrones de estimulación en las retinas percibimos el mundo de los objetos, y esto es nada menos que un milagro. (Gregory, 1978, p. 9)

    Una segunda razón de la pobreza del estímulo visual surge porque los circuitos neuronales que median la percepción visual están sujetos a la restricción de orden limitado (Minsky & Papert, 1969). No hay un solo receptor que tome todo el estímulo visual de un vistazo. En cambio, cada receptor procesa solo una pequeña parte de los datos visuales primarios. Esto produce deficiencias en la información visual. Por ejemplo, consideremos el problema de apertura que surge en la percepción del movimiento (Hildreth, 1983), ilustrado en la Figura 8-2.

    8.2.png

    Figura 8-2. El problema de apertura en la percepción del movimiento.

    Ante esta situación, la tarea de un detector de movimiento es detectar el movimiento de un contorno, mostrado en gris. Sin embargo, el detector de movimiento es de orden limitado: su ventana en el contorno móvil es la abertura circular en la figura, una abertura que es mucho más pequeña que el contorno que observa.

    Debido a su pequeña apertura, el detector de movimiento en la Figura 8-2 solo puede ser sensible al componente del movimiento del contorno que es perpendicular al borde del contorno, vector A. Es completamente ciego a cualquier movimiento paralelo al contorno, el vector discontinuo B. Esto se debe a que el movimiento en esta dirección no cambiará la apariencia de nada dentro de la abertura. Como resultado, el detector de movimiento es incapaz de detectar el verdadero movimiento del contorno, vector T.

    La restricción de orden limitado conduce a una fuente adicional de subdeterminación visual. Si los detectores visuales son de orden limitado, entonces nuestra interpretación del estímulo proximal debe ser el resultado de combinar muchas mediciones locales diferentes (y deficientes) juntas. Sin embargo, existen muchas interpretaciones globales diferentes que son consistentes con un solo conjunto de tales mediciones. Las mediciones locales por sí mismas no pueden determinar de manera única la percepción global que experimentamos.

    Considere nuevamente el problema de apertura de la Figura 8-2. Imagínese uno, o muchos, detectores de movimiento locales que entregan el vector A en muchos puntos a lo largo de ese contorno. ¿Cuántos movimientos verdaderos del contorno podrían producir esta situación? En principio, se puede crear un número infinito de diferentes vectores posibles Ts eligiendo cualquier longitud deseada del vector B, a la que cualquiera de los detectores sea completamente ciego, y agregándolo al movimiento que realmente se detecta, es decir, el vector A.

    Pylyshyn (2003b, 2007) aportó muchos argumentos en contra de la teoría de que la visión construye una representación del mundo, que es de naturaleza representativa. Sin embargo, la teoría a la que Pylyshyn se opuso está profundamente arraigada en las cuentas del procesamiento visual.

    Desde hace años, la visión común ha sido que una imagen interna de gran alcance se construye superponiendo información de miradas individuales a las coordenadas apropiadas de la imagen maestra: a medida que el ojo se mueve sobre una escena, la información sobre la retina se transmite al sistema perceptual, que luego lo proyecta sobre una pantalla interna en el lugar apropiado, pintando así la escena más grande para que el lado de la mente la observe. (Pylyshyn, 2003b, pp. 16—17)

    Los defensores de esta visión se enfrentan a otra fuente de pobreza del estímulo visual. Es análogo a la restricción de orden limitado, en el sentido de que surge porque la visión procede accediendo a pequeñas cantidades de información en una secuencia de vislumbres fragmentarios.

    Si bien experimentamos nuestro mundo visual como un panorama rico y estable que está presente en su totalidad, esta experiencia es ilusoria (Dennett, 1991; Pylyshyn, 2003c, 2007). La evidencia sugiere que solo experimentamos fragmentos del mundo distal de una mirada a la vez. Por ejemplo, somos propensos a cambiar la ceguera, donde no notamos un cambio visual sustancial a pesar de que ocurre a plena vista (O'Regan et al., 2000). Un fenómeno relacionado es la ceguera por falta de atención, en la que no se nota información visual que debería ser obvia porque la atención no se dirige a ella (¡aunque la mirada lo sea!). En un famoso experimento (Simons & Chabris, 1999), los sujetos vieron un video de un juego de basquetbol y fueron instruidos para contar el número de veces que los equipos cambiaron de posesión del balón. En medio del juego una persona vestida con traje de gorila salió a la cancha y bailó un jig. Sorprendentemente, la mayoría de los sujetos no se percataron de este evento tan visible porque estaban prestando atención al balón.

    Si el sistema visual recoge fragmentos de información visual de un vistazo a la vez, entonces nuestra experiencia visual sugiere además que estos diferentes fragmentos son “cosidos” para crear un panorama estable. Para que esto ocurra, los fragmentos tienen que insertarse en el lugar correcto, presumiblemente identificando componentes del fragmento (en términos de propiedades visibles) de tal manera que se pueda afirmar que “objeto x en una ubicación en un vistazo recogido en el tiempo t + 1 es el lo mismo que el objeto y en una ubicación diferente en un atisbo recogido en un tiempo anterior t.” Esto implica computar correspondencia, o rastrear las identidades de los objetos a lo largo del tiempo o el espacio, problema central para el estudio de la visión binocular (Marr, Palm, & Poggio, 1978; Marr & Poggio, 1979) y la percepción del movimiento (Dawson, 1991; Dawson y Pylyshyn, 1988; Ullman, 1978, 1979).

    Sin embargo, la computación de la correspondencia es un problema clásico de subdeterminación. Si hay N elementos diferentes en dos vistas diferentes de una escena, entonces hay al menos N! formas de hacer coincidir las identidades de los elementos a través de las vistas. Este problema no puede resolverse mediante la coincidencia de imágenes, basando las coincidencias en la apariencia o descripción de elementos en las diferentes vistas, porque la naturaleza dinámica del mundo, sumada a la pérdida de información al respecto cuando se proyecta sobre los ojos, significa que generalmente hay cambios radicales en una estímulo proximal del objeto incluso durante breves períodos de tiempo.

    ¿Cómo sabemos qué descripción se aplica de manera única a un individuo en particular y, lo que es más importante, cómo sabemos qué descripción será única en algún momento en el futuro cuando necesitemos encontrar nuevamente la representación de ese token en particular para agregar algunos recién notados información a ello? (Pylyshyn, 2007, p. 12)

    En resumen, la percepción visual está intrínsecamente subdeterminada debido a la pobreza del estímulo visual. Si el objetivo de la visión es construir representaciones del mundo distal, entonces los estímulos proximales no contienen por sí mismos suficiente información para lograr este objetivo. En principio, un número infinito de escenas distales podría ser la causa de un único estímulo proximal. “Y sin embargo, no percibimos una gama de mundos alternativos posibles cuando miramos hacia fuera una escena. Invariablemente vemos un único diseño único. De alguna manera el sistema visual logra seleccionar una de las innumerables posibilidades lógicas” (Pylyshyn, 2003b, p. 94). Además, la interpretación seleccionada por el sistema visual parece, desde nuestro éxito en la interacción con el mundo, casi siempre es correcta. “Lo que es notable es que erramos tan raramente” (Shepard, 1990, p. 175).

    ¿Cómo compensa el sistema visual la pobreza del estímulo así como genera soluciones únicas y precisas a problemas de subdeterminación? En las siguientes secciones consideramos dos respuestas muy diferentes a esta pregunta, las cuales son centrales en la teoría de la cognición visual de Pylyshyn. El primero de ellos, que se remonta a Helmholtz (Helmholtz & Southall, 1962b) y que se afianzó con la popularidad del New Look en la década de 1950 (Bruner, 1957, 1992), es que la percepción visual es un procesamiento cognitivo completo. “Dadas las pistas más esbeltas sobre la naturaleza de los objetos circundantes los identificamos y actuamos no tanto de acuerdo a lo que se percibe directamente, sino a lo que se cree” (Gregory, 1970, p. 11).


    This page titled 8.3: La pobreza del estímulo is shared under a CC BY-NC-ND license and was authored, remixed, and/or curated by Michael R. W. Dawson (Athabasca University Press) .