Saltar al contenido principal
LibreTexts Español

7.6: Representaciones locales versus representaciones distribuidas

  • Page ID
    143718
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Los científicos cognitivos clásicos y coneccionistas coinciden en que las teorías de la cognición deben apelar a las representaciones internas (Fodor & Pylyshyn, 1988). No obstante, parecen tener fuertes desacuerdos sobre la naturaleza de tales representaciones. En particular, los científicos cognitivos coneccionistas proponen que sus redes explotan representaciones distribuidas, las cuales proporcionan muchas ventajas sobre las representaciones locales que argumentan caracterizan el enfoque clásico (Bowers, 2009). Es decir, las representaciones distribuidas a menudo se toman como una marca del coneccionista, y las representaciones locales se toman como una marca de lo clásico.

    Existe un acuerdo general e intuitivo sobre las diferencias entre representaciones distribuidas y locales. En una representación distribuida coneccionista, “el conocimiento se codifica como un patrón de activación a través de muchas unidades de procesamiento, contribuyendo cada unidad a múltiples representaciones diferentes. Como consecuencia, no hay una sola unidad dedicada a codificar una palabra, objeto o persona dada” (Bowers, 2009, p. 220). En contraste, en una representación local clásica, “las palabras individuales, los objetos, los conceptos simples y similares se codifican claramente, con su propia representación dedicada” (p. 22).

    No obstante, cuando se examina con más detenimiento la definición de representación distribuida (van Gelder, 1991), se aclaran dos hechos. En primer lugar, este término es utilizado por diferentes coneccionistas de diferentes maneras. Segundo, algunos de los usos de este término no parecen diferenciar a las representaciones conexionistas de las clásicas.

    Van Gelder (1991) señaló, por ejemplo, que un sentido común de la representación distribuida es que se extiende: una representación distribuida utiliza muchas unidades para representar cada ítem, mientras que las representaciones locales no. “Afirmar que un nodo está distribuido es presumiblemente afirmar que sus estados de activación corresponden a patrones de actividad neural —a agregados de 'unidades' neuronales— más que a activaciones de neuronas individuales” (Fodor y Pylyshyn, 1988, p. 19). Es esta sensación de representación extendida o distribuida la que produce ventajas conexionistas como la resistencia al daño, porque la pérdida de uno de los muchos procesadores utilizados para representar un concepto no producirá una pérdida catastrófica de la información representada.

    Sin embargo, el uso de extendido para definir distribuido no segrega las representaciones conexionistas de sus contrapartes clásicas. Por ejemplo, la imagen mental es un ejemplo importante de una representación clásica (Kosslyn, 1980; Kosslyn, Thompson, & Ganis, 2006; Paivio, 1971, 1986). Sería extraño pensar en una imagen mental como distribuida, particularmente en el contexto del uso coneccionista de este término. Sin embargo, los defensores de las imágenes mentales argumentarían que están extendidas, funcionalmente en términos de extenderse sobre el espacio, y físicamente en términos de extenderse sobre agregados de neuronas en áreas topográficamente organizadas de la corteza (Kosslyn, 1994; Kosslyn, Ganis, & Thompson, 2003; Kosslyn et al., 1995). “Hay buena evidencia de que el cerebro representa representaciones literalmente, usando el espacio en la corteza para representar el espacio en el mundo” (Kosslyn, Thompson, & Ganis, 2006, p. 15).

    Otra noción de representación distribuida considerada por van Gelder (1991) fue el código grueso (Feldman & Ballard, 1982; Hinton, McClelland, & Rumelhart, 1986). Nuevamente, un código grueso se presenta típicamente como redes coneccionistas distintivas de los modelos clásicos. Un código grueso se extiende en el sentido de que se requieren múltiples procesadores para hacer la representación. Estos procesadores tienen dos propiedades. Primero, sus campos receptivos son amplios, es decir, están muy sintonizados, de modo que una variedad de circunstancias conducirán a la activación en un procesador. Segundo, los campos receptivos de diferentes procesadores se superponen. En este tipo de representación, es posible un alto grado de precisión agrupando las respuestas de una serie de procesadores ampliamente sintonizados (es decir, gruesos) (Dawson, Boechler, & Orsten, 2005; Dawson, Boechler, & Valsangkar-Smyth, 2000).

    Si bien la codificación gruesa es un tipo importante de representación en la literatura coneccionista, una vez más es posible encontrar ejemplos de codificación gruesa en modelos clásicos también. Por ejemplo, una manera en que la codificación gruesa de la ubicación espacial es presentada por los coneccionistas (Hinton, McClelland, & Rumelhart, 1986) puede ser fácilmente refundida en términos de diagramas de Venn. Es decir, cada conjunto no vacío representa la ubicación aproximada de un objetivo en un área espacial amplia; la intersección de conjuntos no vacíos superpuestos proporciona una localización del objetivo más precisa.

    Sin embargo, los modelos clásicos de razonamiento silogístico pueden ser fundidos de manera similar que incluyen círculos de Euler y diagramas de Venn (Johnson-Laird, 1983). De hecho, la noción más moderna de modelos mentales de Johnson-Laird (1983) puede verse a sí misma como una extensión de estos enfoques: las declaraciones silogísticas se representan como un cuadro de diferentes instancias; el silogismo se resuelve combinando (es decir, intersecando) cuadros para diferentes afirmaciones y examinando los instancias relevantes que resulten. En otras palabras, se puede considerar que los modelos mentales representan un ejemplo clásico de codificación gruesa, sugiriendo que este concepto no necesariamente distingue a la conexionista de las teorías clásicas.

    Después de su análisis más detallado del concepto, van Gelder (1991) argumentó que se requiere una noción más fuerte de distribución, y que esto se puede lograr invocando el concepto de superposición. Se superponen dos conceptos diferentes si se utilizan los mismos recursos para proporcionar sus representaciones. “Así, en las redes coneccionistas podemos tener diferentes ítems almacenados como patrones de actividad sobre un mismo conjunto de unidades, o múltiples asociaciones diferentes codificadas en un conjunto de pesos” (p. 43).

    Van Gelder (1991) señaló que un tema con superposición es que debe definirse en grados. Por ejemplo, puede darse el caso de que no todos los recursos se utilicen simultáneamente para representar todos los contenidos. Además, la operacionalización de la noción de superposición depende de cómo se definan y miden los recursos. Finalmente, diferentes grados de superposición pueden reflejarse en el número de diferentes contenidos que un recurso determinado puede representar. Por ejemplo, es bien sabido que un tipo de red neuronal artificial, la red Hopfield (Hopfield, 1982), es de capacidad limitada, donde si la red está compuesta por N procesadores, solo será para poder representar en el orden de 0.18 N memorias distintas (Abu-Mostafa & St. Jacques, 1985; McEliece, et al., 1987).

    No obstante, van Gelder (1991) expresó su confianza en que la noción de superposición proporciona una característica apropiada para definir una representación distribuida. “Es lo suficientemente fuerte como para que muchos tipos de representaciones no cuenten como superpuestas, sin embargo, logra subsumir prácticamente todos los casos paradigmáticos de distribución, ya sea que estos sean extraídos del cerebro, del conexionismo, de la psicología o de la óptica” (p. 54).

    Aunque la definición de van Gelder (1991) sea correcta, sigue siendo así que el concepto de superposición no distingue universalmente las representaciones conexionistas de las clásicas. Un ejemplo de esto es cuando los conceptos se representan como colecciones de características o microcaracterísticas. Por ejemplo, en un influyente modelo PDP llamado red interactiva de activación y competencia (McClelland & Rumelhart, 1988), la mayoría de las unidades de procesamiento representan la presencia de una variedad de características. Los conceptos de orden superior se definen como conjuntos de tales características. Esta es una instancia de superposición, porque la misma característica puede estar involucrada en la representación de múltiples redes. Sin embargo, el mismo tipo de representación, es decir, superposición de elementos featurales, también es cierto para muchas representaciones clásicas prototípicas, incluyendo redes semánticas (Collins & Quillian, 1969, 1970a, 1970b) y representaciones de conjuntos de características (Rips, Shoben, & Smith, 1973; Tversky, 1977; Tversky y amp; Gati, 1982).

    La discusión hasta este punto ha considerado un puñado de nociones diferentes de representación distribuida, y ha argumentado que estas diferentes definiciones no parecen separar de manera única los conceptos coneccionistas y clásicos de representación. Para concluir esta discusión, tomemos un enfoque diferente y consideremos por qué en algunos sentidos los investigadores coneccionistas aún pueden necesitar apelar a las representaciones locales.

    Un problema de considerable interés dentro de la neurociencia cognitiva es el problema de asignar funciones conductuales específicas a regiones cerebrales específicas; es decir, la localización de la función. Para ayudar en este esfuerzo, los neurocientíficos cognitivos encuentran útil distinguir entre dos tipos cualitativamente diferentes de déficits conductuales. Una sola disociación consiste en que un paciente realiza una tarea extremadamente mal mientras realiza una segunda tarea a un nivel normal, o al menos mucho mejor que la primera. En contraste, se produce una doble disociación cuando un paciente realiza la primera tarea significativamente más pobre que el segundo, y otro paciente (con una lesión cerebral diferente) realiza la segunda tarea significativamente más pobre que la primera (Shallice, 1988).

    Los neurocientíficos cognitivos han argumentado que las disociaciones dobles reflejan daños a las funciones localizadas (Caramazza, 1986; Shallice, 1988). La opinión de que los datos de disociación revelan estructuras internas de naturaleza local se ha denominado el supuesto de localidad (Farah, 1994).

    No obstante, Farah (1994) planteó la hipótesis de que el supuesto de localidad puede no estar justificado por dos razones. En primer lugar, su validez depende de la suposición adicional de que el cerebro está organizado en un conjunto de módulos funcionalmente distintos (Fodor, 1983). Farah argumentó que la modularidad del cerebro es una cuestión empírica no resuelta. En segundo lugar, Farah señaló que es posible que las arquitecturas no locales o distribuidas, como las redes de procesamiento distribuido paralelo (PDP), produzcan disociaciones simples o dobles cuando se lesionan. Como la naturaleza interactiva de las redes PDP es “directamente incompatible con la suposición de localidad” (p. 46), la suposición de localidad puede no ser una herramienta indispensable para los neurocientíficos cognitivos.

    Farah (1994) revisó tres áreas en las que previamente se habían utilizado disociaciones neuropsicológicas para hacer inferencias sobre la estructura local subyacente. Para cada uno proporcionó una arquitectura alternativa: una red PDP. Cada una de estas redes, cuando se dañó localmente, produjo déficits conductuales (locales) análogos a las disociaciones neuropsicológicas de interés. Estos resultados llevaron a Farah a concluir que no se puede inferir que un déficit conductual específico se asocia con la pérdida de una función local, ya que la visión predominante es que las redes PDP son, por definición, distribuidas y por lo tanto no locales en estructura.

    Sin embargo, un estudio desafió el argumento de Farah (1994) tanto lógica como empíricamente (Medler, Dawson y Kingstone, 2005). Medler, Dawson y Kingstone (2005) señalaron que todo el argumento de Farah se basó en la suposición de que las redes coneccionistas exhiben una estructura interna universalmente distribuida. Sin embargo, esta suposición necesita ser apoyada empíricamente; Medler y sus colegas argumentaron que esto solo se podía hacer interpretando la estructura interna de una red y relacionando los déficits conductuales con interpretaciones de componentes ablados. Señalaron que era perfectamente posible que las redes PDP adoptaran representaciones internas que fueran de naturaleza más local, y que las disociaciones simples y dobles en redes lesionadas pueden ser el resultado de dañar las representaciones locales.

    Medler, Dawson y Kingstone (2005) apoyaron su posición entrenando una red sobre un problema lógico e interpretando la estructura interna de la red, adquiriendo evidencia sobre cuán local o no local era la función de cada unidad oculta. Luego crearon diferentes versiones de la red lesionando una de sus 16 unidades ocultas, evaluando déficits de comportamiento en cada red lesionada. Encontraron que cuanto más local era una unidad oculta, más profunda y específica era el déficit conductual que se derivó cuando la unidad fue lesionada. “Para que se produzca una doble disociación dentro de un modelo computacional, el modelo debe tener alguna forma de localización funcional” (p. 149).

    Vimos antes que uno de los objetivos clave de la ciencia cognitiva conexionista era desarrollar modelos que fueran biológicamente plausibles. Claramente un aspecto de esto es producir redes que sean capaces de reflejar déficits apropiados en el comportamiento cuando se dañan, como disociaciones simples o dobles. Medler, Dawson y Kingstone (2005) han demostrado que la capacidad de hacerlo, incluso en redes PDP, requiere representaciones locales. Esto proporciona otra línea de evidencia contra la afirmación de que las representaciones distribuidas pueden ser utilizadas para distinguir a la conexionista de los modelos clásicos. En otras palabras, las representaciones locales no parecen ser una marca de lo clásico.


    This page titled 7.6: Representaciones locales versus representaciones distribuidas is shared under a CC BY-NC-ND license and was authored, remixed, and/or curated by Michael R. W. Dawson (Athabasca University Press) .