Saltar al contenido principal
LibreTexts Español

4.14: De Códigos Gruesos

  • Page ID
    143876
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    La noción de representación en la ciencia cognitiva clásica está estrechamente ligada a la distinción estructura/proceso que en sí misma se inspira en la computadora digital. Se propone un conjunto explícito de reglas para operar sobre un conjunto de símbolos que permita identificar sus componentes, digitalmente, como tokens que pertenecen a tipos de símbolos particulares.

    En contraste, las redes neuronales artificiales dispensan (a primera vista) de la marcada distinción entre estructura y proceso que caracteriza a la ciencia cognitiva clásica. En cambio, las propias redes toman la forma de símbolos dinámicos que representan la información al mismo tiempo que la transforman. La naturaleza dinámica y distribuida de las redes neuronales artificiales parece hacerlas más propensas a ser explicadas usando mecánica estadística que usando lógica proposicional.

    Una de las ventajas putativas de la ciencia cognitiva conexionista es que puede inspirar nociones alternativas de representación. El desenfoque de la distinción estructura/proceso, la naturaleza aparentemente amorfa de la estructura interna que caracteriza a muchas redes multicapa, lleva a una de esas propuestas, llamada codificación gruesa.

    Un código grueso es aquel en el que una unidad individual está sintonizada muy ampliamente, sensible a una amplia gama de características o al menos a una amplia gama de valores para una característica individual (Churchland & Sejnowski, 1992; Hinton, McClelland, & Rumelhart, 1986). En otras palabras, los procesadores individuales son en sí mismos dispositivos muy inexactos para medir o detectar una característica. Sin embargo, la representación precisa de una característica puede ser posible al agrupar o combinar las respuestas de muchos de estos detectores inexactos, particularmente si sus perspectivas son ligeramente diferentes (por ejemplo, si son sensibles a diferentes rangos de características, o si detectan características de diferentes entradas ubicaciones).

    Un ejemplo familiar de codificación gruesa es proporcionado por la decimonovena teoría tricromática de la percepción del color (Helmholtz, 1968; Wasserman, 1978). Según esta teoría, la percepción del color está mediada por tres tipos de receptores de cono retiniano. Una es máximamente sensible a las longitudes de onda cortas (azules) de la luz, otra es máximamente sensible a las longitudes de onda medias (verdes), y la tercera es máximamente sensible a las longitudes de onda largas (rojas). De esta manera ninguno de estos tipos de receptores es capaz de representar, por sí mismos, el rico arco iris de tonalidades perceptibles.

    Sin embargo, estos receptores están ampliamente sintonizados y tienen sensibilidades superpuestas. Como resultado, la mayor parte de la luz activará los tres canales simultáneamente, pero en diferentes grados. La luz coloreada real no produce sensaciones de color absolutamente puro; ese rojo, por ejemplo, incluso cuando está completamente liberado de toda mezcla de luz blanca, todavía no excita esas fibras nerviosas que por sí solas son sensibles a las impresiones de rojo, sino también, en un grado muy leve, las que son sensibles al verde, y quizás en menor medida los que son sensibles a los rayos violetas. (Helmholtz, 1968, p. 97)

    La puesta en común de diferentes actividades de los tres canales permite representar y percibir una variedad mucho mayor de colores.

    Ya hemos visto ejemplos de codificación gruesa en algunos de los análisis de redes que se presentaron anteriormente en este capítulo. Por ejemplo, considere la red de reconocimiento de acordes. En el Cuadro 4.10.2 se demostró que ninguna de sus unidades ocultas era detectores de acordes precisos. Las Unidades Ocultas 1 y 2 no alcanzaron la máxima actividad cuando se presentaron con algún acorde. Cuando la Unidad Oculta 3 logró la máxima actividad, esto no distinguió un acorde de un acorde mayor de . Sin embargo, cuando los patrones se representaron como puntos en un espacio tridimensional, donde las coordenadas de cada punto se definieron por la actividad de un patrón en cada una de las tres unidades ocultas (Figuras 4.10.6 y 4.10.7), fue posible la clasificación perfecta de acordes.

    Otros ejemplos coneccionistas de codificación gruesa se encuentran en estudios de redes entrenadas para realizar tareas de navegación, como hacer juicios sobre la distancia o dirección entre pares de ciudades en un mapa (Dawson & Boechler, 2007; Dawson, Boechler, & Orsten, 2005; Dawson, Boechler, & Valsangkar- Smyth, 2000). Por ejemplo, Dawson y Boechler (2007) capacitaron a una red para juzgar el rumbo de una ciudad en un mapa de Alberta a otra. Se requirieron siete unidades de valor oculto para llevar a cabo esta tarea. Cada una de estas unidades ocultas podría describirse como sensible al rumbo. Sin embargo, esta sensibilidad era extremadamente gruesa, algunas unidades ocultas podían resolver direcciones solo al 180° más cercano. Sin embargo, una combinación lineal de las actividades de las siete unidades ocultas representó la dirección deseada entre ciudades con un alto grado de precisión.

    De igual manera, Dawson, Boechler y Valsangkar-Smyth (2000) capacitaron a una red de unidades de valor para hacer juicios de distancia entre todos los pares posibles de 13 ciudades albertanas. Esta red requirió seis unidades ocultas para llevar a cabo esta tarea. Nuevamente, estas unidades proporcionaron una solución de codificación gruesa al problema. Cada unidad oculta podría describirse como ocupando una ubicación en el mapa de Alberta a través de la cual se trazaba una línea con una orientación particular. Esta línea orientada proporcionó un mapa unidimensional de las ciudades: los pesos de conexión codificaron las proyecciones de las ciudades desde el mapa bidimensional hasta la representación unidimensional de cada unidad oculta. Sin embargo, debido a que las unidades ocultas proporcionaban mapas de dimensionalidad reducida, eran tremendamente inexactas. Dependiendo de la posición de la línea orientada, dos ciudades que estaban muy separadas en el mapa real podrían estar muy juntas en la representación de una unidad oculta. Afortunadamente, debido a que cada uno de estos mapas de unidades ocultas inexactos codificaban proyecciones desde diferentes perspectivas, la combinación de sus actividades pudo representar la distancia real entre todos los pares de ciudades con un alto grado de precisión.

    El descubrimiento de la codificación gruesa en redes de navegación tiene importantes implicaciones teóricas. Desde el descubrimiento de células de lugar en el hipocampo (O'Keefe & Dostrovsky, 1971), se ha pensado que una función del hipocampo es instanciar un mapa cognitivo (O'Keefe & Nadel, 1978). Una analogía utilizada para explicar los mapas cognitivos es que son como mapas gráficos (Kitchin, 1994). A partir de esto, se podría predecir que el mapa cognitivo es una matriz métrica, topográficamente organizada, bidimensional en la que cada ubicación en el mapa (es decir, cada lugar del mundo externo) está asociada con el disparo de una celda de lugar particular, y las celdas de lugar vecinas representan lugares vecinos en el mundo externo.

    Sin embargo, esta predicción no está respaldada por evidencia anatómica. Primero, las células de lugar no parecen estar organizadas topográficamente (Burgess, Recce, & O'Keefe, 1995; McNaughton et al., 1996). Segundo, los campos receptivos de las celdas de lugar son, en el mejor de los casos, localmente métricos, porque no se puede medir la distancia entre puntos que están separados por más de una docena de longitudes de cuerpo debido a la falta de superposición de campo receptivo (Touretzky, Wan, & Redish, 1994). Algunos investigadores proponen ahora que el mapa cognitivo no sale realmente, sino que las propiedades similares a un mapa emergen cuando las células de lugar se coordinan con otros tipos de células, como las células de dirección de la cabeza, que se disparan cuando la cabeza de un animal es apuntada en una dirección particular, independientemente de la ubicación del animal en el espacio (McNaughton et al., 1996; Redish, 1999; Redish & Touretzky, 1999; Touretzky, Wan, & Redish, 1994).

    Dawson et al. (2000) observaron que su red de navegación también está sujeta a las mismas críticas que se han nivelado contra la noción de un mapa cognitivo organizado topográficamente. Las unidades ocultas no exhibieron organización topográfica, y sus respuestas inexactas sugieren que son, en el mejor de los casos, métricas localmente.

    Sin embargo, el comportamiento de la red de Dawson et al. (2000) indicó que representaba información sobre un espacio métrico. Que tal comportamiento pueda ser soportado por el tipo de codificación gruesa descubierta en esta red sugiere que la información métrica, espacial puede codificarse en un esquema representacional que no es isomórfico a un mapa gráfico. Esto plantea la posibilidad de que las celdas de lugar representen información espacial utilizando un código grueso que, cuando se inspeccionan sus componentes individuales, no es muy parecido a un mapa en absoluto. O'Keefe y Nadel (1978, p. 78) estaban explícitamente conscientes de este tipo de posibilidades: “El mapa cognitivo no es una imagen o imagen que 'se parece' a lo que representa; más bien, es una estructura de información a partir de la cual se pueden reconstruir imágenes parecidas a mapas y de la cual el comportamiento depende del lugar se puede generar información”.

    ¿Cuáles son las implicaciones de la capacidad de interpretar la estructura interna de las redes neuronales artificiales para la práctica de la ciencia cognitiva conexionista?

    Cuando surgió el Nuevo Conexionismo en la década de 1980, el interés por él fue alimentado por dos perspectivas complementarias (Medler, 1998). Primero, hubo una creciente insatisfacción con los avances que se estaban realizando en la ciencia cognitiva clásica y la inteligencia artificial simbólica (Dreyfus, 1992; Dreyfus & Dreyfus, 1988). Segundo, las introducciones seminales a las redes neuronales artificiales (McClelland & Rumelhart, 1986; Rumelhart & McClelland, 1986c) dieron el sentido de que la arquitectura coneccionista era una alternativa radical a su contraparte clásica (Schneider, 1987).

    Las aparentes diferencias entre las redes neuronales artificiales y los modelos clásicos llevaron a un período temprano de investigación en el que las redes fueron entrenadas para realizar tareas que típicamente habían sido vistas como ejemplos prototípicos de la ciencia cognitiva clásica (Bechtel, 1994; Rumelhart & McClelland, 1986a; Seidenberg & McClelland, 1989; Sejnowski y Rosenberg, 1988). Estas redes se utilizaron entonces como “pruebas de existencia” para apoyar la afirmación de que los modelos no clásicos de fenómenos clásicos son posibles. Sin embargo, no se proporcionaron análisis detallados de estas redes, lo que significó que, aparte de las intuiciones de que el conexionismo no es clásico, no había evidencia que respaldara afirmaciones sobre la naturaleza no clásica de las soluciones de las redes a los problemas clásicos. Debido a esto, esta perspectiva de investigación se ha llamado gee whiz connectionism (Dawson, 2004, 2009).

    Por supuesto, casi al mismo tiempo, destacados investigadores clásicos criticaban el poder computacional de las redes coneccionistas (Fodor & Pylyshyn, 1988), argumentando que el conexionismo era un retroceso a nociones menos poderosas de asociacionismo que la ciencia cognitiva clásica ya había vencido (Bever, Fodor, & Garrett, 1968; Chomsky, 1957, 1959b, 1965). Así, el conexionismo gee whiz cumplió un propósito importante: proporcionar demostraciones empíricas de que el conexionismo podría ser un medio plausible en el que la ciencia cognitiva pueda ser provechosamente perseguida.

    Sin embargo, se señaló anteriormente que existe una gran cantidad de investigación sobre el poder computacional de las redes neuronales artificiales (Girosi & Poggio, 1990; Hartman, Keeler, & Kowalski, 1989; Lippmann, 1989; McCulloch & Pitts, 1943; Moody & Darken, 1989; Poggio & Girosi, 1990; Renals, 1989; Siegelmann, 1999; Siegelmann & Sontag, 1991); la conclusión de esta investigación es que las redes multicapa tienen el mismo poder en principio que cualquier máquina universal. Esto lleva, sin embargo, a la desaparición del coneccionismo gee whiz, porque si los sistemas coneccionistas pertenecen a la clase de máquinas universales, “no es interesante ni sorprendente demostrar que una red puede aprender una tarea de interés” (Dawson, 2004, p. 118). Si la capacidad de una red para aprender a realizar una tarea no es de interés, ¿entonces qué es?

    Puede ser sumamente interesante, sorprendente e informativo determinar qué regularidades explota la red. ¿Qué tipo de regularidades en los patrones de entrada ha descubierto la red? ¿Cómo representa estas regularidades? ¿Cómo se combinan estas regularidades para regir la respuesta de la red? (Dawson, 2004, p. 118)

    Al descubrir las propiedades de las representaciones que las redes han descubierto para mediar una relación input-output, los científicos cognitivos coneccionistas pueden descubrir nuevas propiedades de los fenómenos cognitivos.


    This page titled 4.14: De Códigos Gruesos is shared under a CC BY-NC-ND license and was authored, remixed, and/or curated by Michael R. W. Dawson (Athabasca University Press) .