4.7: Más allá del metapostulado terminal

Última actualización
Guardar como PDF

Page ID: 143882

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Las redes coneccionistas son dispositivos asociacionistas que mapean entradas a salidas, sistemas que convierten estímulos en respuestas. Sin embargo, vimos en el Capítulo 3 que los científicos cognitivos clásicos habían establecido que las teorías de estímulo-respuesta de la psicología conductista no podían abordar adecuadamente la estructura recursiva del lenguaje natural (Chomsky, 1957, 1959b, 1965, 1966). En el argumento metapostulado terminal (Bever, Fodor y Garrett, 1968), se observó que las reglas de la teoría asociativa definían un “vocabulario terminal de una teoría, es decir, sobre el vocabulario en el que se describe el comportamiento” (p. 583). Bever, Fodor y Garrett procedieron entonces a demostrar que el vocabulario terminal del asociacionismo no es lo suficientemente poderoso como para aceptar o rechazar lenguajes que tienen una estructura clausal recursiva.

Si la ciencia cognitiva conexionista es otra instancia de la teoría asociativa o conductista, entonces es lógico pensar que también está sujeta a estos mismos problemas y por lo tanto carece del poder computacional requerido de la teoría cognitiva. Una de las críticas más influyentes al conexionismo ha hecho esencialmente este punto, argumentando en contra del poder computacional de las redes neuronales artificiales porque carecen de la componencialidad y sistematicidad asociadas a reglas recursivas que operan sobre componentes de expresiones simbólicas (Fodor & Pylyshyn, 1988). Si las redes neuronales artificiales no pertenecen a la clase de máquinas universales, entonces no pueden competir contra los sistemas de símbolos físicos que definen la ciencia cognitiva clásica (Newell, 1980; Newell y Simon, 1976).

¿Qué tareas pueden realizar las redes neuronales artificiales y qué tan bien pueden realizarlas? Para comenzar, consideremos el tipo de problema más frecuente que se utilizan para resolver las redes neuronales artificiales: el reconocimiento de patrones (Pao, 1989; Ripley, 1996). El reconocimiento de patrones es un proceso mediante el cual los patrones de entrada variables, definidos por conjuntos de características que pueden tener valores continuos, se asignan a categorías discretas de una manera de todo o ninguno (Harnad, 1987). En otras palabras, requiere que un sistema realice un mapeo de entradas continuas a salidas discretas. Las redes neuronales artificiales son claramente capaces de realizar este tipo de mapeo, siempre que sus unidades de salida utilicen una función de activación binaria como la Heaviside, o que su salida continua sea lo suficientemente extrema como para que se le dé una interpretación binaria. En este contexto, el patrón de respuestas “on” y “off” en un conjunto de unidades de salida representa el nombre digital de la clase a la que se ha asignado un patrón de entrada.

Vimos anteriormente que los problemas de reconocimiento de patrones se pueden representar usando espacios de patrones (Figura 4-2). Para clasificar patrones, un sistema talla un espacio de patrones en regiones de decisión que separan todos los patrones que pertenecen a una clase de los patrones que pertenecen a otras. Un clasificador de patrones arbitrario sería un sistema que pudiera, en principio, resolver cualquier problema de reconocimiento de patrones con el que se enfrentara. Para tener tal capacidad, dicho sistema debe tener total flexibilidad para tallar un espacio de patrón en regiones de decisión: debe ser capaz de dividir el espacio en regiones de cualquier forma o número requerido.

Las redes neuronales artificiales pueden categorizar patrones. ¿Qué tan bien pueden hacerlo? Se ha demostrado que un perceptrón multicapa con tres capas de conexiones, dos capas de unidades ocultas que intervienen entre las capas de entrada y salida, es de hecho un clasificador de patrones arbitrarios (Lippmann, 1987, 1989). Esto se debe a que las dos capas de unidades ocultas proporcionaron la flexibilidad requerida para tallar espacios de patrón en regiones de decisión, asumiendo que las unidades ocultas utilizan una función de activación en forma de sigmoide como la logística. “No se requieren más de tres capas en redes de alimentación directa similares a perceptrones” (Lippmann, 1987, p. 16).

Cuando la actividad de la unidad de salida se interpreta digitalmente, como entregar juicios “verdaderos” o “falsos”, las redes neuronales artificiales se pueden interpretar como que realizan un tipo de tarea, la clasificación de patrones. Sin embargo, las redes modernas utilizan funciones de activación continua que no necesitan ser interpretadas digitalmente. Si se aplica una interpretación analógica a la actividad de la unidad de salida, entonces las redes pueden interpretarse como la realización de un segundo tipo de tarea de mapeo de entrada y salida, la aproximación de funciones.

En aproximación de función, una entrada es un conjunto de números que representa los valores de las variables pasadas a una función, es decir, los valores del conjunto x1, x2, x3,. xN. La salida es un único valor y que es el resultado de computar alguna función de esas variables, es decir, y = f (x1, x2, x3,. xN). Muchas redes neuronales artificiales han sido entrenadas para aproximar funciones (Girosi & Poggio, 1990; Hartman, Keeler, & Kowalski, 1989; Moody & Darken, 1989; Poggio & Girosi, 1990; Renals, 1989). En estas redes, el valor de cada variable de entrada está representado por la actividad de una unidad de entrada, y el valor continuo de la actividad de una unidad de salida representa el valor calculado de la función de esas variables de entrada.

Un sistema que es más potente para aproximar funciones se llama un aproximador de función universal. Considere tomar cualquier función continua y examinar una región de esta función desde un punto de partida particular (por ejemplo, un conjunto de valores de entrada) hasta un punto final particular (por ejemplo, un conjunto diferente de valores de entrada). Un aproximador de función universal es capaz de aproximar la forma de la función entre estos límites con un grado arbitrario de precisión.

Las redes neuronales artificiales pueden aproximar funciones. ¿Qué tan bien pueden hacerlo? Varias pruebas han demostrado que un perceptrón multicapa con dos capas de conexiones, es decir, una sola capa de unidades ocultas que intervienen entre las capas de entrada y salida, es capaz de aproximarse a funciones universales (Cotter, 1990; Cybenko, 1989; Funahashi, 1989; Hartman, Keeler y Kowalski, 1989; Hornik, Stinchcombe, &White, 1989). “Si tenemos las conexiones correctas desde las unidades de entrada a un conjunto suficientemente grande de unidades ocultas, siempre podemos encontrar una representación que realice cualquier mapeo de entrada a salida” (Rumelhart, Hinton, &Williams, 1986a, p. 319).

Que las redes multicapa tengan el poder en principio de ser clasificadores de patrones arbitrarios o aproximadores de funciones universales sugiere que pertenecen a la clase “máquina universal”, la misma clase a la que pertenecen los sistemas de símbolos físicos (Newell, 1980). Newell (1980) demostró que los sistemas de símbolos físicos pertenecían a esta clase al mostrar cómo una máquina Turing universal podía ser simulada por un sistema de símbolos físicos. Existen pruebas similares para las redes neuronales artificiales, estableciendo firmemente su poder computacional.

La equivalencia de Turing de las redes coneccionistas se ha establecido desde hace mucho tiempo. McCulloch y Pitts (1943) demostraron que una red de neuronas McCulloch-Pitts podría ser utilizada para construir el cabezal de máquina de una máquina Turing universal; luego se logró el poder universal al dotar a este sistema de una memoria externa. “A la psicología, por definida que sea, la especificación de la red aportaría todo lo que se pudiera lograr en ese campo” (p. 131). Los resultados más modernos han utilizado la naturaleza analógica de los procesadores modernos para internalizar la memoria, lo que indica que una red neuronal artificial puede simular toda la máquina Turing (Siegelmann, 1999; Siegelmann & Sontag, 1991, 1995).

Los psicólogos asociacionistas modernos se han preocupado por las implicaciones del meta-postulado terminal y han argumentado en contra de él en un intento de liberar sus teorías de sus grilletes computacionales (Anderson & Bower, 1973; Paivio, 1986). Las unidades ocultas de las redes neuronales artificiales modernas rompen estos grilletes al capturar asociaciones de orden superior, asociaciones entre asociaciones, que no están definidas en un vocabulario restringido a las actividades de entrada y salida. La presencia de unidades ocultas proporciona suficiente energía a las redes modernas para plantarlas firmemente en la clase “máquina universal” y hacerlas alternativas viables a las simulaciones clásicas.