4.10: Empiricismo y representaciones internas

Última actualización
Guardar como PDF

Page ID: 143907

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

La capacidad de las unidades ocultas para aumentar el poder computacional de las redes neuronales artificiales era bien conocida por Old Connectionism (McCulloch & Pitts, 1943). Su problema era que si bien una regla de aprendizaje podía utilizarse para entrenar redes sin unidades ocultas (Rosenblatt, 1958, 1962), no existía tal regla para las redes multicapa. La razón por la que no existía una regla de aprendizaje para redes multicapa fue porque el aprendizaje se definió en términos de minimizar el error de las respuestas unitarias. Si bien era sencillo definir el error de la unidad de salida, no existía una definición paralela para el error de unidad oculta. No se pudo definir el error de una unidad oculta porque no estaba relacionado con ningún resultado directamente observable (por ejemplo, comportamiento externo). Si no se podía definir el error de una unidad oculta, entonces las reglas de Old Connectionist no podrían usarse para modificar sus conexiones.

La necesidad de definir y calcular el error de unidad oculta es un ejemplo del problema de asignación de crédito:

Al jugar un juego complejo como el ajedrez o las damas, o al escribir un programa de computadora, uno tiene un criterio de éxito definido: el juego se gana o se pierde. Pero en el transcurso del juego, cada éxito final (o fracaso) está asociado con una gran cantidad de decisiones internas. Si la carrera es exitosa, ¿cómo podemos asignar crédito para el éxito entre la multitud de decisiones? (Minsky, 1963, p. 432)

El problema de asignación de crédito que enfrentaba el Viejo Conexionismo fue la incapacidad de asignar el crédito apropiado —o más al punto, la culpa apropiada— a cada unidad oculta por su contribución al error de unidad de salida. El fracaso en la solución de este problema impidió que Old Connectionism descubriera métodos para hacer que sus redes más poderosas pertenecieran al dominio del empirismo y condujera a su desaparición (Papert, 1988).

El renacimiento de la ciencia cognitiva coneccionista en la década de 1980 (McClelland & Rumelhart, 1986; Rumelhart & McClelland, 1986c) fue causado por el descubrimiento de una solución al problema de asignación de crédito del viejo conexionismo. Al emplear una función de activación no lineal pero continua, el cálculo podría usarse para explorar cambios en el comportamiento de la red (Rumelhart, Hinton, & Williams, 1986b). En particular, el cálculo podría revelar cómo se alteraba un error general de red, al cambiar un componente profundo dentro de la red, como una sola conexión entre una unidad de entrada y una unidad oculta. Esto llevó al descubrimiento de la regla de aprendizaje de “retropropagación del error”, a veces conocida como regla delta generalizada (Rumelhart Hinton, & Williams, 1986b). El cálculo subyacente a la regla delta generalizada reveló que el error de unidad oculta podría definirse como la suma de errores ponderados que se envían hacia atrás a través de la red desde unidades de salida a unidades ocultas.

La regla delta generalizada es un método de corrección de errores para entrenar redes multicapa que comparte muchas características con la regla delta original para perceptrones (Rosenblatt, 1958, 1962; Widrow, 1962; Widrow y Hoff, 1960). Dawson (2004) proporciona un tratamiento matemático más detallado de esta regla, y su relación con otras reglas de aprendizaje conexionistas. A continuación se da una cuenta menos técnica de la regla.

La regla delta generalizada se utiliza para entrenar un perceptrón multicapa para mediar un mapeo de entrada y salida deseado. Se trata de una forma de aprendizaje supervisado, en la que un conjunto finito de pares entrada-salida se presenta iterativamente, en orden aleatorio, durante el entrenamiento. Antes del entrenamiento, una red es una pizarra “bastante en blanco”; todos sus pesos de conexión, y todos los sesgos de sus funciones de activación, se inicializan como números pequeños y aleatorios. La regla delta generalizada implica la presentación repetida de pares de entrada-salida y luego la modificación de pesos. El propósito de la modificación de peso es reducir el error general de la red.

Una sola presentación de un par entrada-salida procede de la siguiente manera. Primero, se presenta el patrón de entrada, lo que provoca que las señales se envíen a unidades ocultas, las cuales a su vez activan y envían señales a las unidades de salida, las cuales finalmente se activan para representar la respuesta de la red al patrón de entrada. En segundo lugar, las respuestas de la unidad de salida se comparan con las respuestas deseadas, y se calcula un término de error para cada unidad de salida. En tercer lugar, se utiliza el error de una unidad de salida para modificar los pesos de sus conexiones. Esto se logra agregando un cambio de peso al peso existente. El cambio de peso se calcula multiplicando cuatro números diferentes juntos: una tasa de aprendizaje, la derivada de la función de activación de la unidad, el error de la unidad de salida y la actividad actual en el extremo de entrada de la conexión. Hasta este punto, el aprendizaje es funcionalmente lo mismo que realizar un entrenamiento de descenso en gradiente sobre un perceptrón (Dawson, 2004).

El cuarto paso diferencia la regla delta generalizada de las reglas más antiguas: cada unidad oculta calcula su error. Esto se hace tratando el error de una unidad de salida como si fuera actividad y enviándolo hacia atrás como una señal a través de una conexión a una unidad oculta. A medida que se envía esta señal, se multiplica por el peso de la conexión. Cada unidad oculta calcula su error sumando todas las señales de error que recibe de las unidades de salida a las que está conectada. Quinto, una vez calculado el error de unidad oculta, los pesos de las unidades ocultas se pueden modificar utilizando la misma ecuación que se utilizó para alterar los pesos de cada una de las unidades de salida.

Este procedimiento se puede repetir iterativamente si hay más de una capa de unidades ocultas. Es decir, el error de cada unidad oculta en una capa puede propagarse hacia atrás a una capa adyacente como una señal de error una vez que se han modificado los pesos de unidad ocultos. El aprendizaje de este patrón se detiene una vez que se han modificado todas las conexiones. Entonces el siguiente patrón de entrenamiento se puede presentar a las unidades de entrada, y el proceso de aprendizaje vuelve a ocurrir.

Hay una variedad de formas diferentes en las que se puede realizar el algoritmo genérico dado anteriormente. Por ejemplo, en el entrenamiento estocástico, los pesos de conexión se actualizan después de presentar cada patrón (Dawson, 2004). Este enfoque se llama estocástico porque cada patrón se presenta una vez por época de entrenamiento, pero el orden de presentación se aleatoriza para cada época. Otro enfoque, el entrenamiento por lotes, es acumular errores a lo largo de una época y actualizar únicamente los pesos una vez al final de la época, utilizando el error acumulado (Rumelhart, Hinton, & Williams, 1986a). Además, existen variaciones del algoritmo para diferentes funciones de activación continua. Por ejemplo, se requiere un término de error elaborado para entrenar unidades que tienen funciones de activación gaussianas, pero cuando esto se hace, las matemáticas subyacentes son esencialmente las mismas que en la regla delta generalizada original (Dawson & Schopflocher, 1992b).

El nuevo conexionismo nació cuando se inventó la regla generalizada del delta. Curiosamente, la fecha precisa de su nacimiento y los nombres de sus padres no están completamente establecidos. El algoritmo fue descubierto de forma independiente más de una vez. Rumelhart, Hinton y Williams (1986a, 1986b) son sus descubridores y popularizadores más famosos. También fue descubierta por David Parker en 1985 y por Yann LeCun en 1986 (Anderson, 1995). Más de una década antes, el algoritmo fue reportado en la tesis doctoral de Paul Werbos (1974). Los fundamentos matemáticos de la regla delta generalizada se remontan a una década anterior, en una publicación de Shun-Ichi Amari (1967).

En una entrevista (Anderson & Rosenfeld, 1998), el pionero de las redes neuronales Stephen Grossberg afirmó que “Paul Werbos, David Parker y Shun-Ichi Amari deberían haber obtenido crédito por el modelo de retropropagación, en lugar de Rumelhart, Hinton y Williams” (pp. 179—180). Independientemente del problema de asignación de crédito asociado a la historia científica de este algoritmo, transformó la ciencia cognitiva a mediados de la década de 1980, demostrando “cómo los conceptos humildes de retroalimentación y derivados son los bloques de construcción esenciales necesarios para comprender y replicar fenómenos de orden superior como el aprendizaje, la emoción y la inteligencia en todos los niveles de la mente humana” (Werbos, 1994, p. 1).