Saltar al contenido principal
LibreTexts Español

4.16: Nuevos poderes de las viejas redes

  • Page ID
    143890
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    La historia de las redes neuronales artificiales se puede dividir en dos periodos, el viejo conexionismo y el nuevo conexionismo (Medler, 1998). New Connectionism estudia redes poderosas que constan de múltiples capas de unidades, y las conexiones son entrenadas para realizar tareas complejas. El viejo conexionismo estudió redes que pertenecían a una de dos clases. Una de ellas eran poderosas redes multicapa que estaban cableadas a mano, no entrenadas (McCulloch & Pitts, 1943). La otra eran redes menos poderosas que no contaban con unidades ocultas sino que se entrenaban (Rosenblatt, 1958, 1962; Widrow, 1962; Widrow & Hoff, 1960).

    Los perceptrones (Rosenblatt, 1958, 1962) pertenecen al viejo conexionismo. Un perceptrón es un asociador de patrones estándar cuyas unidades de salida emplean una función de activación no lineal. Los perceptrones de Rosenblatt utilizaron la función de paso Heaviside para convertir la entrada neta en la actividad de la unidad de salida. Los perceptrones modernos utilizan funciones continuas de activación no lineal, como la logística o la gaussiana (Dawson, 2004, 2005, 2008; Dawson et al., 2009; Dawson et al., 2010).

    Los perceptrones se entrenan usando una variante correctora de errores del aprendizaje al estilo Hebb-estilo (Dawson, 2004). El entrenamiento de Perceptron asocia la actividad de entrada con el error de la unidad de salida Primero, se presenta un patrón a las unidades de entrada, produciendo actividad de la unidad de salida a través de los pesos de conexión existentes. Segundo, el error de la unidad de salida se calcula tomando la diferencia entre la actividad real de la unidad de salida y la actividad de unidad de salida deseada para cada unidad de salida en la red. Este tipo de capacitación se llama aprendizaje supervisado, ya que requiere de un capacitador externo para proporcionar las actividades de la unidad de salida deseadas. Tercero, el aprendizaje al estilo Hebbse utiliza para asociar la actividad de la unidad de entrada con el error de la unidad de salida: el cambio de peso es igual a una tasa de aprendizaje multiplicada por la actividad de la unidad (En los perceptrones modernos, este triple producto también se puede multiplicar por la derivada de la función de activación de la unidad de salida, lo que resulta en un aprendizaje de descenso de gradiente [Dawson, 2004]).

    El aprendizaje supervisado de un perceptrón está diseñado para reducir errores de la unidad de salida a medida que avanza el entrenamiento. Los cambios de peso son proporcionales a la cantidad de error generado. Si no se producen errores, entonces los pesos no se cambian. Si la solución de una tarea puede ser representada por un perceptrón, entonces se garantiza que el entrenamiento repetido usando pares de estímulos entrada-salida producirá eventualmente un error cero, como se demuestra en el teorema de convergencia de perceptrones de Rosenblatt (Rosenblatt, 1962).

    Al ser producto del viejo conexionismo, hay límites en el rango de mapeos entrada-salida que pueden ser mediados por perceptrones. En sus famosos análisis computacionales de lo que los perceptrones podían y no podían aprender a calcular, Minsky y Papert (1969) demostraron que los perceptrones no podían aprender a distinguir algunas propiedades topológicas básicas fácilmente discriminadas por los humanos, como la diferencia entre figuras conectadas y desconectadas. Como resultado, el interés y financiamiento para la investigación Old Connectionist disminuyó drásticamente (Medler, 1998; Papert, 1988).

    Sin embargo, los perceptrones aún son capaces de proporcionar nuevos conocimientos sobre fenómenos de interés para la ciencia cognitiva. El resto de esta sección lo ilustra explorando la relación entre el aprendizaje de perceptrones y el condicionamiento clásico.

    La razón principal por la que la ciencia cognitiva conexionista se relaciona con el empirismo es que el conocimiento de una red neuronal artificial se adquiere típicamente a través de la experiencia. Por ejemplo, en el aprendizaje supervisado, una red se presenta con pares de patrones que definen un mapeo entrada-salida de interés, y se usa una regla de aprendizaje para ajustar los pesos de conexión hasta que la red genere la respuesta deseada a un patrón de entrada dado.

    En el siglo XX, previo al nacimiento de las redes neuronales artificiales (McCulloch & Pitts, 1943), el empirismo era la provincia de la psicología experimental. Un estudio detallado del condicionamiento clásico (Pavlov, 1927) exploró las sutiles regularidades de la ley de contigüidad. El condicionamiento pavloviano, o clásico, comienza con un estímulo incondicionado (EU) que es capaz, sin entrenamiento, de producir una respuesta incondicionada (UR). También de interés es un estímulo condicionado (CS) que cuando se presenta no producirá la UR. En el condicionamiento clásico, el CS se empareja con Estados Unidos para una serie de ensayos. Como resultado de este emparejamiento, que coloca al CS en contigüidad con la UR, el CS se vuelve capaz de provocar el UR por sí mismo. Cuando esto ocurre, la UR se conoce entonces como la respuesta condicionada (CR).

    El condicionamiento clásico es un tipo de aprendizaje muy básico, pero los experimentos revelaron que los mecanismos subyacentes en él eran más complejos que la simple ley de contigüidad. Por ejemplo, un fenómeno que se encuentra en el condicionamiento clásico es el bloqueo (Kamin, 1968). El bloqueo implica dos estímulos condicionados, CSA y CSB. Cualquiera de los dos estímulos es capaz de ser condicionado para producir la RC. Sin embargo, si el entrenamiento comienza con una fase en la que solo CSA se empareja con Estados Unidos y luego es seguida por una fase en la que tanto CSA como CSB se emparejan con los EE. UU., entonces CSB falla en producir el CR. El condicionamiento previo que involucra CSA bloquea el acondicionamiento de CSB, aunque en la segunda fase de entrenamiento CSB es contigua a la UR.

    La explicación de fenómenos como el bloqueo requirió un nuevo modelo de aprendizaje asociativo. Tal modelo fue propuesto a principios de la década de 1970 por Robert Rescorla y Allen Wagner (Rescorla & Wagner, 1972). Este modelo matemático de aprendizaje ha sido descrito como cognitivo, porque define el aprendizaje asociativo en términos de expectativa. Su idea básica es que un CS es una señal sobre la probabilidad de que pronto ocurra un EU. De esta manera, el CS establece expectativas de eventos futuros. Si se cumplen estas expectativas, entonces no se producirá ningún aprendizaje. Sin embargo, si no se cumplen estas expectativas, entonces se modificarán las asociaciones entre estímulos y respuestas. “Se construyen ciertas expectativas sobre los eventos que siguen a un complejo de estímulos; las expectativas iniciadas por ese complejo y sus estímulos componentes solo se modifican entonces cuando los eventos consecuentes no están de acuerdo con la expectativa compuesta” (p. 75).

    El aprendizaje impulsado por expectativas que se formalizó en el modelo Rescorla-Wagner explicó fenómenos como el bloqueo. En la segunda fase de aprendizaje en el paradigma de bloqueo, el próximo EU ya fue señalado por CS A. Debido a que no hubo sorpresa, no se produjo ningún condicionamiento de CS B. El modelo Rescorla-Wagner ha tenido muchos otros éxitos; aunque está lejos de ser perfecto (Miller, Barnet, & Grahame, 1995; Walkenbach & Haddad, 1980), sigue siendo un modelo matemático extremadamente influyente, si no el más influyente, de aprendizaje.

    La propuesta de Rescorla-Wagner de que el aprendizaje depende de la cantidad de sorpresa es paralela a la noción en la formación supervisada de redes de que el aprendizaje depende de la cantidad de error. ¿Cuál es la relación entre el aprendizaje Rescorla-Wagner y el aprendizaje perceptrón?

    Las pruebas de la equivalencia entre las matemáticas del aprendizaje de Rescorla-Wagner y las matemáticas del aprendizaje perceptrón tienen una larga historia. Las primeras pruebas demostraron que una regla de aprendizaje podía traducirse a la otra (Gluck & Bower, 1988; Sutton & Barto, 1981). Sin embargo, estas pruebas asumieron que las redes tenían funciones de activación lineal. Recientemente, se ha demostrado que si cuando se asume más adecuadamente que las redes emplean una función de activación no lineal, todavía se puede traducir el aprendizaje de Rescorla-Wagner en aprendizaje perceptrón, y viceversa (Dawson, 2008).

    Uno imaginaría que la existencia de pruebas de la equivalencia computacional entre el aprendizaje de Rescorla-Wagner y el aprendizaje de perceptrones significaría que los perceptrones no serían capaces de proporcionar nuevas ideas sobre el condicionamiento clásico. Sin embargo, esto no es correcto. Dawson (2008) ha demostrado que si uno deja de lado la comparación formal de los dos tipos de aprendizaje y utiliza perceptrones para simular una amplia variedad de paradigmas de condicionamiento clásicos diferentes, entonces se producen algunos resultados desconcertantes. Por un lado, los perceptrones generan los mismos resultados que el modelo Rescorla-Wagner para muchos paradigmas diferentes. Dada la equivalencia formal entre los dos tipos de aprendizaje, esto no es sorprendente. Por otro lado, para algunos paradigmas, los perceptrones generan resultados diferentes a los pronosticados a partir del modelo Rescorla-Wagner (Dawson, 2008, Capítulo 7). Además, en muchos casos estas diferencias representan mejoras sobre el aprendizaje de Rescorla-Wagner. Si los dos tipos de aprendizaje son formalmente equivalentes, entonces ¿cómo es posible que ocurran tales diferencias?

    Dawson (2008) utilizó esta paradoja del perceptrón para motivar una comparación más detallada entre el aprendizaje de Rescorla-Wagner y el aprendizaje de perceptrones. Encontró que si bien estos dos modelos de aprendizaje eran equivalentes a nivel computacional de investigación, hubo diferencias cruciales entre ellos a nivel algorítmico. Para entrenar un perceptrón, la red primero debe comportarse (es decir, responder a un patrón de entrada) para que se compute el error para determinar los cambios de peso. En contraste, Dawson demostró que el modelo Rescorla-Wagner define el aprendizaje de tal manera que ¡no se requiere comportamiento!

    El análisis algorítmico de Dawson (2008) del aprendizaje de Rescorla-Wagner es consistente con la comprensión propia de Rescorla y Wagner (1972) de su modelo: “necesariamente habrá que hacer suposiciones independientes sobre el mapeo de fortalezas asociativas para responder en cualquier situación particular” (p. 75). Posteriormente, hacen este mismo punto de manera mucho más explícita:

    Necesitamos proporcionar algún mapeo de valores [asociativos] en el comportamiento. No estamos preparados para hacer suposiciones detalladas en esta instancia. De hecho, supondríamos que cualquier mapeo de este tipo sería necesariamente peculiar de cada situación experimental, y dependería de un gran número de variables de 'rendimiento'. (Rescorla & Wagner, 1972, p. 77)

    Algunos conocimientos son tácitos: podemos saber más de lo que podemos decir (Polanyi, 1966). Dawson (2008) señaló que el modelo Rescorla-Wagner presenta una interesante variante de este tema, donde si no hay necesidad explícita de una teoría conductual, entonces no hay necesidad de especificarla explícitamente. En cambio, los investigadores pueden ignorar el llamado de Rescorla y Wagner (1972) de modelos explícitos para convertir las fortalezas asociativas en comportamiento y, en su lugar, asumir teorías tácitas y no declaradas como “las asociaciones fuertes producen un comportamiento más fuerte, o más intenso o más rápido”. Los investigadores evalúan el modelo RescorlaWagner (Miller, Barnet, & Grahame, 1995; Walkenbach & Haddad, 1980) coincidiendo en que las asociaciones eventualmente conducirán al comportamiento, sin afirmar realmente cómo se hace esto. En el modelo Rescorla-Wagner, el aprendizaje es lo primero y el comportamiento viene después, tal vez.

    El uso de perceptrones para estudiar paradigmas condicionales clásicos contribuye a la comprensión psicológica de dicho aprendizaje de tres maneras. Primero, a nivel computacional, demuestra equivalencias entre el trabajo independiente sobre el aprendizaje realizado en ciencias de la computación, ingeniería eléctrica y psicología (Dawson, 2008; Gluck & Bower, 1988; Sutton & Barto, 1981).

    En segundo lugar, los resultados de entrenar perceptrones en estos paradigmas plantean cuestiones que conducen a una comprensión más sofisticada de las teorías del aprendizaje. Por ejemplo, la paradoja del perceptrón llevó a darse cuenta de que cuando se usa típicamente el modelo Rescorla-Wagner, no se especifican los relatos de convertir asociaciones en comportamiento. Recordemos que una de las ventajas de la investigación de simulación por computadora es exponer suposiciones tácitas (Lewandowsky, 1993).

    En tercer lugar, las funciones de activación que son una propiedad requerida de un perceptrón sirven como teorías explícitas de comportamiento para ser incorporadas al modelo Rescorla-Wagner. Más precisamente, los cambios en la función de activación dan como resultado cambios en la forma en que el perceptrón responde a los estímulos, lo que indica la importancia de elegir una arquitectura particular (Dawson & Spetch, 2005). La amplia variedad de funciones de activación disponibles para redes neuronales artificiales (Duch y Jankowski, 1999) ofrece una gran oportunidad para explorar cómo las teorías cambiantes del comportamiento, o la alteración de las arquitecturas, afectan la naturaleza del aprendizaje asociativo.

    Los párrafos anteriores han mostrado cómo el perceptrón puede ser utilizado para informar teorías de un fenómeno psicológico muy antiguo, el condicionamiento clásico. Consideramos ahora cómo los perceptrones pueden desempeñar un papel en la exploración de un tema más moderno, la reorientación, que fue descrita desde una perspectiva clásica en el Capítulo 3 (Sección 3.12).


    This page titled 4.16: Nuevos poderes de las viejas redes is shared under a CC BY-NC-ND license and was authored, remixed, and/or curated by Michael R. W. Dawson (Athabasca University Press) .