Saltar al contenido principal
LibreTexts Español

4.4: Cuándo, Exactamente, hay un Resultado que debería Impulsar el Aprendizaje

  • Page ID
    122908
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    fig_expect_outcome_errs.png
    Figura\(4.12\): Diferentes situaciones que dan lugar a un contraste entre expectativas y resultados. a) El caso más simple de entrada explícita del maestro/padre: una entrada visual (por ejemplo, un objeto) en el tiempo t impulsa una salida verbal (por ejemplo, el nombre del objeto), y el maestro corrige (o confirma) el salida. b) El mismo escenario puede pasar sin producir realmente una salida verbal, sino solo una expectativa de lo que alguien más podría decir, y esto se puede comparar con lo que realmente se dice para derivar señales de error útiles. c) Es una instancia específica de cuando es probable que se generen muchas expectativas, cuando una acción motora (por ejemplo, empujar la comida de una silla alta) impulsa una expectativa sobre los resultados visuales asociados con la acción, que luego ocurren (para el deleite aparentemente interminable del infante travieso). d) Implica hacer una “expectativa” sobre lo que en realidad acabas de ver: reconstruir o generar la entrada (también conocida como modelo generativo o un codificador automático) — la entrada en sí sirve como su propia señal de entrenamiento en este caso.

    Esta es la mayor pregunta que queda para el aprendizaje impulsado por errores. Puede que ni siquiera hayas notado este problema, pero una vez que empiezas a pensar en implementar las ecuaciones XCAL en una computadora, rápidamente se convierte en un problema importante. Hemos hablado de cómo el aprendizaje impulsado por errores refleja la diferencia entre un resultado y una expectativa, pero realmente importa que la activación promedio a corto plazo que representa el estado de resultado refleje algún tipo de resultado real sobre el que vale la pena aprender. La Figura 4.12 ilustra cuatro categorías primarias de situaciones en las que puede surgir un estado de resultado, que puede jugar de múltiples maneras en diferentes situaciones del mundo real.

    En nuestro marco más reciente descrito brevemente anteriormente, el tiempo expectativo-resultado se especifica en términos del ensayo alfa de 100 mseg. Y dentro de este ensayo, los circuitos combinados entre las capas neocorticales profundas y el tálamo terminan produciendo un estado de resultado que impulsa el aprendizaje predictivo del codificador automático, que es básicamente el último caso (d) en la Figura 4.12, con un giro extra que durante cada 100 ms alfa prueba, la red intenta predecir lo que sucederá en los próximos 100 ms, el aspecto predictivo de la idea del codificador automático. Específicamente, las capas profundas intentan predecir cómo se verá el patrón de actividad impulsado de abajo hacia arriba sobre el tálamo en el cuarto final de fase positiva del ensayo alfa, basándose en las activaciones presentes durante el ensayo alfa anterior. Debido a la amplia conectividad bidireccional entre áreas cerebrales, la secuencia de expectación/salida cruzada modal mostrada en el panel (b) de la Figura 4.12 también está respaldada por este mecanismo. Una revisión posterior de este texto cubrirá estas ideas con más detalle. Las versiones preliminares están disponibles: (O'Reilly, Wyatte, & Rohrlich, 2014; Kachergis, Wyatte, O'Reilly, Kleijn, & Hommel, 2014).

    Otra hipótesis para algo que “marca” la presencia de un desenlace importante es un estallido fásico de un neuromodulador como la dopamina. Está bien establecido que los estallidos de dopamina ocurren cuando surge un desenlace inesperado, al menos en el contexto de expectativas de recompensa o castigo (lo discutiremos en detalle en el Capítulo de Aprendizaje de Control Motivo y Refuerzo). Además, sabemos por varios estudios que la dopamina juega un papel importante en la modulación de la plasticidad sináptica. Bajo esta hipótesis, la red cortical siempre está tarareando haciendo un aprendizaje autoorganizado tipo BCM-estándar a una tasa de aprendizaje relativamente baja (debido a un pequeño parámetro lambda en la ecuación combinada XCAL, que presumiblemente corresponde a la tasa de plasticidad sináptica asociada con el tónico basal niveles de dopamina), y luego, cuando ocurre algo inesperado, una explosión de dopamina impulsa un aprendizaje más fuerte impulsado por errores, con el promedio inmediato a corto plazo “marcado” por el estallido de dopamina como asociado con este importante resultado (saliente). El aprendizaje XCAL contrastará automáticamente este promedio inmediato a corto plazo con el promedio de mediano plazo inmediatamente disponible, lo que presumiblemente refleja una contribución importante del estado de expectativa anterior que acaba de ser violado por el resultado.

    Hay muchas otras ideas posibles sobre cómo se marca el tiempo para el aprendizaje impulsado por errores, algunas de las cuales involucran dinámicas emergentes locales en la propia red, y otras que involucran a otros neuromoduladores, o redes con amplia conectividad para transmitir una señal apropiada de “aprende ahora”. Por todo lo que sabemos sobre el cerebro, es probable que existan varias señales de aprendizaje de este tipo, cada una de las cuales es útil en algún subconjunto particular de situaciones. Se trata de un área activa de investigación en curso.


    This page titled 4.4: Cuándo, Exactamente, hay un Resultado que debería Impulsar el Aprendizaje is shared under a CC BY-SA license and was authored, remixed, and/or curated by O'Reilly, Munakata, Hazy & Frank.