Buscar

Loading [MathJax]/extensions/mml2jax.js

7.3: Dopamina y Aprendizaje por Refuerzo de Diferencia Temporal
https://espanol.libretexts.org/Salud/Farmacologia_y_Neurociencia/Libro%3A_Neurociencia_cognitiva_computacional_(O'Reilly_y_Munakata)/07%3A_Control_motor_y_aprendizaje_de_refuerzo/7.03%3A_Dopamina_y_Aprendizaje_por_Refuerzo_de_Diferencia_Temporal
La señal de error de predicción de recompensa producida por el sistema de dopamina es una buena señal de entrenamiento porque impulsa un aprendizaje más fuerte al principio de un proceso de adquisició...La señal de error de predicción de recompensa producida por el sistema de dopamina es una buena señal de entrenamiento porque impulsa un aprendizaje más fuerte al principio de un proceso de adquisición de habilidades, cuando las recompensas son más impredecibles, y reduce el aprendizaje a medida que se perfecciona la habilidad, y las recompensas son, por lo tanto, más Si el sistema aprendiera directamente sobre la base de recompensas externas, continuaría aprendiendo sobre habilidades que duran…

Search