10.03: El Modelo Computacional PBWM

Última actualización
Guardar como PDF

Page ID: 123079

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\id}{\mathrm{id}}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\kernel}{\mathrm{null}\,}\)

\( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\)

\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\)

\( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)

\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)

\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vectorC}[1]{\textbf{#1}} \)

\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

Figura\(10.11\): Componentes de un modelo PBWM, basado en conexiones biológicas y funciones del PFC (mantenimiento activo robusto de información relevante para la tarea), Ganglios Basales (BG, activación dinámica de mantenimiento activo de PFC) y PVLV (señales de dopamina fásicas para el entrenamiento de la compuerta BG. Cada trabajo especializado, en interacción, produce un sistema de función ejecutiva general capaz, después de suficiente experiencia de aprendizaje.

Las propiedades biológicas del sistema PFC/BG que revisamos anteriormente se capturan en un modelo computacional llamado PBWM (memoria de trabajo de ganglios basales de la corteza prefrontal) (O'Reilly & Frank, 2006; Hazy et al 2006, 2007) (Figura 10.11). Las neuronas PFC en este modelo están organizadas en franjas actualizables por separado, y también en grupos funcionales separados de mantenimiento y activación de salida (descritos más abajo). Además, cada banda PFC está representada en términos de capas superficiales (2,3) y capas profundas (5,6), las neuronas de capa profunda tienen específicamente la capacidad de sostener el disparo a lo largo del tiempo a través de una variedad de mecanismos, representando los efectos de los canales NMDA y mGluR y bucles excitadores a través del tálamo. El flujo de activación de las capas superficiales a profundas de una banda de PFC dada depende de las señales de activación BG, con las capas BG también organizadas en bandas de compuerta de mantenimiento y salida correspondientes. La capa Matriz del BG (que representa los matrisomas del cuerpo estriado) tiene neuronas Go y NoGO separadas que se proyectan hacia una capa combinada de GPi y tálamo (GPithal) con una sola neurona por franja que se dispara si la vía Go es suficientemente más fuerte que la NoGO (este mecanismo se abstrae de los circuitos de activación BG detallados que involucran el GpE, GPi/Snr, STN y tálamo, como se simula en el capítulo del motor, y simplemente resume la funcionalidad en una sola capa GPIthal). Una señal GPithal Go actualizará las activaciones de capa profunda de PFC para reflejar las activaciones actuales de la capa superficial, mientras que un NoGO deja el PFC solo para continuar manteniendo información previa (o nada en absoluto).

El sistema de dopamina fásica PVLV impulsa el aprendizaje de las neuronas BG Go y NoGO, con ráfagas DA positivas que conducen a la facilitación de Go y depresión de pesos NoGO, y viceversa para las inmersiones DA, utilizando los mismos mecanismos de aprendizaje de refuerzo descritos en el capítulo Motor.

Las principales dinámicas de comportamiento de los diferentes componentes de PBWM se ilustran en la Figura 10.12 (Not Created Yet). Quizás la clave más importante para entender cómo funciona el sistema es que utiliza la exploración de prueba y error de diferentes estrategias de activación en el BG, con DA reforzando aquellas estrategias que están asociadas con la recompensa positiva, y castigando a las que no lo son. En la versión actual del modelo, el aprendizaje de Matrix es impulsado exclusivamente por el disparo de dopamina en el momento de las recompensas, y utiliza un mecanismo de rastreo basado en etiquetas sinápticas para reforzar/castigar todas las acciones de activación previas que condujeron a este resultado dopaminérgico. Específicamente, cuando una unidad Matrix determinada se dispara para una acción cerrada, las sinapsis con entrada activa establecen una etiqueta sináptica, que persiste hasta un resultado dopaminérgico fásico posterior singal. Una extensa investigación ha demostrado que estas etiquetas sinápticas, basadas en redes de fibra de actina en la sinapsis, pueden persistir hasta por 90 minutos, y cuando ocurre un evento de aprendizaje fuerte posterior, las sinapsis etiquetadas también se potencian fuertemente (Redondo & Morris, 2011; Rudy, 2015; Bosch & Hayashi, 2012). Esta forma de aprendizaje basado en trazas es muy efectiva computacionalmente, ya que no requiere ningún otro mecanismo que permita aprender sobre las implicaciones de recompensa de eventos de puertas anteriores. En versiones anteriores del modelo PBWM, confiamos en la dopamina fásica basada en CS (estímulo condicionado) para reforzar la activación, pero este esquema requiere que las activaciones mantenidas por PFC funcionen como una especie de señal CS interna, y que la amígdala aprenda a decodificar estos estados de activación de PFC para determinar si una útil el artículo había sido guardado en la memoria. En comparación con el mecanismo basado en trazas, este enfoque de CS-dopamina es mucho más complejo y propenso a errores. En cambio, en general, asumimos que los CS que impulsan el aprendizaje de Matrix son más del tipo externo estándar, que señalan el progreso hacia un resultado deseado, y así refuerzan acciones que condujeron a ese estado intermedio (es decir, el CS representa el logro de una subleta).

La presencia de múltiples franjas suele ser importante para que el modelo PBWM aprenda rápidamente, ya que permite explorar diferentes estrategias de activación en paralelo, en lugar de tener una sola franja explorar secuencialmente todas las diferentes estrategias de este tipo. Siempre que una franja pueda alcanzar una estrategia de activación útil, el sistema puede tener éxito y aprende rápidamente a enfocarse en esa franja útil mientras ignora a las demás. Las franjas múltiples también son críticas cuando se tiene que mantener y actualizar más de una información en el curso de una tarea; de hecho, es esta demanda la que motivó el desarrollo del modelo PBWM original para que reemplazara a los modelos de compuerta anteriores, que utilizaron señales fásicas de dopamina para controlar directamente PFC pero no soportó múltiples puertas y por lo tanto se limitó a la capacidad de un solo artículo. Una consecuencia interesante de tener estas múltiples franjas es que la activación “supersticiosa” puede ocurrir en otras franjas —si esa compuerta sucede para coincidir de manera suficientemente confiable con las señales de activación que son realmente útiles, también se reforzará. ¿Quizás esto pueda arrojar luz sobre nuestra proclividad por ser supersticiosos?

Compuerta de salida

Figura\(10.13\): Esquema para ilustrar la división del trabajo entre franjas especializadas en mantenimiento y franjas especializadas en producción correspondientes. A - Banda de mantenimiento (izquierda) en modo mantenimiento, con actividad reverberante corticotalamocortical mostrada (roja). La información de esa franja se proyecta a través de piramidales de capa Vb a una célula de relé talámico para la banda de salida correspondiente, pero la puerta BG está cerrada por inhibición tónica de SNR/GPI por lo que no pasa nada (gris). B - La puerta de salida se abre debido a la señal `GO' generada por la desinhibición de la salida SNR/GPI (verde), activando el disparo de ráfaga en la celda de relé talámico, que a su vez activa la representación de banda cortical correspondiente para la salida apropiada. La proyección de las células piramidales Vb de la capa de banda de salida activa entonces las áreas de acción/salida corticales y subcorticales, completando una transferencia del mantenimiento a la salida. MD = núcleo mediodorsal del tálamo; VP/VL = núcleos talámicos ventroposteriores o ventrolaterales (motores).

Como vimos en la Figura 10.3, algunas neuronas PFC exhiben disparo de periodo de retardo (mantenimiento activo), mientras que otras exhiben disparo de respuesta de salida. Estas poblaciones no parecen mezclarse: una neurona dada no suele exhibir una combinación de ambos tipos de disparo. Esto se captura en la estructura de PBWM al tener un conjunto separado de franjas PFC que son activadas por salida en lugar de bloqueadas de mantenimiento, lo que significa que la información mantenida puede estar sujeta a una compuerta adicional para determinar si debe o no influir en el procesamiento aguas abajo (por ejemplo, atención o selección de respuesta motora). Normalmente utilizamos un emparejamiento simple de bandas de compuerta de mantenimiento y salida, con proyecciones directas de uno a uno desde el mantenimiento hasta las unidades PFC de salida, pero puede haber cualquier forma de relación entre estas bandas. Las unidades PFC de salida solo se activan, sin embargo, cuando se dispara su vía BG/Gpithal Go a nivel de banda correspondiente. Por lo tanto, la información se puede mantener en una forma activa pero algo “fuera de línea”, antes de ser generada activamente para impulsar el comportamiento. La Figura 10.13 ilustra esta división del trabajo entre el lado de mantenimiento y el lado de salida para la activación y cómo puede ocurrir un “traspaso”.

Para obtener más detalles de PBWM, incluidas otras consideraciones para la activación de salida, cómo se borra la información mantenida cuando ya no es necesaria (después de la activación de salida) y sesgos de activación que pueden ayudar a mejorar el aprendizaje, consulte Detalles de PBWM Subtopic, que también incluye ecuaciones relevantes y parámetros predeterminados.

Search

Text Color

Text Size

Margin Size

Font Type