7.2: Ganglios Basales, Selección de Acción y Aprendizaje por Refuerzo
- Page ID
- 123107
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)Los ganglios basales realizan su función de selección de acción en una amplia gama de áreas corticales frontales, en virtud de una secuencia de bucles paralelos de conectividad (Figura 7.2). Estas áreas incluyen motora (control del músculo esquelético) y oculomotora (control del movimiento ocular), pero también la corteza prefrontal, la corteza orbitofrontal y la corteza cingulada anterior, que no son áreas de control directamente motor. Por lo tanto, necesitamos generalizar nuestra noción de selección de acción para incluir la selección de acción cognitiva, formas de selección más abstractas que operan en áreas cognitivas de nivel superior de la corteza prefrontal. Por ejemplo, los ganglios basales pueden controlar la selección de planes de acción y estrategias a gran escala en sus conexiones con la corteza prefrontal. La corteza orbitofrontal es importante para la codificación del valor de recompensa asociado a diferentes posibles resultados de estímulo, por lo que la conexión de los ganglios basales aquí es importante para impulsar la actualización de estas representaciones en función de contingencias en el ambiente. La corteza cingulada anterior es importante para la codificación de los costos de las acciones motoras (tiempo, esfuerzo, incertidumbre), y los ganglios basales de manera similar pueden ayudar a controlar la actualización de estos costos ya que se consideran diferentes acciones. Podemos resumir el papel de los ganglios basales en estas áreas frontales más abstractas como control de la actualización de la memoria de trabajo, como se discute más adelante en el capítulo Función Ejecutiva.
Curiosamente, las entradas adicionales que convergen en los ganglios basales para un área determinada tienen buen sentido. El control motor necesita conocer el estado somatosensorial actual, así como las entradas del área de control motor de nivel ligeramente superior conocida como corteza premotora. La corteza orbitofrontal se trata de codificar el valor de recompensa de los estímulos y, por lo tanto, necesita obtener información de la corteza de TI, que proporciona la identidad de los objetos relevantes en el entorno.
Al hacer zoom sobre cualquiera de estos bucles, los elementos críticos del sistema de ganglios basales se esquematizan en la Figura 7.4, con dos patrones de activación importantes mostrados. Primero, el sistema de ganglios basales involucra las siguientes subregiones:
- El estriado, que es la región de entrada principal, consiste en las subdivisiones caudado y putamen (como se muestra en la Figura 7.2). El cuerpo estriado se subdivide anatómicamente en muchos pequeños grupos de neuronas, con dos tipos principales de racimos: parche/estriosomas y matriz/matrisomas. Los conglomerados matriciales contienen neuronas espinosas medias de la vía directa (Go) e indirecta (NoGO), que en conjunto constituyen el 95% de las células estriatales, las cuales reciben entradas excitatorias de toda la corteza pero son inhibidoras de sus dianas aguas abajo en el globo pálido como se describe a continuación. Las células de parche se proyectan hacia el sistema dopaminérgico y, por lo tanto, parecen desempeñar un papel más indirecto en la modulación de las señales de aprendizaje. También hay relativamente pocas neuronas tónicamente activas (TAN) ampliamente espaciadas, que liberan acetilcolina como neurotransmisor y parecen desempeñar un papel modulador, e interneuronas inhibidoras, que probablemente realizan el mismo tipo de control de ganancia dinámica que juegan en la corteza.
- El globus pallidus, segmento interno (GPi), que es una estructura mucho más pequeña que el estriado, y contiene neuronas que están constantemente activas (tónicamente) incluso sin entrada adicional. Estas neuronas envían inhibición a núcleos específicos en el tálamo. Cuando las neuronas del estriado de la vía directa/GO disparan, inhiben estas neuronas GPi, y así desinhiben el tálamo, resultando en última instancia en el inicio de una acción motora o cognitiva específica (dependiendo de qué circuito esté involucrado). Obsérvese que en otros circuitos gangliares fronto-basales, el papel del GPi es asumido por la sustancia negra pars reticulata (SnR), la cual se sitúa de manera idéntica a la GPi anatómicamente, pero recibe de otras áreas del cuerpo estriado y proyecta a salidas regulando otras acciones (e.g., movimientos oculares en la superior colliculo).
- El globus pallidus, segmento externo (GpE), que también es pequeño, y contiene neuronas tónicamente activas que envían proyecciones inhibidoras enfocadas a las neuronas GPi correspondientes. Cuando las neuronas de la vía indirecta/Nogo en el cuerpo estriado se disparan, inhiben a las neuronas GpE, y así desinhiben a las neuronas GPi, lo que hace que proporcionen una inhibición aún mayor sobre el tálamo. Esto bloquea el inicio de acciones específicas codificadas por la población de neuronas NoGO activas.
- El tálamo, específicamente los núcleos medial dorsal (MD), ventral anterior (VA) y ventrolateral (VL) (como se muestra en la Figura 7.2). Cuando las neuronas talámicas se desinhiben por el disparo de la vía Go, pueden disparar, pero solo cuando son impulsadas por la entrada excitatoria de arriba hacia abajo de la corteza frontal. De esta manera, los ganglios basales sirven como puerta en el circuito talamocortical — Go disparando abre la puerta, mientras que el disparo NoGO la cierra, pero el contenido de la información que pasa por la puerta (por ejemplo, los detalles del plan de acción motora) depende del sistema talamocortical. En el circuito oculomotor (como se muestra en la Figura 7.3, el papel del tálamo es asumido por el colículo superior, cuyo disparo explosivo inicia los saccados oculares).
- La sustancia negra pars compacta (SnC) tiene neuronas que liberan el neuromodulador dopamina, y específicamente inervan el cuerpo estriado. Curiosamente, hay dos tipos diferentes de receptores de dopamina en el cuerpo estriado. Los receptores D1 son prevalentes en las neuronas de la vía Go, y la dopamina tiene un efecto excitatorio en las neuronas con receptores D1 (particularmente aquellas neuronas que están recibiendo entrada excitadora glutamatérgica convergente de la corteza). En contraste, los receptores D2 son prevalentes en las neuronas de la vía NoGO, y la dopamina tiene un efecto inhibitorio a través de los receptores D2. Así, cuando un estallido de dopamina golpea el cuerpo estriado, excita aún más las unidades Go activas e inhibe las unidades NoGO. Este cambio en la actividad da como resultado una plasticidad dependiente de la actividad y, por lo tanto, conduce a una mayor propensión a iniciar acciones motoras y cognitivas. Por el contrario, cuando ocurre una caída en el disparo de dopamina, las neuronas Go están menos excitadas, mientras que las neuronas NoGO se desinhiben, y así aquellas neuronas NoGO que reciben entrada excitatoria de la corteza (que representan el estado y la acción actuales) se excitarán más debido a la caída de dopamina. Nuevamente, este cambio en la actividad da como resultado la potenciación de las sinapsis, de tal manera que esta población específica de neuronas Nogo tendrá más probabilidades de activarse en futuros encuentros de este estado sensorial y acción motora candidata. Ambos efectos de los estallidos y las inmersiones de dopamina tienen perfecto sentido: los estallidos de dopamina se asocian con errores positivos de predicción de recompensas (cuando las recompensas son mejores de lo esperado), y así refuerzan la selección de acciones que conducen a buenos resultados. Por el contrario, las inmersiones de dopamina se asocian con errores negativos de predicción de recompensa (peores de lo esperado) y, por lo tanto, conducen a la evitación (NoGO) de aquellas acciones que tienden a dar como resultado estos malos resultados. Además, los niveles tónicos de dopamina pueden influir en el equilibrio relativo de actividad de estas vías, de manera que incluso si ya se ha producido el aprendizaje, los cambios en la dopamina pueden afectar si la selección de acción está influenciada principalmente por los valores aprendidos de Go vs Nogo aprendido, en términos generales, cuanto mayor sea la dopamina, más riesgosas las elecciones (insensibilidad a los resultados negativos).
- El núcleo subtalámico es también un componente principal de los ganglios basales (no representados en la figura), que actúa como la tercera vía hiperdirecta, así llamada porque recibe entrada directamente de la corteza frontal y envía proyecciones excitatorias directamente a la salida BG (GPi), evitando la cuerpo estriado en conjunto. Estas proyecciones de STN-GPi son difusas, lo que significa que una sola neurona STN se proyecta ampliamente a muchas neuronas GPi, y como tal se cree que la STN proporciona una función Nogo global que evita la activación de cualquier acción motora o cognitiva (técnicamente, eleva el umbral para la activación). Esta área se ha demostrado en modelos y datos empíricos para volverse más activa con crecientes demandas de inhibición de la respuesta o cuando hay conflicto entre planes de acción corticales alternativos, de manera que el STN compra más tiempo para que la compuerta estriatal se asiente en la mejor acción (Frank, 2006).
Este es un circuito bastante complejo, y probablemente se necesitan algunas iteraciones a través de él para entender realmente cómo encajan todas las partes. Sin embargo, el resultado final debería ser más fácil de entender: los ganglios basales aprenden a seleccionar acciones gratificantes (incluyendo acciones cognitivas más abstractas), a través de una relación de activación desinhibitoria con diferentes áreas de la corteza frontal. Además, la descripción general anterior, motivada por consideraciones computacionales y una gran cantidad de datos anatómicos, fisiológicos y farmacológicos detallados, ha sido apoyada abrumadoramente por datos empíricos entre especies. Por ejemplo, en ratones, Kravitz et al., 2010 mostraron que la estimulación selectiva de las neuronas estriatales D1 resultó en la inhibición de los núcleos de salida de BG y la desinhibición de las acciones motoras, mientras que la estimulación selectiva de las neuronas estriatales D2 resultó en la excitación de los núcleos de salida y la supresión de las acciones motoras. Un trabajo de seguimiento en 2012 mostró que las estimulaciones transitorias de estas vías después de los movimientos hacen que el ratón sea más probable (estimulación unitaria ir) o menos probable (estimulación de la unidad nogo) de repetir ese mismo movimiento en el futuro, consistente con un efecto de aprendizaje. Zalocusky et al., 2016 mostraron que cuando un ratón experimenta un error de predicción de recompensa negativo (es decir, esperan una recompensa pero no la obtienen), las neuronas D2 responden aumentando sus niveles de actividad, y el alcance de esto está relacionado con su posterior evitación de la acción a favor de una opción más segura liderando a cierta recompensa. Shen et al., 2008 mostraron evidencia para la predicción del modelo de que los receptores D1 y D2 modulan opositivamente la plasticidad sináptica en las dos vías. Hikida et al., 2010 mostraron que el bloqueo selectivo de la neurotransmisión a lo largo de la vía Go resultó en deficiencias en el aprendizaje de seleccionar acciones gratificantes pero no déficits en evitar acciones castigadoras, y se observó exactamente el patrón opuesto de alteraciones después del bloqueo de la vía NoGO. En humanos, los depleciones de dopamina estriatal asociados con la enfermedad de Parkinson resultan en problemas de “Go learning” en tareas probabilísticas de aprendizaje de refuerzo, pero mejoran el “aprendizaje NoGO”, con el patrón opuesto de hallazgos provocados por medicamentos que aumentan la dopamina estriatal (Frank, Seeberger & O'Reilly 2004 y muchos otros desde entonces). Incluso las diferencias individuales en el desempeño humano joven sano en el aprendizaje Go vs NoGO están asociadas con variantes genéticas que afectan la función del receptor estriatal D1 y D2 y la expresión del receptor D1 vs D2 en estudios PET (Cox et al, 2015; para una revisión de este cuerpo de literatura, ver Frank & Fossella, 2011).
La división del trabajo entre la corteza frontal y los ganglios basales es tal que la corteza frontal entretiene muchas acciones posibles diferentes, en virtud de ricos patrones de conectividad de otras áreas corticales proporcionando resúmenes de alto nivel del entorno actual, que luego activan una gama de diferentes acciones posibles, y los ganglios basales luego selecciona la mejor (más probable que sea gratificante) de estas acciones para ejecutar realmente. En términos más antropomórficos, la corteza frontal es del tipo creativo difuso, con un millón de ideas, pero sin capacidad para enfocarse en el mundo real, y tiene dificultades para reducir las cosas hasta el punto de hacer realmente cualquier cosa: una especie de soñador. En tanto, los ganglios basales son un verdadero tipo de toma de control que siempre tiene en mente el resultado final, y puede tomar las decisiones difíciles y hacer las cosas. Necesitamos a ambas personalidades en nuestra cabeza (aunque las personas claramente difieren en cuanto de cada una tienen), y los sistemas neuronales que soportan estos diferentes modos de comportamiento son claramente diferentes. Esto es presumiblemente la razón por la que existen dos sistemas separables (corteza frontal y ganglios basales) que, sin embargo, trabajan muy estrechamente para resolver el problema general de selección de acciones.
Exploración de los Ganglios Basales
BG abierta para una exploración de un modelo básico de selección de acción go vs. nogo y dinámicas de aprendizaje en los ganglios basales. Este modelo también permite investigar los efectos de la enfermedad de Parkinson y los medicamentos dopaminérgicos.