9.4: Antecedentes- Una visión conceptual rápida de ICA

Última actualización
Guardar como PDF

Page ID: 151891

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

El suplemento en línea del Capítulo 6 en Luck (2014) proporciona una visión conceptual de cómo funciona ICA en general y cómo se aplica a la corrección de artefactos. Aquí voy a proporcionar un resumen rápido. Varios algoritmos diferentes están disponibles para realizar la descomposición ICA. Para la gran mayoría de los casos en los que ICA se usa para la corrección de artefactos, no hay grandes diferencias entre los algoritmos, así que aquí me enfocaré en el algoritmo ICA predeterminado de EEGLAB (Infomax, implementado con la rutina runica).

Lo primero que debes saber es que ICA es puramente una técnica estadística, y no fue desarrollada para datos neuronales per se. No sabe nada de cerebros o electricidad. No se sabe que los datos provienen de electrodos o de dónde están ubicados los electrodos. La mayoría de los algoritmos ICA ni siquiera conocen o se preocupan por el orden de los puntos de tiempo. Simplemente ven cada punto temporal como un conjunto de N variables abstractas, una para cada uno de los N canales. Infomax utiliza un algoritmo de aprendizaje automático (muy parecido a una red neuronal) que aprende un conjunto de N CI que son máximamente independientes cuando se aplican a los datos.

Por máxima independencia, quiero decir que el nivel de activación de un CI no proporciona información sobre los niveles de activación de los otros CI en ese momento. Por ejemplo, si el nivel de voltaje relacionado con el parpadeo en cada punto de tiempo no predice otras fuentes de actividad en el mismo punto de tiempo, los parpadeos probablemente se extraerán como un CI separado. Sin embargo, no es un problema si la actividad de parpadeo en un momento predice la actividad de otras fuentes en momentos anteriores o posteriores.

ICA aprende una matriz de desmezcla, que convierte los datos de EEG en un punto de tiempo dado al nivel de activación de cada IC. La inversa de la matriz de desmezcla es la matriz de mezcla, que es solo la distribución del cuero cabelludo de cada CI. También se puede pensar en la distribución del cuero cabelludo de un CI como un conjunto de pesos. El voltaje producido por un CI en un canal dado en un punto de tiempo dado es el nivel de activación del CI en ese punto de tiempo multiplicado por el peso para ese canal. Se aplica cierta aleatoriedad al algoritmo de aprendizaje, por lo que no terminarás con exactamente el mismo conjunto de CI si repites la descomposición varias veces.

Una consideración práctica importante es que la rutina de aprendizaje automático necesita una gran cantidad de datos para aprender adecuadamente los CI. El equipo de EEGLAB ha proporcionado una regla informal para esto, que es que el número de puntos de tiempo en el conjunto de datos debe ser de al menos 20 x (# canales) ². Probablemente sea el número de minutos de datos lo que importa más que el número de puntos de tiempo, pero lo clave a tener en cuenta es que el número de canales es cuadrado. Esto significa que duplicar el número de canales requiere cuatro veces más datos. Por ejemplo, necesitarías cuatro veces más minutos de datos para una grabación de 64 canales que para una grabación de 32 canales (y dieciséis veces más datos para una grabación de 128 canales que para una grabación de 32 canales).

ICA es algo así como el análisis de componentes principales (PCA). Sin embargo, mientras que el PCA intenta agrupar la mayor varianza posible en el menor número de componentes, ICA intenta hacer que los componentes sean al máximo independientes. ICA también es como PCA en la medida en que solo toma el conjunto de datos y lo representa a lo largo de un conjunto diferente de ejes. Puede pasar de los datos originales a la descomposición ICA con la matriz de desmezcla, y luego puede aplicar la matriz de mezcla a la descomposición ICA y recuperar perfectamente los datos originales.

Esta secuencia de descomposición y recuperación es la forma en que ICA corrige los artefactos. Después de ejecutar la descomposición ICA para obtener los CI, simplemente configura uno o más de los CI para que tengan una activación de cero en cada punto de tiempo y luego use la matriz de mezcla para recuperar los datos originales (pero sin los CI artificiales). Esto significa que ICA influye en sus datos en cada punto de tiempo. Cuando elimina un IC parpadeante, ICA no solo encuentra períodos de tiempo con parpadeos y corrige los datos durante esos períodos de tiempo. Reconstruye sus datos de EEG en cada momento, pero con los CI artificiales establecidos en cero. Habrá alguna actividad distinta de cero en el IC de parpadeo en cada punto de tiempo, por lo que poner a cero este IC en cada punto temporal significa que los datos se cambiarán al menos ligeramente en cada punto temporal. Esto es realmente bueno, porque puede haber bastante actividad de EOG entre parpadeos como resultado de pequeños cambios en la rotación de los ojos o la posición de los párpados, y ICA eliminará esta actividad no neuronal cuando retire el CI correspondiente a parpadeos.

ICA hace varias suposiciones importantes (ver Luck, 2014), pero dos son particularmente importantes para conocer. La primera es que la distribución del cuero cabelludo de una determinada fuente de actividad debe permanecer constante durante toda la sesión. Por ejemplo, podemos suponer que las ubicaciones de los ojos con respecto a los sitios de electrodos no cambiarán en el transcurso de una sesión (a menos que haya algún tipo de catástrofe), por lo que los parpadeos y los movimientos oculares cumplen con este criterio. De igual manera, la ubicación del corazón en relación con los electrodos no cambia con el tiempo, por lo que el artefacto EKG también cumple con este criterio. Sin embargo, la distribución del cuero cabelludo producida por los potenciales de la piel dependerá de qué poros del sudor se activen, los cuales pueden cambiar con el tiempo, por lo que los potenciales de la piel no cumplen con esta suposición. Por cierto, esta suposición significa que debes realizar ICA por separado para cada participante (porque las distribuciones del cuero cabelludo diferirán al menos ligeramente entre los participantes).

Existe disputa en la literatura sobre si ICA funciona bien con EMG. El argumento en contra del uso de ICA con EMG es que diferentes fibras musculares pueden contraerse en diferentes momentos, cambiando la distribución del cuero cabelludo. El argumento para usar ICA es que la distribución del cuero cabelludo en realidad no cambia mucho con el tiempo. Para estar en el lado seguro, mi laboratorio no usa ICA para EMG. Minimizamos el EMG haciendo que los participantes se relajen durante la grabación del EEG, y podemos filtrar el EMG restante para que tenga un impacto mínimo en nuestros resultados. Sin embargo, si no puedes evitar tener mucho EMG en tus datos, y no puedes filtrarlos sin crear otros problemas (por ejemplo, porque estás buscando una actividad ERP de alta frecuencia), puedes leer la literatura y decidir por ti mismo si los beneficios de usar ICA para EMG superan los costos.

Un segundo supuesto clave de ICA es que el número de verdaderas fuentes de actividad es igual al número de canales. Esto se relaciona con el hecho de que el número de CI debe ser igual al número de canales para que las matemáticas funcionen.

Las excepciones hacen la regla

Hay excepciones ocasionales a la regla de que el número de ICs es igual al número de canales, particularmente cuando se está utilizando el promedio de todos los sitios como referencia. Consulte la tubería de preprocesamiento de Makoto o la documentación ICA de EEGLAB para obtener más detalles.

Como mencioné anteriormente, el hecho de que el número de CI deba ser igual al número de canales significa que ICA es un método imperfecto. ¡No cambias el número de fuentes de actividad cuando sumas o restas electrodos! Además, siempre habrá más fuentes de actividad en la señal EEG que canales (porque cada sinapsis en el cerebro es una fuente potencial de actividad). Como resultado, ICA agrupará múltiples componentes verdaderos en el mismo CI. Además, una única fuente verdadera también se puede dividir entre múltiples CI. Entonces, definitivamente tendrás agrupamiento de verdaderos componentes, y es probable que también tengas alguna división.

Dado el fracaso de los datos de EEG para cumplir con esta segunda suposición, puede preguntarse si es válido usar ICA para la corrección de artefactos. Como señaló el famoso estadístico George Box, todos los modelos estadísticos están equivocados, y la cuestión no es si son correctos sino si son útiles (Box, 1976). En la práctica, ICA es útil para corregir algunos tipos de artefactos a pesar de los supuestos inválidos. La gracia salvadora de ICA es que los problemas de agrupamiento y división son mínimos para los componentes que dan cuenta de mucha varianza (por ejemplo, componentes que son grandes y ocurren con frecuencia). La mayoría de los participantes parpadean mucho, y los parpadeos son muy grandes, por lo que ICA suele funcionar muy bien para parpadeos. Dependiendo del experimento y del participante, los movimientos oculares pueden ser grandes o pequeños y pueden ser frecuentes o raros. En mi experiencia, ICA solo funciona modestamente bien para los movimientos oculares, y no puede corregir el cambio en la entrada sensorial producido por el cambio en la posición de la mirada, por lo que solo usamos ICA para corregir los movimientos oculares cuando sea necesario. Sin embargo, recientemente me encontré con un bonito artículo de Dimigen (2020) que muestra que ICA puede funcionar bastante bien para movimientos oculares grandes y frecuentes cuando se aplican los pasos correctos de preprocesamiento antes de la descomposición de ICA (como discutiré con más detalle más adelante). Drisdelle et al. (2017) también proporcionan evidencia de que ICA puede funcionar bien para los movimientos oculares en ciertos tipos de paradigmas.

ICA se puede aplicar a EEG continuo o epoched. Cuando mi laboratorio comenzó a usar ICA hace muchos años, envié un correo electrónico a Scott Makeig y Arnaud Delorme para obtener su consejo, y me recomendaron aplicarlo al EEG continuo. Todavía dan este consejo hoy en la documentación de EEGLAB. Puede aplicar ICA a datos de época si es necesario, pero las épocas deben tener al menos 3 segundos de duración (por ejemplo, -1000 a +2000 ms). Las épocas adyacentes no pueden contener los mismos puntos de datos, por lo que esto significa que se deben tener pruebas relativamente largas para que este enfoque funcione. Si configura su canalización correctamente (consulte el Capítulo 11 y el Apéndice 3), no hay ninguna razón por la que necesite aplicar ICA a los datos de época, así que mi opinión es que lo más seguro es aplicarlo a los datos continuos. Como se describe en el cuadro de texto a continuación, también puede haber una ventaja práctica.

Una ventaja práctica

A lo largo de los años, hemos encontrado una ventaja práctica significativa para hacer ICA en la etapa más temprana posible del preprocesamiento de EEG (lo que significa aplicar a EEG continuo, porque la época es una etapa relativamente tardía). Específicamente, ICA es un proceso que consume mucho tiempo y que no quieres repetir si es posible evitarlo. Si necesita cambiar algunos de sus pasos de procesamiento después de haber analizado ya sus datos una vez, poner ICA en la etapa más temprana posible minimiza la probabilidad de que este cambio requiera repetir el ICA.

El proceso de descomposición ICA suele tardar entre 2 minutos y 2 horas dependiendo de la naturaleza de sus datos y su computadora. Si necesitas procesar datos de 30 participantes, esto es ahora entre 60 minutos y 60 horas. Eso se puede hacer de la noche a la mañana mientras estás dormido, pero se requieren otros 2-20 minutos de esfuerzo humano para que cada participante se asegure de que la descomposición haya funcionado correctamente y para determinar qué CI deben eliminarse. Eso es de 60 a 600 minutos de tu precioso tiempo.

¿Cuál es la probabilidad de que necesite volver a procesar sus datos? En mi experiencia, ¡la probabilidad es cercana al 100%! Los revisores siempre parecen querer algún cambio (o algún análisis secundario). Y cuando eres nuevo en el análisis ERP, es probable que hagas algo que es menos que óptimo y requerirá un nuevo análisis. Pero si ha realizado la corrección de artefactos lo antes posible en su canalización de procesamiento, es muy probable que no necesite repetir esta parte de su canalización que consume mucho tiempo.

Un paso clave en la corrección de artefactos basada en ICA es determinar qué CI corresponden a artefactos y deben eliminarse. Existen algoritmos automatizados para esto, pero recomiendo hacerlo manualmente para la gran mayoría de estudios. Como verá, es necesario determinar cuidadosamente si se debe eliminar un CI dado, lo que requiere tomar en cuenta los tres objetivos subyacentes del rechazo y corrección de artefactos, y esto a menudo va más allá de lo que puede hacer un algoritmo.

La corrección de artefactos basada en ICA cambia masivamente tus datos, y sabemos que estamos violando al menos uno de sus supuestos, por lo que recomiendo ser conservador al usarlo. Casi siempre lo usamos para parpadear, y a veces lo usamos para movimientos oculares, pero normalmente no lo usamos para otro tipo de artefactos. Si encontráramos con frecuencia artefactos de ECG grandes, probablemente usaríamos ICA para esos también. Algunos laboratorios usan ICA para cualquier cosa que se vea “extraña”, pero personalmente no me gusta ese enfoque. Hay otras formas de lidiar con estos otros tipos de artefactos, y simplemente no confío en un algoritmo para resolver todos los problemas en mis datos.

Por último, no olvides el Axioma de Hansen: No hay sustituto para los buenos datos. Haga todo lo posible para minimizar los artefactos durante la grabación, y luego no terminará recibiendo una úlcera por preocuparse por cómo lidiar con una tonelada de artefactos durante el análisis.