Saltar al contenido principal
LibreTexts Español

6.5: El enfoque coneccionista de la cognición musical

  • Page ID
    143938
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    La investigación coneccionista sobre cognición musical quizás no esté tan establecida como la investigación clásica, pero sin embargo ha producido una literatura sustancial y creciente (Bharucha, 1999; Fiske, 2004; Griffith & Todd, 1999; Todd & Loy, 1991). El propósito de esta sección es proporcionar una orientación muy breve a esta investigación. A medida que se desarrolla la sección, se ilustra la relación de la cognición musical conexionista con ciertos aspectos del Romanticismo musical.

    A finales de la década de 1980, el Nuevo Conexionismo había comenzado a influir en la investigación sobre la cognición musical. Los efectos de esta difusión de influencia han sido documentados en dos colecciones de trabajos de investigación (Griffith & Todd, 1999; Todd & Loy, 1991). La cognición musical coneccionista ha sido estudiada con una amplia variedad de arquitecturas de red, y abarca una amplia gama de temas, entre los que destacan clasificar el tono y la tonalidad, asignar ritmo y metros, clasificar y completar la estructura melódica y componer nuevas piezas musicales (Griffith & Todd, 1999).

    ¿Por qué utilizar las redes neuronales para estudiar la cognición musical? Bharucha (1999) aportó cinco razones. En primer lugar, las redes neuronales artificiales pueden dar cuenta del aprendizaje de patrones musicales a través de la exposición ambiental. Segundo, el tipo de aprendizaje que describen es biológicamente plausible. En tercer lugar, proporcionan un relato natural y biológicamente plausible de los efectos contextuales y la finalización del patrón durante la percepción. Cuarto, son particularmente adecuados para modelar regularidades basadas en la similitud que son importantes en las teorías de la cognición musical. Quinto, pueden descubrir regularidades (por ejemplo, en estilos musicales) que pueden eludir análisis más formales.

    Para comenzar nuestra encuesta sobre la cognición musical coneccionista, consideremos las clasificaciones de redes neuronales artificiales de tono, tonalidad y armonía (Griffith & Todd, 1999; Purwins et al., 2008). Se ha explorado con éxito una amplia variedad de tales tareas: se han entrenado redes neuronales artificiales para clasificar acordes (Laden & Keefe, 1989; Yaremchuk & Dawson, 2005; Yaremchuk & Dawson, 2008), asignar notas al esquema tonal similares a las estructuras propuestas por Krumhansl (1990) (Leman, 1991; Scarborough, Miller, & Jones, 1989), modelan los efectos de la expectativa sobre la percepción del tono y otros aspectos de la percepción musical (Bharucha, 1987; Bharucha & Todd, 1989), agregan armonía a las melodías (Shibata, 1991), determinan la clave musical de una melodía (Griffith, 1995) y detectan los patrones de acordes en un composición (Gjerdingen, 1992).

    Las redes neuronales artificiales son adecuadas para esta amplia gama de tareas relacionadas con el tono debido a su capacidad para explotar la información contextual, lo que a su vez les permite lidiar con entradas ruidosas. Por ejemplo, las redes son capaces de completar patrones, lo que está reemplazando la información que falta en los patrones de entrada imperfectos. En la cognición musical, un ejemplo de finalización de patrones es el pitch virtual (Terhardt, Stoll, & Seewann, 1982a, 1982b), la percepción de tonos a los que les falta su frecuencia fundamental.

    Considera una onda sinusoidal cuya frecuencia es\(f\). Cuando escuchamos un sonido musical, su tono (es decir, su altura tonal, o la nota que experimentamos) suele asociarse a esta frecuencia fundamental (Helmholtz & Ellis, 1954; Seashore, 1967). Los armónicos de esta onda sinusoidal son otras ondas sinusoidales cuyas frecuencias son múltiplos enteros de\(f\) (es decir\(2f\),\(3f\),,\(4f\) y así sucesivamente). El timbre del sonido (si podemos identificar un tono como proveniente de, por ejemplo, un piano versus un clarinete) es función de las amplitudes de los diversos armónicos que también son audibles (Seashore, 1967).

    Curiosamente, cuando se filtra un sonido complejo para que se elimine su frecuencia fundamental, nuestra percepción de su tono no se ve afectada (Fletcher, 1924). Es como si la presencia de los otros armónicos proporcionara suficiente información para que el sistema auditivo llenara el fundamental faltante, para que se escuche el tono correcto, un fenómeno que Schumann explotó en Humoreske. Las interacciones cooperativas entre neuronas que detectan los armónicos restantes son probablemente responsables de este efecto (Cedolin & Delgutte, 2010; Smith et al., 1978; Zatorre, 2005).

    Las redes neuronales artificiales pueden modelar fácilmente dicho procesamiento cooperativo y completar el fundamental faltante. Por ejemplo, un importante sistema coneccionista se llama red Hopfield (Hopfield, 1982, 1984). Se trata de una red autoasociativa que tiene sólo un conjunto de unidades de procesamiento, las cuales están todas interconectadas. Cuando se presenta un patrón de actividad a este tipo de red, las señales se propagan rápidamente a todos los procesadores, produciendo interacciones dinámicas que hacen que las unidades de la red se enciendan o apaguen con el tiempo. Eventualmente la red se estabilizará en un estado de menor energía; los cambios dinámicos en las actividades de los procesadores se detendrán.

    Las redes Hopfield se pueden utilizar para modelar el pitch virtual, porque completan el fundamental faltante (Benuskova, 1994). En esta red, cada procesador representa una onda sinusoidal de una frecuencia particular; si el procesador está encendido, entonces esto representa que la onda sinusoidal está presente. Si se activa un subconjunto de procesadores para representar un estímulo que es un conjunto de armónicos con un fundamental faltante, entonces cuando la red se estabilice, también se activará el procesador que representa el fundamental faltante. Otros tipos de redes autoorganizativas también son capaces de completar el fundamental faltante (Sano & Jenkins, 1989).

    La capacidad de una red neuronal artificial para lidiar con entradas ruidosas le permite también hacer frente a otros dominios de la cognición musical, como la asignación de ritmo y metro (Desain & Hining, 1989; Griffith & Todd, 1999). Los modelos clásicos de este tipo de procesamiento asignan jerárquicamente una estructura de ritmos a diferentes niveles de una pieza, empleando reglas que aprovechan el hecho de que el ritmo musical y el metro están asociados con valores enteros (e.g., según lo definido por las firmas de tiempo, o en la definición de duraciones de nota tales como notas enteras, notas de cuarto, etc.) (Lerdahl & Jackendoff, 1983; Temperley, 2001). Sin embargo, en la interpretación real de una pieza, los beats serán ruidosos o imperfectos, de tal manera que no se producirán proporciones enteras perfectas de beats (Gasser, Eck, & Port, 1999). Los modelos coneccionistas pueden corregir este problema, tanto como las redes pueden restaurar información ausente como la fundamental faltante.

    Por ejemplo, una red para asignar ritmo y metro utiliza un sistema de procesadores oscilantes, unidades que disparan a una frecuencia establecida (Large & Kolen, 1994). Se puede imaginar tener disponible una gran cantidad de tales osciladores, cada uno representando una frecuencia diferente. Mientras que la frecuencia de actividad de un oscilador es constante, su fase de actividad puede ser desplazada (por ejemplo, para permitir que un oscilador se alinee con latidos externos de la misma frecuencia). Si las fases de estos procesadores también pueden verse afectadas por interacciones cooperativas y competitivas entre los propios procesadores, entonces las fases de los diversos componentes del sistema pueden quedar atrapadas. Esto permite que la red represente la estructura métrica de una entrada musical, incluso si la entrada real es ruidosa o imperfecta. Esta noción puede elaborarse en una red autoorganizada que permita preferencias o expectativas de ciertos patrones rítmicos para determinar la representación final a la que converge la red (Gasser Eck, & Port, 1999).

    Los ejemplos de redes neuronales artificiales proporcionados anteriormente ilustran otra de las ventajas de Bharucha (1999) de tales modelos: la plausibilidad biológica. Muchos modelos de redes neuronales son intentos de simular algunos aspectos de los relatos neuronales de la percepción auditiva y musical. Por ejemplo, la teoría del lugar es la propuesta de que el tono musical está representado por lugares de actividad a lo largo de la membrana basilar de la cóclea (Helmholtz & Ellis, 1954; von Bekesy, 1928). Las implicaciones de la teoría de lugar pueden explorarse utilizándola para inspirar representaciones espaciales de entradas musicales a redes coneccionistas (Sano y Jenkins, 1989).

    El vínculo entre los relatos coneccionistas y los relatos biológicos de la cognición musical no es accidental, porque ambos reflejan reacciones contra críticas comunes. El científico cognitivo clásico Steven Pinker es un destacado crítico de la ciencia cognitiva coneccionista (Pinker, 2002; Pinker & Prince, 1988). Pinker (1997) también ha sido uno de los principales defensores de la modularidad masiva, que atribuye módulos neuronales a la mayoría de las facetas cognitivas, a excepción de la música. Pinker excluyó la música porque no podía ver ningún valor adaptativo para su selección natural: “En lo que respecta a causa y efecto biológicos, la música es inútil. No muestra signos de diseño para alcanzar una meta como larga vida, nietos, o percepción y predicción precisa del mundo” (p. 528). El auge de la investigación moderna en la neurociencia cognitiva de la música (Cedolin & Delgutte, 2010; Peretz & Coltheart, 2003; Peretz & Zatorre, 2003; Purwins et al., 2008; Stewart et al., 2006; Warren, 2008) es una reacción contra esta posición clásica, y encuentra un aliado natural en el conexionismo musical.

    En la analogía planteada en el apartado anterior, el atractivo del conexionismo al cerebro se presentó como ejemplo de su romanticismo. La investigación conexionista sobre cognición musical revela otros paralelismos romanticistas. Al igual que el romanticismo musical, el conexionismo se posiciona para captar regularidades que son difíciles de expresar en el lenguaje o mediante el uso de reglas formales (Loy, 1991).

    Por ejemplo, los sujetos humanos pueden clasificar con precisión selecciones musicales cortas en diferentes géneros o estilos en un período de tiempo notablemente corto, dentro de un cuarto de segundo (Gjerdingen & Perrott, 2008). Pero es difícil ver cómo se podría dar un relato clásico de esta habilidad debido a la dificultad de definir formalmente un género o estilo para un modelo clásico. “No es probable que los estilos musicales puedan aislarse con éxito por simple heurística e introspección, ni pueden modelarse fácilmente como un problema de resolución de reglas” (Loy, 1991, p. 31).

    Sin embargo, se han desarrollado muchas redes neuronales artificiales diferentes para clasificar la música usando categorías que parecen desafiar definiciones precisas y formales. Estas incluyen redes que pueden clasificar patrones musicales como pertenecientes a las primeras obras de Mozart (Gjerdingen, 1990); clasificar selecciones como pertenecientes a diferentes géneros de la música occidental (Mostafa & Billor, 2009); detectar patrones de movimiento entre notas en segmentos de música (Gjerdingen, 1994) de una manera similar a un modelo de percepción aparente del movimiento (Grossberg & Rudd, 1989, 1992); evaluar la estética afectiva de una melodía (Coutinho & Cangelosi, 2009; Katz, 1995); e incluso predecir la posibilidad de que una canción en particular tenga “potencial hit” (Monterola et al., 2009).

    Categorías como género o potencial hit son obviamente vagas. Sin embargo, incluso identificar un estímulo como una canción o melodía en particular también puede ser difícil de definir formalmente. Esto se debe a que una melodía puede ser transpuesta a diferentes teclas, interpretada por diferentes instrumentos o voces, o incluso embellecida añadiendo florituras improvisacionales.

    Nuevamente, el reconocimiento de melodía se puede lograr mediante redes neuronales artificiales que mapean, por ejemplo, versiones transpuestas del mismo segmento musical en una sola representación de salida (Benuskova, 1995; Bharucha & Todd, 1989; Page, 1994; Stevens & Latimer, 1992). El reconocimiento de melodía en redes neuronales tiene implicaciones para otros aspectos de la cognición musical, como el formato de representación de las memorias musicales. Por ejemplo, las redes autoorganizativas pueden representar la estructura jerárquica de una pieza musical de una manera lo suficientemente abstracta como para que solo se codifique la “esencia”, permitiendo que la misma memoria se vincule a múltiples variaciones auditivas (Large, Palmer, & Pollack, 1995). El procesamiento auditivo organiza la información en flujos separados (Bregman, 1990); las redes neuronales pueden lograr esto para entradas musicales procesando relaciones entre tonos (Grossberg, 1999).

    Los conocimientos sobre la representación musical que están siendo proporcionados por las redes neuronales artificiales tienen implicaciones importantes más allá de la cognición musical. Ahora existe una amplia disponibilidad de materiales musicales y multimedia en formato digital. ¿Cómo se puede clasificar y buscar dicho material? Las redes neuronales artificiales están demostrando ser útiles para abordar este problema, así como para proporcionar sistemas adaptativos para seleccionar música, o generar listas de reproducción musicales, basadas en el estado de ánimo del usuario o preferencias pasadas (Bugatti, Flammini, & Migliorati, 2002; Jun, Rho, & Hwang, 2010; Liu, Hsieh, & Tsai , 2010; Muñoz-Expósito et al., 2007).

    Los estilos musicales, o piezas musicales individuales, son difíciles de definir con precisión y, por lo tanto, son problemáticos de incorporar a las teorías clásicas. “El hecho de que incluso las teorías maduras de la música sean informales es una fuerte evidencia de que el intérprete, el oyente y el compositor no operan principalmente como solucionadores de problemas basados en reglas” (Loy, 1991, p. 31). Que las redes neuronales artificiales sean capaces de clasificar la música en términos de categorías tan vagas indica que “quizás el conexionismo pueda mostrar el camino a técnicas que no tienen los pasivos de sistemas estrictamente formales” (p. 31). En otras palabras, la flexibilidad e informalidad de los sistemas coneccionistas les permite hacer frente a situaciones que pueden estar más allá de la capacidad de los modelos clásicos. ¿No podría aplicarse esta ventaja también a otro aspecto de la cognición musical, la composición?

    De hecho, la composición ha sido una de las aplicaciones más exitosas del conexionismo musical. Se ha desarrollado una amplia variedad de redes de composición. Se han desarrollado redes para componer melodías de voz única sobre la base de una estructura musical aprendida (Mozer, 1991; Todd, 1989); para componer melodías armonizadas o piezas de múltiples voces (Adiloglu & Alpaslan, 2007; Bellgard & Tsang, 1994; Hoover & Stanley, 2009; Mozer, 1994); para aprender melodías de jazz y armonías, y luego usar esta información para generar nuevas melodías cuando se presentan con armonías novedosas (Franklin, 2006); y para improvisar componiendo variaciones sobre melodías aprendidas (Nagashima & Kawashima, 1997). La lógica de la composición de redes es que la relación entre notas sucesivas en una melodía, o entre diferentes notas tocadas al mismo tiempo en una pieza armonizada o de múltiples voces, no es aleatoria, sino que está restringida por restricciones estilísticas, melódicas y acústicas (Kohonen et al., 1991; Lewis, 1991; Mozer, 1991, 1994). Las redes son capaces de aprender tales limitaciones y utilizarlas para predecir, por ejemplo, cuál debe ser la siguiente nota en una nueva composición.

    De acuerdo con el Romanticismo musical, sin embargo, se presume que las redes compositoras tienen limitaciones internalizadas que son difíciles de formalizar o de expresar en lenguaje ordinario. “Los enfoques algorítmicos no coneccionistas en las artes de la computación a menudo se han encontrado con la dificultad de que las 'leyes' del arte son característicamente difusas y poco adecuadas para la descripción algorítmica” (Lewis, 1991, p. 212). Además, es poco probable que estas “leyes” se obtengan del análisis de la estructura interna de una red, “ya que las unidades ocultas suelen computar alguna función complicada, a menudo ininterpretable de sus entradas” (Todd, 1989, p. 31). Es muy pronto para etiquetar una red compositora como un genio aislado, pero parecería que estas redes están explotando regularidades que en algún sentido son sublimes!

    Este particular paralelo entre el romanticismo musical y el conexionismo, que ambos capturan regularidades que no se pueden formalizar, es evidente en otra característica interesante del conexionismo musical. El algoritmo más popular para entrenar redes neuronales artificiales es la regla delta generalizada (es decir, retropropagación de errores) (Chauvin & Rumelhart, 1995; Widrow & Lehr, 1990), y las redes entrenadas con este tipo de regla de aprendizaje supervisado son las que más probablemente se encuentran en la ciencia cognitiva literatura. Si bien las redes autoorganizativas están presentes en esta literatura y han hecho importantes contribuciones a la misma (Amit, 1989; Carpenter & Grossberg, 1992; Grossberg, 1988; Kohonen, 1984, 2001), son mucho menos populares. Sin embargo, este no parece ser el caso en el conexionismo musical.

    Por ejemplo, en las dos colecciones que documentan avances en aplicaciones de redes neuronales artificiales a la cognición musical (Griffith & Todd, 1999; Todd & Loy, 1991), 23 artículos describen nuevas redes neuronales. De estas contribuciones, 9 implican aprendizaje supervisado, mientras que 14 describen redes no supervisadas y autoorganizativas. Esto indica una marcada preferencia por las redes no supervisadas en esta literatura conexcionista particular.

    Esta preferencia probablemente se deba a la opinión de que el aprendizaje supervisado no es práctico para la cognición musical, ya sea porque muchas regularidades musicales se pueden adquirir sin retroalimentación o supervisión (Bharucha, 1991) o porque para las tareas musicales de nivel superior la definición de la retroalimentación requerida es imposible formalizar (Gjerdingen, 1989). “Uno se pregunta, por ejemplo, si alguien se sentiría cómodo al afirmar que una interpretación de una frase musical es sólo 69 por ciento [tan] verdadera como otra” (p. 67). Esto sugiere que el romanticismo musical del conexionismo se refleja incluso en su elección de arquitecturas de red.


    This page titled 6.5: El enfoque coneccionista de la cognición musical is shared under a CC BY-NC-ND license and was authored, remixed, and/or curated by Michael R. W. Dawson (Athabasca University Press) .