Saltar al contenido principal
LibreTexts Español

4.12: Características del gatillo

  • Page ID
    143868
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Durante más de medio siglo, los neurocientíficos han estudiado la visión mapeando los campos receptivos de las neuronas individuales (Hubel & Wiesel, 1959; Lettvin, Maturana, McCulloch, & Pitts, 1959). Para ello, utilizan un método llamado registro de microelectrodos o escuchas telefónicas (Calvin & Ojemann, 1994), en el que se miden las respuestas de neuronas individuales mientras se presentan estímulos a un animal. Con esta técnica, es posible describir a una neurona como sensible a una característica desencadenante, un patrón específico que cuando se detecta produce la máxima actividad en la célula.

    Que las neuronas individuales puedan describirse como detectar características desencadenantes ha llevado a algunos a respaldar una doctrina neuronal para la psicología perceptual. Esta doctrina tiene como objetivo descubrir los rasgos desencadenantes de todas las neuronas (Barlow, 1972, 1995). Esto se debe a que,

    una descripción de esa actividad de una sola célula nerviosa que se transmite e influye en otras células nerviosas, y de la respuesta de una célula nerviosa a tales influencias de otras células, es una descripción lo suficientemente completa para la comprensión funcional del sistema nervioso. (Barlow, 1972, p. 380)

    La validez de la doctrina de las neuronas es un tema polémico (Bowers, 2009; Gross, 2002). Independientemente, existe la posibilidad de que la identificación de las características desencadenantes pueda ayudar a interpretar el funcionamiento interno de las redes neuronales artificiales.

    Para algunos tipos de unidades ocultas, las características de activación se pueden identificar analíticamente, sin requerir ninguna intervención de las actividades de las unidades ocultas (Dawson, 2004). Por ejemplo, la función de activación para un dispositivo de integración (por ejemplo, la ecuación logística) es monótona, lo que significa que los aumentos en la entrada neta siempre producen aumentos en la actividad. Como resultado, si uno conoce los valores máximos y mínimos posibles para las señales de entrada, entonces uno puede definir la característica de activación de un dispositivo de integración simplemente inspeccionando los pesos de conexión que alimentan en él (Dawson, Kremer, & Gannon, 1994). La característica de activación es ese patrón que envía la señal mínima a través de cada conexión inhibitoria y la señal máxima a través de cada conexión excitatoria. La monotonicidad de la función de activación de un dispositivo de integración asegura que solo tendrá una función de disparo.

    La noción de una característica desencadenante para otros tipos de unidades ocultas es más compleja. Considere una unidad de valor cuyo sesgo, m, en su función de activación gaussiana es igual a 0. La función de activación para esta unidad será la característica que haga que produzca la activación máxima. Para esta unidad de valor, esto ocurrirá cuando la entrada neta a la unidad sea igual a 0 (es decir, igual al valor de µ) (Dawson & Schopflocher, 1992b). La entrada neta de una unidad de valor se define por una operación particular de álgebra lineal, llamada el producto interno, entre un vector que representa un estímulo y un vector que representa los pesos de conexión que se acoplan en la unidad (Dawson, 2004). Entonces, cuando la entrada neta es igual a 0, esto significa que el producto interno es igual a 0.

    Sin embargo, cuando un producto interno es igual a 0, esto indica que los dos vectores que se combinan son ortogonales entre sí (es decir, hay un ángulo de 90° entre los dos vectores). Geométricamente hablando, entonces, la entidad de activación para una unidad de valor es un patrón de entrada representado por un vector de actividades que está en ángulo recto con el vector de pesos de conexión.

    Esta observación geométrica plantea complicaciones, ya que implica que una unidad de valor oculto no tendrá una sola característica desencadenante. Esto se debe a que hay muchos patrones de entrada que son ortogonales a un vector de pesos de conexión. Cualquier vector de entrada que se encuentre en el hiperplano que sea perpendicular al vector de pesos de conexión servirá como una característica desencadenante para la unidad de valor oculto (Dawson, 2004); esto se ilustra en la Figura\(\PageIndex{1}\).

    Otra consecuencia de la cuenta geométrica proporcionada anteriormente es que debe haber familias de otros patrones de entrada que compartan la propiedad de producir la misma actividad unitaria oculta, pero una que sea inferior a la actividad máxima producida por una de las entidades desencadenantes. Estos serán patrones que todos caen en el mismo hiperplano, pero este hiperplano no es ortogonal al vector de pesos de conexión.

    Cualquier input.JPGFigura\(\PageIndex{1}\). Cualquier patrón de entrada (líneas discontinuas) cuyo vector caiga en el plano ortogonal al vector de pesos de conexión (línea continua) será una entidad desencadenante para una unidad de valor oculto.

    El resultado de todo esto es que si uno entrena una red de unidades de valor y luego escuchas telefónicas a sus unidades ocultas, las actividades de las unidades ocultas resultantes deberían estar altamente organizadas. En lugar de tener una distribución rectangular de valores de activación, debe haber grupos regulares de activaciones, donde cada grupo se relaciona con una familia diferente de patrones de entrada (es decir, familias relacionadas con diferentes hiperplanos de patrones de entrada).

    El apoyo empírico para este análisis fue proporcionado por el descubrimiento de bandas de actividad cuando se trazaron las actividades de una unidad oculta usando una gráfica de densidad fluctuante (Berkeley et al., 1995). Una gráfica de densidad fluctuante es una gráfica de dispersión bidimensional de puntos; una de esas gráficas se puede crear para cada unidad oculta en una red. Cada punto trazado representa uno de los patrones presentados a la unidad oculta durante las escuchas telefónicas. El\(x\) -valor de la posición del punto en la gráfica es la actividad producida en esa unidad oculta por el patrón. El\(y\) valor -valor de la posición del punto en la gráfica de dispersión es un valor aleatorio que se asigna para reducir la superposición entre puntos.

    Un ejemplo de una gráfica de densidad fluctuante para una unidad de valor oculto se proporciona en la Figura\(\PageIndex{2}\). Tenga en cuenta que los puntos en esta gráfica están organizados en distintas bandas, lo que es consistente con el análisis geométrico. Esta unidad en particular pertenece a una red de unidades de valor entrenadas en un problema lógico discutido con un poco más detalle a continuación (Bechtel & Abrahamsen, 1991), y fue parte de un estudio que examinó algunas de las implicaciones de las bandas de actividad (Dawson & Piercey, 2001).

    Un ejemplo de banding.JPG

    Figura\(\PageIndex{2}\). Un ejemplo de bandas en una gráfica de densidad fluctuante de una unidad de valor oculto en una red que fue entrenada en un problema lógico.

    Las bandas en gráficas de densidad fluctuante de unidades de valor ocultas se pueden usar para revelar los tipos de entidades que están siendo detectadas por estas unidades. Por ejemplo, Berkeley et al. (1995) reportaron que todos los patrones que cayeron en la misma banda en una sola gráfica de densidad fluctuante en las redes lo hicieron porque compartían ciertas propiedades o características locales, las cuales se denominan características definidas.

    Hay dos tipos de características definidas. El primero se llama una característica unaria definitiva. Cuando existe una característica unaria definida, significa que una sola entidad tiene el mismo valor para cada patrón en la banda. El segundo se llama una característica binaria definida. Con este tipo de característica definida, una característica individual no es constante dentro de una banda. Sin embargo, su relación con alguna otra característica es constante: las variaciones en una característica están perfectamente correlacionadas con las variaciones en otra. Berkeley et al. (1995) mostraron cómo las características definidas podrían definirse objetivamente y descubrirse fácilmente usando estadísticas descriptivas simples (ver también Dawson, 2005).

    Las características definidas siempre se expresan en términos de los valores de las actividades unitarias de entrada. Como resultado, se les pueden asignar significados usando el conocimiento del esquema de codificación de unidades de entrada de una red.

    Un ejemplo de uso de este enfoque se presentó en el análisis de Berkeley et al. (1995) de una red sobre la tarea lógica de Bechtel y Abrahamsen (1991). Esta tarea consiste en un conjunto de 576 silogismos lógicos, cada uno de los cuales puede expresarse como un patrón de actividades binarias utilizando 14 unidades de entrada. Cada problema se representa como una primera oración que utiliza dos variables, una conjuntiva o una segunda oración que establece una variable, y una conclusión que establece una variable. En este formato se crearon cuatro tipos de problemas diferentes: modus ponens, modus tollens, silogismo disyuntivo y silogismo alternativo. Cada tipo de problema se creó usando una de tres conectivas diferentes y cuatro variables diferentes: las conectivas fueron Si... entonces, O, o No Ambos... Y; las variables fueron A, B, C y D. Un ejemplo de un argumento válido de modus ponens en este formato es” Sentencia 1: 'Si A entonces B'; Sentencia 2: 'A'; Conclusión: 'B'.”

    Para este problema, la tarea de una red es clasificar un problema de entrada en uno de los cuatro tipos y clasificarlo como un ejemplo válido o no válido de ese tipo de problema. Berkeley et al. (1995) entrenaron exitosamente una red de unidades de valor que empleaban 10 unidades ocultas. Después del entrenamiento, cada una de estas unidades fueron interceptadas usando todo el conjunto de entrenamiento como patrones de estímulo, y se produjo una gráfica de densidad fluctuante para cada unidad oculta. Todas menos una de estas parcelas revelaron bandas distintas. Berkeley et al. fueron capaces de proporcionar un conjunto muy detallado de características definidas para cada una de las bandas.

    Después de asignar características definidas, Berkeley et al. (1995) las utilizaron para explorar cómo la estructura interna de la red era la encargada de hacer los juicios lógicos correctos. Expresaron problemas de lógica de entrada en términos de a qué banda de actividad pertenecían para cada parcela de densidad fluctuante. Luego describieron cada patrón como la combinación de rasgos definidos de cada una de estas bandas, y encontraron que la estructura interna de la red representaba reglas de naturaleza muy clásica.

    Por ejemplo, Berkeley et al. (1995) encontraron que todo problema válido de modus ponens se representaba como las siguientes características: tener el conectivo Si... entonces, tener la primera variable en la Sentencia 1 idéntica a la Sentencia 2, y tener la segunda variable en la Sentencia 1 idéntica a la Conclusión. Esta es esencialmente la regla para el modus ponens válido que podría enseñarse en una clase de lógica introductoria (Bergmann, Moor, & Nelson, 1990). Berkeley et al. encontraron varias reglas de este tipo; también encontraron un número que no era tan tradicional, pero que aún podría expresarse en una forma clásica. Este resultado sugiere que las redes neuronales artificiales podrían ser de naturaleza más simbólica de lo que los científicos cognitivos coneccionistas quieren admitir (Dawson, Medler, & Berkeley, 1997).

    Es importante destacar que el análisis de Berkeley et al. (1995) fue exitoso porque las características definidas que identificaron fueron locales. Es decir, al examinar una sola banda en una sola gráfica de densidad fluctuante, se podría determinar un conjunto de características semánticamente interpretables. Sin embargo, las bandas de actividad no siempre son locales. En algunos casos, las unidades de valor oculto producen gráficas de densidad fluctuante bien bandadas que poseen características definidas, pero estas características son difíciles de interpretar semánticamente (Dawson & Piercey, 2001). Esto ocurre cuando la interpretación semántica se distribuye a través de diferentes bandas para diferentes unidades ocultas; una interpretación de tal red requiere características definidas de múltiples bandas para ser consideradas en concierto.

    Si bien el argumento geométrico proporcionado anteriormente motivó una búsqueda de la existencia de bandas en las unidades ocultas de las redes de unidades de valor, también se han observado bandas en redes de dispositivos de integración (Berkeley & Gunay, 2004). Dicho esto, tampoco se ve bandeo en todas las redes de unidades de valor. La existencia de bandas es probablemente una interacción entre la arquitectura de red y la representación de problemas; las bandas son útiles cuando se descubren, pero es solo una herramienta disponible para la interpretación de la red.

    El punto importante es que existen herramientas prácticas para interpretar la estructura interna de las redes coneccionistas. Muchas de las cuestiones técnicas que conciernen a la relación entre la ciencia cognitiva clásica y la ciencia cognitiva conexionista pueden articularse en las interpretaciones de la red: “En nuestra opinión, preguntas como '¿Qué es una regla clásica?' y '¿Pueden las redes conexionistas ser de naturaleza clásica?' también están irremediablemente libres de restricciones. El análisis detallado de la estructura interna de redes coneccionistas particulares proporciona un marco específico en el que estas preguntas pueden perseguirse de manera fructífera” (Dawson, Medler, & Berkeley, 1997, p. 39).


    This page titled 4.12: Características del gatillo is shared under a CC BY-NC-ND license and was authored, remixed, and/or curated by Michael R. W. Dawson (Athabasca University Press) .