Saltar al contenido principal
LibreTexts Español

4.4: Transformaciones no lineales

  • Page ID
    143846
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    John Stuart Mill modificó la teoría del asociacionismo de su padre (Mill & Mill, 1869; Mill, 1848) de muchas maneras, incluyendo proponer una química mental “en la que es propio decir que las ideas simples generan, en lugar de. componer, las complejas” (Mill, 1848, p. 533). La química mental de Mill es un ejemplo temprano de emergencia, donde las propiedades de un todo (es decir, una idea compleja) son más que la suma de las propiedades de las partes (es decir, un conjunto de ideas simples asociadas).

    La generación de una clase de fenómenos mentales a partir de otra, siempre que se pueda distinguir, es un hecho muy interesante en la química mental; pero ya no reemplaza la necesidad de un estudio experimental del fenómeno generado que un conocimiento de las propiedades del oxígeno y el azufre nos permite deducir los del ácido sulfúrico sin observación y experimento específicos. (Molino, 1848, p. 534)

    Matemáticamente, la emergencia resulta de la no linealidad (Luce, 1999). Si un sistema es lineal, entonces todo su comportamiento es exactamente igual a la suma de los comportamientos de sus partes. El asociador de patrones estándar que se ilustró en la Figura 4-1 es un ejemplo de tal sistema. Cada unidad de salida en el asociador de patrones estándar calcula una entrada neta, que es la suma de todas las señales individuales que recibe de las unidades de entrada. La actividad de la unidad de salida es exactamente igual a la entrada neta. En otras palabras, la actividad de salida es exactamente igual a la suma de las señales de entrada en el asociador de patrones estándar. Para aumentar la potencia de este tipo de asociador de patrones, con el fin de facilitar la emergencia, se debe introducir una relación no lineal entre entrada y salida.

    Las neuronas demuestran un poderoso tipo de procesamiento no lineal. Las entradas a una neurona son señales eléctricas débiles, llamadas potenciales graduadas, que estimulan y viajan a través de las dendritas de la neurona receptora. Si suficientes de estos potenciales graduados débiles llegan al soma de la neurona aproximadamente al mismo tiempo, entonces su efecto acumulativo interrumpe el estado eléctrico de reposo de la neurona. Esto da como resultado una despolarización masiva de la membrana del axón de la neurona, llamada potencial de acción, que es una señal de intensidad constante que viaja a lo largo del axón para eventualmente estimular alguna otra neurona.

    Una propiedad crucial del potencial de acción es que se trata de un fenómeno de todo o ninguno, que representa una transformación no lineal de los potenciales graduados sumados. La neurona convierte las entradas continuamente variables en una respuesta que está encendida (potencial de acción generado) o desactivada (potencial de acción no generado). A esto se le ha llamado la ley de todo o ninguno (Levitan & Kaczmarek, 1991, p. 43): “La ley de todo o ninguno garantiza que una vez que se genera un potencial de acción siempre es de tamaño completo, minimizando la posibilidad de que se pierda información en el camino”. La salida de todo o ninguno de las neuronas es una transformación no lineal de entrada sumada, continuamente variable, y es la razón por la que el cerebro puede describirse como de naturaleza digital (von Neumann, 1958).

    El comportamiento de todo o ninguno de una neurona la hace lógicamente equivalente a los relés o interruptores que se discutieron en el Capítulo 2. Esta interpretación lógica fue explotada en un relato matemático temprano del procesamiento de información neuronal (McCulloch & Pitts, 1943). McCulloch y Pitts utilizaron la ley de todo o ninguno para justificar la descripción de las neuronas de manera muy abstracta como dispositivos que hacían afirmaciones lógicas verdaderas o falsas sobre la información de entrada:

    La ley de todo o ninguno de la actividad nerviosa es suficiente para asegurar que la actividad de cualquier neurona pueda ser representada como una proposición. Las relaciones fisiológicas existentes entre las actividades nerviosas corresponden, por supuesto, a las relaciones entre las proposiciones; y la utilidad de la representación depende de la identidad de estas relaciones con las de las proposiciones lógicas. A cada reacción de cualquier neurona hay una afirmación correspondiente de una simple proposición. (McCulloch & Pitts, 1943, p. 117)

    McCulloch y Pitts (1943) inventaron un procesador coneccionista, ahora conocido como la neurona McCulloch-Pitts (Quinlan, 1991), que usaba la ley de todo o ninguno. Al igual que las unidades de salida en el asociador de patrones estándar (Figura 4-1), una neurona McCulloch-Pitts primero calcula su entrada neta sumando todas sus señales entrantes. Sin embargo, luego usa una función de activación no lineal para transformar la entrada neta en actividad interna. La función de activación utilizada por McCulloch y Pitts fue la función escalonada Heaviside, llamada así por el ingeniero eléctrico del siglo XIX Oliver Heaviside. Esta función compara la entrada neta con un umbral. Si la entrada neta es menor que el umbral, la actividad de la unidad es igual a 0. De lo contrario, la actividad de la unidad es igual a 1. (En otras redes neuronales artificiales [Rosenblatt, 1958, 1962], las entradas netas por debajo del umbral produjeron una actividad de —1.)

    Las unidades de salida en el asociador de patrones estándar (Figura 4-1) pueden describirse como usando la función de identidad lineal para convertir la entrada neta en actividad, porque la actividad de la unidad de salida es igual a la entrada neta. Si se reemplazara la función de identidad por la función de paso Heaviside en el asociador de patrones estándar, entonces se convertiría en un tipo de red diferente, llamado perceptrón (Dawson, 2004), que fue inventado por Frank Rosenblatt durante la época en que nació la ciencia cognitiva (Rosenblatt, 1958, 1962).

    Los perceptrones (Rosenblatt, 1958, 1962) eran redes neuronales artificiales que podían ser entrenadas para ser clasificadores de patrones: dado un patrón de entrada, usarían sus salidas no lineales para decidir si el patrón pertenecía o no a una clase particular. En otras palabras, la función de activación no lineal utilizada por los perceptrones les permitió asignar predicados perceptuales; los asociadores de patrones estándar no tienen esta habilidad. La naturaleza de los predicados perceptuales que un perceptrón podría aprender a asignar fue un tema central en un debate temprano entre la ciencia cognitiva clásica y la coneccionista (Minsky & Papert, 1969; Papert, 1988).

    La función de paso Heaviside es no lineal, pero también es discontinua. Esto fue problemático cuando los investigadores modernos buscaron métodos para formar redes más complejas. Tanto el asociador de patrones estándar como el perceptrón son redes de una capa, lo que significa que solo tienen una capa de conexiones, las conexiones directas entre las unidades de entrada y salida (Figura 4-1). Las redes más potentes surgen si se utilizan procesadores intermedios, llamados unidades ocultas, para preprocesar las señales de entrada antes de enviarlas a la capa de salida. Sin embargo, no fue hasta mediados de la década de 1980 cuando se inventaron reglas de aprendizaje capaces de entrenar tales redes (Ackley, Hinton, & Sejnowski, 1985; Rumelhart, Hinton, & Williams, 1986b). El uso del cálculo para derivar estas nuevas reglas de aprendizaje se hizo posible cuando la función escalonada discontinua de Heaviside fue reemplazada por una aproximación continua de la ley todo-ornone (Rumelhart, Hinton, & Williams, 1986b).

    Una aproximación continua de la función de paso Heaviside es la función logística sigmoidea. Asintota a un valor de 0 a medida que su entrada neta se acerca al infinito negativo, y asíntotas a un valor de 1 a medida que su entrada neta se acerca al infinito positivo. Cuando la entrada neta es igual al umbral (o sesgo) de la logística, la actividad es igual a 0.5. Debido a que la función logística es continua, se puede calcular su derivada y el cálculo se puede utilizar como herramienta para derivar nuevas reglas de aprendizaje (Rumelhart, Hinton, & Williams, 1986b). Sin embargo, sigue siendo no lineal, por lo que las actividades logísticas aún pueden interpretarse como valores de verdad asignados a las proposiciones.

    Las redes modernas de conexión emplean muchas funciones de activación no lineales diferentes. Las unidades de procesamiento que emplean la función de activación logística se han denominado dispositivos de integración (Ballard, 1986) porque convierten una suma (entrada neta) y la “aplasta” en el rango entre 0 y 1. Otras unidades de procesamiento podrían sintonizarse para generar respuestas máximas a un rango estrecho de entradas netas. Ballard (1986) llamó a tales procesadores unidades de valor. Una función continua no lineal diferente, la ecuación gaussiana, se puede utilizar para definir matemáticamente una unidad de valor, y el cálculo se puede utilizar para derivar una regla de aprendizaje para este tipo de red neuronal artificial (Dawson, 1998, 2004; Dawson & Schopflocher, 1992b).

    Existen muchas otras funciones de activación. Un artículo de revisión ha identificado 640 funciones de activación diferentes empleadas en redes coneccionistas (Duch & Jankowski, 1999). Una característica de la gran mayoría de todas estas funciones de activación es su no linealidad. La ciencia cognitiva conexionista es asociacionista, pero también no lineal.


    This page titled 4.4: Transformaciones no lineales is shared under a CC BY-NC-ND license and was authored, remixed, and/or curated by Michael R. W. Dawson (Athabasca University Press) .