4.13: Un Sistema de Producción Distribuida Paralelo

Última actualización
Guardar como PDF

Page ID: 143874

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Una de las arquitecturas prototípicas para la ciencia cognitiva clásica es el sistema de producción (Anderson, 1983; Kieras & Meyer, 1997; Meyer et al., 2001; Meyer & Kieras, 1997a, 1997b; Newell, 1973, 1990; Newell y Simon, 1972). Un sistema de producción es un conjunto de pares condición-acción. Cada producción trabaja en paralelo, escaneando la memoria de trabajo en busca de un patrón que coincida con su condición. Si una producción encuentra tal coincidencia, entonces toma el control, deshabilitando momentáneamente las otras producciones y realiza su acción, que generalmente implica agregar, eliminar, copiar o mover símbolos en la memoria de trabajo.

Los sistemas de producción se han propuesto como una lengua franca para la ciencia cognitiva, capaz de describir cualquier teoría de la ciencia cognitiva coneccionista o encarnada y, por lo tanto, de subsumir tales teorías bajo el paraguas de la ciencia cognitiva clásica (Vera & Simon, 1993). Esto se debe a que Vera y Simon (1993) argumentaron que cualquier emparejamiento situación-acción puede representarse ya sea como una sola producción en un sistema de producción o, para situaciones complicadas, como un conjunto de producciones. “Las producciones proporcionan un lenguaje esencialmente neutral para describir los vínculos entre la información y la acción en cualquier nivel deseado (suficientemente alto) de agregación” (p. 42). Otros filósofos de la ciencia cognitiva han avalado posiciones similares. Por ejemplo, von Eckardt (1995) sugirió que si se consideran representaciones distribuidas en redes neuronales artificiales como representaciones de “nivel superior”, entonces las redes coneccionistas pueden verse como análogas a las arquitecturas clásicas. Esto se debe a que cuando se examinan en este nivel, las redes coneccionistas tienen la capacidad de ingresar y emitir información representada, almacenar información representada y manipular la información representada. En otras palabras, las propiedades simbólicas de las arquitecturas clásicas pueden surgir de lo que se conoce como las propiedades subsimbólicas de las redes (Smolensky, 1988).

Sin embargo, la opinión de que las redes neuronales artificiales son clásicas en general o ejemplos de sistemas de producción en particular no es aceptada por todos los coneccionistas. Se ha afirmado que el conexionismo representa un cambio de paradigma kuhniano que se aleja de la ciencia cognitiva clásica (Schneider, 1987). Con respecto al análisis particular de Vera y Simon (1993), su definición de símbolo ha sido considerada demasiado liberal por algunos investigadores de redes neuronales (Touretzky & Pomerleau, 1994). Touretzky y Pomerlau (1994) afirmaron de una red neuronal particular discutida por Vera y Simon, ALVINN (Pomerleau, 1991), que sus “patrones de unidad oculta” no son símbolos de forma arbitraria, y no son combinatorios. Sus detectores de características de unidad oculta son filtros sintonizados” (Touretzky & Pomerleau, 1994, p. 348). Otros han visto a ALVINN desde una posición de compromiso, señalando que “algunos de los procesos son simbólicos y otros no” (Greeno & Moore, 1993, p. 54).

¿Las redes neuronales artificiales son equivalentes a los sistemas de producción? En la filosofía de la ciencia, si dos teorías aparentemente diferentes son de hecho idénticas, entonces una teoría puede traducirse a la otra. Esto se llama reducción interteórica (Churchland, 1985, 1988; Hooker, 1979, 1981). La visión ampliamente aceptada de que la ciencia cognitiva clásica y conexionista son fundamentalmente diferentes (Schneider, 1987) equivale a afirmar que la reducción interteórica entre un modelo simbólico y una red coneccionista es imposible. Un proyecto de investigación (Dawson et al., 2000) examinó directamente este tema al investigar si un modelo de sistema de producción podría traducirse en una red neuronal artificial.

Dawson et al. (2000) investigaron la reducción interteórica utilizando un problema de referencia en la literatura de aprendizaje automático, clasificando un número muy grande (8,124) de hongos como comestibles o venenosos sobre la base de 21 características diferentes (Schlimmer, 1987). Dawson et al. (2000) utilizaron una técnica estándar de aprendizaje automático, el algoritmo ID3 (Quinlan, 1986) para inducir un árbol de decisión para el problema del hongo. Un árbol de decisión es un conjunto de pruebas que se realizan en secuencia para clasificar patrones. Después de realizar una prueba, uno o bien llega a una rama terminal del árbol, momento en el que se puede clasificar el patrón que se está probando, o bien un nodo del árbol de decisión, es decir otra prueba que se debe realizar. El árbol de decisión está completo para un conjunto de patrones si cada patrón finalmente lleva al usuario a una rama de terminal. Dawson et al. (2000) descubrieron que un árbol de decisión consistente en solo cinco pruebas diferentes podría resolver la tarea de clasificación de hongos Schlimmer. Su árbol de decisión se proporciona en la Tabla\(\PageIndex{1}\).

**Mesa**\(\PageIndex{1}\). *Dawson y col. ' s (2000) árbol de decisión escalonada para lasificar hongos. Los puntos de decisión en este árbol donde se clasifican los hongos (e.g., “Regla 1 Comestible”) se dan en negrita.*
Paso	Pruebas y Puntos de Decisión
1	¿Cuál es el olor del hongo? Si es almendra o anís entonces es comestible. (Regla 1 Comestible) Si es creosota o a pescado o asqueroso o mohoso o picante o picante entonces es venenoso. (Regla 1 Venenosa) Si no tiene olor entonces proceder al Paso 2.
2	Obtener la huella de esporas del hongo. Si el estampado de esporas es negro o marrón o buff o chocolate o naranja o amarillo entonces es comestible. (Regla 2 Comestibles) Si el estampado de esporas es verde o morado entonces es venenoso. (Regla 2 Venenosa) Si la impresión de esporas es blanca luego proceder al Paso 3.
3	Examina el tamaño de las branquias del hongo. Si el tamaño de las branquias es amplio, entonces es comestible. (Regla 3 Comestibles) Si el tamaño de la branquial es estrecho, entonces proceda al Paso 4.
4	Examine la superficie del tallo por encima del anillo del hongo. Si la superficie es fibrosa entonces es comestible. (Regla 4 Comestibles) Si la superficie es sedosa o escamosa entonces es venenosa. (Regla 4 Venenosa) Si la superficie es lisa entonces proceder al Paso 5.
5	Examina el hongo en busca de moretones. Si no tiene moretones entonces es comestible. (Regla 5 Comestibles) Si tiene moretones entonces es venenoso. (Regla 5 Venenosa)

El árbol de decisión proporcionado en la Tabla\(\PageIndex{1}\) es una teoría clásica de cómo se pueden clasificar los hongos. No es sorprendente, entonces, que se pueda traducir este árbol de decisión a la lengua franca: Dawson et al. (2000) reescribieron el árbol de decisiones como un conjunto equivalente de reglas de producción. Lo hicieron utilizando las características de los hongos que deben ser ciertas en cada rama terminal del árbol de decisión como condiciones para una producción. La acción de esta producción es clasificar el hongo (es decir, afirmar que un hongo es comestible o venenoso). Por ejemplo, en el punto de decisión de la Regla 1 Comestible de la Tabla\(\PageIndex{1}\), se podría crear la siguiente regla de producción: “Si el olor es anís o almendra, entonces el hongo es comestible”. Se pueden crear producciones similares para puntos de decisión posteriores en el algoritmo; estas producciones implicarán una lista más larga de características de hongos. El conjunto completo de producciones que se crearon para el algoritmo del árbol de decisión se proporciona en la Tabla\(\PageIndex{2}\).

Dawson et al. (2000) entrenaron una red de unidades de valor para resolver el problema de clasificación de hongos y determinar si un modelo clásico (como el árbol de decisión de Table\(\PageIndex{1}\) o el sistema de producción de Table\(\PageIndex{2}\)) podría traducirse en una red. Para codificar entidades tipo seta, su red utilizó 21 unidades de entrada, 5 unidades de valor oculto y 10 unidades de valor de salida. Una unidad de salida codificaba la clasificación comestible/venenosa; si un hongo era comestible, esta unidad estaba entrenada para encenderse; de lo contrario, esta unidad fue entrenada para apagarse.

Punto de decisión de la tabla\(\PageIndex{1}\)	Producción Equivalente	Cluster de red
\ (\ PageIndex {1}\) ">Regla 1 Comestible	P1: si (olor=anís)\(\lor\) (olor=almendra) →comestible	2 o 3
\ (\ PageIndex {1}\) ">Regla 1 Venenosa	P2: si (olor\(\neq\) anís)\(\land\) (olor a\(\neq\) almendra)\(\land\) (olor\(\neq\) ninguno) → no comestible	1
\ (\ PageIndex {1}\) ">Regla 2 Comestibles	P3: si (odor=none)\(\land\) (espora color de impresión\(\neq\) verde)\(\land\) (esporas color de impresión\(\neq\) púrpura)\(\land\) (esporas color de impresión=blanco) → comestible	9
\ (\ PageIndex {1}\) ">Regla 2 Venenosa	P4: si (olor=ninguno)\(\land\) ((color de impresión de esporas = verde)\ (\ lor\) (color de impresión de esporas=púrpura) → no comestible	6
\ (\ PageIndex {1}\) ">Regla 3 Comestibles	P5: si (olor=ninguno)\(\land\) (color de impresión de esporas = blanco)\(\land\) (tamaño branquial=ancho) → comestible	4
\ (\ PageIndex {1}\) ">Regla 4 Comestibles	P6: si (olor=ninguno)\(\land\) (color de impresión de esporas = blanco)\(\land\) (tamaño branquial=estrecho)\(\land\) (superficie del tallo por encima del anillo=fibroso) → comestible	7 o 11
\ (\ PageIndex {1}\) ">Regla 4 Venenosa	P7: si (olor=ninguno)\(\land\) (color de impresión de esporas = blanco)\(\land\) (tamaño branquial=estrecho)\(\land\) ((superficie del tallo por encima del anillo=sedoso)\(\lor\) (superficie del tallo por encima del anillo=escamoso)) → comestible	5
\ (\ PageIndex {1}\) ">Regla 5 Comestible	P8: si (olor=ninguno)\(\land\) (color de impresión de esporas = blanco)\(\land\) (tamaño branquial=estrecho)\(\land\) (superficie del tallo por encima del anillo=liso)\(\land\) (contusiones=no) → comestible	8 o 12
\ (\ PageIndex {1}\) ">Regla 5 Venenosa	P9: si (olor=ninguno)\(\land\) (color de impresión de esporas = blanco)\(\land\) (tamaño branquial=estrecho)\(\land\) (superficie del tallo por encima del anillo=liso)\(\land\) (hematomas = sí) → no comestible	10

Mesa\(\PageIndex{2}\). Traducción del sistema de producción de Dawson et al. (2000) del Cuadro 4-4. Las condiciones se dan como conjuntos de características. La columna Network Cluster pertenece a su red neuronal artificial entrenada en el problema del hongo y se describe más adelante en el texto.

Las otras nueve unidades de salida se utilizaron para proporcionar aprendizaje extra de salida, que fue la técnica empleada para insertar una teoría clásica en la red. Normalmente, un sistema de clasificación de patrones solo se proporciona con información sobre qué etiquetas de patrón correctas asignar. Por ejemplo, en el problema de los hongos, el sistema normalmente solo se enseñaría a generar la etiqueta comestible o la etiqueta venenosa. Sin embargo, con frecuencia se dispone de más información sobre la tarea de clasificación de patrones. En particular, a menudo se sabe por qué un patrón de entrada pertenece a una clase u otra. Es posible incorporar esta información al problema de clasificación de patrones enseñando al sistema no sólo a asignar un patrón a una clase (por ejemplo, “comestible”, “venenoso”) sino también generar una razón para hacer esta clasificación (por ejemplo, “pasó la Regla 1”, “la Regla fallida 4”). Elaborar una tarea de clasificación en este sentido se denomina inyección de pistas o aprendizaje extra de salida (Abu-Mostafa, 1990; Suddarth & Kergosien, 1990).

Dawson et al. (2000) plantearon la hipótesis de que el aprendizaje de salida extra podría usarse para insertar el árbol de decisión de Table\(\PageIndex{1}\) en una red. \(\PageIndex{1}\)La tabla proporciona nueve ramas terminales diferentes del árbol de decisión en las que se asignan hongos a categorías (“Regla 1 comestible”, “Regla 1 venenosa”, “Regla 2 comestible”, etc.). La red aprendió a “explicar” por qué clasificó un patrón de entrada de una manera particular al encender una de las nueve unidades de salida adicionales para indicar qué rama terminal del árbol de decisiones estaba involucrada. En otras palabras, la red (¡que requirió 8,699 épocas de entrenamiento sobre los 8,124 diferentes patrones de entrada!) redes clasificadas “por las mismas razones” que lo haría el árbol de decisiones. Es por ello que Dawson et al. esperaban que esta teoría clásica se tradujera literalmente a la red.

Aparte del comportamiento de la unidad de salida, ¿cómo podría uno apoyar la afirmación de que una teoría clásica se había traducido en una red conexionista? Dawson et al. (2000) interpretaron la estructura interna de la red en un intento de ver si dicho análisis de red revelaría una representación interna del algoritmo clásico. Si este fuera el caso, entonces las prácticas de entrenamiento estándar habrían logrado traducir el algoritmo clásico a una red PDP.

Un método que Dawson et al. (2000) utilizaron para interpretar la red entrenada fue un análisis multivariado del espacio unitario oculto de la red. Representaron cada hongo como el vector de cinco valores ocultos de activación de unidades que produjo cuando se presentó a la red. Luego realizaron un agrupamiento de k medias de estos datos. La agrupación de k medias es un procedimiento iterativo que asigna puntos de datos a k clústeres diferentes de tal manera que cada miembro de un clúster está más cerca del centroide de ese clúster que del centroide de cualquier otro clúster al que se hayan asignado otros puntos de datos.

Sin embargo, cada vez que se realiza un análisis de conglomerados, una pregunta que se debe responder es ¿Cuántos clústeres se deben usar? —en otras palabras, ¿cuál debería ser el valor de k?. Una respuesta a esta pregunta se llama regla de detención. Desafortunadamente, no se ha acordado una sola regla de detención (Aldenderfer & Blashfield, 1984; Everitt, 1980). Como resultado, existen muchos tipos diferentes de métodos para determinar k (Milligan & Cooper, 1985).

Si bien no existe un método general para determinar el número óptimo de clústeres, se puede aprovechar la información heurística relativa al dominio que se está agrupando para llegar a una regla de detención satisfactoria para este dominio. Dawson et al. (2000) argumentaron que cuando se agrupan las actividades de unidad oculta de una red entrenada, debe haber un mapeo correcto de estas actividades para dar respuestas de salida, porque una red entrenada en sí misma ha descubierto uno de esos mapas. Utilizaron esta posición para crear la siguiente regla de detención: “Extraiga el menor número de clústeres de manera que cada vector de actividad de unidad oculto asignado al mismo clúster produzca la misma respuesta de salida en la red”. Utilizaron esta regla para determinar que el análisis de k medias de los patrones de actividad de la unidad oculta de la red requirió el uso de 12 clústeres diferentes.

Dawson et al. (2000) procedieron luego a examinar los patrones de hongos que pertenecían a cada racimo para determinar qué tenían en común. Para cada racimo, determinaron el conjunto de características descriptivas que cada hongo compartía. Se dieron cuenta de que cada conjunto de características compartidas que identificaron podría considerarse como una condición, representada internamente por la red como un vector de actividades unitarias ocultas, lo que da como resultado que la red produzca una acción particular, en particular, el juicio comestible/venenoso representado por la primera salida unidad.

Por ejemplo, los hongos que fueron asignados al Clúster 2 tenían un olor que era almendra o anís, el cual está representado por las cinco unidades ocultas de la red adoptando un vector particular de actividades. Estas actividades sirven como condición que hace que la red haga valer que el hongo es comestible.

Al interpretar un vector unitario oculto en términos de características de condición que son prerrequisitos para las respuestas de la red, Dawson et al. (2000) descubrieron una sorprendente relación entre los clusters y el conjunto de producciones en Table\(\PageIndex{2}\). Determinaron que cada clase distinta de actividades unitarias ocultas (es decir, cada cluster) correspondía a una, y sólo a una, de las producciones listadas en la tabla. Este mapeo se proporciona en la última columna de Table\(\PageIndex{2}\). Es decir, cuando se describe a la red como generadora de una respuesta porque sus unidades ocultas están en un estado de actividad, se puede traducir esto en la afirmación de que la red está ejecutando una producción en particular. Esto demuestra que el aprendizaje de salida extra tradujo el algoritmo clásico en un modelo de red.

La traducción de una red a un sistema de producción, o viceversa, es un ejemplo de reduccionismo de la nueva ola (Bickle, 1996; Endicott, 1998). En el reduccionismo de la nueva ola, no se reduce una teoría secundaria directamente a una teoría primaria. En cambio, se toma la teoría primaria y se construye a partir de ella una estructura que es análoga a la teoría secundaria, pero que se crea en el vocabulario de la teoría primaria. La reducción teórica implica construir un mapeo entre la teoría secundaria y su imagen construida a partir de la teoría primaria. “La teoría más antigua, en consecuencia, nunca se deduce; es solo el blanco de una mímica relevante adecuada” (Churchland, 1985, p. 10).

La interpretación de Dawson et al. (2000) es una reducción interteórica de la nueva ola porque el sistema de producción de Table\(\PageIndex{2}\) representa la estructura intermedia que es análoga al árbol de decisión de Table\(\PageIndex{1}\). La “mimetización adecuada” se estableció mapeando diferentes clases de estados unitarios ocultos para la ejecución de producciones particulares. A su vez, existe un mapeo directo desde cualquiera de las producciones hasta el algoritmo del árbol de decisiones. Dawson et al. concluyeron que habían proporcionado una traducción exacta de un algoritmo clásico en una red de unidades de valor.

La relación entre las actividades unitarias ocultas y las producciones en la red de setas de Dawson et al. (2000) es en esencia un ejemplo de equivalencia entre cuentas simbólicas y subsimbólicas. Esto implica que no se puede suponer que los modelos clásicos y las redes coneccionistas son fundamentalmente diferentes a nivel algorítmico, porque un tipo de modelo puede traducirse al otro. Es posible tener un modelo clásico que sea exactamente equivalente a una red PDP.

Este resultado brinda un apoyo muy fuerte a la posición propuesta por Vera y Simón (1993). El análisis detallado proporcionado por Dawson et al. (2000) les permitió hacer afirmaciones del tipo “Network State\(x\) is equivalent to Production”\(y\). Por supuesto, este resultado no puede por sí solo validar el argumento de Vera y Simón. Por ejemplo, ¿alguna teoría clásica puede traducirse en una red? Este es un tipo de problema a nivel algorítmico que requiere una gran cantidad de investigación adicional. Además, la traducción funciona en ambos sentidos: ¡quizás las redes neuronales artificiales proporcionan una lingua franca biológicamente plausible para las arquitecturas clásicas!