3.12: Equivalencia Débil y Prueba de Turing

Última actualización
Guardar como PDF

Page ID: 143786

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Hay dos fundamentos que se derivan de aceptar la hipótesis del sistema de símbolos físicos (Newell, 1980; Newell & Simon, 1976). Primero, la inteligencia humana general es el producto de la manipulación de símbolos gobernada por reglas. Segundo, debido a que son máquinas universales, cualquier sistema de símbolos físicos en particular se puede configurar para simular el comportamiento de otro sistema de símbolos físicos.

Una consecuencia de estos fundamentos es que las computadoras digitales, que son un tipo de sistema de símbolos físicos, pueden simular otro miembro putativo de la misma clase, la cognición humana (Newell & Simon, 1961, 1972; Simon, 1969). Hace más de cincuenta años se predijo “que dentro de diez años la mayoría de las teorías en psicología tomarán la forma de programas de computadora, o de declaraciones cualitativas sobre las características de los programas de computadora” (Simon & Newell, 1958, pp. 7—8). Una posible medida del éxito de la ciencia cognitiva es que un crítico líder de la inteligencia artificial ha admitido que esta predicción particular se ha cumplido parcialmente (Dreyfus, 1992).

El uso de simulaciones por computadora para estudiar la cognición tiene una serie de ventajas (Dawson, 2004; Lewandowsky, 1993). Las dificultades para convertir una teoría en una simulación de trabajo pueden identificar supuestos que la teoría oculta. La naturaleza formal de un programa de computadora proporciona nuevas herramientas para estudiar conceptos simulados (por ejemplo, pruebas de convergencia). La programación de una teoría obliga al investigador a proporcionar definiciones rigurosas de los componentes de la teoría. “La programación es, de nuevo como cualquier forma de escritura, la mayoría de las veces experimental. Uno programa, así como uno escribe, no porque uno entienda, sino para llegar a comprender”. (Weizenbaum, 1976, p. 108).

Sin embargo, la investigación de simulación por computadora también brinda grandes desafíos. El principal de estos es validar el modelo, particularmente porque una máquina universal puede simular cualquier otra. Una crítica común a la investigación de simulación es que es posible modelar cualquier cosa, porque el modelado no tiene restricciones:

Así como podemos preguntarnos cuánto se extraen los personajes de una novela de la vida real y cuánto es artificio, podríamos preguntar lo mismo de un modelo: ¿Cuánto se basa en la observación y medición de fenómenos accesibles, cuánto se basa en el juicio informado y cuánto es la conveniencia? (Oreskes, ShraderFrechette, & Belitz, 1994, p. 644)

Debido a preocupaciones similares, los psicólogos matemáticos han argumentado que las simulaciones por computadora son imposibles de validar de la misma manera que los modelos matemáticos de comportamiento (Estes, 1975; Luce, 1989, 1999). El biólogo evolutivo John Maynard Smith llamó a la investigación de simulación “ciencia libre de hechos” (Mackenzie, 2002).

Los investigadores de simulación por computadora generalmente están desconcertados por tales críticas, porque sus simulaciones de fenómenos cognitivos deben ajustarse a una variedad de restricciones desafiantes (Newell, 1980, 1990; Pylyshyn, 1984). Por ejemplo, los modelos de sistemas de producción de Newell (1980, 1990) tienen como objetivo cumplir con una serie de limitaciones que van desde el comportamiento (respuestas flexibles al medio ambiente, orientadas a objetivos, operan en tiempo real) hasta biológicas (realizables como sistema neuronal, desarrollarse a través de procesos de crecimiento embriológico, surgir a través de la evolución).

Al validar una simulación por computadora, la ciencia cognitiva clásica se convierte en una disciplina intrínsecamente comparada. La validación del modelo requiere que se utilicen análisis teóricos y observaciones empíricas para evaluar tanto la relación entre una simulación y el sujeto que se está simulando. Al adoptar la hipótesis del sistema de símbolos físicos, los científicos cognitivos clásicos están más comprometidos con el supuesto de que esta relación es compleja, porque puede establecerse (como se argumenta en el Capítulo 2) en muchos niveles diferentes (Dawson, 1998; Marr, 1982; Pylyshyn, 1984). Pylyshyn ha argumentado que la validación del modelo puede aprovecharlo y proceder imponiendo severas restricciones empíricas. Estas restricciones empíricas implican establecer que un modelo proporciona un relato apropiado de su tema en los niveles computacional, algorítmico y arquitectónico del análisis. Examinemos esta posición con más detalle.

En primer lugar, considerar una relación entre modelo y sujeto que no figura en la lista anterior, una relación a nivel implementacional de análisis. El uso de la metodología de simulación por computadora por parte de la ciencia cognitiva clásica es una suposición tácita de que la estructura física de sus modelos no necesita coincidir con la estructura física del sujeto que se está modelando.

La base de esta suposición es el argumento de la realización múltiple con el que ya nos hemos encontrado. Los científicos cognitivos describen los procesos de información básica en términos de su naturaleza funcional e ignoran su fisicalidad subyacente. Esto se debe a que la misma función se puede realizar en medios físicos radicalmente diferentes. Por ejemplo, las puertas AND se pueden crear usando canales hidráulicos, componentes electrónicos o circuitos neuronales (Hillis, 1998). Si el hardware o la tecnología fueran relevantes, si el argumento de la realización múltiple era falso, entonces las simulaciones informáticas de cognición serían absurdas. La ciencia cognitiva clásica ignora lo físico cuando se validan los modelos. Pasemos ahora a las relaciones entre modelos y sujetos que la ciencia cognitiva clásica no puede y no ignora.

En el sentido más abstracto, tanto un modelo como un agente modelado pueden verse como dispositivos opacos, cajas negras cuyo funcionamiento interno es invisible. Desde esta perspectiva, ambas son máquinas que convierten entradas o estímulos en salidas o respuestas; su comportamiento calcula una función input-output (Ashby, 1956, 1960). Así, el punto de contacto más básico entre un modelo y su sujeto es que los mapeos entrada-salida producidos por uno deben ser idénticos a los producidos por el otro. Establecer este hecho es establecer una relación entre modelo y sujeto a nivel computacional.

Decir que un modelo y un sujeto están calculando la misma función input-output es decir que son débilmente equivalentes. Se trata de una equivalencia débil porque se establece ignorando el funcionamiento interno tanto del modelo como del sujeto. Hay un número infinito de algoritmos diferentes para computar la misma función input-output (Johnson-Laird, 1983). Esto significa que se puede establecer una equivalencia débil entre dos sistemas diferentes que utilizan algoritmos completamente diferentes.

Equivalencia débil no se refiere a la posibilidad de que dos sistemas puedan producir los comportamientos correctos sino que lo hagan por razones equivocadas. La equivalencia débil también se conoce a veces como equivalencia de Turing. Esto se debe a que la débil equivalencia está en el centro de un criterio propuesto por el pionero informático Alan Turing, para determinar si un programa de computadora había logrado inteligencia (Turing, 1950). Este criterio se llama la prueba de Turing.

Turing (1950) creía que la capacidad de un dispositivo para participar en una conversación significativa era la prueba más fuerte de su inteligencia general. Su prueba involucró a un juez humano que realizaba, vía teletipo, una conversación con un agente. En una instancia, el agente era otro humano. En otra, el agente era un programa de cómputos. Turing argumentó que si el juez no podía determinar correctamente qué agente era humano entonces el programa de cómputos debe considerarse inteligente. Descartes (2006) suscribió una lógica similar. Turing y Descartes creían en el poder del lenguaje para revelar inteligencia; sin embargo, Turing creía que las máquinas podían alcanzar el poder lingüístico, mientras que Descartes no.

Un famoso ejemplo de la aplicación de la prueba de Turing lo proporciona un modelo de esquizofrenia paranoide, PARRY (Kosslyn, Ball, & Reiser, 1978). Este programa interactuaba con un usuario llevando a cabo una conversación, era un programa de comunicación en lenguaje natural muy parecido al programa ELIZA anterior (Weizenbaum, 1966). Sin embargo, además de procesar la estructura de las oraciones de entrada, PARRY también computó variables relacionadas con la paranoia: miedo, ira y desconfianza. Las respuestas de PARRY se vieron así afectadas no sólo por la entrada del usuario, sino también por sus estados afectivos evolutivos. Las contribuciones de PARRY a una conversación se volvieron más paranoicas a medida que la interacción se extendió a lo largo del tiempo.

Se utilizó una versión de la prueba de Turing para evaluar el desempeño de PARRY (Colby et al., 1972). Los psiquiatras utilizaron teletipos para entrevistar a PARRY así como a humanos 96 paranoides del Capítulo 3. Cuarenta psiquiatras practicantes leen transcripciones de estas entrevistas para distinguir los paranoides humanos de los simulados. Solo pudieron hacer esto a niveles de azar. PARRY había pasado la prueba de Turing: “Podemos concluir que los psiquiatras que utilizan datos teletipos no distinguen a los pacientes reales de nuestra simulación de un paciente paranoico” (p. 220).

El problema con la prueba de Turing, sin embargo, es que en algunos aspectos es demasiado fácil de aprobar. Este fue uno de los puntos del programa pionero de conversación, ELIZA (Weizenbaum, 1966), que fue desarrollado para entablar conversaciones en lenguaje natural. Su versión más famosa, DOCTOR, modeló el estilo conversacional de una entrevista con un psicoterapeuta humanista. Las conversaciones de ELIZA fueron sumamente convincentes. “ELIZA creó la ilusión más notable de haber entendido las mentes de las muchas personas que conversaron con ella” (Weizenbaum, 1976, p. 189). Weizenbaum estaba intrigado por el hecho de que “algunos sujetos han sido muy difíciles de convencer de que ELIZA no es humana. Esta es una forma llamativa de la prueba de Turing” (Weizenbaum, 1966, p. 42).

Sin embargo, las conversaciones de ELIZA no fueron producto de la comprensión del lenguaje natural. Simplemente analizó oraciones entrantes, y luego puso fragmentos de estas oraciones en plantillas que se emitieron como respuestas. Las plantillas se clasificaron sobre la base de palabras clave que ELIZA estaba programada para buscar durante una conversación; esto permitió a ELIZA generar respuestas calificadas como altamente apropiadas. “Gran parte de cualquier elegancia que se le pueda atribuir a ELIZA radica en el hecho de que ELIZA mantiene la ilusión de comprender con tan poca maquinaria” (Weizenbaum, 1966, p. 43).

En efecto, gran parte de la aparente inteligencia de ELIZA es un aporte del participante humano en la conversación, quien asume que ELIZA entiende sus aportaciones y que incluso extraños comentarios hechos por ELIZA se hacen por una razón inteligente.

El 'sentido' y la continuidad que percibe la persona conversando con ELIZA es abastecida en gran parte por la propia persona. Asigna significados e interpretaciones a lo que ELIZA 'dice' que confirman su hipótesis inicial de que el sistema sí entiende, tal como podría hacer con lo que le dice un adivino. (Weizenbaum, 1976, p. 190)

Weizenbaum creía que la comprensión del lenguaje natural estaba más allá de la capacidad de las computadoras, y también creía que ELIZA ilustraba esta creencia. No obstante, ELIZA fue recibida de una manera que Weizenbaum no anticipó, y que era opuesta a su intención. Estaba tan consternado que escribió un libro que sirvió de crítica mordaz a la investigación en inteligencia artificial (Weizenbaum, 1976, p. 2): “Mi propio choque fue administrado no por ninguna figura política importante para establecer su filosofía de la ciencia, sino por algunas personas que insistieron en malinterpretar una pieza de trabajo que había hecho”.

La facilidad con la que ELIZA fue malinterpretada —es decir, la facilidad con la que pasó una forma llamativa de prueba de Turing— provocó que Weizenbaum (1976) cuestionara la mayoría de las investigaciones sobre la simulación informática de la inteligencia. Gran parte de la preocupación de Weizenbaum estaba arraigada en la adopción por parte de la IA de la prueba de Turing (1950) como medida de inteligencia.

Una noción completamente demasiado simplista de inteligencia ha dominado tanto el pensamiento popular como el científico, y esta noción es, en parte, responsable de permitir que crezca la perversa gran fantasía de la inteligencia artificial. (Weizenbaum, 1976, p. 203)

Sin embargo, quizás una respuesta más razonada sería adoptar un medio más estricto de evaluación de simulaciones cognitivas. Si bien la prueba de Turing ha tenido más de cincuenta años de extrema influencia, los investigadores son conscientes de sus limitaciones y han propuesto varias formas de hacerla más sensible (francés, 2000).

Por ejemplo, la Prueba Total de Turing (francés, 2000) elimina el teletipo y requiere que una simulación de cognición no solo sea conversacionalmente indistinguible de un humano, sino también físicamente indistinguible. Sólo un robot humanoide podría pasar tal prueba, y sólo hacerlo no sólo hablando sino también comportándose (con muy gran detalle) de formas indistinguibles de un humano. Una versión ficticia de la Prueba Total de Turing es la escala Voight-Kampff descrita en la novela de Dick (1968) ¿Sueñan los androides con ovejas eléctricas? Esta escala utilizó medidas conductuales de empatía, incluida la dilatación de la pupila, para distinguir a los humanos de los androides.