4.5: El dilema del preso

Última actualización
Guardar como PDF

Page ID: 97725

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

El dilema del prisionero ^³⁷

El dilema del preso es un ejemplo estándar de un juego analizado en la teoría de juegos que muestra por qué dos individuos completamente “racionales” podrían no cooperar, aunque parezca que lo mejor para ellos es hacerlo. Originalmente fue enmarcada por Merrill Flood y Melvin Dresher trabajando en RAND en 1950. Albert W. Tucker formalizó el juego con recompensas de pena de prisión y lo nombró “dilema del prisionero” (Poundstone, 1992), presentándolo de la siguiente manera:

Dos integrantes de una banda criminal son detenidos y encarcelados. Cada recluso se encuentra en régimen de aislamiento sin medios de comunicación con el otro. Los fiscales carecen de pruebas suficientes para condenar a la pareja por la acusación principal. Esperan que ambos sean sentenciados a un año de prisión por un cargo menor. Simultáneamente, los fiscales ofrecen a cada preso una ganga. A cada preso se le da la oportunidad ya sea de: traicionar al otro declarando que el otro cometió el delito, o de cooperar con el otro guardando silencio. La oferta es:

Si A y B traicionan cada uno al otro, cada uno de ellos cumple 2 años de prisión
Si A traiciona a B pero B guarda silencio, A quedará en libertad y B cumplirá 3 años de prisión (y viceversa)
Si A y B guardan silencio, ambos sólo cumplirán 1 año de prisión (con el menor cargo)

Se da a entender que los presos no tendrán oportunidad de premiar o castigar a su pareja que no sean las penas de prisión que reciban, y que su decisión no afectará su reputación en el futuro. Porque traicionar a un compañero ofrece una recompensa mayor que cooperar con ellos, todos los presos puramente racionales egoístas traicionarían al otro, y así el único resultado posible para dos presos puramente racionales es que se traicionen entre sí. Lo interesante de este resultado es que perseguir la recompensa individual lleva lógicamente a ambos presos a traicionar, cuando obtendrían una mejor recompensa si ambos guardaran silencio. En realidad, los humanos muestran un sesgo sistémico hacia el comportamiento cooperativo en este y otros juegos similares, mucho más de lo que predicho por simples modelos de acción “racional” de interés propio. Se ha demostrado que un modelo basado en un tipo diferente de racionalidad, donde las personas pronostican cómo se jugaría el juego si formaran coaliciones y luego maximizaran sus pronósticos, hacen mejores predicciones del ritmo de cooperación en este y similares juegos, dados sólo los pagos del juego.

También existe una versión extendida “iterada” del juego, donde el juego clásico se juega repetidamente entre los mismos prisioneros, y en consecuencia, ambos presos tienen continuamente la oportunidad de penalizar al otro por decisiones anteriores. Si los jugadores conocen el número de veces que se jugará el juego, entonces (por inducción hacia atrás) dos jugadores clásicamente racionales se traicionarán repetidamente, por las mismas razones que la variante de un solo disparo. En un juego de longitud infinita o desconocida no hay una estrategia óptima fija, y se han celebrado torneos Prison's Dilemma para competir y probar algoritmos.

El juego de dilemas del preso puede ser utilizado como modelo para muchas situaciones del mundo real que implican un comportamiento cooperativo. En el uso casual, la etiqueta “dilema del prisionero” puede aplicarse a situaciones que no coincidan estrictamente con los criterios formales de los juegos clásicos o iterativos: por ejemplo, aquellas en las que dos entidades podrían obtener importantes beneficios de la cooperación o sufrir el no hacerlo, pero les resulta meramente difícil o caro, no necesariamente imposible, para coordinar sus actividades para lograr la cooperación.

Estrategia para el dilema del preso

Ambos no pueden comunicarse, están separados en dos habitaciones individuales. El juego normal se muestra a continuación:

El prisionero A se queda en silencio (coopera) y el prisionero B se queda en silencio (coopera): Cada uno sirve 1 año
El prisionero A se queda en silencio (coopera) y el prisionero B traiciona (defectos): El prisionero A obtiene 3 años y el prisionero B sale libre
El preso A traiciona (defectos) y el prisionero B se queda callado (coopera): El prisionero A sale libre y el prisionero B obtiene 3 años
El preso A traiciona (defectos) y el prisionero B traiciona (defectos): Cada uno cumple 2 años

Se supone que ambos entienden la naturaleza del juego, y que a pesar de ser miembros de una misma pandilla, no tienen lealtad entre sí y no tendrán oportunidad de retribución o recompensa fuera del juego. Independientemente de lo que decida el otro, cada prisionero obtiene una mayor recompensa al traicionar al otro (“desertar”). El razonamiento implica un argumento por dilema: B cooperará o defectará. Si B coopera, A debería desertar, porque ir gratis es mejor que servir 1 año. Si B falla, A también debe defecto, porque servir 2 años es mejor que servir 3. Entonces, de cualquier manera, A debería desertar. El razonamiento paralelo mostrará que B debe desertar.

Porque la deserción siempre resulta en una mejor recompensa que la cooperación, independientemente de la elección del otro jugador, es una estrategia dominante. La deserción mutua es el único equilibrio fuerte de Nash en el juego (es decir, el único resultado del que cada jugador solo podría empeorar cambiando de estrategia unilateralmente). El dilema entonces es que la cooperación mutua produce un mejor resultado que la deserción mutua pero no es el resultado racional porque desde una perspectiva de interés propio, la elección de cooperar, a nivel individual, es irracional.

Ejemplos de la vida real

El entorno prisionero puede parecer artificial, pero de hecho hay muchos ejemplos en la interacción humana así como interacciones en la naturaleza que tienen la misma matriz de pago. Por lo tanto, el dilema del preso es de interés para las ciencias sociales como la economía, la política y la sociología, así como para las ciencias biológicas como la etología y la biología evolutiva. Muchos procesos naturales han sido abstraídos en modelos en los que los seres vivos se dedican a juegos interminables de dilema de prisionero. Esta amplia aplicabilidad del PD le da al juego su importancia sustancial.

En estudios ambientales

En estudios ambientales, la EP es evidente en crisis como el cambio climático global. Se argumenta que todos los países se beneficiarán de un clima estable, pero cualquier país suele dudar en frenar las emisiones de CO ₂. El beneficio inmediato para un país individual para mantener el comportamiento actual se percibe como mayor que el supuesto beneficio eventual para todos los países si se cambiaba el comportamiento, lo que explica el estancamiento en relación con el cambio climático en 2007.

Una diferencia importante entre la política de cambio climático y el dilema del preso es la incertidumbre; se desconoce el alcance y el ritmo al que la contaminación puede cambiar el clima. El dilema al que se enfrenta el gobierno es, pues, diferente del dilema del preso en que se desconocen los beneficios de la cooperación. Esta diferencia sugiere que los estados cooperarán mucho menos que en el dilema real de un preso iterado, de manera que la probabilidad de evitar una posible catástrofe climática es mucho menor que la sugerida por un análisis teórico-juego de la situación utilizando el dilema de un preso iterado real.

Osang y Nandy ofrecen una explicación teórica con pruebas para una situación de ganar-ganar impulsada por la regulación, siguiendo la línea de la hipótesis de Michael Porter, en la que la regulación gubernamental de las empresas competidoras es sustancial.

En animales

El comportamiento cooperativo de muchos animales puede entenderse como un ejemplo del dilema del preso. A menudo, los animales participan en asociaciones a largo plazo, que pueden modelarse más específicamente como dilema iterado del prisionero. Por ejemplo, los guppies inspeccionan a los depredadores cooperativamente en grupos, y se cree que castigan a los inspectores que no cooperan.

Los murciélagos vampiros son animales sociales que participan en el intercambio recíproco de alimentos Aplicar los pagos del dilema del preso puede ayudar a explicar este comportamiento:

C/C: “Recompensa: Me sale sangre en mis desafortunadas noches, lo que me salva de morir de hambre. Tengo que dar sangre en mis noches de suerte, lo que no me cuesta demasiado”.
D/C: “Tentación: Me salvas la vida en mi pobre noche. Pero entonces obtengo el beneficio agregado de no tener que pagar el ligero costo de alimentarte en mi buena noche”.
C/D: “Sucker's Payoff: Pago el costo de salvarte la vida en mis buenas noches. Pero en mi mala noche no me das de comer y corro un riesgo real de morir de hambre”.
D/D: “Castigo: No tengo que pagar los ligeros costos de alimentarte en mis buenas noches. Pero corro un riesgo real de morir de hambre en mis pobres noches”.

En psicología

En la investigación de adicciones/economía del comportamiento, George Ainslie señala que la adicción puede ser proyectada como un problema intertemporal de PD entre el yo presente y el futuro del adicto. En este caso, desertar significa recaída, y es fácil ver que no desertar tanto hoy como en el futuro es de lejos el mejor resultado. El caso donde uno se abstiene hoy pero recaídas en el futuro es el peor resultado —en cierto sentido la disciplina y el sacrificio que implica abstenerse hoy se han “desperdiciado” porque la recaída futura significa que el adicto está de vuelta donde empezó y tendrá que empezar de nuevo (lo cual es bastante desmoralizante, y hace que empezar de nuevo sea más difícil). La recaída hoy y mañana es un resultado un poco “mejor”, porque mientras el adicto sigue siendo adicto, no se han esforzado en tratar de parar. El caso final, donde uno se involucra hoy en el comportamiento adictivo mientras se abstuve “mañana” será familiar para cualquiera que haya luchado con una adicción. El problema aquí es que (como en otros PD) hay un beneficio obvio al desertar “hoy”, pero mañana uno enfrentará el mismo PD, y el mismo beneficio obvio estará presente entonces, conduciendo en última instancia a una interminable cadena de deserciones.

John Gottman en su investigación descrita en “la ciencia de la confianza” define las buenas relaciones como aquellas en las que los socios saben no ingresar a la celda (D, D) o al menos no quedar atrapados dinámicamente ahí en un bucle.

En economía

A veces se cita la publicidad como un ejemplo real del dilema del preso. Cuando la publicidad de cigarrillos era legal en Estados Unidos, los fabricantes de cigarrillos competidores tenían que decidir cuánto dinero gastar en publicidad. La efectividad de la publicidad de la Firma A fue determinada parcialmente por la publicidad realizada por la Firma B. Asimismo, el beneficio derivado de la publicidad para la Firma B se ve afectado por la publicidad realizada por la Firma A. Si tanto la Firma A como la Firma B optaron por publicitar durante un periodo determinado, entonces la publicidad cancela hacia fuera, los recibos permanecen constantes y los gastos aumentan debido al costo de la publicidad. Ambas firmas se beneficiarían de una reducción en la publicidad. Sin embargo, si la Firma B opta por no anunciarse, la Firma A podría beneficiarse enormemente con la publicidad. Sin embargo, la cantidad óptima de publicidad de una firma depende de la cantidad de publicidad que emprenda la otra. Como la mejor estrategia depende de lo que elija la otra firma no existe una estrategia dominante, lo que la hace ligeramente diferente del dilema de un preso. El resultado es similar, sin embargo, en que ambas firmas estarían mejor si anunciaran menos que en el equilibrio. En ocasiones surgen comportamientos cooperativos en situaciones de negocios. Por ejemplo, los fabricantes de cigarrillos respaldaron la elaboración de leyes que prohíben la publicidad de cigarrillos, entendiendo que esto reduciría los costos y aumentaría las ganancias en toda la industria. ^[] Es probable que este análisis sea pertinente en muchas otras situaciones comerciales que involucran publicidad. ^[]

Sin acuerdos ejecutables, los miembros de un cártel también están involucrados en el dilema de un preso (multijugador). 'Cooperar' generalmente significa mantener los precios en un nivel mínimo previamente acordado. 'Defecto' significa vender por debajo de este nivel mínimo, tomando instantáneamente negocios (y ganancias) de otros miembros del cártel. Las autoridades antimonopolio quieren que los posibles miembros del cártel vivan mutuamente, asegurando los precios más bajos posibles para los consumidores.

En el deporte

El dopaje en el deporte ha sido citado como ejemplo del dilema de un preso.

Dos atletas competidores tienen la opción de usar una droga ilegal y/o peligrosa para aumentar su rendimiento. Si ninguno de los atletas toma la droga, entonces ninguno gana ventaja. Si solo uno lo hace, entonces ese atleta obtiene una ventaja significativa sobre su competidor, reducida por los peligros legales y/o médicos de haber tomado el medicamento. Si ambos atletas toman el medicamento, sin embargo, los beneficios se anulan y solo quedan los peligros, poniéndolos a ambos en peor posición que si ninguno hubiera usado el dopaje.

Dilemas multijugador

Muchos dilemas de la vida real involucran a múltiples jugadores. Aunque metafórica, la tragedia de Hardin sobre los bienes comunes puede verse como un ejemplo de una generalización multijugador del PD: Cada aldeano toma una decisión para beneficio personal o moderación. La recompensa colectiva por la deserción unánime (o incluso frecuente) es una recompensa muy baja (que representa la destrucción de los “comunes”). Un dilema común con el que la mayoría de la gente puede relacionarse es lavar los platos en una casa compartida. Al no lavar los platos un individuo puede ganar ahorrando su tiempo, pero si ese comportamiento es adoptado por cada residente el costo colectivo no es placas limpias para nadie.

No siempre se explotan los comunes: William Poundstone, en un libro sobre el dilema del preso (ver Referencias a continuación), describe una situación en Nueva Zelanda donde las cajas de periódicos se dejan desbloqueadas. Es posible que la gente tome un papel sin pagar (desertar) pero muy pocos lo hacen, sintiendo que si no pagan entonces tampoco lo harán otros, destruyendo el sistema. La investigación posterior de Elinor Ostrom, ganador del Premio Sveriges Riksbank 2009 en Ciencias Económicas en Memoria de Alfred Nobel, planteó la hipótesis de que la tragedia de los bienes comunes está demasiado simplificada, con el resultado negativo influenciado por influencias externas. Sin complicar las presiones, los grupos comunican y manejan los bienes comunes entre ellos para su beneficio mutuo, haciendo cumplir las normas sociales para preservar el recurso y lograr el máximo bien para el grupo, ejemplo de lograr el mejor resultado para la EP.

En política internacional

En la teoría política internacional, el dilema del prisionero suele utilizarse para demostrar la coherencia del realismo estratégico, que sostiene que en las relaciones internacionales, todos los estados (independientemente de sus políticas internas o ideología profesada), actuarán en su propio interés racional dada la anarquía internacional. Un ejemplo clásico es una carrera armamentista como la Guerra Fría y conflictos similares. Durante la Guerra Fría las alianzas opuestas de la OTAN y el Pacto de Varsovia tuvieron la opción de armarse o desarmarse. Desde el punto de vista de cada lado, el desarme mientras su oponente continuaba armando habría llevado a la inferioridad militar y a una posible aniquilación. Por el contrario, armar mientras su oponente desarmado habría llevado a la superioridad. Si ambas partes optaban por armar, ninguno podría darse el lujo de atacar al otro, sino al alto costo de desarrollar y mantener un arsenal nuclear. Si ambas partes optaran por desarmarse, se evitaría la guerra y no habría costos.

Si bien el 'mejor' resultado general es que ambas partes se desarmen, el rumbo racional para ambas partes es armarse, y esto es efectivamente lo que sucedió. Ambas partes vertieron enormes recursos en investigación militar y armamento en una guerra de desgaste durante los siguientes treinta años hasta que la Unión Soviética no pudo soportar el costo económico. La misma lógica podría aplicarse en cualquier escenario similar, ya sea competencia económica o tecnológica entre estados soberanos.

El dilema del prisionero 37