Saltar al contenido principal
LibreTexts Español

4.6: La teoría de juegos, el equilibrio de Nash y el dilema del prisionero (Douglas E. Hill)

  • Page ID
    101283
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)

    24 Teoría de juegos, el equilibrio de Nash y el dilema del prisionero
    Douglas E. Hill 85

    La teoría de juegos modela las interacciones humanas. Hay muchas formas diferentes en las que los humanos pueden interactuar, por lo que hay muchos modelos diferentes. Vamos a llamar a estos modelos juegos. Ayudará comenzar por mirar primero los juegos de dos personas. En tal juego, tú y yo estamos lidiando entre nosotros. Asumiremos que cada uno de nosotros está racionalmente interesado en sí mismo; es decir, que cada uno de nosotros actuará para maximizar nuestro resultado, pago o pago. Por supuesto, la gente no siempre actúa de esta manera. En ocasiones las personas actúan de manera altruista, en beneficio de otros a algún costo para ellos mismos. Sin embargo, esta será una suposición simplificadora útil.

    Un modelo común es el juego de suma cero. En tal juego, ganas tanto como yo pierdo, o yo pierdo tanto como tú ganas. Esta es la lógica de la mesa de póquer, o un partido deportivo. Siendo racionalmente interesado, voy a tratar de ganar, y tú deberías tratar de ganar, también. En tal juego, nuestros intereses son diametralmente opuestos. Ya que sólo se puede ganar cuando pierdo, tal juego no permitiría la cooperación. Tal juego solo permite ganar-perder o perder-ganar.

    Pero no todas las interacciones, o juegos son así. Algunos juegos permiten la cooperación. En tal juego, es posible que ambos nos beneficiemos. Ganar-ganar y perder-perder son posibles resultados. Un ejemplo sería un juego de coordinación. Supongamos que usted y yo ganaríamos cada uno (digamos un dólar cada uno) si nos reunimos, y que no conseguimos nada si no nos reunimos. Podríamos encontrarnos en el mercado, o podríamos encontrarnos en el parque. En este juego de coordinación, sólo está en juego un dólar, así que subamos las apuestas. Supongamos que usted y yo somos conductores, yendo en sentido contrario en una carretera. ¿Se debe conducir por la izquierda o por la derecha? En este tipo de juegos, nuestros intereses están perfectamente alineados. Si podemos coordinar en un lugar de encuentro ambos podemos sacar provecho; si podemos coordinar en el juego de conducción ambos podemos vivir. Nos gustaría establecer nuestra sociedad para que las interacciones cooperativas sean la regla y no la excepción. Veremos si esto es posible.

    El equilibrio de Nash

    Considera un conjunto de estrategias tomadas por todos los jugadores en un juego. Si por cualquier conjunto de estrategias, ningún jugador individual puede beneficiarse cambiando su estrategia individual, entonces ese conjunto de estrategias forma un equilibrio Nash. El término Equilibrio de Nash se aplica al conjunto de estrategias tomadas por todos los jugadores, no a la estrategia individual de ningún jugador. Si un jugador solo puede hacerlo peor desviándose entonces el equilibrio es estricto, si puede hacerlo igual de bien (pero no mejor) entonces entonces el equilibrio es débil, y si puede hacerlo mejor, entonces no es un equilibrio. El equilibrio de Nash lleva el nombre de John Nash (1928-2015), quien demostró que cada juego tiene al menos un equilibrio de Nash.

    Tomemos el caso donde estamos manejando por la carretera en direcciones opuestas. ¿Cuántos equilibrios tiene este juego? Un equilibrio es donde cada uno conducimos a nuestra derecha. Mientras ambos nos apegemos a esto, nos pasaremos el uno al otro de manera segura. Si alguno de nosotros se desvía, estamos sujetos a sufrir lesiones o la muerte. Dado que a cualquiera de nosotros le iría estrictamente peor al desviarse del equilibrio drive-on-the-right, este equilibrio es estricto. De igual manera hay un equilibrio donde ambos conducimos a nuestra izquierda, también un equilibrio estricto. Pero también hay un tercer equilibrio donde cada uno elegimos aleatoriamente, para que manejemos en cada lado con un 50% de probabilidad. Digamos que cada uno volteamos una moneda, y conducimos por la derecha si sale de cabeza, y a la izquierda si se le sube colas. En este caso, tenemos un 50% de paso seguro entre sí, y un cambio del 50% de meterse en un accidente. ¿Es esto realmente un equilibrio? Sí, porque si esto es lo que estoy haciendo, no puedes hacerlo mejor cambiando. No importa lo que hagas, tendrás un 50% de posibilidades de evitar un accidente. Porque no se puede hacer nada mejor cambiando, esto también es un equilibrio. Pero debido a que no te va peor cambiando, esto es sólo un equilibrio débil. Pero es un equilibrio, no obstante.

    Este juego de coordinación nos muestra algunas cosas sobre los equilibrios de Nash. No siempre hay un solo equilibrio, y el solo hecho de que algo sea un equilibrio no significa que sea un resultado deseable. Ahí está el problema de la Selección de Equilibrio. En el juego de conducción, los dos queremos mucho estar en los equilibrios drive-the-left o drive-on-the-right. Queremos evitar el equilibrio de voltear una moneda y esperar lo mejor. El problema es que los otros dos equilibrios son igualmente buenos, así que quizá no sepamos cuál elegir. En este caso, la costumbre local nos dice en qué equilibrio debemos coordinarnos. Cuando en Roma, conducimos por la derecha, porque eso es lo que hacen los romanos. Pero cuando estamos en Londres, conducimos por la izquierda, porque eso es lo que hacen los londinenses.

    La vida de John Nash está representada en la película A Beautiful Mind (2001), dirigida por Ron Howard. Esta película tiene una escena destinada a ilustrar las ideas de Nash. En esta escena, Nash, interpretada por Russell Crowe, imagina una escena en un bar. Varios hombres están esperando en el bar cuando están caminando varias atractivas mujeres morenas y una mujer rubia muy atractiva. En la primera iteración (como imagina el personaje de Nash), todos los hombres persiguen a la rubia. Pero debe rechazar a la mayoría de ellos, que luego cada uno persigue a una morena. Pero las morenas no desean ser la segunda opción de alguien, así entonces también rechazan a cada hombre. Entonces cada hombre (excepto quizás uno que haya ganado a la rubia) encuentra que su estrategia le ha llevado a un mal desenlace. Entonces replantean sus estrategias, y vuelven a intentarlo en otra iteración. En este caso, cada hombre se acerca inicialmente a una morena. Cada hombre está feliz de tener la oportunidad de ganar a una mujer, cada morena está feliz de ser la primera opción de un hombre, y la única que queda fuera es la rubia, que se conmociona al ser ignorada. Si bien podríamos desear que la película pudiera haber dado un ejemplo que tratara a las mujeres como jugadoras en lugar de resultados en un juego, preguntemos aquí si ilustraba la idea de Nash. ¿Encontraron los hombres un equilibrio de Nash?

    Si bien los hombres encontraron un desenlace que fue mejor para la mayoría de ellos que cuando todos se acercaron a la rubia, sus nuevas estrategias no forman un equilibrio de Nash. Para que un conjunto de estrategias formen un equilibrio NASH, nadie puede hacerlo mejor cambiando. Pero en esta escena, cualquiera de los hombres podría hacerlo mejor al acercarse a la rubia que entonces estaba siendo ignorada. Como se describe este escenario, la oportunidad de ganar a la rubia es el mayor premio. Mientras sea ignorada, hay un mejor resultado disponible para alguien, por lo que cualquier resultado que la deje ignorada no puede ser un equilibrio de Nash. De esta manera, esta escena no logró ilustrar un equilibrio de NASH. (Para ser justos con la película, nunca dice “Nash-equilibrio” en esta escena, ni en ningún otro lugar de la película. En cambio, Crowe como Nash dice “dinámica gobernante”.)

    El dilema del prisionero

    Supongamos que usted y un conocido son detenidos por la policía. Te separan y ofrecen a cada uno de ustedes este trato. “Pensamos que usted y su amigo son cómplices de un delito grave, pero no podemos probarlo. Entonces te ofreceremos este trato: Si testificas que tu amigo cometió este delito y se queda callado, te dejaremos ir en libertad ahora mismo, y lo sentenciaremos a cumplir diez años de prisión. Si ambos testifican uno contra el otro, cada uno obtendrá cinco años. Si ambos guardan silencio, los retendremos todo el tiempo que podamos sin cobrarle, alrededor de seis meses. Y estamos haciendo esta misma oferta a tu amigo”. ¿Qué debes esperar y qué debes hacer?

    Deberías esperar que tu conocido se quede callado, y ella debería esperar que te quedes callado. En términos teóricos de juego, esto se conoce como cooperar, y testificar en contra de tu pareja se conoce como desertar. Si ambos cooperan entre sí, cada uno solo recibe seis meses de cárcel. Pero puedes hacerlo mejor. Si tu pareja guarda silencio, podrías testificar en su contra; es decir, podrías desertar. En este caso, te vas libre, lo cual es un mejor resultado para ti. ¿Y qué pasa si tu pareja no coopera? ¿Y si ella falla al testificar en su contra? En ese caso, si guardas silencio (cooperas), obtienes diez años de prisión. Si también testificas en contra de ella (defecto), entonces solo obtienes 5 años. Entonces no importa lo que haga, es mejor que desertes contra ella. Y ella puede seguir la misma lógica, así que no importa lo que hagas, es mejor que deserte en tu contra.

    Entonces, el único equilibrio de Nash en el dilema del prisionero es que ambos deserten. Esto no quiere decir que este sea el mejor resultado disponible para ti. Este equilibrio los lleva a los dos a muy mal resultado, donde cada uno de ustedes pasa cinco años en prisión. Hay otro resultado que es mucho mejor para los dos: que ambos cooperen guardando silencio. En ese caso, sólo se obtienen seis meses. Si de alguna manera pudieras estar de acuerdo con esta opción que te da tu segundo mejor resultado, puedes evitar el segundo peor resultado mucho peor. Pero mientras alguien pueda hacerlo mejor desviándose de esto, no es un equilibrio. Y en este caso, cualquiera de ustedes puede hacerlo mejor desertando. La cooperación mutua no es un equilibrio; el único equilibrio es la deserción mutua. Entonces, seguir tu interés racional por ti mismo los lleva a los dos a un resultado muy ineficiente.

    Para que no pienses que la lección aquí es que el crimen no paga, nunca escribí si tú y tu conocido habían cometido o no el delito del que te acusaban. Es mejor que testifiques contra ella, y ella en tu contra, sin importar si realmente cometiste el delito. Pero la estructura dilema del preso no se limita a los delincuentes acusados. Muchas interacciones humanas comunes tienen la estructura del dilema del preso. Toma el ejemplo del comercio: tienes un libro raro que ya no quieres. Tengo 100 dólares que con mucho gusto pagaría por el libro. El libro vale más de 100 dólares para mí, y menos de 100 dólares para ti, así que deberíamos hacer un trato. Pero esta simple interacción también tiene la estructura del dilema de un preso. Ambos tenemos algo que el uno al otro quiere, y estamos de acuerdo con el intercambio. Pero entonces piensas, a lo mejor te voy a enviar el dinero y tal vez no lo haré Si no envío el dinero, seguro que odiarías que te hubieran engañado fuera del libro. Y aunque yo mande el dinero, aún estás mejor con el dinero y el libro. De igual manera, sé que a lo mejor vas a enviar el libro y tal vez no lo hará.Si no mandas el libro, seguro que odiaría que me hubieran engañado con el dinero. Y aunque envíes el libro, aún estoy mejor con el libro y el dinero. Cada uno de nosotros es consciente de lo que piensa el otro, así que ninguno de nosotros honra un trato que nos hubiera hecho mejor a los dos.

    Hacer un acuerdo funciona mejor cuando podemos acordar un equilibrio. Un buen contrato no le da a nadie un incentivo para romperlo. El dilema del preso, con su único equilibrio no cooperativo, representa un juego en el peor de los casos. Pero el escenario modela un escenario comercial común. Sin embargo, logramos comerciar, y lo encontramos en nuestro propio interés hacerlo. De alguna manera logramos cambiar el juego, y crear algunos equilibrios cooperativos.

    Dilema del prisionero iterado

    El comercio florece. Y no sólo comerciamos solo por una preocupación moral por los demás; nos parece que es lo mejor para nosotros comerciar. Nuestra salida de la trágica lógica del dilema del preso radica en el hecho de que deseamos volver a comerciar. Es poco probable que uno se gane la vida, mucho menos hacerse rico, con un solo oficio. Pero comerciamos ahora con la mirada puesta en el futuro. Estoy obligado a cooperar hoy con usted con la esperanza de que cooperemos hoy y en el futuro. “La sombra del futuro” cambia el juego. Pensemos en cómo logramos realmente hacer ese trato sobre el libro. ¿Realmente es mejor que te quedes con el libro, independientemente de lo que haga? Si esperamos volver a comerciar en el futuro, es mejor que usted mantenga su parte del trato, y yo también.

    Los teóricos del juego modelan esto repitiendo el juego. Cada repetición se puede llamar iteración, etapa o prueba. Entonces, en lugar del dilema de un preso de una sola etapa, ahora tenemos un dilema de prisionero repetido o iterado. Supongamos que seguiremos jugando el dilema de los presos todos los días. Un dólar hoy vale más para nosotros que un dólar mañana, así que necesitamos descontar el valor de ese dólar mañana. El factor por el cual descontamos el futuro se llama, naturalmente, el factor descuento. El factor de descuento también se puede considerar como la probabilidad de otra iteración. Las matemáticas son las mismas para cualquiera de las dos interpretaciones. Un resultado famoso llamado Teorema Folk dice que dado un factor de descuento suficiente (es decir, valoramos suficientemente el futuro, o pensamos que el juego adicional es suficientemente probable), entonces cualquier resultado que podamos pactar racionalmente con un contrato vinculante forma un equilibrio de Nash sin un contrato tan vinculante. A esto se le llama Teorema Folk porque los teóricos de juegos asumieron que era cierto (y lo citaron en sus artículos) antes de que realmente se demostrara (involucrando diversos supuestos técnicos).

    Con el juego repetido infinitamente (o indefinidamente), ahora existe un número infinito de equilibrios. Y “siempre defecto” sigue siendo un equilibrio: si tú y yo planeamos defecar en cada jugada, a cualquiera de nosotros solo le irá peor cooperando. Pero ahora también hay equilibrios cooperativos. Pero uno no puede simplemente cooperar independientemente del juego del otro. La estrategia para cooperar siempre no es un equilibrio, pues entonces uno de nosotros podría hacerlo mejor desertando. Y desertar constantemente contra un cooperador te da el mejor resultado posible. Pero podemos condicionar nuestra jugada a la jugada pasada del otro.

    Una estrategia popular en la literatura se llama grim-trigger. En grim-trigger, empiezas cooperando, y sigues cooperando mientras yo coopere. Pero en cuanto yo defecto, tú fallas cada jugada después de eso. En esta estrategia, solo te quemas una vez. Una vez que te imaginas que no soy un cooperador consistente, nunca vuelves a arriesgarme. Una estrategia que ha ido bien en los torneos es ojo por ojo. En ojo por ojo, empiezas cooperando, y luego en adelante copias la jugada anterior de tu pareja. Entonces, mientras cooperemos entre nosotros, seguiremos cooperando. Pero si estás jugando ojo por ojo y yo defecto en tu contra, tendré que cooperar contigo, mientras tú desertas contra mí, para que vuelvas a cooperar. La pérdida que me lleve de tenerte defecto en mi contra puede ser considerada como una pena o castigo.

    Se han probado muchas otras estrategias en torneos y simulaciones. Y en el juego infinitamente repetido, hay un número infinito de equilibrios. Entonces la selección de equilibrio se convierte en un problema. Pero las estrategias cooperativas generalmente forman equilibrios entre sí: si estás jugando grim-trigger, y yo estoy jugando ojo por ojo, y ambos valoramos suficientemente la posibilidad de juego futuro, entonces seguiremos cooperando y ninguno de nosotros podrá hacerlo mejor con una estrategia diferente. Pero las estrategias no cooperativas también forman equilibrios entre sí. Si empiezas desertando y luego repites mi jugada anterior (podríamos llamar a esto sospechoso-tit-for-tat), y yo siempre defecto, entonces seguiremos desertando el uno contra el otro, y a cualquiera de nosotros le irá peor si cambiamos a una estrategia que nos tiene cooperar.

    Una de estas estrategias cooperativas puede hacer que cooperemos si usted y yo esperamos comerciar repetidamente entre nosotros. Pero, ¿y si es poco probable que usted y yo volvamos a comerciar? Una posibilidad es que la cooperación racional no sea posible. Como no esperamos volver a hacer negocios en el futuro, hoy estamos demasiado tentados a desertar unos contra otros. Es por eso que es más probable que te engañe un negocio que atiende a turistas que por un negocio en tu ciudad natal. El negocio en tu ciudad natal sabe que tu negocio repetido es más probable si te trata bien ahora. La trampa turística sabe que tu negocio repetido es poco probable independientemente de cómo te trate. En una comunidad suficientemente pequeña, los comerciantes pueden conocerse entre sí, y saber quién tiene una reputación de trato justo y quién tiene la reputación de desertar. En este caso podrías desertar contra los desertores que conoces, y (asumiendo que quieres seguir operando), cooperar con los cooperadores que conoces.

    Pero el ingenio humano ha encontrado formas de extender la reputación a comunidades más grandes. Piensa de nuevo en el caso en el que quieres vender un libro, y yo quiero comprarlo. Si estamos operando en un sitio web como eBay o Amazon, usted es responsable de informar mi falta de envío del dinero, y yo soy responsable de informar su falta de envío del libro. Los futuros traders aprenderán sobre esto y dañarán nuestra reputación para futuras operaciones. Si alguno de nosotros quiere hacer negocios en el futuro, encontraremos en nuestro interés honrar nuestro trato hoy. En este caso el sitio web que registra nuestra historia actúa como una institución que amplía la posibilidad de futuros tratos. Mientras esperemos volver a jugar con alguien (no necesariamente el mismo jugador), podemos valorar lo suficiente el futuro como para cooperar hoy.

    De igual manera, si un banco te presta dinero, podrías tener la tentación de no pagar. Para un préstamo grande, el banco tendrá alguna garantía: normalmente el automóvil o la casa para la que tomaste prestado el dinero. Si no reembolsas, el banco recuperará la garantía. Pero para un préstamo pequeño, un banco puede no tener ninguna garantía, y si no lo reembolsas, puede decidir que no vale la pena intentar cobrar. Sin embargo, por lo general todavía lo encontrará en su interés para reembolsar. Si no lo hace, el banco reportará esta deuda impagada a una agencia de crédito. Y entonces te resultará difícil pedir dinero prestado en el futuro, ya que otros bancos le preguntarán al buró de crédito sobre ti antes de prestarte dinero.

    Las soluciones institucionales como eBay y las agencias de crédito tienen otras ventajas sobre estrategias populares como grim-trigger o tit-for-tat. Hay un número infinito de equilibrios, y tal vez nos preocupe que estemos atrapados en un equilibrio no cooperativo. Pero la institución no podría existir si a los comerciantes no les resultaba en su interés utilizarla. Entonces señalan que hay un equilibrio cooperativo. Y esas instituciones son robustas ante los errores. En ojo por ojo, si se piensa erróneamente que has desertado, serás desertado, en un ciclo continuo, hasta que esto sea corregido por otro error. En grim-trigger, si se piensa erróneamente que has desertado, nunca más te vuelven a cooperar. Pero mientras las tasas de error de una institución informadora de reputación, como una agencia de crédito, sean suficientemente bajas, los comerciantes pueden encontrar en su interés cooperar, y pagar cualquier penalización, aunque se equivoquen.

    Entonces, cuando se repite el escenario dilema del preso, los equilibrios cooperativos son posibles. Pero la cooperación no está garantizada, ya que quedan equilibrios no cooperativos. Y podemos temer de manera bastante racional que estemos atrapados en tal equilibrio no cooperativo. La no cooperación es siempre un equilibrio, y puede ser el único equilibrio. Tener y mantener un equilibrio cooperativo depende de muchas cosas, incluida la valoración suficiente de las perspectivas comerciales futuras, y algún indicio de que estamos en un equilibrio cooperativo. Instituciones como las agencias de crédito y eBay pueden hacer que las perspectivas futuras sean más probables y señalar un equilibrio cooperativo. Pero la cooperación, y la reputación que puede hacerlo posible, son frágiles. Benjamin Franklin reconoció esto cuando escribió “El vidrio, la China y la reputación se rompen fácilmente, y nunca se arreglan bien”.

    La tragedia de los comunes

    No necesitamos limitar los juegos a dos jugadores. Un escenario con la estructura del dilema del preso, extendido a muchos jugadores, se llama la tragedia de los comunes. Denominado por Garrett Hardin (1915-2003), se basa en el siguiente escenario: Varios ganaderos mantienen sus rebaños (digamos de ganado vacuno u ovino) en sus graneros, pero hay un campo común, los comunes, en el que pastan. El bien común es un recurso renovable que puede regenerarse si no es sobrepastado. Y en un momento, los comunes son suficientes para alimentar a todos los animales. Pero entonces cada ganadero piensa: “Puedo ser un poco más rico si rebaño algunos animales más; después de todo, si nadie más hace esto, los comunes pueden manejar fácilmente mis pocos pastores adicionales. Y si todos los demás rozan más, quiero conseguir un poco más antes de que se destruyan los comunes”. Pero entonces cada ganadero razona de la misma manera, y los bienes comunes son sobrepastados y destruidos. Esto tiene la misma estructura que el dilema del preso: cooperas manteniendo tu rebaño pequeño, y desertas (contra los otros pastores) aumentando tu rebaño. Todos están mejor si todos pueden cooperar, pero cada ganadero está mejor con más animales, sin importar lo que hagan los otros pastores.

    Muchos problemas ecológicos, como la sobrepesca, tienen esta estructura. Todo pescador quiere un amplio stock de peces en el mar, pero cada pescador tiene la tentación de pescar algunos peces más. Cada pescador piensa “Si nadie más sobrepesca, el stock de peces puede escatimar algunos más para mí. Y si todos los demás pescan, quiero conseguir algunos peces más mientras todavía hay peces por capturar”. Y como resultado, los peces pueden ser aniquilados, o severamente agotados, cuando si los pescadores hubieran podido limitar su captura, podrían haber dejado suficientes peces para reproducirse y proporcionar peces para siempre. En estas tragedias de los comunes, el ganadero o pescador individual obtiene el beneficio de los animales extras, pero el costo es asumido por toda la comunidad que usa los bienes comunes.

    Una posibilidad es que los bienes comunes estén condenados. En lugar de mantenerse en común, dicho recurso no puede ser compartido y, por lo tanto, debe ser propiedad de alguien, como un individuo, una entidad corporativa o un gobierno, que sea responsable de ello. Esto sería una mala noticia, ya que algunos recursos (como un campo o zona de pesca) podrían ser plausiblemente propiedad y administrados por alguna autoridad, pero otros recursos compartidos más grandes, como los océanos o el aire, no podrían. Sin embargo, Elinor Ostrom (1933-2012) ganó el Premio Nobel de Economía 2009 por mostrar cuántas comunidades han resuelto desde hace mucho tiempo problemas con las estructuras de Tragedia de los Comunes. Ostrom observó que las comunidades locales han llegado a soluciones locales: los acuerdos exitosos para compartir los bienes comunes tienen en común la resolución de disputas de bajo costo, con los propios usuarios de los bienes comunes creando y modificando las reglas, entre otros principios. Autoridades bien intencionadas del exterior a veces han estropeado los arreglos locales que habían estado funcionando bien. Nuevamente, el ingenio humano ha encontrado formas de cambiar la estructura del juego para hacer posible la cooperación, salvando los comunes.

    Una conclusión cautelosamente optimista

    Dos visiones competitivas de la naturaleza humana provienen del filósofo francés/suizo Jean-Jacques Rousseau (1712-1778), y del filósofo inglés Thomas Hobbes (1588-1679). Ambos miran hacia atrás para imaginar el estado primitivo de la humanidad ante la civilización. La imagen positiva de Rousseau es el “Noble Salvaje”; escribe “nada es más gentil que el hombre en su estado primitivo”. La cínica imagen de Hobbes es el “Estado de la Naturaleza” que consiste en la “guerra de todos contra todos” donde la vida es “solitaria, pobre, desagradable, cruda y corta”. Si Rousseau tiene razón, entonces la cooperación debería venir naturalmente. La modernidad nos ha corrompido para que ahora nos preocupemos demasiado por nuestros propios intereses, así que de alguna manera debemos restaurarnos a un estado más cercano al Noble Salvaje. Si Hobbes tiene razón, entonces la deserción vendrá naturalmente, y tendremos que trabajar para que la cooperación sea posible.

    Rousseau y Hobbes no contaban con las pruebas arqueológicas para resolver su disputa. Pero nosotros sí, y el psicólogo de Harvard Steven Pinker resume esta evidencia en sus libros La pizarra en blanco y Los mejores ángeles de nuestra naturaleza. Por desgracia, encuentra que “el hombre en su estado primitivo” vivía con un índice de violencia sorprendentemente alto. Pinker concluye sin rodeos “Hobbes tenía razón, Rousseau estaba equivocado”. No debemos sorprendernos. La dificultad viene de la estructura de algunas interacciones comunes, interacciones que incluso un Noble Salvaje habría enfrentado.

    La solución de Hobbes fue instituir un soberano absoluto: formamos un contrato social para hacer de uno de nosotros el dictador que creará y hará cumplir la ley, sacándonos del violento Estado de la Naturaleza. Este dictador absoluto, el soberano, nos hará cooperar. Impondrá sanciones a los desertores para que ya no sea de su interés hacer trampa. El desertar ya no será un equilibrio. Mirando la historia de los dictadores desde la época de Hobbes, podríamos ser perdonados por nuestra renuencia a instituir esta opción.

    Hobbes fue un astuto analista del conflicto humano, capaz de razonar cuán temprano deben haber vivido los humanos. Pero no necesitamos seguir a Hobbes todo el camino hasta su conclusión. Hemos visto varios casos arriba donde la gente ha elaborado equilibrios cooperativos con mucha menos fuerza, sin tener que invertir tanto poder en una sola persona. Las agencias de crédito y eBay, sin ningún poder policial, crean sistemas donde la mayoría de la gente encuentra en sus intereses pagar sus deudas y honrar sus tratos. Ostrom documenta que muchas comunidades, sin el poder de los estados de los que forman parte, hicieron en su interés compartir y mantener los bienes comunes.

    Entonces, para crear una mejor sociedad, debemos seguir encontrando equilibrios cooperativos. Las sociedades que han pedido a su gente actuar fuera de equilibrio, en contra de sus propios intereses, experimentaron la pobreza y los horrores a medida que su gente los defraudó una y otra vez. Las sociedades que han creado equilibrios cooperativos han prosperado, porque cuando las personas encuentran en su propio interés beneficiar a los demás, naturalmente lo hacen.

    Bibliografía

    Axelrod, Robert M. (1984) La evolución de la cooperación. Nueva York, NY. Libros Básicos, Inc.

    Fudenberg, Drew, y Tirole, Jean. (1991) Teoría de juegos. Cambridge, MAMÁ. La Prensa del MIT.

    Hill, Douglas E. (2004 Mayo) “Errores de Juicio y Reporte de Informes en un Sistema Mercantil de Derecho”. Teoría y Decisión, Vol. 56, Número 3, pp. 239-267.

    Hill, Douglas E. (2004) La reputación en un mundo de errores y corrupción. Tesis Doctoral. Universidad de California, Irvine.

    Hobbes, Thomas. (1651) Leviatán: con variantes seleccionadas de la edición latina de 1668. Edwin Curley, editor. (1994) Indianapolis, IN. Hackett Publishing Co.

    Klein, Daniel B., editor. (1997) Reputación: Estudios en la incitación voluntaria de la buena conducta. Ann Arbor, MI. Prensa de la Universidad de Michigan.

    Kosko, Bart. (13 de febrero de 2002) “¿Cuántas rubias estropean un equilibrio de Nash? Los Angeles Times.

    Myerson, Roger B. (1991) Teoría de juegos: análisis del conflicto. Cambridge, MAMÁ. Prensa de la Universidad de Harvard.

    Ostrom, Elinor. (1990) Gobernar los bienes comunes: la evolución de las instituciones para la acción colectiva. Nueva York, NY. Prensa de la Universidad de Cambridge.

    Pinker, Steven. (2002) La pizarra en blanco: la negación moderna de la naturaleza humana. Nueva York, NY. Libros de pingüinos.

    Pinker, Steven. (2011) Los mejores ángeles de nuestra naturaleza: por qué la violencia ha disminuido. Nueva York, NY. Vikingo.

    Poundstone, William. (1992) El dilema del prisionero. Nueva York, NY. Doubleday.

    Rousseau, Jean-Jacques. (1754) Discurso sobre el origen y las bases de la desigualdad entre los hombres. G.D.H. Cole, traductor. (1913). Constitution.org.

    Skyrms, Brian. (1996) Evolución del Contrato Social. Nueva York, NY. Prensa de la Universidad de Cambridge.

    Skyrms, Brian. (1998) “La sombra del futuro”. En Coleman, Jules L. y Morris, Christopher W. Compromiso racional y justicia social: ensayos para Gregory Kavka. Cambridge, Reino Unido. Prensa de la Universidad de Cambridge. págs. 12-21

    Para revisión y discusión

    1. ¿Qué es un equilibrio de Nash?

    2. ¿Cuál es el dilema del preso?

    3. ¿Cómo evitamos quedar atrapados en el dilema de un preso?


    This page titled 4.6: La teoría de juegos, el equilibrio de Nash y el dilema del prisionero (Douglas E. Hill) is shared under a CC BY license and was authored, remixed, and/or curated by Noah Levin (NGE Far Press) .