Saltar al contenido principal
LibreTexts Español

6.3: Probabilidad y Creencia - Razonamiento Bayesiano

  • Page ID
    95151
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    El gran filósofo escocés David Hume, en su An Enquiry concerning Human Understanding, escribió: “En nuestros razonamientos relativos a la cuestión de hecho, hay todos los grados imaginables de seguridad, desde la más alta certeza hasta las especies más bajas de evidencia moral. Un hombre sabio, por lo tanto, aporta su creencia a la evidencia”. Hume está haciendo un punto muy importante sobre una especie de razonamiento en el que nos dedicamos todos los días: el ajuste de creencias a la luz de la evidencia. Creemos las cosas con diversos grados de certeza, y a medida que hacemos observaciones o aprendemos cosas nuevas que inciden en esas creencias, hacemos ajustes a nuestras creencias, volviéndonos más o menos seguros en consecuencia. O, al menos, eso es lo que debemos hacer. El punto de Hume es importante porque con demasiada frecuencia las personas no ajustan sus creencias cuando se enfrentan a pruebas, especialmente pruebas en contra de sus preciadas opiniones. No hace falta mirar lejos para ver a la gente comportarse de esta manera: la persistencia y ubicuidad de las creencias, por ejemplo, de que las vacunas causan autismo, o que el calentamiento global es un mito, a pesar de la abrumadora evidencia de lo contrario, son un testimonio del fracaso generalizado de las personas en la proporción de sus creencias con las evidencia, a una falta general de “sabiduría”, como dice Hume.

    Aquí tenemos un proceso de razonamiento —ajustando creencias a la luz de la evidencia— que se puede hacer bien o mal. Necesitamos una manera de distinguir las instancias buenas de este tipo de razonamientos de las malas. Necesitamos una lógica. Como sucede, las herramientas para construir tal lógica están listas a mano: podemos usar el cálculo de probabilidad para evaluar este tipo de razonamiento.

    Nuestra lógica será simple: será una fórmula que proporcione un modelo abstracto de creencia-revisión perfectamente racional. La fórmula nos dirá cómo calcular una probabilidad condicional. Lleva el nombre del reverendo inglés del siglo XVIII que lo formuló por primera vez: Thomas Bayes. Se llama “Ley de Bayes” y el razonamiento según sus estenosis se llama “razonamiento bayesiano”.

    En este punto, naturalmente te estarás preguntando algo como esto: “¿Qué diablos tiene que ver un teorema sobre la probabilidad con ajustar creencias basadas en evidencia?” Excelente pregunta; me alegra que hayas hecho. Como Hume mencionó en la cita con la que empezamos, nuestras creencias vienen con diversos grados de certeza. Aquí, por ejemplo, hay tres cosas que creo:

    1. 1 + 1 = 2;
    2. la tierra está aproximadamente a 93 millones de millas del sol (en promedio);
    3. Soy pariente de Winston Churchill.

    Los he enumerado en orden descendente: Tengo más confianza en (a), menos confianza en (c). Tengo más confianza en (a) que en (b), ya que puedo entender que 1 + 1 = 2 por mi cuenta, mientras que tengo que confiar en el testimonio de otros para la distancia Tierra-Sol. Aún así, ese testimonio me da una creencia mucho más fuerte que el testimonio que es la fuente de (c). Mi relación con Churchill es al parecer a través de mi abuela materna; los detalles son confusos. Aún así, ella y todos los demás en la familia siempre decían que estábamos emparentados con él, así que lo creo.

    “Bien”, estás pensando, “pero ¿qué tiene esto que ver con las probabilidades?” Nuestros grados de creencia en afirmaciones particulares pueden variar entre dos extremos: la duda completa y la certeza absoluta. Podríamos asignar números a esos estados: la duda completa es 0; la certeza absoluta es 1. ¡Las probabilidades también varían entre 0 y 1! Es natural representar grados de creencias como probabilidades. Esta es una de las interpretaciones filosóficas de lo que realmente son las probabilidades. (Hay toda una literatura sobre esto. Consulte este artículo para una visión general: Hájek, Alan, “Interpretaciones de la probabilidad”, La enciclopedia de Stanford de la filosofía (edición de invierno 2012), Edward N. Zalta (ed.), URL = < https://plato.stanford.edu/archives/...ity-interpret/ >.) Es la llamada interpretación “subjetiva”, ya que los grados de creencia son estados mentales subjetivos; a estos los llamamos “probabilidades personales”. Piensa en enrollar un dado. La probabilidad de que salga mostrando uno es 1/6. Una manera de entender lo que eso significa es decir que, antes de que se lanzara el dado, el grado en que creías la proposición de que el dado surgirá mostrando uno —la cantidad de confianza que tenías en esa afirmación— era 1/6. Habrías tenido más confianza en la afirmación de que aparecería mostrando un número impar, un grado de creencia de 1/2.

    Estamos hablando del proceso de revisar nuestras creencias cuando nos enfrentamos a pruebas. En términos de probabilidades, eso significa elevar o bajar nuestras probabilidades personales según lo justifique la evidencia. Supongamos, por ejemplo, que estaba visitando la ciudad natal de mi abuela y me encontré con una amiga suya desde hace mucho tiempo. En el transcurso de la conversación, menciono cómo la abuela estaba relacionada con Churchill. “Eso es gracioso”, dice el amigo, “tu abuela siempre me decía que estaba emparentada con Mussolini”. Acabo de recibir algunas pruebas que apoyan mi creencia de que estoy emparentada con Churchill. Nunca antes había escuchado esta afirmación de Mussolini. Empiezo a sospechar que mi abuela tenía una extraña excentricidad: disfrutó diciéndole a la gente que estaba relacionada con líderes famosos durante la Segunda Guerra Mundial. (Me pregunto si alguna vez afirmó estar relacionada con Stalin. FDR? Recemos a Hitler nunca fue invocado. Y Hirohito tensaría la credulidad; mi abuela claramente no era japonesa.) Ante esta evidencia, si estoy siendo racional, revisaría mi creencia de que estoy relacionado con Winston Churchill: Bajaría mi probabilidad personal de esa creencia; la creería con menos fuerza. Si, por otro lado, mi visita a la ciudad natal de mi abuela produjo un poco de evidencia diferente —digamos que un familiar había hecho la investigación relevante y producido una genealogía familiar rastreando la relación con Churchill— entonces yo revisaría mi creencia en la otra dirección, aumentando mi probabilidad personal, creyendo con más fuerza.

    Dado que la creencia-revisión en este sentido solo implica ajustar las probabilidades, nuestro modelo de cómo funciona es solo un medio para calcular las probabilidades relevantes. Por eso nuestra lógica puede tomar la forma de una ecuación. Queremos saber con qué fuerza debemos creer algo, dada alguna evidencia al respecto. Esa es una probabilidad condicional. Dejemos que\(H\) '' signifique una hipótesis genérica —algo que creemos hasta cierto punto u otro; dejemos que 'E' signifique alguna evidencia que descubrimos. Lo que queremos saber es cómo calcular\(P(H | E)\) — la probabilidad de\(H\) dar\(E\), con qué fuerza debemos creer a\(H\) la luz del descubrimiento de\(E\).

    La Ley de Bayes nos dice cómo realizar este cálculo. Aquí hay una versión de la ecuación (Es fácil derivar este teorema, comenzando con la regla general del producto. Sabemos

    \[\mathrm{P}(\mathrm{E} \bullet \mathrm{H})=\mathrm{P}(\mathrm{E}) \times \mathrm{P}(\mathrm{H} | \mathrm{E})\]

    no importa lo que signifique 'E' y 'H'. Un poco de manipulación algebraica nos da

    \[P(H | E)=\dfrac{P(E \bullet H)}{P(E)}\]

    Es una verdad lógica que la expresión 'E • H' sea equivalente a 'H • E', por lo que podemos reemplazar 'P (E • H) 'por 'P (H • E)' en el numerador. Y nuevamente, por la regla general del producto, P (H • E) = P (H) x P (E | H) —nuestro numerador final. ):

    \[\mathrm{P}(\mathrm{H} | \mathrm{E})=\frac{\mathrm{P}(\mathrm{H}) \times \mathrm{P}(\mathrm{E} | \mathrm{H})}{\mathrm{P}(\mathrm{E})}\]

    Esta ecuación tiene algunas características agradables. En primer lugar, la presencia de 'P (H) 'en el numerador es intuitiva. Esto a menudo se conoce como la “probabilidad previa” (o “previa” para abreviar); es el grado en que se creía la hipótesis antes del descubrimiento de la evidencia. Tiene sentido que esto sea parte del cálculo: cuán fuertemente creo en algo ahora debería ser (al menos en parte) una función de lo fuertemente que solía creerlo. Segundo, 'P (E | H) 'es un ítem útil para tener en el cálculo, ya que a menudo es una probabilidad que se puede conocer. Observe, esto es lo contrario de la probabilidad condicional que estamos tratando de calcular: es la probabilidad de la evidencia, asumiendo que la hipótesis es cierta (puede que no lo sea, pero asumimos que es, como dicen, “por el bien del argumento”). Considera un ejemplo: como sabrás, estar enfermo por la mañana puede ser una señal de embarazo; si esto te estuviera pasando, la hipótesis que estarías entretenida sería que estás embarazada, y la evidencia estaría vomitando por la mañana. La probabilidad condicional que te interesa es P (embarazada | vómitos) —es decir, la probabilidad de que estés embarazada, dado que has estado vomitando por la mañana. Parte del uso de la Ley de Bayes para hacer este cálculo implica el reverso de esa probabilidad condicional: P (vomitar | embarazada) —la probabilidad de que vomitaras por la mañana, asumiendo (por el bien del argumento) que de hecho estás embarazada. Y eso es algo que podemos simplemente mirar hacia arriba; se han hecho estudios. Resulta que alrededor del 60% de las mujeres experimentan náuseas matutinas (hasta el punto de vomitar) durante el primer trimestre del embarazo. Hay muchos datos como este disponibles. ¿Sabías que un antojo de hielo es un signo potencial de anemia? Al parecer lo es: 44% de los pacientes con anemia tienen el deseo de comer hielo. Ejemplos similares no son difíciles de encontrar. Vale la pena señalar, además, que a veces la probabilidad inversa en cuestión —\(P(E | H)\) — es 1. En el caso de una predicción hecha por una hipótesis científica, esto es así. La teoría de la gravitación universal de Isaac Newton, por ejemplo, predice que los objetos caídos desde la misma altura tardarán la misma cantidad de tiempo en llegar al suelo, independientemente de sus pesos (siempre que la resistencia al aire no sea un factor). Esta predicción es solo un resultado matemático de la ecuación que rige la atracción gravitacional. Entonces, si\(H\) es la teoría de Newton y\(E\) es una bola de boliche y una pluma tomando la misma cantidad de tiempo para caer, entonces\(P(E | H) = 1\); si la teoría de Newton es cierta, entonces es una certeza matemática que se observará la evidencia. (Siempre que haya configurado las cosas cuidadosamente. Echa un vistazo a este video: https://www.youtube.com/watch?v=E43-CfukEgs. )

    Entonces esta versión de la Ley de Bayes es atractiva por ambas probabilidades en el numerador:\(P(H)\), la probabilidad previa, es natural, ya que el grado ajustado de creencia debe depender del grado previo de creencia; y\(P(E | H)\) es útil, ya que es una probabilidad que muchas veces podemos conocer con precisión. La fórmula también es agradable en el sentido de que concuerda bien con nuestras intuiciones sobre cómo debería funcionar la creencia-revisión. Esto lo hace de tres maneras.

    Primero, sabemos que las hipótesis inverosímiles son difíciles de hacer creer a la gente; como alguna vez lo expresó Carl Sagan, “Las afirmaciones extraordinarias requieren pruebas extraordinarias”. Poniendo esto en términos de probabilidades personales, una hipótesis inverosímil —y un reclamo extraordinario— es solo una con un previo bajo:\(P(H)\) es una pequeña fracción. Considera un ejemplo. En las secuelas inmediatas de las elecciones presidenciales de Estados Unidos de 2016, algunas personas afirmaron que la elección fue amañada (posiblemente por Rusia) a favor de Donald Trump a través de un esquema masivo de piratería informática que manipuló los totales de votos en recintos clave. (Nota: esto es independiente de la afirmación altamente plausible de que los rusos hackearon correos electrónicos del Comité Nacional Demócrata y los dieron a conocer a los medios antes de las elecciones). Tenía muy poca confianza en esta hipótesis —le di una probabilidad previa extremadamente baja— por muchas razones, pero dos en particular: a) Las máquinas de votación en recintos individuales no están conectadas entre sí, por lo que cualquier esquema de hackeo tendría que llevarse a cabo máquina por máquina a través de cientos, si no miles—de recintos, una operación de complejidad casi imposible; b) Una organización con recursos financieros prácticamente ilimitados y la motivación más fuerte posible para descubrir tal esquema —es decir, la campaña Clinton— miró los datos y concluyó que no estaba pasando nada a pescado. Pero nada de esto impidió que los simpatizantes de Clinton, pensadores de deseos, buscaran pruebas de que de hecho la solución había sido para Trump. (Aquí hay un resumen representativo: http://www.dailykos.com/story/2016/1...mpaign-Please - Desafía-el-voto-en-4-estados-como-los-datos-dice-usted-won-nc-p A-WI-FL) Cuando la gente me presentó este tipo de evidencia, mira estos números de participación sospechosamente altos de un puñado de recintos rurales ¡Wisconsin! —mi grado de creencia en la hipótesis —de que los rusos habían hackeado las elecciones— apenas cedió. Esto es correcto; nuevamente, las afirmaciones extraordinarias requieren pruebas extraordinarias, y yo no la veía. Este hecho intuitivo sobre cómo se supone que debe funcionar la creencia-revisión está confirmado por la ecuación para la Ley de Bayes. Las hipótesis inverosímiles tienen un previo bajo—P (H) es una fracción pequeña. Es difícil aumentar nuestro grado de creencia en tales proposiciones —P (H | E) no aumenta fácilmente— simplemente porque estamos multiplicando por una fracción baja en el numerador al calcular la nueva probabilidad.

    La matemática refleja la mecánica real de la creencia-revisión de dos maneras más. He aquí una verdad: cuanto más fuertemente predictiva es la evidencia para una hipótesis dada, más apoya esa hipótesis cuando la observamos. Vimos anteriormente que las mujeres que están embarazadas experimentan náuseas matutinas alrededor del 60% del tiempo; además, las pacientes que sufren de anemia anhelan hielo (por alguna razón) 44% de las veces. En otras palabras, vomitar por la mañana es más fuertemente predictivo del embarazo que el ansia de hielo es de anemia. Las náuseas matutinas aumentarían la creencia en la hipótesis del embarazo más que el deseo de hielo aumentaría la creencia en la anemia. Nuevamente, esta observación banal se confirma en la ecuación para la Ley de Bayes. Cuando calculamos con qué fuerza debemos creer en una hipótesis a la luz de la evidencia —P (H | E) —siempre multiplicamos en el numerador por la probabilidad condicional inversa —P (E | H) —la probabilidad de que se observe la evidencia, asumiendo que la hipótesis es cierta. Para embarazo/enfermedad, esto significa multiplicar por .6; para anemia/antojo de hielo, multiplicamos por .44. En el primer caso, nos estamos multiplicando por un número mayor, por lo que nuestro grado de creencia aumenta más.

    Un tercer dato intuitivo sobre la creencia-revisión que nuestra ecuación captura correctamente es este: evidencia sorprendente proporciona una fuerte confirmación de una hipótesis. Consideremos el ejemplo de la teoría general de la relatividad de Albert Einstein, que proporcionó una nueva forma de entender la gravedad: la presencia de objetos masivos en una determinada región del espacio afecta a la geometría del espacio mismo, haciendo que se curva en esa vecindad. La teoría de Einstein tiene una serie de consecuencias sorprendentes, una de las cuales es que debido a que el espacio está deformado alrededor de objetos masivos, la luz no viajará en línea recta en esos lugares. (O, es viajar en línea recta, apenas a través de un espacio que es curvo. Lo mismo.) En este ejemplo, H es la teoría general de la relatividad de Einstein, y E es una observación de la luz siguiendo un camino curvilíneo. Cuando Einstein presentó por primera vez su teoría en 1915, fue recibida con incredulidad por la comunidad científica, sobre todo por esta asombrosa predicción. ¿Flexión de luz? ¡Loco! Y sin embargo, cuatro años después, Arthur Eddington, astrónomo inglés, ideó y ejecutó un experimento en el que apenas se observó tal efecto. Tomó fotos de estrellas en el cielo nocturno, luego mantuvo su cámara entrenada en el mismo lugar y tomó otra foto durante un eclipse de sol (la única vez que las estrellas también serían visibles durante el día). El nuevo cuadro mostraba a las estrellas en posiciones ligeramente diferentes, pues durante el eclipse, su luz tuvo que pasar cerca del sol, cuya masa provocó que su camino se desviara ligeramente, tal y como predijo Einstein. Tan pronto como Eddington hizo públicos sus resultados, periódicos de todo el mundo anunciaron la confirmación de la relatividad general y Einstein se convirtió en una estrella. Como dijimos, resultados sorprendentes proporcionan una fuerte confirmación; casi nada podría ser más sorprendente que la flexión de la luz. Podemos poner esto en términos de probabilidades personales. La luz de flexión fue la evidencia, por lo que P (E) representa el grado de creencia que alguien tendría en la proposición de que la luz recorrerá un camino curvilíneo. Este era un número muy bajo antes de los experimentos de Eddington. Cuando usamos es calcular con qué fuerza debemos creer en la relatividad general dada la evidencia de que la luz de hecho se dobla —p (H | E) —está en el denominador de nuestra ecuación. Dividir por una fracción muy pequeña significa multiplicar por su recíproco, que es un número muy grande. Esto hace que P (H | E) suba dramáticamente. Nuevamente, las matemáticas reflejan la práctica real del razonamiento.

    Entonces, nuestra formulación inicial de la Ley de Bayes tiene una serie de características atractivas; concuerda bien con nuestras intuiciones sobre cómo funciona realmente la creencia-revisión. Pero no es la versión de la Ley de Bayes la que nos conformaremos en el hacer cálculos reales. En cambio, usaremos una versión que sustituya al denominador—P (E) —por otra cosa. Esto se debe a que ese término es un poco complicado. Es la probabilidad previa de la evidencia. Ese es otro estado subjetivo: cuán fuertemente creías que se observaría la evidencia antes de su observación real, o algo así. La subjetividad no es algo malo en este contexto; estamos tratando de averiguar cómo ajustar los estados subjetivos (grados de creencia), después de todo. Pero cuanto más podamos eliminar del cálculo, más confiables serán nuestros resultados. Como discutimos, la probabilidad subjetiva previa para la hipótesis en cuestión —P (H )— pertenece a nuestra ecuación: cuán fuertemente creemos en algo ahora debería ser una función de lo fuertemente que solíamos creer en él. El otro ítem del numerador—P (E | H) —es muy bienvenido, ya que es algo que a menudo podemos simplemente buscar, un hecho objetivo. Pero P (E) es problemático. Tiene sentido en el caso de la flexión de la luz y la relatividad general. Pero consideremos el ejemplo donde me encuentro con el viejo conocido de mi abuela y ella me cuenta sobre sus afirmaciones de estar relacionada con Mussolini. ¿Cuál fue mi previo para eso? No está claro que ni siquiera hubo uno; la posibilidad probablemente ni siquiera se me ocurrió. Me gustaría deshacerme del denominador actual y reemplazarlo por el tipo de términos que me gustan, los del numerador.

    Esto lo puedo hacer con bastante facilidad. Para ver cómo, será útil considerar el hecho de que cuando estamos evaluando una hipótesis a la luz de alguna evidencia, a menudo hay hipótesis alternativas con las que está compitiendo. Supongamos que tengo un sarpullido de aspecto gracioso en mi piel; esta es la evidencia. Quiero saber qué es lo que lo está causando. Quizá se me ocurran una serie de explicaciones posibles. Es invierno, así que tal vez solo sea piel seca; esa es una hipótesis. Llámenlo 'H1'. Otra posibilidad: acabamos de empezar a usar un nuevo detergente para ropa en mi casa; tal vez estoy teniendo una reacción. H2 = detergente. Quizá sea más grave, sin embargo. Me subo al Google y empiezo a buscar. H3 = psoriasis (un tipo de enfermedad de la piel). Entonces mi hipocondría se sale de control, y me asusta mucho: H4 = lepra. Eso es todo lo que se me ocurre, pero puede que no sea ninguna de esas: H5 = alguna otra causa.

    Tengo cinco posibles explicaciones para mi erupción, cinco hipótesis en las que podría creer hasta cierto punto a la luz de las pruebas. Observe que la lista es exhaustiva: ya que agregué H5 (algo más), una de las cinco hipótesis explicará el sarpullido. Como este es el caso, podemos decir con certeza que tengo sarpullido y es causado por el frío, o tengo sarpullido y es causado por el detergente, o tengo sarpullido y es causado por psoriasis, o tengo sarpullido y es causado por lepra, o tengo sarpullido y es causado por otra cosa. En términos generales, cuando una lista de hipótesis es exhaustiva de las posibilidades, la siguiente es una verdad de lógica:

    \[E ≡ (E • H_1) ∨ (E • H_2) ∨ ... ∨ (E • H_n)\]

    Para cada una de las conjunciones, no importa en qué orden pongas las conjunciones, así que esto es cierto, también:

    \[E ≡ (H_1 •E) ∨ (H_2 •E) ∨ ... ∨ (H_n •E)\]

    Recuerda, estamos tratando de reemplazar P (E) en el denominador de nuestra fórmula. Bueno, si E es equivalente a esa disyunción larga, entonces P (E) es igual a la probabilidad de la disyunción:

    \[P(E) = P[(H_1 •E) ∨ (H_2 •E) ∨ ... ∨ (H_n •E)]\]

    Estamos calculando una probabilidad disyuntiva. Si asumimos que las hipótesis son mutuamente excluyentes (solo una de ellas puede ser cierta), entonces podemos usar la Regla de Adición Simple (lo sé. En el ejemplo, tal vez sea el clima frío y el nuevo detergente causando mi sarpullido. Dejemos esa posibilidad a un lado. ):

    \[P(E) = P(H_1 • E) + P(H_2 • E) + ... + P(H_n • E)\]

    Cada ítem de la suma es un cálculo de probabilidad conjuntivo, para lo cual podemos usar la Regla General del Producto:

    \[P(E) = P(H_1) \times P(E | H_1) + P(H_2) \times P(E | H_2) + ... + P(H_n) \times P(E | H_n)\]

    Y mira lo que tenemos ahí: cada ítem de la suma es ahora un producto de exactamente los dos tipos de términos que me gustan: una probabilidad previa para una hipótesis, y la probabilidad condicional inversa de la evidencia asumiendo que la hipótesis es cierta (lo que a menudo puedo simplemente mirar hacia arriba). No me gustó mi viejo denominador, pero equivale a algo que me encanta. Entonces voy a reemplazarlo. Esta es nuestra versión final de la Ley de Bayes:

    \[\mathrm{P}\left(\mathrm{H}_{\mathrm{k}} | \mathrm{E}\right)=\frac{\mathrm{P}\left(\mathrm{H}_{\mathrm{k}}\right) \times \mathrm{P}\left(\mathrm{E} | \mathrm{H}_{\mathrm{k}}\right)}{\mathrm{P}\left(\mathrm{H}_{1}\right) \times \mathrm{P}\left(\mathrm{E} | \mathrm{H}_{1}\right)+\mathrm{P}\left(\mathrm{H}_{2}\right) \times \mathrm{P}\left(\mathrm{E} | \mathrm{H}_{2}\right)+\ldots+\mathrm{P}\left(\mathrm{H}_{\mathrm{n}}\right) \times \mathrm{P}\left(\mathrm{E} | \mathrm{H}_{\mathrm{n}}\right)}\]

    con\(1 \leq \mathrm{k} \leq \mathrm{n}\).

    (Agregamos el subíndice '\(k\)' a la hipótesis que nos entretenemos, y estipulamos que la k está entre 1 y n simplemente para asegurar que la hipótesis en cuestión se encuentre entre el conjunto de posibilidades exhaustivas, mutuamente excluyentes\(H_1\),\(H_2\),...,\(H_n\).)

    Veamos cómo funciona esto en la práctica. Considere el siguiente escenario:

    Tu mamá hace las compras de comestibles en tu casa. Ella va a dos tiendas: Fairsley Foods y Gibbons' Market. Gibbones está más cerca de casa, así que va allí más a menudo— 80% del tiempo. Fairsley a veces tiene grandes ofertas, sin embargo, así que conduce la distancia extra y compra allí el 20% del tiempo.

    No puedes soportar a Fairsley. En primer lugar, tienen estos molestos comerciales con el loco dueño gritando a la cámara y actuando como un tonto. Segundo, te perdiste ahí una vez cuando eras pequeño y aún tienes cicatrices emocionales. Por último, su sección de productos es terrible: en particular, sus melocotones —tu fruta favorita— suelen ser harinosos y sosos, prácticamente incomestibles. De hecho, estás tan obsesionado con los buenos melocotones que hiciste un estudio de ello, recolectando muestras durante un periodo de tiempo de ambas tiendas, degustando y registrando tus datos. Resulta que los melocotones de Fairsley son malos el 40% del tiempo, mientras que los de Gibbons' solo son malos el 20% del tiempo. (Los melocotones son una fruta voluble; tienes que esperar algunos malos por mucho cuidado que tomes).

    De todas formas, un buen día entras a la cocina y notas un montón de melocotones en la canasta de frutas; mamá aparentemente acaba de ir de compras. Lamiendo tus labios, agarras un durazno y tomas un mordisco. ¡Uf! Harinoso, suave, horrible. “Estúpido Fairsley”, murmuras mientras escupes la fruta. Pregunta: ¿es racional tu creencia de que el durazno vino de Fairsley? ¿Qué tan fuerte debes creer que vino de esa tienda?

    Este es el tipo de pregunta que la Ley de Bayes puede ayudarnos a responder. Es preguntarnos qué tan fuerte debemos creer en algo; eso es simplemente calcular una probabilidad (condicional). Queremos saber con qué fuerza debemos creer que el durazno vino de Fairsley; esa es nuestra hipótesis. Vamos a llamarlo 'F'. Este tipo de cálculos son siempre de probabilidades condicionales: queremos la probabilidad de la hipótesis dada la evidencia. En este caso, la evidencia es que el durazno estaba mal; llamémoslo 'B'. Entonces la probabilidad que queremos calcular es P (F | B) —la probabilidad de que el durazno viniera de Fairsley dado que es malo.

    En este punto, hacemos referencia a la Ley de Bayes y enchufamos las cosas en la fórmula. En el numerador, queremos la probabilidad previa para nuestra hipótesis, y la probabilidad condicional inversa de la evidencia asumiendo que la hipótesis es verdadera:

    \[\mathrm{P}(\mathrm{F} | \mathrm{B})=-\frac{\mathrm{P}(\mathrm{F}) \times \mathrm{P}(\mathrm{B} | \mathrm{F})}{\test{ }}\]

    En el denominador, necesitamos una suma, teniendo cada término en la suma exactamente la misma forma que nuestro numerador: una probabilidad previa para una hipótesis multiplicada por la probabilidad condicional inversa. La suma tiene que tener uno de esos términos para cada una de nuestras posibles hipótesis. En nuestro escenario, sólo hay dos: que el fruto vino de Fairsley, o que vino de Gibbons'. Llamemos a la segunda hipótesis 'G'. Nuestro cálculo se ve así:

    \[\mathrm{P}(\mathrm{F} | \mathrm{B})=\frac{\mathrm{P}(\mathrm{F}) \times \mathrm{P}(\mathrm{B} | \mathrm{F})}{\mathrm{P}(\mathrm{F}) \times \mathrm{P}(\mathrm{F} | \mathrm{B})+\mathrm{P}(\mathrm{G}) \mathrm{x} \mathrm{P}(\mathrm{F} | \mathrm{G})}\]

    Ahora sólo tenemos que encontrar números concretos para estas diversas probabilidades en nuestra pequeña historia. Primero, P (F) es la probabilidad previa de que el durazno viniera de Fairsley —es decir, la probabilidad de que le hubieras asignado viniendo de Fairsley antes de descubrir la evidencia de que era malo— antes de darle un mordisco. Bueno, conocemos los hábitos de compra de mamá: 80% de las veces va a Gibbons'; 20% de las veces va a Fairsley. Entonces, un trozo de comida al azar, nuestro durazno, por ejemplo, tiene una probabilidad del 20% de venir de Fairsley. P (F) = .2. Y para el caso, el durazno tiene una probabilidad de 80% de provenir de Gibbons', por lo que la probabilidad previa para esa hipótesis —P (G) —es .8. ¿Qué pasa con P (B | F)? Esa es la probabilidad condicional de que un durazno va a ser malo asumiendo que vino de Fairsley. ¡Eso lo sabemos! Usted realizó un estudio sistemático y concluyó que 40% de los melocotones de Fairsley son malos; P (B | F) = .4. Además, su estudio demostró que el 20% de los melocotones de Gibbons' eran malos, por lo que P (G | F) = .2. Ahora podemos enchufar los números y hacer el cálculo:

    \[P(F | B)=\frac{0.2 \times 0.4}{(0.2 \times 0.4)+(0.8 \times 0.2)}=\frac{0.08}{0.08 + 0.16}=-\frac{1}{3}\]

    De hecho, la probabilidad de que el durazno malo que probaste viniera de Fairsley —la conclusión a la que saltaste en cuanto tomaste un bocado— es solo 1/3. Es el doble de probabilidades de que el durazno viniera de Gibbons'. Tu creencia no es racional. A pesar de que los melocotones Fairsley son malos al doble de la tasa de Gibbons', es mucho más probable que tu durazno provenga de Gibbons', principalmente porque tu mamá hace mucho más de sus compras allí.

    Entonces aquí tenemos una instancia de la Ley de Bayes que realiza la función de una lógica, proporcionando un método para distinguir el bien del mal razonamiento. Nuestra pequeña historia, resulta, representaba una instancia de esta última, y la Ley de Bayes demostró que el razonamiento era malo al proporcionar un estándar contra el cual medirlo. La Ley de Bayes, sobre esta interpretación, es un modelo de creencia-revisión perfectamente racional. Por supuesto, muchos ejemplos de la vida real de ese tipo de razonamiento no pueden ser sometidos al tipo de análisis riguroso que permitieron los números (compuestos) en nuestro escenario. Cuando en realidad estamos ajustando nuestras creencias a la luz de la evidencia, a menudo nos faltan números precisos; no caminamos con una calculadora y una ficha con la Ley de Bayes en ella, procesando los números cada vez que aprendemos cosas nuevas. Sin embargo, nuestras prácticas reales deben estar informadas por principios bayesianos; deben aproximarse al tipo de proceso riguroso ejemplificado por la fórmula. Debemos tener presente la necesidad de estar abiertos a ajustar nuestras convicciones previas, el hecho de que existen y hay que tomar en consideración posibilidades alternativas, la significación de la probabilidad y la incertidumbre para nuestras deliberaciones sobre qué creer y con qué fuerza creerlo. Nuevamente, Hume: la persona sabia proporciones la creencia según la evidencia.

    Ejercicios

    1. Las mujeres tienen el doble de probabilidades de sufrir trastornos de ansiedad que los hombres: 8% a 4%. También es más probable que asistan a la universidad: en estos días, se trata de una proporción de 60/40 entre mujeres y hombres. (¿Están relacionados estos dos fenómenos? Esa es una pregunta para otro momento.) Si una persona al azar es seleccionada de mi clase de lógica, y esa persona sufre de un trastorno de ansiedad, ¿cuál es la probabilidad de que sea una mujer?

    2. Supongamos que soy un trabajador voluntario en mi lugar de votación local. Es bastante conservador donde vivo: el 75% de los votantes son republicanos; solo el 25% son demócratas (los votantes de terceros son tan raros que pueden ser ignorados). Y son bastante leales: los votantes que normalmente favorecen a los republicanos solo cruzan el pasillo y votan demócratas el 10% de las veces; normalmente los votantes demócratas solo cambian de bando el 20% del tiempo. El día de las elecciones de 2016 (es la demócrata Hillary Clinton contra el republicano Donald Trump para presidente), mi curiosidad me saca lo mejor de mí, y tengo que echar un vistazo, así que meto la mano en el montón de papeletas (pretender que no es una máquina de escaneo electrónico que cuenta las boletas, sino una caja anticuada con papeletas de papel) y elige uno al azar. Es un voto para Hillary. ¿Cuál es la probabilidad de que fuera lanzado por un elector republicano (normalmente)?

    3. Entre los residentes de Wisconsin, el 80% son fanáticos de los Green Bay Packers, el 10% son fanáticos de los Chicago Bears y el 10% favorecen a algún otro equipo de fútbol (estamos asumiendo que cada Wisconsinite tiene un equipo favorito). Los fanáticos de los Packer no tienen miedo de mostrar su espíritu: el 75% de ellos usa ropa con el logotipo del equipo. Los fanáticos de los osos son bastante reacios a revelar sus lealtades en territorio tan hostil, por lo que solo el 25% de ellos son lo suficientemente odiosos como para llevar ropa de Bears. Los fanáticos de otros equipos no están tan asustados: el 50% de ellos usa el equipo de sus equipos. Tengo un vecino que no usa ropa con el logo de su equipo favorito. Sospechoso (¿FIB?). ¿Cuál es la probabilidad de que sea fanático de los Bears?

    4. En mi clase de lógica, el 20% de los estudiantes están muertos: en los exámenes, simplemente adivinan al azar. El 60% de los estudiantes son bastante buenos, pero poco espectaculares: obtienen respuestas correctas el 80% del tiempo. El 20% restante de los alumnos son genios: obtienen respuestas correctas el 100% del tiempo. Doy un examen verdadero/falso. Después, elijo uno de los exámenes concluidos al azar; el alumno obtuvo las dos primeras preguntas correctas. ¿Cuál es la probabilidad de que sea uno de los muertos?


    This page titled 6.3: Probabilidad y Creencia - Razonamiento Bayesiano is shared under a CC BY 4.0 license and was authored, remixed, and/or curated by Matthew Knachel via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.