10.3: Teorema de Bayes

Última actualización
Guardar como PDF

Page ID: 113018

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

En esta sección, nos concentramos en los problemas de probabilidad condicional más complejos que comenzamos a analizar en la última sección.

Ejemplo\(\PageIndex{1}\)

Supongamos que cierta enfermedad tiene una tasa de incidencia de 0.1% (es decir, aflige a 0.1% de la población). Se ha ideado una prueba para detectar esta enfermedad. La prueba no produce falsos negativos (es decir, cualquier persona que tenga la enfermedad dará positivo por ella), pero la tasa de falsos positivos es del 5% (es decir, alrededor del 5% de las personas que toman la prueba darán positivo, aunque no tengan la enfermedad). Supongamos que una persona seleccionada al azar toma la prueba y da positivo. ¿Cuál es la probabilidad de que esta persona realmente tenga la enfermedad?

Hay dos formas de abordar la solución a este problema. Uno involucra un resultado importante en la teoría de la probabilidad llamado teorema de Bayes. Discutiremos este teorema un poco más adelante, pero por ahora usaremos un enfoque alternativo y, esperamos, mucho más intuitivo.

Vamos a desglosar la información en el problema pieza por pieza.

Supongamos que cierta enfermedad tiene una tasa de incidencia de 0.1% (es decir, aflige a 0.1% de la población). El porcentaje 0.1% se puede convertir a un número decimal moviendo el decimal dos lugares hacia la izquierda, para obtener 0.001. A su vez, 0.001 se puede reescribir como una fracción:\(\dfrac{1}{1000}\). Esto nos dice que alrededor de 1 de cada 1000 personas tiene la enfermedad. (Si quisiéramos podríamos escribir\(P(\text{disease})=0.001\).)

Se ha ideado una prueba para detectar esta enfermedad. La prueba no produce falsos negativos (es decir, cualquier persona que tenga la enfermedad dará positivo por ella). T su parte es bastante sencilla: todos los que tienen la enfermedad darán positivo, o alternativamente todos los que den negativo no tienen la enfermedad. (También podríamos decir\(P(\text{positive} | \text{disease})=1\).)

La tasa de falsos positivos es del 5% (es decir, alrededor del 5% de las personas que toman la prueba darán positivo, aunque no tengan la enfermedad). Esto es aún más sencillo. Otra forma de verlo es que de cada 100 personas que se hacen la prueba y no tienen la enfermedad, 5 darán positivo aunque no tengan la enfermedad. (También podríamos decir eso\(P(\text{positive} | \text{no disease})=0.05\).)

Supongamos que una persona seleccionada al azar toma la prueba y da positivo. ¿Cuál es la probabilidad de que esta persona realmente tenga la enfermedad? Aquí queremos computar\(P(\text{disease}|\text{positive})\). Eso ya lo sabemos\(P(\text{positive}|\text{disease})=1\), pero recuerda que las probabilidades condicionales no son iguales si se cambian las condiciones.

En lugar de pensar en términos de todas estas probabilidades que hemos desarrollado, creemos una situación hipotética y apliquemos los hechos como se expuso anteriormente. Primero, supongamos que seleccionamos aleatoriamente 1000 personas y administramos la prueba. ¿Cuántos esperamos que tengan la enfermedad? Ya que aproximadamente\(\dfrac{1}{1000}\) de todas las personas están aquejadas de la enfermedad,\(\dfrac{1}{1000}\) de 1000 personas es 1. (Ahora ya sabes por qué elegimos 1000.) Solo 1 de los 1000 sujetos de prueba en realidad tiene la enfermedad; los otros 999 no.

También sabemos que el 5% de todas las personas que no tienen la enfermedad darán positivo en la prueba. Hay 999 personas libres de enfermedad, por lo que esperaríamos\((0.05)(999)=49.95\) (entonces, alrededor de 50) personas que den positivo en la prueba que no tienen la enfermedad.

Ahora volvamos a la pregunta original, la computación\(P(\text{disease}|\text{positive})\). Hay 51 personas que dan positivo en nuestro ejemplo (la única persona desafortunada que realmente tiene la enfermedad, más las 50 personas que dieron positivo pero no). Sólo una de estas personas tiene la enfermedad, por lo que

\(P(\text{disease} | \text{positive}) ≈ \dfrac{1}{51} ≈ 0.0196\)

o menos del 2%. ¿Te sorprende esto? Esto significa que de todas las personas que dan positivo en la prueba, más del 98% no tienen la enfermedad.

La respuesta que obtuvimos fue ligeramente aproximada, ya que redondeamos 49.95 a 50. Podríamos rehacer el problema con 100,000 sujetos de prueba, 100 de los cuales tendrían la enfermedad y\((0.05)(99,900)=4995\) darían positivo pero no tienen la enfermedad, por lo que la probabilidad exacta de tener la enfermedad si da positivo en la prueba es

\(P(\text{disease} | \text{positive}) ≈ \dfrac{100}{5095} ≈ 0.0196\)

que es más o menos la misma respuesta.

Pero volvamos al sorprendente resultado. De todas las personas que dan positivo en la prueba, más del 98% no tienen la enfermedad. Si tu suposición para la probabilidad de que una persona que da positivo tenga la enfermedad fue tremendamente diferente de la respuesta correcta (2%), no te sientas mal. El mismo problema se planteó a médicos y estudiantes de medicina de la Escuela de Medicina de Harvard hace 25 años y los resultados revelados en un artículo de 1978 del New England Journal of Medicine. Sólo alrededor del 18% de los participantes obtuvieron la respuesta correcta. La mayoría del resto pensó que la respuesta estaba más cerca del 95% (quizás fueron engañados por la tasa de falsos positivos del 5%).

Entonces al menos deberías sentirte un poco mejor que un grupo de médicos tampoco obtuvieron la respuesta correcta (asumiendo que pensabas que la respuesta era mucho mayor). Pero la importancia de este hallazgo y resultados similares de otros estudios en los años intermedios no radica en hacer que los estudiantes de matemáticas se sientan mejor sino en las posibles consecuencias catastróficas que podría tener para la atención del paciente. Si un médico piensa que las posibilidades de que un resultado positivo de la prueba casi garantice que un paciente tiene una enfermedad, podría comenzar un régimen de tratamiento innecesario y posiblemente dañino en un paciente sano. O peor aún, ya que en los primeros días de la crisis del SIDA cuando el VIH positivo a menudo se equiparaba con una sentencia de muerte, el paciente podría tomar una acción drástica y suicidarse.

Como hemos visto en este ejemplo hipotético, el curso de acción más responsable para tratar a un paciente que da positivo sería aconsejar al paciente que lo más probable es que no tenga la enfermedad y ordenar más pruebas, más confiables, para verificar el diagnóstico.

Una de las razones por las que los médicos y estudiantes de medicina en el estudio lo hicieron tan mal es que tales problemas, cuando se presentan en los tipos de cursos de estadística que suelen tomar los estudiantes de medicina, se resuelven mediante el uso del teorema de Bayes, que se afirma de la siguiente manera:

Teorema de Bayes

\[P(A | B) = \dfrac{P(A)P(B|A)}{P(A)P(B|A) + P(\overline{A})P(B|\overline{A})} \nonumber \]

En nuestro ejemplo anterior, esto se traduce en

\(P(\text{disease} | \text{positive}) = \dfrac{P(\text{disease}) P(\text{positive} | \text{disease})}{P(\text{disease}) P(\text{positive} | \text{disease}) + P(\text{no disease}) P(\text{positive} | \text{no disease})} \)

El enchufar los números da

\(P(\text{disease} | \text{positive}) = \dfrac{(0.001)(1)}{(0.001)(1) + (0.999)(0.05)} ≈ 0.0196 \)

que es exactamente la misma respuesta que nuestra solución original.

El problema es que tú (o el típico estudiante de medicina, o incluso el típico profesor de matemáticas) es mucho más probable que puedas recordar la solución original que recordar el teorema de Bayes. Psicólogos, como Gerd Gigerenzer, autor de Calculated Risk: How to Know When Numbers Engeive You, han abogado por que se emplee el método involucrado en la solución original (que Gigerenzer llama el método de “frecuencias naturales”) en lugar del Teorema de Bayes. Gigerenzer realizó un estudio y encontró que los educados en el método de frecuencia natural pudieron recordarlo mucho más tiempo que aquellos a quienes se les enseñó el teorema de Bayes. Cuando uno considera las posibles consecuencias de vida o muerte asociadas a tales cálculos, parece prudente atender sus consejos.

Ejemplo\(\PageIndex{2}\)

Cierta enfermedad tiene una tasa de incidencia del 2%. Si la tasa de falsos negativos es del 10% y la tasa de falsos positivos es del 1%, compute la probabilidad de que una persona que da positivo realmente tenga la enfermedad.

Solución

Imagina 10 mil personas que se hacen la prueba. De estos 10 mil, 200 tendrán la enfermedad; 10% de ellos, o 20, darán negativo y los 180 restantes darán positivo. De los 9800 que no tienen la enfermedad, 98 darán positivo. Entonces, del total de 278 personas que dan positivo en la prueba, 180 tendrán la enfermedad. Por lo tanto,

\(P(\text{disease} | \text{positive}) = \dfrac{180}{278} ≈ 0.647 \)

por lo que alrededor del 65% de las personas que dan positivo en la prueba tendrán la enfermedad.

El uso directo del teorema de Bayes daría el mismo resultado:

\(P(\text{disease} | \text{positive}) = \dfrac{(0.02)(0.90)}{(0.02)(0.90) + (0.98)(0.01)} = \dfrac{0.018}{0.0278} ≈ 0.647 \)

Pruébalo ahora 5

Cierta enfermedad tiene una tasa de incidencia de 0.5%. Si no hay falsos negativos y si la tasa de falsos positivos es del 3%, computa la probabilidad de que una persona que da positivo realmente tenga la enfermedad.