6.1: Reglas del juego

Última actualización
Guardar como PDF

Page ID: 150609

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Los ensayos médicos son caros. Suministrar medicamentos experimentales a decenas de pacientes y rastrear sus síntomas a lo largo de los meses requiere recursos significativos, y muchas compañías farmacéuticas desarrollan “reglas de detención”, que permiten a los investigadores terminar un estudio temprano si está claro que el medicamento experimental tiene un efecto sustancial. Por ejemplo, si el ensayo solo está medio completo pero ya hay una diferencia estadísticamente significativa en los síntomas con el nuevo medicamento, los investigadores pueden terminar el estudio, en lugar de recopilar más datos para reforzar la conclusión.

Sin embargo, cuando se hace mal, esto puede dar lugar a numerosos falsos positivos.

Por ejemplo, supongamos que estamos comparando dos grupos de pacientes, uno con un medicamento y otro con un placebo. Medimos el nivel de alguna proteína en su torrente sanguíneo como una forma de ver si el medicamento está funcionando. En este caso, sin embargo, la medicación no causa diferencia alguna: los pacientes de ambos grupos tienen los mismos niveles promedio de proteínas, aunque por supuesto los individuos tienen niveles que varían ligeramente.

Comenzamos con diez pacientes en cada grupo, y poco a poco recogemos más datos de más pacientes. A medida que avanzamos, hacemos una\(t\) prueba para comparar los dos grupos y ver si existe una diferencia estadísticamente significativa entre los niveles promedio de proteínas. Podríamos ver un resultado como este simulacro:

Esta gráfica muestra el\(p\) valor de la diferencia entre grupos a medida que recolectamos más datos, con la línea horizontal indicando el\(p=0.05\) nivel de significancia. Al principio, no parece haber diferencia significativa. Entonces recogemos más datos y concluimos que hay. Si nos detuviéramos, nos engañarían: creeríamos que hay una diferencia significativa entre grupos cuando no hay ninguno. A medida que recopilamos aún más datos, nos damos cuenta de que estábamos equivocados, pero luego un poco de suerte nos lleva de vuelta a un falso positivo.

Se esperaría que el descenso de\(p\) valor no ocurriera, ya que no hay diferencia real entre grupos. Después de todo, tomar más datos no debería empeorar nuestras conclusiones, ¿verdad? Y es cierto que si volvemos a ejecutar el juicio podríamos encontrar que los grupos comienzan sin ninguna diferencia significativa y se quedan así a medida que recolectamos más datos, o empezamos con una gran diferencia y rápidamente retroceden a no tener ninguno. Pero si esperamos lo suficiente y probamos después de cada punto de datos, eventualmente cruzaremos cualquier línea arbitraria de significación estadística, incluso si no hay ninguna diferencia real en absoluto. Normalmente no podemos recolectar muestras infinitas, por lo que en la práctica esto no siempre sucede, pero las reglas de detención mal implementadas aún aumentan significativamente las tasas de falsos positivos. ⁵³

A menudo se requiere que los ensayos clínicos modernos registren sus protocolos estadísticos con anticipación, y generalmente preseleccionen solo unos pocos puntos de evaluación en los que prueban sus pruebas, en lugar de realizar pruebas después de cada observación. Esto provoca solo un pequeño aumento en la tasa de falsos positivos, que se puede ajustar eligiendo cuidadosamente los niveles de significancia requeridos y utilizando técnicas estadísticas más avanzadas. ⁵⁶ Pero en campos donde los protocolos no están registrados y los investigadores tienen la libertad de utilizar cualquier método que consideren apropiado, puede haber demonios falsos positivos acechando.