22.8: Cuidado con la paradoja de Simpson

Última actualización
Guardar como PDF

Page ID: 150743

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Las tablas de contingencia presentadas anteriormente representan resúmenes de un gran número de observaciones, pero en ocasiones los resúmenes pueden ser engañosos. Tomemos un ejemplo del beisbol. La siguiente tabla muestra los datos de bateo (bateos/bateados y promedio de bateo) para Derek Jeter y David Justice a lo largo de los años 1995-1997:

Jugador	1995		1996		1997		Combinado
Derek Jeter	12/48	.250	183/582	.314	190/654	.291	385/1284	.300
David Justicia	104/411	.253	45/140	.321	163/495	.329	312/1046	.298

Si miras de cerca, verás que algo extraño está pasando: En cada año individual Justice tenía un promedio de bateo más alto que Jeter, pero cuando combinamos los datos en los tres años, ¡el promedio de Jeter es en realidad más alto que el de Justice! Este es un ejemplo de un fenómeno conocido como paradoja de Simpson, en el que un patrón que está presente en un conjunto de datos combinado puede no estar presente en ninguno de los subconjuntos de los datos. Esto ocurre cuando hay otra variable que puede estar cambiando entre los diferentes subconjuntos; en este caso, el número de turnos al bate varía a lo largo de los años, con Justice bateando muchas más veces en 1995 (cuando los promedios de bateo eran bajos). Nos referimos a esto como una variable al acecho, y siempre es importante estar atentos a tales variables cada vez que se examinan datos categóricos.