Saltar al contenido principal
LibreTexts Español

13.2: Malos de Regresión Stepwise

  • Page ID
    150159
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Casi todos los paquetes de software estadístico (incluyendo RR) permiten una serie de “estrategias de búsqueda” mecánicas para encontrar IVs que hacen una contribución estadísticamente significativa a la predicción de la variable dependiente del modelo. El más común de estos se llama regresión paso a paso, que también puede denominarse hacia adelante, hacia atrás (¡o tal vez incluso al revés!) regresión paso a paso. Los procedimientos paso a paso no requieren que el analista piense, solo hay que designar un grupo de posibles IVs y dejar que el paquete funcione, tamizando los IV para identificar aquellos que (sobre la base de sus datos de muestra) parecen estar relacionados con la variable dependiente del modelo. Los procedimientos paso a paso utilizan pruebas F secuenciales, agregando secuencialmente variables que “mejoran el ajuste” del modelo sin sentido hasta que no haya más IVs que cumplan algún umbral (generalmente p<0.05p<0.05) de significancia estadística. Estos procedimientos son como escurrir mecánicamente toda la explicación que puedes obtener para YY de alguna piscina de XX.

    Ya debes reconocer que este tipo de métodos plantean serios problemas. En primer lugar, se trata de una aproximación teórica a la construcción de modelos. Pero, ¿y si no tienes ninguna teoría para empezar? ¿Entonces es apropiado un enfoque gradual? No, por varias razones. Si alguna de las variables XX candidatas está fuertemente correlacionada, la inclusión de la primera “agotará” parte de la explicación de la segunda, debido a la forma en que OLS calcula los coeficientes de regresión parcial. Por esa razón, una vez seleccionada mecánicamente una de las variables, la otra tenderá a ser excluida porque tendrá menos para contribuir a YY. Quizás más condenatorio, los enfoques paso a paso son altamente susceptibles a la inclusión de variables espúreamente relacionadas. Recordemos que estamos utilizando muestras, extraídas de la población más grande, y que las muestras están sujetas a variación aleatoria. Si el proceso paso a paso utiliza el corte clásico 0.05 para la inclusión de una variable, eso significa que una vez en veinte (a la larga) incluiremos una variable que cumpla con el criterio solo por casualidad aleatoria. 23 Recordemos que la prueba de hipótesis clásica requiere que especifiquemos nuestra hipótesis de antemano; los procesos paso a paso simplemente hurgan dentro de un conjunto de IVs potenciales para encontrar aquellos que encajen.

    Se han registrado casos notables en los que la construcción de modelos mecánicos ha dado como resultado “hallazgos” seriamente problemáticos que tienen implicaciones muy costosas para la sociedad. Uno se relata en el episodio de PBS Frontline llamado “Corrientes del miedo”. ^ [El programa fue escrito, producido y dirigido por Jon Palfreman, y fue transmitido por primera vez el 13 de junio de 1995. La transcripción completa se puede encontrar aquí. La historia se refiere a si los campos electromagnéticos (CEM) de tecnologías que incluyen líneas eléctricas de alto voltaje causan cáncer en personas que están expuestas. El problema era que se podían identificar “grupos de cáncer” que estaban próximos a las líneas eléctricas, pero ningún experimento de laboratorio pudo encontrar una conexión. No obstante, ciudadanos y activistas preocupados persistieron en creer que había una relación causal. En ese contexto, el gobierno sueco patrocinó un estudio muy ambicioso para resolver la cuestión. Aquí está el texto de la discusión del programa Frontline:

    ... en 1992, apareció un estudio histórico de Suecia. Una investigación enorme, inscribió a todos los que vivían a menos de 300 metros del sistema de líneas de transmisión de alto voltaje de Suecia durante un período de 25 años. Fueron mucho más allá de todos los estudios previos en sus esfuerzos por medir los campos magnéticos, calculando los campos a los que estaban expuestos los niños al momento de su diagnóstico de cáncer y antes. Este estudio reportó una asociación aparentemente clara entre la exposición al campo magnético y la leucemia infantil, con una relación de riesgo para los más expuestos de casi 4.

    El gobierno sueco anunció que estaba investigando nuevas opciones de política, incluyendo si alejar a los niños de las escuelas cercanas a las líneas eléctricas. Seguramente, aquí estaba la prueba de que las líneas eléctricas eran peligrosas, la prueba que hasta los físicos y detractores biológicos tendrían que aceptar. Pero tres años después de que se publicara el estudio, la investigación sueca ya no parece tan inatacable. Se trata de una copia del informe original del contratista, que revela la notable minuciosidad del equipo sueco. A diferencia del artículo publicado, que apenas resume parte de los datos, el reporte muestra todo lo que hicieron con gran detalle, todas las cosas que midieron y todas las comparaciones que hicieron.

    Cuando los científicos vieron cuántas cosas habían medido —casi 800 ratios de riesgo están en el informe— comenzaron a acusar a los suecos de caer en uno de los errores más fundamentales en epidemiología, a veces llamado falacia de las comparaciones múltiples.

    Entonces, según el informe Frontline, el estudio sueco EMF retrocedió la incidencia de casi 800 posibles cánceres hacia la proximidad de sus ciudadanos a las líneas eléctricas de alta tensión. En algunos casos, parecía haber una relación positiva. Estos reportaron. En otros casos, no había relación, y en algunos la relación era negativa -lo que parecería implicar (si fueras tan tonto como para hacerlo) que vivir cerca de las líneas de alta tensión en realidad protegía a las personas del cáncer. Pero solo se incluyeron en los reportes las relaciones positivas, lo que llevó a una falsa impresión de que el estudio había confirmado que la proximidad a líneas de alto voltaje causa cáncer. Vergonzoso para los autores del estudio, por decirlo suavemente.


    This page titled 13.2: Malos de Regresión Stepwise is shared under a CC BY 4.0 license and was authored, remixed, and/or curated by Jenkins-Smith et al. (University of Oklahoma Libraries) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.