4.3: El proceso de eliminación hacia atrás

Última actualización
Guardar como PDF

Page ID: 149823

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\id}{\mathrm{id}}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\kernel}{\mathrm{null}\,}\)

\( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\)

\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\)

\( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)

\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)

\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vectorC}[1]{\textbf{#1}} \)

\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

Finalmente estamos listos para desarrollar el modelo de regresión lineal multifactor para el conjunto de datos int00.dat. Como se mencionó en el apartado anterior, debemos encontrar el equilibrio adecuado en el número de predictores que utilizamos en nuestro modelo. Demasiados predictores entrenarán nuestro modelo para seguir demasiado de cerca las variaciones aleatorias (ruido) de los datos. Muy pocos predictores producirán un modelo que puede no ser tan preciso en la predicción de valores futuros como un modelo con más predictores.

Usaremos un proceso llamado eliminación hacia atrás [1] para ayudar a decidir qué predictores mantener en nuestro modelo y cuáles excluir. En la eliminación hacia atrás, comenzamos con todos los predictores posibles y luego usamos lm () para calcular el modelo. Utilizamos la función summary () para encontrar el nivel de significancia de cada predictor. El predictor con menor significancia tiene el mayor valor p. Si este valor es mayor que nuestro umbral de significancia predeterminado, eliminamos ese predictor del modelo y comenzamos de nuevo. Un umbral típico para mantener predictores en un modelo es p = 0.05, lo que significa que hay al menos un 95 por ciento de probabilidad de que el predictor sea significativo. Un umbral de p = 0.10 tampoco es inusual. Repetimos este proceso hasta que los niveles de significancia de todos los predictores que quedan en el modelo estén por debajo de nuestro umbral.

Todos estos enfoques tienen sus ventajas y desventajas, sus partidarios y detractores. Prefiero el proceso de eliminación hacia atrás porque suele ser sencillo determinar qué factor debemos caer en cada paso del proceso. Determinar qué factor probar en cada paso es más difícil con la selección hacia adelante. La eliminación hacia atrás tiene una ventaja adicional, ya que varios factores juntos pueden tener mejor poder predictivo que cualquier subconjunto de estos factores. Como resultado, es más probable que el proceso de eliminación hacia atrás incluya estos factores como grupo en el modelo final que el proceso de selección hacia adelante.

Los procedimientos automatizados tienen un atractivo muy fuerte porque, como individuos tecnológicamente conocedores, tendemos a creer que este tipo de proceso automatizado probablemente probará una gama más amplia de posibles combinaciones de predictores de las que podríamos probar manualmente. Sin embargo, estos procedimientos automatizados carecen de conocimientos intuitivos sobre la naturaleza física subyacente del sistema que se está modelando. La intuición puede ayudarnos a responder a la pregunta de si se trata de un modelo razonable de construir en primer lugar.

A medida que desarrollas tus modelos, te preguntas continuamente si el modelo “tiene sentido”. ¿Tiene sentido que se incluya el factor i pero se excluya el factor j? ¿Existe alguna explicación física que apoye la inclusión o exclusión de algún factor potencial? Aunque los métodos automatizados pueden simplificar el proceso, también hacen que sea demasiado fácil para que te olvides de pensar si cada paso en el proceso de modelado tiene sentido o no.

Search

Text Color

Text Size

Margin Size

Font Type