Saltar al contenido principal
LibreTexts Español

5.5: Regresión Múltiple

  • Page ID
    149166
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    Objetivos de aprendizaje
    • Para usar regresión múltiple cuando se tiene más de dos variables de medición, una es la variable dependiente y el resto son variables independientes. Puede usarlo para predecir valores de la variable dependiente, o si tiene cuidado, puede usarlo para sugerencias sobre qué variables independientes tienen un efecto mayor en la variable dependiente.

    Cuándo usarlo

    Utilice regresión múltiple cuando tenga tres o más variables de medición. Una de las variables de medición es la variable dependiente (\(Y\)). El resto de las variables son las variables independientes (\(X\)); piensas que pueden tener un efecto sobre la variable dependiente. El propósito de una regresión múltiple es encontrar una ecuación que mejor prediga la\(Y\) variable como una función lineal de las\(X\) variables.

    Regresión múltiple para predicción

    Un uso de regresión múltiple es la predicción o estimación de un\(Y\) valor desconocido correspondiente a un conjunto de\(X\) valores.

    Fig. 5.5.1 Escarabajo tigre de playa atlántica, Cicindela dorsalis dorsalis.

    Por ejemplo, digamos que te interesa encontrar un hábitat adecuado para reintroducir al raro escarabajo tigre de playa, Cicindela dorsalis dorsalis, que vive en playas arenosas de la costa atlántica de Norteamérica. Has ido a varias playas que ya tienen los escarabajos y has medido la densidad de los escarabajos tigre (la variable dependiente) y varios factores bióticos y abióticos, como la exposición a las olas, el tamaño de las partículas de arena, la pendiente de la playa, la densidad de anfípodos y otros organismos presa, etc. La regresión múltiple daría usted una ecuación que relacionaría la densidad del escarabajo tigre con una función de todas las demás variables. Entonces, si fuiste a una playa que no tiene escarabajos tigre y midiste todas las variables independientes (exposición a las olas, tamaño de partícula de arena, etc.) podrías usar tu ecuación de regresión múltiple para predecir la densidad de escarabajos tigre que podrían vivir ahí si los introdujeras. Esto podría ayudarte a guiar tus esfuerzos de conservación, para que no desperdicies recursos introduciendo escarabajos tigre en playas que no van a apoyar a muchas de ellas.

    Regresión múltiple para entender las causas

    Un segundo uso de la regresión múltiple es tratar de comprender las relaciones funcionales entre las variables dependientes e independientes, para tratar de ver qué podría estar causando la variación en la variable dependiente. Por ejemplo, si hicieras una regresión de la densidad del escarabajo tigre sobre el tamaño de partícula de arena por sí mismo, probablemente verías una relación significativa. Si hicieras una regresión de la densidad del escarabajo tigre sobre la exposición a las olas por sí solo, probablemente verías una relación significativa. Sin embargo, el tamaño de partícula de arena y la exposición a las olas están correlacionados; las playas con olas más grandes tienden a tener partículas de arena Tal vez el tamaño de las partículas de arena sea realmente importante, y la correlación entre esta y la exposición a las olas es la única razón para una regresión significativa entre la exposición a las olas y la densidad de escar La regresión múltiple es una forma estadística de intentar controlar esto; puede responder preguntas como “Si el tamaño de partícula de arena (y todas las demás variables medidas) fueran iguales, ¿sería significativa la regresión de la densidad de escarabajos sobre la exposición a las olas?”

    Diré esto más de una vez en esta página: hay que tener mucho cuidado si vas a intentar usar regresión múltiple para entender las relaciones de causa y efecto. Es muy fácil dejarse engañar por los resultados de un elegante análisis de regresión múltiple, y deberías usar los resultados más como sugerencia, en lugar de para pruebas de hipótesis.

    Hipótesis nula

    La principal hipótesis nula de una regresión múltiple es que no hay relación entre\(X\) las variables y la\(Y\) variable; en otras palabras, los\(Y\) valores que predices a partir de tu ecuación de regresión múltiple no están más cerca de\(Y\) los valores reales de lo que esperarías por oportunidad. Al hacer una regresión múltiple, también probará una hipótesis nula para cada\(X\) variable, que agregar esa\(X\) variable a la regresión múltiple no mejora el ajuste de la ecuación de regresión múltiple más de lo esperado por casualidad. Si bien obtendrá\(P\) valores para las hipótesis nulas, debe usarlas como guía para construir una ecuación de regresión múltiple; no debe usar los\(P\) valores como prueba de hipótesis biológicas nulas sobre si una\(X\) variable particular causa variación en \(Y\).

    Cómo funciona

    La idea básica es que encuentres una ecuación que dé una relación lineal entre las\(X\) variables y la\(Y\) variable, así:

    \[\hat{Y}=a+b_1X_1+b_2X_2+b_3X_3+...\]

    El\(\hat{Y}\) es el valor esperado de\(Y\) para un conjunto dado de\(X\) valores. \(b_1\)es la pendiente estimada de una regresión de\(Y\) on\(X_1\), si todas las demás\(X\) variables podrían mantenerse constantes, y así sucesivamente para\(b_2,\; b_3,\; etc\);\(a\) es la intercepción. No voy a intentar explicar las matemáticas involucradas, pero la regresión múltiple encuentra valores de\(b_1\), etc. (los “coeficientes de regresión parcial”) y la intercepción (\(a\)) que minimizan las desviaciones cuadradas entre los valores esperados y observados de\(Y\).

    Qué tan bien se ajusta la ecuación a los datos se expresa por\(R^2\), el “coeficiente de determinación múltiple”. Esto puede variar de\(0\) (para ninguna relación entre\(Y\) y las\(X\) variables) a\(1\) (para un ajuste perfecto, sin diferencia entre los\(Y\) valores observados y esperados). El\(P\) valor es una función de la\(R^2\), el número de observaciones y el número de\(X\) variables.

    Cuando el propósito de la regresión múltiple es la predicción, el resultado importante es una ecuación que contiene coeficientes de regresión parcial. Si tuvieras los coeficientes de regresión parcial y midieras las\(X\) variables, podrías conectarlas a la ecuación y predecir el valor correspondiente de\(Y\). La magnitud del coeficiente de regresión parcial depende de la unidad utilizada para cada variable, por lo que no te dice nada sobre la importancia relativa de cada variable.

    Cuando el propósito de la regresión múltiple es comprender las relaciones funcionales, el resultado importante es una ecuación que contiene coeficientes de regresión parcial estándar, como este:

    \[\hat{Y'}=a+b'_1X'_1+b'_2X'_2+b'_3X'_3+...\]

    donde\(b'_1\) está el coeficiente de regresión parcial estándar de\(Y\) on\(X_1\). Es el número de desviaciones estándar que\(Y\) cambiaría por cada cambio de desviación estándar en\(X_1\), si todas las demás\(X\) variables pudieran mantenerse constantes. La magnitud de los coeficientes de regresión parcial estándar te dice algo sobre la importancia relativa de diferentes variables; las\(X\) variables con coeficientes de regresión parcial estándar mayores tienen una relación más fuerte con la\(Y\) variable.

    Uso de variables nominales en una regresión múltiple

    A menudo, querrás usar algunas variables nominales en tu regresión múltiple. Por ejemplo, si estás haciendo una regresión múltiple para intentar predecir la presión arterial (la variable dependiente) a partir de variables independientes como la altura, el peso, la edad y las horas de ejercicio por semana, también querrás incluir el sexo como una de tus variables independientes. Esto es fácil; se crea una variable donde cada hembra tiene un\(0\) y cada macho tiene un\(1\), y se trata esa variable como si se tratara de una variable de medición.

    Cuando hay más de dos valores de la variable nominal, se vuelve más complicada. La idea básica es que para\(k\) los valores de la variable nominal, se crean variables\(k-1\) ficticias. Entonces, si tu estudio de presión arterial incluye la categoría ocupación como variable nominal con\(23\) valores (manejo, derecho, ciencia, educación, construcción, etc.,), usarías variables\(22\) ficticias: una variable con un número para el manejo y un número para el no manejo, otra variable ficticia con un número para ley y otro número para no ley, etc. Una de las categorías no obtendría una variable ficticia, ya que una vez que conoces el valor para las variables\(22\) ficticias que no son agrícolas, sabes si la persona es agricultor.

    Cuando hay más de dos valores de la variable nominal, elegir los dos números a usar para cada variable ficticia es complicado. Puedes comenzar a leer sobre ello en esta página sobre el uso de variables nominales en regresión múltiple, y continuar a partir de ahí.

    Selección de variables en regresión múltiple

    Cada vez que se agrega una variable a una regresión múltiple, la\(R^2\) aumenta (a menos que la variable sea una función lineal simple de una de las otras variables, en cuyo caso\(R^2\) permanecerá igual). Por lo tanto, el modelo que mejor se ajusta es el que incluye todas las\(X\) variables. Sin embargo, ya sea que el propósito de una regresión múltiple sea la predicción o la comprensión de las relaciones funcionales, generalmente querrás decidir qué variables son importantes y cuáles no son importantes. En el ejemplo del escarabajo tigre, si tu propósito era la predicción sería útil saber que tu predicción sería casi tan buena si midieras solo el tamaño de partícula de arena y la densidad de anfípodos, en lugar de medir una docena de variables difíciles. Si su propósito era comprender posibles causas, saber que ciertas variables no explicaron gran parte de la variación en la densidad del escarabajo tigre podría sugerir que probablemente no son causas importantes de la variación en la densidad de escarabajos.

    Una forma de elegir variables, llamada selección directa, es hacer una regresión lineal para cada una de las\(X\) variables, una a la vez, luego elegir la\(X\) variable que tuvo la mayor\(R^2\). A continuación se realiza una regresión múltiple con la\(X\) variable del paso 1 y cada una de las otras\(X\) variables. Se agrega la\(X\) variable que aumenta el\(R^2\) por la mayor cantidad, si el\(P\) valor del incremento en\(R^2\) está por debajo del límite deseado (el "\(P\)-to-enter”, que puede ser o no\(0.05\), dependiendo de cómo se sienta acerca de las variables adicionales en su regresión). Se continúa agregando\(X\) variables hasta que agregar otra\(X\) variable no aumenta significativamente la\(R^2\).

    Para calcular el\(P\) valor de un aumento en\(R^2\) al aumentar el número de\(X\) variables de\(d\) a\(e\), donde está el tamaño total de la muestra\(n\), utilice la fórmula:

    \[F_s=\frac{(R_{e}^{2}-R_{d}^{2})/(e-d)}{(1-R_{e}^{2})/(n-e-1)}\]

    Una segunda técnica, llamada eliminación hacia atrás, es comenzar con una regresión múltiple utilizando todas las\(X\) variables, luego realizar múltiples regresiones con cada\(X\) variable eliminada a su vez. Se elimina la\(X\) variable cuya eliminación ocasiona la menor disminución en\(R^2\), si el\(P\) valor es mayor que el "\(P\)-to-leave”. Se continúa eliminando\(X\) variables hasta que la eliminación de cualquier\(X\) variable provocaría una disminución significativa en\(R^2\).

    Pueden suceder cosas extrañas al usar cualquiera de las técnicas anteriores. Podrías agregar variables\(X_1,\; X_2,\; X_3,\; \text {and}\; X_4\), con un incremento significativo en\(R^2\) en cada paso, luego encontrar que una vez que hayas agregado\(X_3\) y\(X_4\), puedes eliminar\(X_1\) con poca disminución en\(R^2\). Incluso es posible hacer regresión múltiple con variables independientes\(A,\; B,\; C,\; \text {and}\; D\), y tener selección hacia adelante elegir variables\(A\) y\(B\), y eliminación hacia atrás elegir variables\(C\) y\(D\). Para evitar esto, muchas personas utilizan regresión múltiple paso a paso. Para hacer regresión múltiple escalonada, se agregan\(X\) variables como con la selección hacia adelante. Cada vez que agregas una\(X\) variable a la ecuación, pruebas los efectos de eliminar cualquiera de las otras\(X\) variables que ya están en tu ecuación, y las eliminas si la eliminación no empeora significativamente la ecuación. Continúa esto hasta que agregar nuevas\(X\) variables no aumenta significativamente\(R^2\) y eliminar\(X\) variables no lo disminuye significativamente.

    Advertencia importante

    Es fácil lanzar un conjunto de big data a una regresión múltiple y obtener una salida de aspecto impresionante. Sin embargo, muchas personas se muestran escépticas sobre la utilidad de la regresión múltiple, especialmente para la selección de variables. Argumentan que se debe utilizar tanto un examen cuidadoso de las relaciones entre las variables, como su comprensión de la biología del sistema, para construir un modelo de regresión múltiple que incluya todas las variables independientes que crea que pertenecen a él. Esto significa que diferentes investigadores, utilizando los mismos datos, podrían llegar a resultados diferentes en función de sus sesgos, nociones preconcebidas y conjeturas; muchas personas estarían molestas por esta subjetividad. Ya sea que utilice un enfoque objetivo como la regresión múltiple escalonada, o un enfoque subjetivo de creación de modelos, debe tratar la regresión múltiple como una forma de sugerir patrones en sus datos, en lugar de pruebas de hipótesis rigurosas.

    Para ilustrar algunos problemas con la regresión múltiple, imagina que hiciste una regresión múltiple sobre salto vertical en niños\(5\) a\(12\) años, con estatura, peso, edad y puntaje en una prueba de lectura como variables independientes. Las cuatro variables independientes están altamente correlacionadas en niños, ya que los niños mayores son más altos, más pesados y leen mejor, por lo que es posible que una vez que se haya agregado peso y edad al modelo, quede tan poca variación que el efecto de la altura no sea significativo. Sería biológicamente tonto concluir que la altura no influyó en el salto vertical. Debido a que la capacidad lectora está correlacionada con la edad, es posible que contribuya significativamente al modelo; eso podría sugerir algunos experimentos interesantes de seguimiento en niños de la misma edad, pero sería imprudente concluir que hubo un efecto real de la capacidad lectora sobre el salto vertical basado en únicamente en la regresión múltiple.

    Supuestos

    Como la mayoría de las otras pruebas para variables de medición, la regresión múltiple supone que las variables están normalmente distribuidas y son homoscedásticas. Probablemente no sea tan sensible a las violaciones de estos supuestos, razón por la cual se puede utilizar una variable que solo tenga los valores\(0\) o\(1\).

    También asume que cada variable independiente estaría linealmente relacionada con la variable dependiente, si todas las demás variables independientes se mantuvieran constantes. Esta es una suposición difícil de probar, y es una de las muchas razones por las que debes tener cuidado al hacer una regresión múltiple (y deberías hacer mucha más lectura al respecto, más allá de lo que hay en esta página). Se puede (y debe) mirar la correlación entre la variable dependiente y cada variable independiente por separado, pero solo porque una correlación individual se ve lineal, no significa que la relación sería lineal si todo lo demás se mantuviera constante.

    Otro supuesto de regresión múltiple es que las\(X\) variables no son multicolineales. La multicolinealidad ocurre cuando dos variables independientes están altamente correlacionadas entre sí. Por ejemplo, digamos que incluyó tanto la altura como la longitud del brazo como variables independientes en una regresión múltiple con salto vertical como variable dependiente. Debido a que la altura y la longitud del brazo están altamente correlacionadas entre sí, tener tanto la altura como la longitud del brazo en su ecuación de regresión múltiple puede mejorar solo ligeramente el\(R^2\) sobre una ecuación con solo altura. Por lo que se podría concluir que la altura es muy influyente en el salto vertical, mientras que la longitud del brazo no es importante. No obstante, este resultado sería muy inestable; sumar solo una observación más podría inclinar la balanza, de manera que ahora la mejor ecuación tuviera la longitud del brazo pero no la altura, y se podría concluir que la altura tiene poco efecto en el salto vertical.

    Si tu objetivo es la predicción, la multicolinealidad no es tan importante; obtendrías casi los mismos valores de Y predichos, ya sea que usaras la altura o la longitud del brazo en tu ecuación. Sin embargo, si tu objetivo es entender las causas, la multicolinealidad puede confundirte. Antes de hacer regresión múltiple, debe verificar la correlación entre cada par de variables independientes, y si dos están altamente correlacionadas, es posible que desee elegir solo una.

    Ejemplo\(\PageIndex{1}\)

    Extrací algunos datos de la Encuesta de Corrientes Biológicas de Maryland para practicar la regresión múltiple; los datos se muestran a continuación en el ejemplo de SAS. La variable dependiente es el número de dace de nariz larga (Rhinichthys cataractae) por\(75 m\) sección de arroyo. Las variables independientes son el área (en acres) drenada por la corriente; el oxígeno disuelto (en mg/litro); la profundidad máxima (en cm) del\(75 m\) segmento de corriente; la concentración de nitrato (mg/litro); la concentración de sulfato (mg/litro); y la temperatura del agua en la fecha de muestreo (en grados C).

    Fig. 5.5.2 Dace de nariz larga, cataratas de Rhinichthys.

    Un objetivo biológico podría ser medir las características físicas y químicas de un arroyo y poder predecir la abundancia de dace de nariz larga; otro objetivo podría ser generar hipótesis sobre las causas de la variación en la abundancia de dace de nariz larga.

    Los resultados de una regresión múltiple escalonada, con\(P\) -to-enter y\(P\) -to-leave iguales a\(0.15\), es que la superficie, el nitrato y la profundidad máxima contribuyen a la ecuación de regresión múltiple. El\(R^2\) del modelo que incluye estos tres términos es\(0.28\), que no es muy alto.

    Graficando los resultados

    Si la ecuación de regresión múltiple termina con solo dos variables independientes, es posible que pueda dibujar un gráfico tridimensional de la relación. Debido a que la mayoría de los humanos tienen dificultades para visualizar cuatro o más dimensiones, no hay una buena manera visual de resumir toda la información en una regresión múltiple con tres o más variables independientes.

    Pruebas similares

    Si la variable dependiente es una variable nominal, se debe hacer regresión logística múltiple.

    Hay muchas otras técnicas que puede usar cuando tiene tres o más variables de medición, incluyendo análisis de componentes principales, análisis de coordenadas principales, análisis de funciones discriminantes, agrupamiento jerárquico y no jerárquico y escalado multidimensional. No voy a escribir sobre ellos; tu mejor apuesta es probablemente ver cómo otros investigadores de tu campo han analizado datos similares a los tuyos.

    Cómo hacer regresión múltiple

    Hoja de Cálculo

    Si te tomas en serio hacer regresiones múltiples como parte de tu investigación, vas a tener que aprender un programa estadístico especializado como SAS o SPSS. He escrito una hoja de cálculo multreg.xls que te permitirá hacer una regresión múltiple con hasta\(12\; X\) variables y hasta\(1000\) observaciones. Es divertido jugar con él, pero no tengo la suficiente confianza en ello como para que lo utilices para resultados publicables. La hoja de cálculo incluye histogramas para ayudarte a decidir si quieres transformar tus variables, y scattergraphs de la\(Y\) variable vs. cada\(X\) variable para que puedas ver si hay alguna relación no lineal. No realiza la selección de variables automáticamente, usted elige manualmente qué variables incluir.

    Páginas web

    He visto algunas páginas web que se supone que deben realizar regresión múltiple, pero no he podido conseguir que funcionen en mi computadora.

    R

    El\(R\) compañero de Salvatore Mangiafico tiene un programa R de muestra para regresión múltiple.

    SAS

    Se utiliza PROC REG para hacer regresión múltiple en SAS. Aquí hay un ejemplo usando los datos sobre la abundancia de dace de nariz larga descritos anteriormente.

    DATOS peces;
    VAR arroyo $ superficie de superficie de nariz larga do2 maxdepth no3 so4 temp;
    DATALINES;
    BASIN_RUN 13 2528 9.6 80 2.28 16.75 15.3
    BEAR_BR 12 3333 8.5 83 5.34 7.74 19.4
    BEAR_CR 54 19611 8.3 96 0.99 10.92 19.5
    BEAVER_DAM_CR 19 3570 9.2 56 5.44 16.53 17.0
    BEAVER_RUN 37 1722 8.1 43 5.66 5.91 19.3
    BENNETT_CR 2 583 9.2 51 2.26 8.81 12.9
    BIG_BR 72 4790 9.4 91 4.10 5.65 16.7
    BIG_ELK_CR 164 35971 10.2 81 3.20 17.53 13.8
    BIG_PIPE_CR 18 25440 7.5 120 3.53 8.20 13.7
    BLUE_LICK_RUN 1 2217 8.5 46 1.20 10.85 14.3
    BROAD_RUN 53 1971 11.9 56 3.25 11.12 22.2
    BUFFALO_RUN 16 12620 8.3 37 0.61 18.87 16.8
    BUSH_CR 32 19046 8.3 120 2 .93 11.31 18.0
    CABIN_JOHN_CR 21 8612 8.2 103 1.57 16.09 15.0
    CARROLL_BR 23 3896 10.4 105 2.77 12.79 18.4
    COLLIER_RUN 18 6298 8.6 42 0.26 17.63 18.2
    CONOWINGO_CR 112 27350 8.5 65 6.95 14.94 24.1
    DEAD_RUN 25 4145 8.7 51 0.34 44.93 23.0
    DEEP_RUN 5 1175 7.7 57 1.30 21.68 21.8
    DEER_CR 26 8297 9.9 60 5.26 6.36 19.1
    DORSEY_RUN 8 7814 6.8 160 0.44 20.24 22.6
    FALLS_RUN 15 1745 9.4 48 2.19 10.27 14.3
    PESCA CR 11 5046 7.6 109 0.73 7.10 19.0
    FLINTSTONE_CR 11 18943 9.2 50 0.25 14.21 18.5
    GREAT_SENECA_CR 87 8624 8.6 78 3.37 7.51 21.3
    VERDEE_BR 33 2225 9.1 41 2.30 9.72 20.5
    GUNPOWDER_FALLS 22 12659 9.7 65 3.30 5.98 18.0
    HAINES_BR 98 1967 8.6 50 7.71 26.44 16.8
    HAWLINGS_R 1 1172 8.3 73 2.62 4.64 20.5
    HAY_MEADOW_BR 5 639 9.5 26 3.53 4.46 20.1
    HERRINGTON_RUN 1 7056 6.4 60 0.25 9.82 24.5
    HOLLANDS_BR 38 1934 10.5 85 2.34 11.44 12.0
    ISRAEL_CR 30 6260 9.5 133 2.41 13.77 21.0
    LIBERTY_RES 12 424 8.3 62 3.49 5.82 20.2
    LITTLE_ANTIETAM_CR 24 3488 9.3 44 2.11 13.37 24.0
    LITTLE_BEAR_CR 6 3330 9.1 67 0.81 8.16 14.9
    LITTLE_ CONOCOCHEAGE_CR 15 2227 6.8 54 0.33 7.60 24.0
    LITTLE_DEER_CR 38 8115 9.6 110 3.40 9.22 20.5
    LITTLE_FALLS 84 1600 10.2 56 3.54 5.69 19.5
    LITLE_GUNPOWDER_R 3 15305 9.7 85 2.60 6.96 17.5
    LITTLE_HUNTING_CR 18 7121 9.5 58 0.51 7.41 16.0
    LITTLE_PAINT_BR 63 5794 9.4 34 1.19 12.27 17.5
    PRINCIP_PATUXENT_R 239 8636 8.4 150 3.31 5.95 18.1
    MEADOW_BR 234 4803 8.5 93 5.01 10.98 24.3
    MILL_CR 6 1097 8.3 53 1.71 15.77 13.1
    MORGAN_RUN 76 9765 9.3 130 4.38 5.74 16.9
    MUDDY_BR 25 4266 8.9 68 2.05 12.77 17.0
    MUDLICK_RUN 8 1507 7.4 51 0.84 16.30 21.0
    NORTH_BR 23 3836 8.3 121 1.32 7.36 18.5
    NORTH_BR_CASSELMAN_R 16 17419 7.4 48 0.29 2.50 18.0
    NORTHWEST_BR 6 8735 8.2 63 1.56 13.22 20.8
    NORTHWEST_BR_ANACOSTIA_R 100 22550 8.4 107 1.41 14.45 23.0
    OWENS_CR 80 9961 8.6 79 1.02 9.07 21.8
    PATAPSCO_R 28 4706 8.9 61 4.06 9.90 19.7
    PINEY_BR 48 4011 8.3 52 4.70 5.38 18.9
    PINEY_CR 18 6949 9.3 100 4.57 17.84 18.6
    PINEY_RUN 36 11405 9.2 70 2.17 10.17 23.6
    PRETTYBOY_BR 19 904 9.8 39 6.81 9.20 19.2
    RED_RUN 32 3332 8.4 73 2.09 5.50 17.7
    ROCK_CR 3 575 6.8 33 2.47 7.61 18.0
    SAVAGE_R 106 29708 7.7 73 0.63 12.28 21.4
    SECOND_MINE_BR 62 2511 10.2 60 4.17 10.75 17.7
    SENECA_CR 23 18422 9.9 45 1.58 8.37 20.1
    SOUTH_BR_CASSELMAN_R 2 6311 7.6 46 0.64 21.16 18.5
    SOUTH_BR_ PATAPSCO 26 1450 7.9 60 2.96 8.84 18.6
    SOUTH_FORK_LINGANORE_CR 20 4106 10.0 96 2.62 5.45 15.4
    TUSCARORA_CR 38 10274 9.3 90 5.45 24.76 15.0
    WATTS_BR 19 510 6.7 82 5.25 14.19 26.5
    ;
    PROC REG Data=Fish;
    MODELO longnosedace=acreage do2 maxdepth no3 so4 temp/
    SELECCION=STEPWWISE SLENTRY=0.15 SLSTAY=0.15 DETALLES=RESUMEN STB;
    RUN;

    En la sentencia MODEL, la variable dependiente está a la izquierda del signo igual, y todas las variables independientes están a la derecha. SELECTION determina qué método de selección de variables se utiliza; las opciones incluyen FORWARD, BACK, STEPWISE y varias otras. Puede omitir el parámetro SELECTION si desea ver el modelo de regresión múltiple que incluye todas las variables independientes. SLENTRY es el nivel de significancia para ingresar una variable en el modelo, o\(P\) -to-enter, si está utilizando la selección FORWARD o STEPWISE; en este ejemplo, una variable debe tener un\(P\) valor menor que\(0.15\) para ser ingresada en el modelo de regresión. SLSTAY es el nivel de significancia para eliminar una variable en la selección BACKWARD o STEPWISE, o\(P\) -to-leave; en este ejemplo, una variable con un\(P\) valor mayor que se\(0.15\) eliminará del modelo. DETAILS=RESUMEN produce un archivo de salida más corto; puedes omitirlo para ver más detalles sobre cada paso del proceso de selección de variables. La opción STB hace que se muestren los coeficientes de regresión parcial estándar.

    Resumen de Selección por Paso Variable Número

    Variable Modelo Parcial
    Paso Introducido Eliminado Vars En R-Square R-Square C (p) F Valor Pr > F

    1 superficie 1 0.1201 0.1201 14.2427 9.01 0.0038
    2 no3 2 0.1193 0.2394 5.6324 10.20 0.0022
    3 maxdepth 3 0.0404 0.2798 4.0370 3.59 0.0625

    El resumen muestra que primero se agregó “superficie” al modelo, rindiendo un\(R^2\) de\(0.1201\). A continuación, se agregó “no3". El\(R^2\) incremento a\(0.2394\), y el incremento en\(R^2\) fue significativo (\(P=0.0022\)). A continuación, se agregó “maxdepth”. El\(R^2\) aumento a\(0.2798\), que no fue del todo significativo (\(P=0.0625\)); SLSTAY se estableció en\(0.15\)\(0.05\), no, porque es posible que desee incluir esta variable en un modelo predictivo aunque no sea del todo significativa. Ninguna de las otras variables aumentó\(R^2\) lo suficiente como para tener un\(P\) valor menor que\(0.15\), y la eliminación de cualquiera de las variables provocó una disminución en lo suficientemente\(R^2\) grande que\(P\) fue menor que\(0.15\), por lo que se realiza el proceso paso a paso.



    Parámetro Estimaciones
    Parámetro Estándar
    Variable estandarizada DF Error estimado t Valor Pr > |t|

    Intercepción estimada 1 -23.82907 15.27399 -1.56 0.1237 0
    superficie 1 0.00199 0.00067421 2.95 0.0045 0.32581
    maxdepth 1 0.33661 0.17757 1.90 0.0625 0.20860
    no3 1 8.67304 2.77331 3.13 0.0027 0.33409

    Las “estimaciones de parámetros” son los coeficientes de regresión parcial; muestran que el modelo es:

    \[\hat{Y}=0.00199(acreage)+0.3361(maxdepth)+8.67304(no3)−23.82907\]

    Las “estimaciones estandarizadas” son los coeficientes de regresión parcial estándar; muestran que “no3" tiene la mayor contribución al modelo, seguido de “acreage” y luego “maxdepth”. El valor de esta regresión múltiple sería que sugiere que la superficie de la cuenca hidrográfica de un arroyo es de alguna manera importante. Debido a que el área de la cuenca no tendría ningún efecto directo sobre los peces en el arroyo, analizaría cuidadosamente las correlaciones entre la superficie de cultivo y las otras variables independientes; también trataría de ver si hay otras variables que no fueron analizadas que pudieran estar correlacionadas con el área de la cuenca y directamente importante para los peces, como la velocidad actual, la claridad del agua o el tipo de sustrato.

    Análisis de potencia

    Necesitas tener varias veces más observaciones como variables independientes, de lo contrario puedes obtener “sobreajuste”, podría parecer que cada variable independiente es importante, aunque no lo sean. Una regla general común es que debes tener al menos\(10\) a\(20\) veces tantas observaciones como variables independientes. Probablemente solo querrás recopilar tantos datos como puedas permitirte, pero si realmente necesitas averiguar cómo hacer un análisis formal de poder para regresión múltiple, Kelley y Maxwell (2003) es un buen lugar para comenzar.

    Referencias

    Imagen de escarabajo tigre de Tom D. Schultz Inspectary.

    Imagen de dace de nariz larga de Ictiología Recursos Web.

    Kelley, K., y S.E. Maxwell. 2003. Tamaño muestral para regresión múltiple: Obtención de coeficientes de regresión precisos, no simplemente significativos. Métodos Psicológicos 8:305-321.


    This page titled 5.5: Regresión Múltiple is shared under a not declared license and was authored, remixed, and/or curated by John H. McDonald via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.