Saltar al contenido principal
LibreTexts Español

5.7: Regresión logística múltiple

  • Page ID
    149156
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    Objetivos de aprendizaje
    • Para utilizar regresión logística múltiple cuando se tiene una variable nominal y dos o más variables de medición, y desea saber cómo afectan las variables de medición a la variable nominal. Puede usarlo para predecir probabilidades de la variable nominal dependiente, o si tiene cuidado, puede usarla para sugerencias sobre qué variables independientes tienen un efecto mayor en la variable dependiente.

    Cuándo usarlo

    Utilice regresión logística múltiple cuando tenga una variable nominal y dos o más variables de medición. La variable nominal es la variable dependiente (\(Y\)); estás estudiando el efecto que las variables independientes (\(X\)) tienen sobre la probabilidad de obtener un valor particular de la variable dependiente. Por ejemplo, es posible que desee conocer el efecto que tienen la presión arterial, la edad y el peso en la probabilidad de que una persona tenga un ataque al corazón en el próximo año.

    El ataque al corazón vs no ataque cardíaco es una variable binomial nominal; solo tiene dos valores. Se puede realizar regresión logística múltiple multinomial, donde la variable nominal tiene más de dos valores, pero me voy a limitar a la regresión logística múltiple binaria, que es mucho más común.

    Las variables de medición son las variables independientes (\(X\)); usted piensa que pueden tener un efecto sobre la variable dependiente. Si bien los ejemplos que usaré aquí solo tienen variables de medición como variables independientes, es posible usar variables nominales como variables independientes en una regresión logística múltiple; vea la explicación en la página de regresión lineal múltiple.

    Los epidemiólogos utilizan mucho la regresión logística múltiple, porque se preocupan por variables dependientes como vivo vs muerto o enfermo vs. sano, y están estudiando a las personas y no pueden hacer experimentos bien controlados, por lo que tienen muchas variables independientes. Si eres epidemiólogo vas a tener que aprender mucho más sobre regresión logística múltiple de lo que te puedo enseñar aquí. Si no eres epidemiólogo, es posible que ocasionalmente necesites entender los resultados de la regresión logística múltiple de otra persona, y ojalá este manual pueda ayudarte con eso. Si necesitas hacer regresión logística múltiple para tu propia investigación, deberías aprender más de lo que está en esta página.

    El objetivo de una regresión logística múltiple es encontrar una ecuación que prediga mejor la probabilidad de un valor de la\(Y\) variable en función de las\(X\) variables. Luego puede medir las variables independientes en un nuevo individuo y estimar la probabilidad de que tenga un valor particular de la variable dependiente. También se puede utilizar la regresión logística múltiple para comprender la relación funcional entre las variables independientes y la variable dependiente, para tratar de entender qué podría causar que cambie la probabilidad de que la variable dependiente cambie. No obstante, hay que tener mucho cuidado. Por favor, lea la página de regresión múltiple para una introducción a los problemas involucrados y los posibles problemas para tratar de inferir causas; casi todas las advertencias allí se aplican a la regresión logística múltiple, también.

    Como ejemplo de regresión logística múltiple, en el siglo XIX, muchas personas intentaron traer sus especies de aves favoritas a Nueva Zelanda, liberarlas y esperar que se establecieran en la naturaleza. (Ahora nos damos cuenta de que esto es muy malo para las especies nativas, así que si estabas pensando en probar esto, por favor no lo hagas). Veltman et al. (1996) quisieron saber qué determinó el éxito o fracaso de estas especies introducidas. Determinaron la presencia o ausencia de\(79\) especies de aves en Nueva Zelanda que habían sido introducidas artificialmente (la variable dependiente) y variables\(14\) independientes, incluyendo número de liberaciones, número de individuos liberados, migración (puntuada como\(1\) sedentaria,\(2\) para mixta,\(3\) migratoria), longitud corporal, etc. La regresión logística múltiple sugiere que el número de liberaciones, el número de individuos liberados y la migración tuvieron la mayor influencia en la probabilidad de que una especie se introduzca con éxito en Nueva Zelanda, y la ecuación de regresión logística podría ser utilizado para predecir la probabilidad de éxito de una nueva introducción. Si bien es de esperar que nadie introduzca deliberadamente más especies de aves exóticas en nuevos territorios, esta regresión logística podría ayudar a comprender qué determinará el éxito de las introducciones accidentales o la introducción de especies en peligro de extinción en áreas de su área de distribución nativa donde habían sido eliminadas.

    Hipótesis nula

    La principal hipótesis nula de una regresión logística múltiple es que no hay relación entre\(X\) las variables y la\(Y\) variable; en otras palabras, los\(Y\) valores que predices a partir de tu ecuación de regresión logística múltiple no están más cerca de\(Y\) los valores reales que tú esperaría por casualidad. Al hacer una regresión logística múltiple, también probará una hipótesis nula para cada\(X\) variable, que agregar esa\(X\) variable a la regresión logística múltiple no mejora el ajuste de la ecuación más de lo esperado por casualidad. Si bien obtendrá\(P\) valores para estas hipótesis nulas, debe utilizarlas como guía para construir una ecuación de regresión logística múltiple; no debe usar los\(P\) valores como prueba de hipótesis biológicas nulas sobre si una\(X\) variable particular causa variación en\(Y\).

    Cómo funciona

    La regresión logística múltiple encuentra la ecuación que mejor predice el valor de la\(Y\) variable para los valores de las\(X\) variables. La\(Y\) variable es la probabilidad de obtener un valor particular de la variable nominal. Para el ejemplo de ave, los valores de la variable nominal son “especies presentes” y “especies ausentes”. La\(Y\) variable utilizada en regresión logística sería entonces la probabilidad de que una especie introducida esté presente en Nueva Zelanda. Esta probabilidad podría tomar valores de\(0\) a\(1\). El rango limitado de esta probabilidad presentaría problemas si se usa directamente en una regresión, por lo que las probabilidades,\(Y/(1-Y)\), se utilizan en su lugar. (Si la probabilidad de una introducción exitosa es\(0.25\), las probabilidades de tener esa especie son\(0.25/(1-0.25)=1/3\). En términos de juego, esto se expresaría como "\(3\)a\(1\) las probabilidades en contra de tener esa especie en Nueva Zelanda”). Tomando el logaritmo natural de las probabilidades hace que la variable sea más adecuada para una regresión, por lo que el resultado de una regresión logística múltiple es una ecuación que se ve así:

    \[\ln \left [ \frac{Y}{1-Y} \right ]=a+b_1X_1+b_2X_2+b_3X_3+...\]

    Se encuentran las pendientes (\(b_1,\; b_2\), etc.) e intercept (\(a\)) de la ecuación de mejor ajuste en una regresión logística múltiple utilizando el método de máxima verosimilitud, en lugar del método de mínimos cuadrados utilizado para la regresión lineal múltiple. La máxima verosimilitud es una técnica intensiva en computación; la idea básica es que encuentre los valores de los parámetros bajo los cuales sería más probable obtener los resultados observados.

    Es posible que desee tener una medida de qué tan bien se ajusta la ecuación a los datos, similar a la\(R^2\) de la regresión lineal múltiple. Sin embargo, los estadísticos no están de acuerdo sobre la mejor medida de ajuste para la regresión logística múltiple. Algunos usan la desviación,\(D\), para lo cual los números más pequeños representan un mejor ajuste, y algunos usan uno de varios pseudo-\(R^2\) valores, para los cuales los números más grandes representan un mejor ajuste.

    Uso de variables nominales en una regresión logística múltiple

    Se pueden utilizar variables nominales como variables independientes en regresión logística múltiple; por ejemplo, Veltman et al. (1996) incluyeron el uso de tierras altas (frecuente vs infrecuente) como una de sus variables independientes en su estudio de aves introducidas en Nueva Zelanda. Consulte la discusión en la página de regresión lineal múltiple sobre cómo hacer esto.

    Selección de variables en regresión logística múltiple

    Ya sea que el propósito de una regresión logística múltiple sea la predicción o la comprensión de las relaciones funcionales, generalmente querrás decidir qué variables son importantes y cuáles no son importantes. En el ejemplo de ave, si tu propósito era la predicción sería útil saber que tu predicción sería casi tan buena si midieras solo tres variables y no tuvieras que medir variables más difíciles como el rango y el peso. Si su propósito era comprender posibles causas, saber que ciertas variables no explicaron gran parte de la variación en el éxito de la introducción podría sugerir que probablemente no son causas importantes de la variación en el éxito.

    Los procedimientos para elegir variables son básicamente los mismos que para la regresión lineal múltiple: puedes usar un método objetivo (selección hacia adelante, eliminación hacia atrás o paso a paso), o bien puedes usar un examen cuidadoso de los datos y comprensión de la biología para elegir subjetivamente las mejores variables. La principal diferencia es que en lugar de usar el cambio de\(R^2\) para medir la diferencia de ajuste entre una ecuación con o sin una variable en particular, se usa el cambio de verosimilitud. De lo contrario, todo lo relacionado con la elección de variables para la regresión lineal múltiple también se aplica a la regresión logística múltiple, incluidas las advertencias sobre lo fácil que es obtener resultados engañosos.

    Supuestos

    La regresión logística múltiple asume que las observaciones son independientes. Por ejemplo, si estuvieras estudiando la presencia o ausencia de una enfermedad infecciosa y tuvieras sujetos que estuvieran en contacto cercano, las observaciones podrían no ser independientes; si una persona tuviera la enfermedad, las personas cercanas a ella (que podrían ser similares en ocupación, nivel socioeconómico, edad, etc.) probablemente tendrían la enfermedad. Un cuidadoso diseño de muestreo puede encargarse de esto.

    La regresión logística múltiple también asume que el logaritmo natural de la razón de probabilidades y las variables de medición tienen una relación lineal. Puede ser difícil ver si se viola esta suposición, pero si tiene razones biológicas o estadísticas para esperar una relación no lineal entre una de las variables de medición y el log de la razón de probabilidades, es posible que desee probar transformaciones de datos.

    La regresión logística múltiple no supone que las variables de medición estén distribuidas normalmente.

    Ejemplo

    Algunas personas obesas se someten a cirugía de bypass gástrico para bajar de peso, y algunas de ellas mueren como resultado de la cirugía. Benotti et al. (2014) querían saber si podían predecir quién tenía un mayor riesgo de morir por un tipo particular de cirugía, la cirugía de bypass gástrico en Y de Roux. Obtuvieron registros de\(81,751\) pacientes que habían tenido cirugía en Y de Roux, de los cuales\(123\) fallecieron en\(30\) días. Hicieron regresión logística múltiple, con variables dependientes vivas vs muertas después de\(30\) días, y variables\(6\) demográficas (género, edad, raza, índice de masa corporal, tipo de seguro y situación laboral) y variables de\(30\) salud (presión arterial, diabetes, consumo de tabaco, etc.) como la variables independientes. Al elegir manualmente las variables para agregar a su modelo logístico, identificaron seis que contribuyen al riesgo de morir por cirugía en Y de Roux: índice de masa corporal, edad, género, hipertensión pulmonar, insuficiencia cardíaca congestiva y enfermedad hepática.

    Benotti et al. (2014) no proporcionaron su ecuación logística múltiple, quizás porque pensaban que sería demasiado confuso para que los cirujanos lo entendieran. En cambio, desarrollaron una versión simplificada (un punto por cada década\(40\),\(1\) punto por cada unidad de\(10\) IMC superior\(40\),\(1\) punto para hombre,\(1\) punto para insuficiencia cardíaca congestiva,\(1\) punto para enfermedad hepática y\(2\) puntos para pulmonar hipertensión). Mediante este RYGB Risk Score podrían predecir que una mujer de un\(43\) año de edad con un IMC\(46\) y sin problemas cardíacos, pulmonares o hepáticos tendría la\(0.03\%\) posibilidad de morir en cuestión de\(30\) días, mientras que un hombre de un\(62\) año con un IMC de\(52\) e hipertensión pulmonar tendría un \(1.4\%\)oportunidad.

    Graficando los resultados

    Los gráficos no son muy útiles para mostrar los resultados de la regresión logística múltiple; en cambio, las personas generalmente solo muestran una tabla de las variables independientes, con sus\(P\) valores y tal vez los coeficientes de regresión.

    Pruebas similares

    Si la variable dependiente es una variable de medición, debe hacer regresión lineal múltiple.

    Existen muchas otras técnicas que puedes usar cuando tienes una nominal y tres o más variables de medición, pero no sé lo suficiente sobre ellas para enumerarlas, y mucho menos explicarlas.

    Cómo hacer regresión logística múltiple

    Hoja de Cálculo

    No he escrito una hoja de cálculo para hacer regresión logística múltiple.

    Página web

    Hay una página web muy agradable para regresión logística múltiple. No hará selección automática de variables; si quieres construir un modelo logístico con menos variables independientes, tendrás que elegir las variables tú mismo.

    R

    El\(R\) compañero de Salvatore Mangiafico cuenta con un programa R de muestra para regresión logística múltiple.

    SAS

    Se utiliza PROC LOGISTIC para hacer regresión logística múltiple en SAS. Aquí hay un ejemplo usando los datos sobre las introducciones de aves en Nueva Zelanda.

    DATA aves;
    INPUT especies $ estado $ longitud rango de masa migr insecto dieta nidada
    crías madera tierras altas liberación de agua indiv;
    DATALINES;
    Cyg_olor 1 1520 9600 1.21 1 12 2 6 1 0 0 1 6 29
    Cyg_atra 1 1250 5000 0.56 1 0 1 6 1 0 0 1 10 85
    Cer_nova 1 870 3360 0.07 1 0 1 4 1 0 0 1 3 8
    Ans_caer 0 720 2517 1.1 3 12 2 3.8 1 0 0 1 1 10
    Ans_anse 0 820 3170 3.45 3 0 1 5.9 1 0 0 1 2 7
    Bra_cana 1 770 4390 2.96 2 0 1 5.9 1 0 0 1 10 60
    Bra_sand 0 50 1930 0. 01 1 0 1 4 2 0 0 0 1 2
    Alo_aegy 0 680 2040 2.71 1. 2 8.5 1 0 0 1 1 8
    Ana_plat 1 570 1020 9.01 2 6 2 12.6 1 0 0 1 17 1539
    Ana_acut 0 580 910 7.9 3 6 2 8.3 1 0 0 1 3 102
    Ana_pene 0 480 590 4.33 3 0 1 8.7 1 0 0 1 5 32
    Aix_spon 0 470 539 1.04 3 12 2 13.5 2 1 0 1 5 10
    Ayt_feri 0 450 940 2.17 3 12 2 9.5 1 0 0 1 3 9
    Ayt_fuli 0 435 684 4.81 3 12 2 10.1 1 0 0 1 2 5
    Ore_pict 0 275 230 0.31 1 3 1 9.5 1 1 1 1 0 9 398
    Lop_cali 1 256 162 0.24 1 3 1 14.2 2 0 0 0 15 1420
    Col_virg 1 230 170 0.77 1 3 1 13.7 1 0 0 0 17 1156
    Ale_grae 1 330 501 2.23 1 3 1 15.5 1 0 1 0 1 0 15 362
    Ale_rufa 0 330 439 0.22 1 3 2 11.2 2 0 0 0 0 2 20
    Per_perd 0 300 386 2.4 1 3 1 14.6 1 0 1 0 24 676
    Cot_pect 0 182 95 0.33 3. 2 7.5 1 0 0 0 3.
    Cot_aust 1 180 95 0.69 2 12 2 11 1 0 0 1 11 601
    Lop_NYCT 0 800 1150 0.28 1 12 2 5 1 1 1 0 4 6
    Pha_Colc 1 710 850 1.25 1 12 2 11.8 1 1 0 0 27 244
    Syr_reev 0 750 949 0.2 1 12 2 9.5 1 1 1 1 0 2 9
    Tet_tetr 0 470 900 4.17 1 3 1 7.9 1 1 1 0 2 13
    Lag_lago 0 390 517 7.29 1 0 1 7.5 1 1 1 0 2 4
    Ped_phas 0 440 815 1.83 1 3 1 12.3 1 1 0 0 22
    Tym_cupi 0 435 770 0.26 1 4 1 12 1 0 0 0 3 57
    Van_vane 0 300 226 3.93 2 12 3 3.8 1 0 0 0 8 124
    PLU_squa 0 285 318 1.67 3 12 3 4 1 0 0 0 1 2 3
    PTE_Alch 0 350 225 1.21 2 0 1 2.5 2 0 0 0 1 8
    Pha_chal 0 320 350 0.6 1 12 2 2 2 1 0 0 8 42
    Ocy_loph 0 330 205 0.76 1 0 1 2 7 1 0 1 4 23
    Leu_mela 0 372. 0 .07 1 12 2 2 1 1 0 0 6 34
    ATH_NOCT 1 220 176 4.84 1 12 3 3.6 1 1 0 0 7 221
    Tyt_alba 0 340 298 8.9 2 0 3 5.7 2 1 0 0 1 7
    Dac_nova 1 460 382 0.34 1 12 3 2 1 1 0 0 7 21
    Lul_arbo 0 150 32.1 1.78 2 4 2 3.9 2 1 0 0 1 5
    Ala_arve 1 185 38.9 5.19 2 12 2 3.7 3 0 0 0 11 391
    Pru_modu 1 145 20.5 1.95 2 12 2 3.4 2 1 0 0 14 245
    Eri_rebe 0 140 15.8 2.31 2 12 2 5 2 1 0 0 11 123
    Lus_mega 0 161 19.4 1.88 3 12 2 4.7 2 1 0 0 4 7
    Tur_meru 1 255 82 .6 3.3 2 12 2 3.8 3 1 0 0 16 596
    Tur_phil 1 230 67.3 4.84 2 12 2 4.7 2 1 0 0 12 343
    Syl_comm 0 140 12.8 3.39 3 12 2 4.6 2 1 0 0 1 2
    Syl_atri 0 142 17.5 2.43 2 5 2 4.6 1 1 0 0 1 5
    Man_mela 0 180. 0.04 1 12 3 1.9 5 1 0 0 1 2
    Man_mela 0 265 59 0.25 1 12 2 2.6. 1 0 0 1 80
    Gra_cyan 0 275 128 0.83 1 12 3 3 2 1 0 1 1.
    Gym_tibi 1 400 380 0.82 1 12 3 4 1 1 0 0 15 448
    Cor_mone 0 335 203 3.4 2 12 2 4.5 1 1 0 0 2 3
    Cor_frug 1 400 425 3.73 1 12 2 3.6 1 1 0 0 10 182
    Stu_vulg 1 222 79.8 3.33 2 6 2 4.8 2 1 0 0 14 653
    ACR_tris 1 230 111 .3 0.56 1 12 2 3.7 1 1 0 0 5 88
    Pas_domo 1 149 28.8 6.5 1 6 2 3.9 3 1 0 0 12 416
    Pas_mont 0 133 22 6.8 1 6 2 4.7 3 1 0 0 3 14
    Aeg_temp 0 120. 0.17 1 6 2 4.7 3 1 0 0 3 14
    Emb_gutt 0 120 19 0.15 1 4 1 5 3 0 0 0 4 112
    Poe_gutt 0 100 12.4 0.75 1 4 1 4.7 3 0 0 0 1 12
    Lon_punc 0 110 13.5 1.06 1 0 1 5 3 0 0 0 1 8
    Lon_cast 0 100. 0.13 1 4 1 5. 0 0 1 4 45
    Pad_oryz 0 160. 0.09 1 0 1 5. 0 0 0 2 6
    Fri_coel 1 160 23.5 2 .61 2 12 2 4.9 2 1 0 0 17 449
    Fri_mont 0 146 21.4 3.09 3 10 2 6. 1 0 0 7 121
    Car_chlo 1 147 29 2.09 2 7 2 4.8 2 1 0 0 6 65
    Car_spin 0 117 12 2.09 3 3 1 4 2 1 0 0 3 54
    Car_card 1 120 15.5 2.85 2 4 1 4.4 3 1 0 14 626
    Aca_flam 1 115 11.5 5.54 2 6 1 5 2 1 0 0 10 607
    Aca_flavi 0 133 17 1.67 2 0 1 5 3 0 1 0 3 61
    Aca_cann 0 136 18.5 2.52 2 6 1 4.7 2 1 0 0 12 209
    Pyr_pyrr 0 142 23.5 3.57 1 4 1 4 3 1 0 0 2.
    Emb_citr 1 160 28.2 4.11 2 8 2 3.3 3 1 0 0 14 656
    Emb_hort 0 163 21.6 2.75 3 12 2 5 1 0 0 0 0 1 6
    Emb_cirl 1 160 23.6 0.62 1 12 2 3.5 2 1 0 0 3 29
    Emb_scho 0 150 20.7 5.42 1 12 2 5.1 2 0 0 1 2 9
    Pir_rubr 0 170 31 0.55 3 12 2 4. 1 0 0 1 2
    Age_phoe 0 210 36.9 2 2 8 2 3.7 1 0 0 1 1 2
    Stu_negl 0 225 106.5 1.2 2 12 2 4.8 2 0 0 0 0 1 2
    ;
    PROC LOGISTIC DATA=Aves DESCENDIENDO;
    MODELO status=longitud rango de masa migr insecto dieta embrague cría madera tierras altas liberación de
    agua indiv/SELECTION=STEPWISE SLENTRY=0.15 SLSTAY=0.15;
    RUN;

    En la sentencia MODEL, la variable dependiente está a la izquierda del signo igual, y todas las variables independientes están a la derecha. SELECTION determina qué método de selección de variables se utiliza; las opciones incluyen FORWER, BATRWAY, STEPWISE y Puede omitir el parámetro SELECTION si desea ver el modelo de regresión logística que incluye todas las variables independientes. SLENTRY es el nivel de significancia para introducir una variable en el modelo, si estás usando la selección FORWARD o STEPWISE; en este ejemplo, una variable debe tener un\(P\) valor menor que\(0.15\) para ser ingresada en el modelo de regresión. SLSTAY es el nivel de significancia para eliminar una variable en la selección BACKWARD o STEPWISE; en este ejemplo, una variable con un\(P\) valor mayor que se\(0.15\) eliminará del modelo.

    Resumen de Stepwise Selection

    Effect Number Score Wald
    Step Enter Removed DF In Chi-Square Chi-Square Pr > ChiSQ

    1 release 1 28.4339 <.0001
    2 tierras altas 1 2 5.6871 0.0171
    3 migr 1 3 5.3284 0.0210

    El resumen muestra que primero se agregó “release” al modelo, arrojando un\(P\) valor menor que\(0.0001\). A continuación, se agregó “upland”, con un\(P\) valor de\(0.0171\). A continuación, se agregó “migr”, con un\(P\) valor de\(0.0210\). SLSTAY se estableció en\(0.15\), no\(0.05\), porque es posible que desee incluir una variable en un modelo predictivo aunque no sea del todo significativa. Sin embargo, ninguna de las otras variables tiene un\(P\) valor menor que\(0.15\), y la eliminación de cualquiera de las variables provocó una disminución en el ajuste lo suficientemente grande que\(P\) fue menor que\(0.15\), por lo que se realiza el proceso paso a paso.

    Análisis de Estimaciones de Máxima Verosimilitud
    Parámetro

    Estándar de Wald DF Estimación Error Chi-Cuadrado Pr > ChiSQ

    Intercept 1 -0.4653 0.1718 0.6785
    migr 1 -1.6057 0.7982 4.0464 0.0443
    upland 1 -6.2721 2.5739 5.9380 0.0148
    release 1 0.4247 0.1040 16.6807 <.0001

    Las “estimaciones de parámetros” son los coeficientes de regresión parcial; muestran que el modelo es:

    \[\ln \left [ \frac{Y}{1-Y} \right ]=-0.4653-1.6057(migration)-6.2721(upland)+0.4247(release)\]

    Análisis de potencia

    Necesitas tener varias veces más observaciones como variables independientes, de lo contrario puedes obtener “sobreajuste”, podría parecer que cada variable independiente es importante, aunque no lo sean. Una regla general que se ve con frecuencia es que debes tener\(10\) al menos a\(20\) veces tantas observaciones como variables independientes. No sé cómo hacer un análisis de potencia más detallado para la regresión logística múltiple.

    Referencias

    Benotti, P., G.C. Wood, D.A. Winegar, A.T. Petrick, C.D. Still, G. Argyropoulos, y G.S. Gerhard. 2014. Factores de riesgo asociados a mortalidad tras cirugía de bypass gástrico en Y de Roux. Anales de Cirugía 259:123-130.

    Veltman, C.J., S. Nee, y M.J. Crawley. 1996. Correlatos del éxito de introducción en aves exóticas de Nueva Zelanda. Naturalista Americano 147:542-557.


    This page titled 5.7: Regresión logística múltiple is shared under a not declared license and was authored, remixed, and/or curated by John H. McDonald via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.