Saltar al contenido principal
LibreTexts Español

5.6: Regresión logística simple

  • Page ID
    149186
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    Objetivos de aprendizaje
    • Para utilizar regresión logística simple cuando se tiene una variable nominal y una variable de medición, y desea saber si la variación en la variable de medición causa variación en la variable nominal.

    Cuándo usarlo

    Utilice regresión logística simple cuando tenga una variable nominal con dos valores (macho/hembra, muerto/vivo, etc.) y una variable de medición. La variable nominal es la variable dependiente, y la variable de medición es la variable independiente.

    Estoy separando la regresión logística simple, con una sola variable independiente, de la regresión logística múltiple, que tiene más de una variable independiente. Mucha gente agrupa toda la regresión logística, pero creo que es útil tratar la regresión logística simple por separado, porque es más simple.

    La regresión logística simple es análoga a la regresión lineal, excepto que la variable dependiente es nominal, no una medida. Un objetivo es ver si la probabilidad de obtener un valor particular de la variable nominal está asociada con la variable de medición; el otro objetivo es predecir la probabilidad de obtener un valor particular de la variable nominal, dada la variable de medición.

    Tamaño de grano
    (mm)
    Arañas
    0.245 ausente
    0.247 ausente
    0.285 presente
    0.299 presente
    0.327 presente
    0.347 presente
    0.356 ausente
    0.36 presente
    0.363 ausente
    0.364 presente
    0.398 ausente
    0.4 presente
    0.409 ausente
    0.421 presente
    0.432 ausente
    0.473 presente
    0.509 presente
    0.529 presente
    0.561 ausente
    0.569 ausente
    0.594 presente
    0.638 presente
    0.656 presente
    0.816 presente
    0.853 presente
    0.938 presente
    1.036 presente
    1.045 presente

    Como ejemplo de regresión logística simple, Suzuki et al. (2006) midieron el tamaño de grano de arena en\(28\) playas de Japón y observaron la presencia o ausencia de la araña lobo madriguera Lycosa ishikariana en cada playa. El tamaño de grano de arena es una variable de medición, y la presencia o ausencia de araña es una variable nominal. La presencia o ausencia de arañas es la variable dependiente; si existe una relación entre las dos variables, sería el tamaño del grano de arena afectando a las arañas, no la presencia de arañas que afectan a la arena.

    Un objetivo de este estudio sería determinar si existe una relación entre el tamaño del grano de arena y la presencia o ausencia de la especie, con la esperanza de comprender más sobre la biología de las arañas. Debido a que esta especie está en peligro, otro objetivo sería encontrar una ecuación que predijera la probabilidad de que una población de araña lobo sobreviva en una playa con un tamaño de grano de arena particular, para ayudar a determinar a qué playas reintroducir la araña.

    También puede analizar datos con una variable nominal y una variable de medición usando un anova unidireccional o una prueba t de Student, y la distinción puede ser sutil. Una pista es que la regresión logística permite predecir la probabilidad de la variable nominal. Por ejemplo, imagina que habías medido el nivel de colesterol en la sangre de un gran número de mujeres de un\(55\) año de edad, para luego dar seguimiento diez años después para ver quién había tenido un ataque al corazón. Podrías hacer una\(t\) prueba de dos muestras, comparando los niveles de colesterol de las mujeres que sí tuvieron ataques cardíacos vs. las que no, y esa sería una forma perfectamente razonable de probar la hipótesis nula de que el nivel de colesterol no está asociado con ataques cardíacos; si la prueba de hipótesis fue todo lo que eras interesado en, la\(t\) prueba —probablemente sería mejor que la regresión logística menos familiar. No obstante, si quisieras predecir la probabilidad de que una mujer de un\(55\) año con un nivel particular de colesterol tenga un ataque al corazón en los próximos diez años, para que los médicos puedan decir a sus pacientes “Si reduces tu colesterol por\(40\) puntos, reducirás tu riesgo de corazón ataque por”\(X\%\), tendrías que usar regresión logística.

    Fig. 5.6.1 Un dragón de Komodo, Varanus komodoensis.

    Otra situación que requiere regresión logística, en lugar de un anova o\(t\) —test, es cuando se determinan los valores de la variable de medición, mientras que los valores de la variable nominal son libres de variar. Por ejemplo, digamos que estás estudiando el efecto de la temperatura de incubación sobre la determinación del sexo en dragones de Komodo. Levantas\(10\) huevos en\(30^{\circ}C\),\(30\) huevos en\(32^{\circ}C\),\(12\) huevos en\(34^{\circ}C\), etc., luego determinas el sexo de las crías. Sería una tontería comparar las temperaturas medias de incubación entre crías macho y hembra, y probar la diferencia usando un anova o\(t\) —test, porque la temperatura de incubación no depende del sexo de la descendencia; has establecido la temperatura de incubación, y si hay una relación, es que el sexo de la descendencia depende de la temperatura.

    Cuando hay múltiples observaciones de la variable nominal para cada valor de la variable de medición, como en el ejemplo del dragón de Komodo, a menudo verás los datos analizados mediante regresión lineal, con las proporciones tratadas como una segunda variable de medición. Muchas veces las proporciones son transformadas arco-seno, porque eso hace que las distribuciones de proporciones sean más normales. Esto no es horrible, pero no es estrictamente correcto. Un problema es que la regresión lineal trata todas las proporciones por igual, incluso si se basan en tamaños de muestra muy diferentes. Si\(6\) fuera de\(10\) Komodo los huevos de dragón criados en\(30^{\circ}C\) fueran hembras, y\(15\) de\(30\) los huevos criados en\(32^{\circ}C\) fueran hembras, la\(60\%\) hembra en\(30^{\circ}C\) y\(50\%\) en\(32^{\circ}C\) obtendría el mismo peso en una regresión lineal, lo cual es inapropiado. La regresión logística analiza cada observación (en este ejemplo, el sexo de cada dragón de Komodo) por separado, por lo que los\(30\) dragones a\(3\) veces\(32^{\circ}C\) tendrían el peso de los\(10\) dragones en\(30^{\circ}C\).

    Si bien la regresión logística con dos valores de la variable nominal (regresión logística binaria) es con mucho la más común, también se puede hacer regresión logística con más de dos valores de la variable nominal, llamada regresión logística multinomial. No voy a cubrirlo aquí en absoluto. Lo siento.

    También se puede hacer regresión logística simple con variables nominales tanto para las variables independientes como para las dependientes, pero para ser honesto, no entiendo la ventaja de esto sobre un chi-cuadrado o G —test de independencia.

    Hipótesis nula

    La hipótesis estadística nula es que la probabilidad de un valor particular de la variable nominal no está asociada con el valor de la variable de medición; es decir, la línea que describe la relación entre la variable de medición y la probabilidad de la variable nominal tiene una pendiente de cero.

    Cómo funciona la prueba

    La regresión logística simple encuentra la ecuación que mejor predice el valor de la\(Y\) variable para cada valor de la\(X\) variable. Lo que diferencia a la regresión logística de la regresión lineal es que no se mide la\(Y\) variable directamente; sino la probabilidad de obtener un valor particular de una variable nominal. Para el ejemplo de araña, los valores de la variable nominal son “arañas presentes” y “arañas ausentes”. La\(Y\) variable utilizada en la regresión logística sería entonces la probabilidad de que las arañas estén presentes en una playa. Esta probabilidad podría tomar valores de\(0\) a\(1\). El rango limitado de esta probabilidad presentaría problemas si se usa directamente en una regresión, por lo que las probabilidades,\(Y/(1-Y)\), se utilizan en su lugar. (Si la probabilidad de arañas en una playa es\(0.25\), las probabilidades de tener arañas son\(0.25/(1-0.25)=1/3\). En términos de juego, esto se expresaría como "\(3\)a\(1\) las probabilidades en contra de tener arañas en una playa”). Tomando el logaritmo natural de las probabilidades hace que la variable sea más adecuada para una regresión, por lo que el resultado de una regresión logística es una ecuación que se ve así:

    \[ln\left [ \frac{Y}{(1-Y)}\right ]=a+bX\]

    Encontrará la pendiente (\(b\)) e intercept (\(a\)) de la ecuación que mejor se ajusta en una regresión logística utilizando el método de máxima verosimilitud, en lugar del método de mínimos cuadrados que utiliza para la regresión lineal. La máxima verosimilitud es una técnica intensiva en computación; la idea básica es que encuentre los valores de los parámetros bajo los cuales sería más probable obtener los resultados observados.

    Para el ejemplo de araña, la ecuación es:

    \[ln\left [ \frac{Y}{(1-Y)}\right ]=-1.6476+5.1215(\text{grain size})\]

    Reordenando para resolver por\(Y\) (la probabilidad de arañas en una playa) rinde:

    \[Y=\frac{e^{-1.6476+5.1215(\text{grain size})}}{(1+e^{-1.6476+5.1215(\text{grain size}))}}\]

    donde\(e\) está la raíz de los troncos naturales. Entonces, si fuiste a una playa y querías predecir la probabilidad de que las arañas vivieran allí, podrías medir el tamaño del grano de arena, enchufarlo a la ecuación y obtener una estimación de\(Y\), la probabilidad de que las arañas estén en la playa.

    Existen varias formas diferentes de estimar el\(P\) valor. El chi-cuadrado Wald es bastante popular, pero puede producir resultados inexactos con tamaños de muestra pequeños. El método de relación de verosimilitud puede ser mejor. Utiliza la diferencia entre la probabilidad de obtener los resultados observados bajo el modelo logístico y la probabilidad de obtener los resultados observados en un modelo sin relación entre las variables independientes y dependientes. Te recomiendo que uses el método de relación de probabilidad; asegúrate de especificar qué método has usado cuando reportas tus resultados.

    Para el ejemplo de araña, el\(P\) valor que usa el método de ratio de verosimilitud es\(0.033\), por lo que rechazarías la hipótesis nula. El\(P\) valor para el método Wald es\(0.088\), que no es del todo significativo.

    Supuestos

    La regresión logística simple supone que las observaciones son independientes; es decir, que una observación no afecta a otra. En el ejemplo del dragón de Komodo, si todos los huevos en\(30^{\circ}C\) fueran puestos por una madre, y todos los huevos en los\(32^{\circ}C\) pusieran otra madre, eso haría que las observaciones no fueran independientes. Si diseñas bien tu experimento, no tendrás ningún problema con esta suposición.

    La regresión logística simple supone que la relación entre el logaritmo natural de la razón de probabilidades y la variable de medición es lineal. Es posible que puedas arreglar esto con una transformación de tu variable de medición, pero si la relación se ve como una\(U\) o al revés\(U\), una transformación no funcionará. Por ejemplo, Suzuki et al. (2006) encontraron una probabilidad creciente de arañas con el aumento del tamaño de grano, pero estoy seguro de que si miraban playas con arena aún más grande (es decir, grava), la probabilidad de arañas volvería a bajar. En ese caso no podrías hacer regresión logística simple; probablemente querrás hacer regresión logística múltiple con una ecuación que incluya ambos\(X\) y\(X^2\) términos, en su lugar.

    La regresión logística simple no supone que la variable de medición esté distribuida normalmente.

    Ejemplo

    Fig. 5.6.2 Un crustáceo anfípodo, Megalorchestia californiana.

    McDonald (1985) contó las frecuencias alélicas en el locus manosa-6-fosfato isomerasa (MPI) en el crustáceo anfípodo Megalorchestia californiana, que vive en playas arenosas de la costa del Pacífico de América del Norte. Había dos alelos comunes, MPI 90 y MPI 100. Aquí se muestra la latitud de cada ubicación de colecta, el recuento de cada uno de los alelos y la proporción del alelo Mpi100:

    Ubicación Latitud Mpi 90 Mpi 100 p, Mpi 100
    Port Townsend (WA) 48.1 47 139 0.748
    Neskowin 45.2 177 241 0.577
    Siuslaw R., OR 44 1087 1183 0.521
    Umpqua R., OOR 43.7 187 175 0.483
    Coos Bay 43.5 397 671 0.628
    San Francisco (California) 37.8 40 14 0.259
    Carmel 36.6 39 17 0.304
    Santa Bárbara (California) 34.3 30 0 0

    El alelo (MPI 90 o Mpi100) es la variable nominal, y la latitud es la variable de medición. Si la pregunta biológica fuera “¿Las diferentes localizaciones tienen diferentes frecuencias alélicas?” , ignorarías la latitud y harías una prueba de independencia chi-cuadrada o G; aquí la pregunta biológica es “¿Las frecuencias alélicas están asociadas a la latitud?”

    Obsérvese que aunque la proporción del alelo Mpi100 parece aumentar al aumentar la latitud, los tamaños de muestra para las áreas norte y sur son bastante pequeños; hacer una regresión lineal de frecuencia alélica vs latitud les daría igual peso a los mucho muestras más grandes de Oregon, lo que sería inapropiado. Haciendo una regresión logística, el resultado es\(chi2=83.3,\; 1 d.f.,\; P=7\times 10^{-20}\). La ecuación de la relación es:

    \[ln\left [ \frac{Y}{(1-Y)}\right ]=-7.6469+0.1786(latitude)\]

    donde\(Y\) está la probabilidad predicha de obtener un alelo Mpi100. Resolver esto para\(Y\) da:

    \[Y=\frac{e^{-7.6469+0.1786(latitude)}}{1+e^{-7.6469+0.1786(latitude)}}\]

    Esta línea de regresión logística se muestra en la gráfica; tenga en cuenta que tiene una\(S\) forma suave. Todas las ecuaciones de regresión logística tienen una\(S\) forma -shape, aunque puede no ser obvio si se mira por encima de un rango estrecho de valores.

    Fig. 5.6.3 Frecuencias alélicas Mpi vs latitud en el anfípodo Megalorchestia californiana. Las barras de error son intervalos de confianza del 95%; la línea negra gruesa es la línea de regresión logística.

    Graficando los resultados

    Si tiene múltiples observaciones para cada valor de la variable de medición, como en el ejemplo anfípodo anterior, puede graficar un scattergraph con la variable de medición en el\(X\) eje y las proporciones en el\(Y\) eje. Es posible que desee poner intervalos de confianza del 95% en los puntos; esto da una indicación visual de qué puntos contribuyen más a la regresión (los que tienen tamaños de muestra más grandes tienen intervalos de confianza más pequeños).

    No hay forma automática en las hojas de cálculo de agregar la línea de regresión logística. Así es como lo conseguí en la gráfica de los datos de anfípodos. Primero, pongo las latitudes en columna\(A\) y las proporciones en columna\(B\). Después, usando el comando Rellenar: Serie, agregué números\(30,\; 30.1,\; 30.2,...50\) a las celdas a\(A10\) través de\(A210\). En la columna\(C\) ingresé la ecuación para la línea de regresión logística; en formato Excel, es

    \(=exp(-7.6469+0.1786*(A10))/(1+exp(-7.6469+0.1786*(A10)))\)

    para fila\(10\). Copié esto en celdas\(C11\) a través de\(C210\). Entonces cuando dibujé una gráfica de los números en columnas\(A,\; B,\; \text{and}\; C\), di los números en la columna B símbolos pero sin línea, y los números en columna\(C\) obtuvieron una línea pero no símbolos.

    Fig. 5.6.4 Stoneroller central, Anomalum de Campostoma.

    Si solo se tiene una observación de la variable nominal para cada valor de la variable de medición, como en el ejemplo de araña, sería tonto dibujar un scattergraph, ya que cada punto de la gráfica estaría en uno\(0\) o\(1\) en el\(Y\) eje. Si tiene muchos puntos de datos, puede dividir los valores de medición en intervalos y trazar la proporción para cada intervalo en un gráfico de barras. Aquí hay datos de la Encuesta de Corrientes Biológicas de Maryland sobre sitios\(2180\) de muestreo en arroyos de Maryland. La variable de medición es la concentración de oxígeno disuelto, y la variable nominal es la presencia o ausencia del stoneroller central, Campostoma anomalum. Si usa un gráfico de barras para ilustrar una regresión logística, debe explicar que el agrupamiento fue solo para fines heurísticos, y que la regresión logística se realizó sobre los datos brutos no agrupados.

    Fig. 5.6.5 Proporción de corrientes con fumetas centrales vs. oxígeno disuelto. Los intervalos de oxígeno disuelto se establecieron para tener aproximadamente el mismo número de sitios de la corriente. La línea negra gruesa es la línea de regresión logística; se basa en los datos brutos, no en los datos agrupados en intervalos.

    Pruebas similares

    Se puede hacer regresión logística con una variable dependiente que tenga más de dos valores, conocidos como regresión logística multinomial, politómica o policómica. Yo no cubro esto aquí.

    Utilice regresión logística múltiple cuando la variable dependiente sea nominal y haya más de una variable independiente. Es análogo a la regresión lineal múltiple, y se aplican todas las mismas advertencias.

    Utilice regresión lineal cuando la\(Y\) variable sea una variable de medición.

    Cuando solo hay una variable de medición y una variable nominal, podría usar anova unidireccional o una prueba t para comparar las medias de la variable de medición entre los dos grupos. Conceptualmente, la diferencia es si piensas que la variación en la variable nominal causa variación en la variable de medición (usa un\(t\) —test) o la variación en la variable de medición causa variación en la probabilidad de la variable nominal (usa regresión logística). También debes considerar a quién estás presentando tus resultados, y cómo van a usar la información. Por ejemplo, Tallamy et al. (2003) examinaron el comportamiento de apareamiento en escarabajos manchados del pepino (Diabrotica undecimpunctata). Los escarabajos machos acarician a la hembra con su antena, y Tallamy et al. querían saber si los machos que acariciaban más rápido tenían mejor éxito en el apareamiento. Compararon la tasa media de caricias de machos\(21\) exitosos (\(50.9\)golpes por minuto) y machos\(16\) fallidos (\(33.8\)golpes por minuto) con una\(t\) prueba de dos muestras, y encontraron un resultado significativo (\(P<0.0001\)). Este es un resultado simple y claro, y responde a la pregunta: “¿Los escarabajos hembra manchados del pepino son más propensos a aparearse con machos que acarician más rápido?” Tallamy et al. (2003) podrían haber analizado estos datos mediante regresión logística; es una técnica estadística más difícil y menos familiar que podría confundir a algunos de sus lectores, pero además de responder a la pregunta de sí/no sobre si la velocidad de caricias está relacionada con el éxito del apareamiento, podrían haber utilizado la regresión logística para predecir cuánto aumento en el éxito de apareamiento obtendría un escarabajo a medida que aumentara su velocidad de acariciamiento. Esto podría ser útil información adicional (especialmente si eres un escarabajo macho del pepino).

    Cómo hacer la prueba

    Hoja de Cálculo

    He escrito una hoja de cálculo para hacer regresión logística simple logistic.xls. Se pueden ingresar los datos ya sea en forma resumida (por ejemplo, diciendo que en\(30^{\circ}C\) había dragones Komodo\(7\) macho y\(3\) hembra) o de forma no resumida (por ejemplo, ingresando cada dragón de Komodo por separado, con\(0\) "" para un macho y\(1\) "" para una hembra). Utiliza el método de relación de probabilidad para calcular el\(P\) valor. La hoja de cálculo hace uso de la herramienta “Solver” en Excel. Si no ve Solver listado en el menú Herramientas, vaya a Complementos en el menú Herramientas e instale Solver.

    Es divertido jugar con la hoja de cálculo, pero no tengo la suficiente confianza en ella como para recomendar que la uses para resultados publicables.

    Página web

    Hay una página web muy agradable que hará regresión logística, con la relación de probabilidad chi-cuadrado. Puedes ingresar los datos ya sea en forma resumida o no resumida, con los valores separados por tabulaciones (que obtendrás si copias y pegas de una hoja de cálculo) o comas. Ingresarías los datos del anfípodo así:

    48.1,47,139
    45.2,177,241
    44.0,1087,1183
    43.7,187,175
    43.5,397,671
    37.8,40,14
    36.6,39,17
    34.3,30,0

    R

    El\(R\) compañero de Salvatore Mangiafico tiene un programa R de muestra para regresión logística simple.

    SAS

    Utilice PROC LOGISTIC para regresión logística simple. Hay dos formas de la declaración MODELO. Cuando tiene múltiples observaciones para cada valor de la variable de medición, su conjunto de datos puede tener la variable de medición, el número de “éxitos” (esto puede ser el valor de la variable nominal) y el total (para lo cual puede necesitar crear una nueva variable, como se muestra aquí). Aquí hay un ejemplo usando los datos de anfípodos:

    Anfípodos de DATOS; UBICACIÓN DE
    ENTRADA $ latitud mpi90
    mpi100; total=mpi90+mpi100;
    DATALINES;
    Port_Townsend, _WA 48.1 47 139
    Neskowin, _OR 45.2 177 241
    Siuslaw_R., _OR 44.0 1087 1183
    Umpqua_R., _OR 43.7 187 175
    Coos_Bay, _OR 43.5 397 671
    San_Francisco, _CA 37.8 40 14
    Carmelo, _CA 36.6 39 17
    Santa_Bárbara, _CA 34.3 30 0
    ;
    PROC LOGISTIC DATA=AMPÍODOS;
    MODELO mpi100/total=latitud;
    EJECUTAR;

    Tenga en cuenta que crea la nueva variable TOTAL en el paso DATA agregando el número de alelos Mpi90 y Mpi100. La sentencia MODEL utiliza el número de alelos Mpi100 del total como variable dependiente. El\(P\) valor sería el mismo si usaras Mpi90; los parámetros de la ecuación serían diferentes.

    Hay mucha salida de PROC LOGISTIC que no necesitas. El programa le da tres\(P\) valores diferentes; el\(P\) valor de la relación de verosimilitud es el más utilizado:

    Prueba de hipótesis nula global: BETA=0

    Prueba Chi-cuadrado DF Pr > ChiSq Ratio de

    verosimilitud 83.3007 1 <.0001 Valor P
    Puntaje 80.5733 1 <.0001
    Wald 72.0755 1 <.0001

    Los coeficientes de la ecuación logística se dan bajo “estimación”:

    Análisis de Estimaciones de Máxima Verosimilitud
    Parámetro

    Estándar de Wald DF Estimación Error Chi-cuadrado Pr > ChiSQ

    Intercept 1 -7.6469 0.9249 68.3605 & lt; .0001
    latitud 1 0.1786 0.0210 72.0755 <.0001

    Usando estos coeficientes, la ecuación de máxima verosimilitud para la proporción de alelos Mpi100 en una latitud particular es:

    \[Y=\frac{e^{-7.6469+0.1786(latitude)}}{1+e^{-7.6469+0.1786(latitude)}}\]

    También es posible utilizar datos en los que cada línea es una sola observación. En ese caso, puede usar palabras o números para la variable dependiente. En este ejemplo, los datos son la altura (en pulgadas) de los\(2004\) alumnos de mi clase, junto con su insecto favorito (agrupados en escarabajos vs. todo lo demás, donde “todo lo demás” incluye arañas, que un biólogo realmente debería saber que no son insectos):

    DATA insecto;
    INPUTADO altura insecto $ @@;
    DATALINES;
    62 escarabajo 66 otro 61 escarabajo 67 otro 62 otro
    76 otro 66 otro 70 escarabajo 67 otro 66 otro
    70 otro 70 otro 77 escarabajo 76 otro 72 escarabajo
    76 escarabajo 72 otro 70 otro 65 otro 63 otro
    63 otro 70 otro 72 otro 70 escarabajo 74 otro
    ;
    PROC LOGISTIC DATA=insecto;
    INSECTO MODELO = altura;
    CORRE;

    El formato de los resultados es el mismo para cualquiera de las formas de la declaración MODEL. En este caso, el modelo sería la probabilidad de BEETLE, porque es alfabéticamente primero; para modelar la probabilidad de OTHER, se agregaría un EVENT después de la variable nominal en la instrucción MODEL, convirtiéndola en “MODEL insect (event='OTHER') =height;”

    Análisis de potencia

    Puede usar G*Power para estimar el tamaño de muestra necesario para una regresión logística simple. Elija "\(z\)pruebas” en Familia de pruebas y “Regresión logística” en Prueba estadística. Establezca el número de colas (generalmente dos), alfa (generalmente\(0.05\)) y potencia (a menudo\(0.8\) o\(0.9\)). Para regresión logística simple, establezca “Distribución X” en Normal, “R 2 otra X” a\(0\), “X parm μ” a\(0\), y “X parm σ” en\(1\).

    Lo último que debes establecer es el tamaño de tu efecto. Esta es la razón de probabilidades de la diferencia que espera encontrar entre las probabilidades de\(Y\) cuándo\(X\) es igual a la media\(X\) y las probabilidades de\(Y\) cuándo\(X\) es igual a la media\(X\) más una desviación estándar. Puede hacer clic en el botón “Determinar” para calcular esto.

    Por ejemplo, digamos que quieres estudiar la relación entre el tamaño de partícula de arena y las presencias o ausencia de escarabajos tigre. Usted establece alfa a\(0.05\) y el poder a\(0.90\). Se espera, con base en investigaciones previas, que\(30\%\) de las playas que mirarás tengan escarabajos tigre, por lo que estableces “Pr (Y=1|X=1) H0" en\(0.30\). También con base en investigaciones previas, se espera un tamaño medio de grano de arena de\(0.6 mm\) con una desviación estándar de\(0.2 mm\). El tamaño del efecto (la desviación mínima de la hipótesis nula que esperas ver) es que a medida que el tamaño del grano de arena aumenta en una desviación estándar, de\(0.6 mm\) a\(0.8 mm\), la proporción de playas con escarabajos tigre irá de\(0.30\) a\(0.40\). Haga clic en el botón “Determinar” e ingresa\(0.40\) para “Pr (Y=1|X=1) H1" y\(0.30\) para “Pr (Y=1|X=1) H0", luego presiona “Calcular y transferir a la ventana principal”. Llenará el ratio de probabilidades (\(1.555\)para nuestro ejemplo) y el “Pr (Y=1|X=1) H0". El resultado en este caso es\(206\), lo que significa que tu experimento va a requerir que viajes a playas\(206\) cálidas y hermosas.

    Referencias

    Imagen de anfípodo de la página de inicio de Vikram Iyengar.

    McDonald, J.H. 1985. Variación geográfica y relacionada con el tamaño en dos loci enzimáticos en Megalorchestia californiana (Amphipoda: Talitridae). Herencia 54:359-366.

    Suzuki, S., N. Tsurusaki, e Y. Kodama. 2006. Distribución de una araña madriguera en peligro de extinción Lycosa ishikariana en la costa San'in de Honshu, Japón (Araneae: Lycosidae). Acta Aracnologica 55:79-86.

    Tallamy, D.W., M.B. Darlington, J.D. Pesek, y B.E. Powell. 2003. El cortejo copulatorio señala la calidad genética masculina en escarabajos del pepino. Actas de la Royal Society of London B 270:77-82.


    This page titled 5.6: Regresión logística simple is shared under a not declared license and was authored, remixed, and/or curated by John H. McDonald via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.