Saltar al contenido principal
LibreTexts Español

14.1: Variables ficticias

  • Page ID
    150232
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Hasta el momento, hemos considerado modelos de OLS que incluyen variables medidas en escalas de nivel de intervalo (o, en caso de pellizco y con precaución, escalas ordinales). Eso está bien cuando tenemos variables para las cuales podemos desarrollar medidas de intervalo (u ordinales) válidas y confiables. Pero en el mundo de las políticas y las ciencias sociales, a menudo queremos incluir en nuestro análisis conceptos que no admiten fácilmente la medición de intervalos —incluyendo muchos casos en los que una variable tiene una cualidad “on - off”, o “presente - ausente”. En otros casos queremos incluir un concepto que sea esencialmente de naturaleza nominal, de tal manera que una observación pueda clasificarse como un subconjunto pero no medirse en un tipo de escala “alto-bajo” o “más menos”. En estos casos podemos utilizar lo que generalmente se conoce como una variable ficticio, pero también se conoce como variables indicadoras, variables booleanas o variables categóricas.

    ¿Qué Diablos son las “Variables ficticias”?

    • Una variable dicotómica, con valores de 0 y 1;
    • Un valor de 1 representa la presencia de alguna calidad, un cero su ausencia;
    • Los 1s se comparan con los 0s, quienes son conocidos como el grupo referente “;
    • Las variables ficticias a menudo se consideran un proxy para una variable cualitativa.

    Las variables ficticias permiten realizar pruebas de las diferencias en el valor general del YY para diferentes grupos nominales en los datos. Son similares a una prueba de diferencia de medias para los grupos identificados por la variable ficticio. Las variables ficticias permiten comparaciones entre un grupo incluido (los 1s) y uno omitido (los 0s). Por lo tanto, es importante tener claro qué grupo se omite y que sirve como categoría de comparación”.

    A menudo ocurre que hay más de dos grupos representados por un conjunto de categorías nominales. En ese caso, la variable constará de dos o más variables ficticias, con 0/1 códigos para cada categoría excepto el grupo referente (el cual se omite). Algunos ejemplos de variables categóricas que se pueden representar en regresión múltiple con variables ficticias incluyen:

    • Grupos experimentales de tratamiento y control (tratamiento=1, control=0)
    • Género (masculino=1, mujer=0 o viceversa)
    • Raza y etnia (un maniquí para cada grupo, con un grupo referente omitido)
    • Región de residencia (ficticio para cada región con una región de referencia omitida)
    • Tipo de educación (maniquí para cada tipo con tipo de referencia omitido)
    • Afiliación religiosa (maniquí para cada denominación religiosa con referencia omitida)

    El valor del coeficiente ficticio representa la diferencia estimada en YY entre el grupo ficticio y el grupo de referencia. Debido a que la diferencia estimada es el promedio sobre todas las observaciones YY, el maniquí se entiende mejor como un cambio en el valor de la intercepción (AA) para el grupo ficticio”. Esto se ilustra en la Figura\(\PageIndex{1}\). En esta ilustración, el valor de YY es una función de X1X1 (una variable continua) y X2X2 (una variable ficticio). Cuando X2X2 es igual a 0 (el caso referente) se aplica la línea de regresión superior. Cuando X2=1X2=1, el valor de YY se reduce a la línea de fondo. En definitiva, X2X2 tiene un coeficiente de regresión parcial estimado negativo representado por la diferencia de altura entre las dos líneas de regresión.

    dum-1.png
    Figura\(\PageIndex{1}\): Variables de intercepción ficticias

    Para un caso con múltiples categorías nominales (por ejemplo, región) el procedimiento es el siguiente: (a) determinar qué categoría se asignará como grupo referente; (b) crear una variable ficticio para cada una de las otras categorías. Por ejemplo, si estás codificando un maniquí para cuatro regiones (Norte, Sur, Este y Oeste), podrías designar al Sur como grupo referente. Entonces crearías maniquíes para las otras tres regiones. Entonces, todas las observaciones del Norte obtendrían un valor de 1 en el maniquí Norte, y ceros en todas las demás. De igual manera, las observaciones de Oriente y Occidente recibirían un 1 en su respectiva categoría ficticio y ceros en otros lugares. A las observaciones de la región Sur se les darían valores de cero en las tres categorías. La interpretación de los coeficientes de regresión parcial para cada uno de los tres maniquíes sería entonces la diferencia estimada en YY entre las observaciones del Norte, Oriente y Occidente y las del Sur.

    Ahora vamos a recorrer un ejemplo de un modelo RR con una variable ficticio y la interpretación de ese modelo. Prediremos el riesgo de cambio climático usando edad, educación, ingresos, ideología y “gend”, una variable ficticio para género para la cual 1 = masculino y 0 = femenino.

    ds.temp <- filter(ds) %>% 
      dplyr::select("glbcc_risk","age","education","income","ideol","gender") %>% na.omit()
    
    ols1 <- lm(glbcc_risk ~ age + education + income + ideol + gender, data = ds.temp)
    summary(ols1)
    ## 
    ## Call:
    ## lm(formula = glbcc_risk ~ age + education + income + ideol + 
    ##     gender, data = ds.temp)
    ## 
    ## Residuals:
    ##     Min      1Q  Median      3Q     Max 
    ## -8.8976 -1.6553  0.1982  1.4814  6.7046 
    ## 
    ## Coefficients:
    ##                  Estimate    Std. Error t value             Pr(>|t|)    
    ## (Intercept) 10.9396287313  0.3092105590  35.379 < 0.0000000000000002 ***
    ## age         -0.0040621210  0.0036713524  -1.106              0.26865    
    ## education    0.0665255149  0.0299689664   2.220              0.02653 *  
    ## income      -0.0000023716  0.0000009083  -2.611              0.00908 ** 
    ## ideol       -1.0321209152  0.0299808687 -34.426 < 0.0000000000000002 ***
    ## gender      -0.2221178483  0.1051449213  -2.112              0.03475 *  
    ## ---
    ## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
    ## 
    ## Residual standard error: 2.431 on 2265 degrees of freedom
    ## Multiple R-squared:  0.364,  Adjusted R-squared:  0.3626 
    ## F-statistic: 259.3 on 5 and 2265 DF,  p-value: < 0.00000000000000022

    Primero tenga en cuenta que la inclusión de las variables ficticias no cambia la manera en que interpreta las otras variables (no ficticias) en el modelo; los coeficientes de regresión parcial estimados para edad, educación, ingresos e ideología deben interpretarse como se describe en el capítulo anterior. Obsérvese que el coeficiente de regresión parcial estimado para el género” es negativo y estadísticamente significativo, lo que indica que los varones tienen menos probabilidades de preocuparse por el medio ambiente que las mujeres. La estimación indica que, siendo todos los demás iguales, la diferencia promedio entre hombres y mujeres en la escala de riesgo de cambio climático es de -0.2221178.


    This page titled 14.1: Variables ficticias is shared under a CC BY 4.0 license and was authored, remixed, and/or curated by Jenkins-Smith et al. (University of Oklahoma Libraries) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.