16.4: Transformaciones de Box-Cox

Última actualización
Guardar como PDF

Page ID: 152347

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Objetivos de aprendizaje

Estudiar la transformación de Box-Cox

George Box y Sir David Cox colaboraron en una ponencia (Box,\(1964\)). La historia es que mientras Cox visitaba Box en Wisconsin, decidieron que debían escribir un artículo juntos por la similitud de sus nombres (y que ambos son británicos). De hecho, el profesor Box está casado con la hija de Sir Ronald Fisher.

La transformación de Box-Cox de la variable también\(x\) está indexada por\(λ\), y se define como

\[ x' = \dfrac{x^\lambda-1}{\lambda} \label{eq1}\]

A primera vista, aunque la fórmula en Ecuación\ ref {eq1} es una versión escalada de la transformación de Tukey\(x^\lambda\), esta transformación no parece ser la misma que la fórmula de Tukey en la Ecuación (2). No obstante, una mirada más cercana muestra que cuando\(λ < 0\), ambos\(x_\lambda\) y\(X_{\lambda }^{'}\) cambiar el signo de\(x^\lambda\) para preservar el orden. De mayor interés es el hecho de que cuando\(λ = 0\), entonces la variable Box-Cox es la forma indeterminada\(0/0\). Reescribiendo la fórmula de Box-Cox como

\[X_{\lambda }^{'}=\frac{e^{\lambda \log (x)}-1}{\lambda }\approx \frac{\left ( 1+\lambda \log (x) + \tfrac{1}{2}\lambda ^2\log (x)^2 + \cdots \right )-1}{\lambda }\rightarrow \log (x)\]

como\(\lambda \rightarrow 0\). Este mismo resultado también se puede obtener usando la regla de L'hôpital de tu curso de cálculo. Esto da una explicación rigurosa para la sugerencia de Tukey de que la transformación logarítmica (que no es un ejemplo de una transformación polinómica) puede insertarse en el valor\(λ = 0\).

caja-cox_fig1 [1] .jpg — Figura\(\PageIndex{1}\): *Ejemplos de la transformación de Box-Cox\(X_{\lambda }^{'}\)* *versus\(x\) for\(λ = −1, 0, 1\). En la segunda fila,*\(X_{\lambda }^{'}\) *se traza contra\(log(x)\). El punto rojo está en\((1, 0)\).*

Observe con esta definición de\(X_{\lambda }^{'}\) que\(x = 1\) siempre se mapea al punto\(X_{\lambda }^{'} = 0\) para todos los valores de\(λ\). Para ver cómo funciona la transformación, mira los ejemplos en la Figura\(\PageIndex{1}\). En la fila superior, la elección\(λ = 1\) simplemente cambia\(x\) al valor\(x−1\), que es una línea recta. En la fila inferior (en una escala semi-logarítmica), la elección\(λ = 0\) corresponde a una transformación logarítmica, que ahora es una línea recta. Superponemos una mayor colección de transformaciones en una escala semi-logarítmica en la Figura\(\PageIndex{2}\).

caja-cox_fig2 [1] .jpg — Figura\(\PageIndex{2}\): Ejemplos de la transformación de Box-Cox\(X_{\lambda }^{'}\) versus\(log(x)\) for\(−2 < λ < 3\). La curva inferior corresponde a\(λ = −2\) y la superior a\(λ = 3\).

Transformación a la normalidad

Otro uso importante de la transformación de variables es eliminar la asimetría y otras características distributivas que complican el análisis. A menudo el objetivo es encontrar una transformación simple que conduzca a la normalidad. En el artículo sobre\(q-q\) parcelas, se discute cómo evaluar la normalidad de un conjunto de datos,

\[x_1,x_2, \ldots ,x_n.\]

Los datos que son normales conducen a una línea recta en la gráfica q-q. Dado que el coeficiente de correlación se maximiza cuando un diagrama de dispersión es lineal, podemos usar el mismo enfoque anterior para encontrar la transformación más normal.

Específicamente, formamos los\(n\) pares

\[\left ( \Phi ^{-1} \left ( \frac{i-0.5}{n} \right ), x_{(i)} \right ),\; for\; i=1,2,\cdots ,n\]

donde\(\Phi ^{-1}\) es el CDF inverso de la densidad normal y\(x_{(i)}\) denota el valor\(i^{th}\) ordenado del conjunto de datos. A modo de ejemplo, consideremos una gran muestra de ingresos de los hogares británicos tomados en\(1973\), normalizados para tener media igual a uno (\(n = 7125\)). Dichos datos suelen estar fuertemente sesgados, como se desprende de la Figura\(\PageIndex{3}\). Los datos fueron ordenados y emparejados con los cuantiles\(7125\) normales. El valor de\(λ\) que dio la mayor correlación (\(r = 0.9944\)) fue\(λ = 0.21\).

caja-cox_fig3 [1] .jpg — Figura\(\PageIndex{3}\): (L) Gráfica de densidad de los datos de ingresos\(1973\) británicos. (R) El mejor valor de\(λ\) es\(0.21\).

La gráfica de densidad del núcleo de los datos transformados óptimamente se muestra en el cuadro izquierdo de la Figura\(\PageIndex{4}\). Si bien esta cifra es mucho menos sesgada que en la Figura\(\PageIndex{3}\), claramente hay un “componente” extra en la distribución que podría reflejar a los pobres. Los economistas suelen analizar el logaritmo del ingreso correspondiente a\(λ = 0\); ver Figura\(\PageIndex{4}\). La correlación es sólo\(r = 0.9901\) en este caso, pero por conveniencia, probablemente se preferirá la transformación logarítmica.

caja-cox_fig4 [1] .jpg — Figura\(\PageIndex{4}\): (L) Gráfica de densidad de los datos de ingresos\(1973\) británicos transformados con\(λ = 0.21\). (R) La transformación logarítmica con\(λ = 0\).

Otras aplicaciones

El análisis de regresión es otra aplicación donde se aplica frecuentemente la transformación de variables. Para el modelo

\[y =\beta_o + \beta_1 x_1 + \beta_2 x_2 + \ldots \beta_p x_p + \epsilon\]

y modelo ajustado

\[\widehat{y}=b_0 + b_1x_1 + b_2x_2 + \cdots + b_px_p\]

cada una de las variables predictoras\(x_j\) puede ser transformada. El criterio habitual es la varianza de los residuos, dada por

\[\frac{1}{n} \sum_{i=1}^{n} (\widehat{y}_i-y_i)^2\]

Ocasionalmente, la variable de respuesta y puede transformarse. En este caso, se debe tener cuidado porque la varianza de los residuos no es comparable ya que\(λ\) varía. Let\(\bar{g}_y\) representar la media geométrica de las variables de respuesta.

\[\bar{g}_y = \left ( \prod_{i-1}^{n} y_i \right )^{1/n}\]

Entonces la respuesta transformada se define como

\[y_{\lambda }^{'} = \frac{y^\lambda -1}{\lambda \cdot \bar{g}_{y}^{\lambda -1}}\]

Cuando\(λ = 0\) (el caso logarítmico),

\[y_{0}^{'} = \bar{g}_y \cdot \log (y)\]

Para más ejemplos y discusiones, véase Kutner, Nachtsheim, Nater y Li (2004).

Referencias

Box, G. E. P. y Cox, D. R. (1964). Un análisis de las transformaciones, Revista de la Real Sociedad Estadística, Serie B, 26, 211-252.
Kutner, M., Nachtsheim, C., Nater, J., y Li, W. (2004). Modelos Estadísticos Lineales Aplicados, McGraw-Hill/Irwin, Homewood, IL.