4.1: Visualizar las relaciones en los datos
- Page ID
- 149798
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
Antes de comenzar el desarrollo del modelo, es útil obtener una idea visual de las relaciones dentro de los datos. Podemos hacer esto fácilmente con la siguiente llamada a la función:
> pairs(int00.dat, gap=0.5)
La función pairs ()
produce la gráfica mostrada en la Figura 4.1. Esta gráfica proporciona una comparación por pares de todos los datos en el marco de datos int00.dat
. El parámetro gap
en la llamada a la función controla el espaciado entre las gráficas individuales. Ponlo a cero para eliminar cualquier espacio entre las parcelas.
Como ejemplo de cómo leer esta trama, ubique la caja cerca de la esquina superior izquierda etiquetada perf
. Este es el valor del rendimiento medido para el conjunto de datos int00.dat
. El cuadro inmediatamente a la derecha de éste es un scatter
plot, con datos de perf
en el eje vertical y datos de reloj
en el eje horizontal. Esta es la misma información que trazamos previamente en la Figura 3.1. Al escanear a través de estas gráficas, podemos ver cualquier relación obviamente significativa entre las variables. Por ejemplo, observamos rápidamente que existe una relación algo proporcional entre perf
y reloj
. Al escanear la columna perf
, también vemos que podría haber una relación débilmente inversa entre perf
y FeatureSize
.
Observe que existe una correlación lineal perfecta entre perf
y nperf
. Esta relación se produce porque nperf
es una simple reescalación de perf
. Los valores de rendimiento de referencia reportados en la base de datos es decir, los valores de perf
utilizan diferentes escalas para diferentes puntos de referencia. Para comparar directamente los valores que nuestros modelos predecirán, es útil reescalar perf
al rango [0,100]. Haz esto con bastante facilidad, usando este código R:
max_perf = max(perf)
min_perf = min(perf)
range = max_perf min_perf
nperf = 100 * (perf min_perf) / range
Tenga en cuenta que esta reescalación no tiene ningún efecto sobre los modelos que desarrollaremos, ya que es una transformación lineal de perf
. Para mayor comodidad y consistencia, usamos nperf
en el resto de este tutorial.