4.1: Visualizar las relaciones en los datos

Última actualización
Guardar como PDF

Page ID: 149798

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\id}{\mathrm{id}}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\kernel}{\mathrm{null}\,}\)

\( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\)

\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\)

\( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)

\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)

\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vectorC}[1]{\textbf{#1}} \)

\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

Antes de comenzar el desarrollo del modelo, es útil obtener una idea visual de las relaciones dentro de los datos. Podemos hacer esto fácilmente con la siguiente llamada a la función:

> pairs(int00.dat, gap=0.5)

La función pairs () produce la gráfica mostrada en la Figura 4.1. Esta gráfica proporciona una comparación por pares de todos los datos en el marco de datos int00.dat. El parámetro gap en la llamada a la función controla el espaciado entre las gráficas individuales. Ponlo a cero para eliminar cualquier espacio entre las parcelas.

Como ejemplo de cómo leer esta trama, ubique la caja cerca de la esquina superior izquierda etiquetada perf. Este es el valor del rendimiento medido para el conjunto de datos int00.dat. El cuadro inmediatamente a la derecha de éste es un scatter

Screen Shot 2020-01-09 a las 11.46.10 AM.png — Figura 4.1: Todas las comparaciones por pares para el marco de datos Int2000.

plot, con datos de perf en el eje vertical y datos de reloj en el eje horizontal. Esta es la misma información que trazamos previamente en la Figura 3.1. Al escanear a través de estas gráficas, podemos ver cualquier relación obviamente significativa entre las variables. Por ejemplo, observamos rápidamente que existe una relación algo proporcional entre perf y reloj. Al escanear la columna perf, también vemos que podría haber una relación débilmente inversa entre perf y FeatureSize.

Observe que existe una correlación lineal perfecta entre perf y nperf. Esta relación se produce porque nperf es una simple reescalación de perf. Los valores de rendimiento de referencia reportados en la base de datos es decir, los valores de perf utilizan diferentes escalas para diferentes puntos de referencia. Para comparar directamente los valores que nuestros modelos predecirán, es útil reescalar perf al rango [0,100]. Haz esto con bastante facilidad, usando este código R:

max_perf = max(perf)
min_perf = min(perf)
range = max_perf min_perf
nperf = 100 * (perf min_perf) / range

Tenga en cuenta que esta reescalación no tiene ningún efecto sobre los modelos que desarrollaremos, ya que es una transformación lineal de perf. Para mayor comodidad y consistencia, usamos nperf en el resto de este tutorial.

Search

Text Color

Text Size

Margin Size

Font Type