20.7: Preparación de datos para su análisis

Última actualización
Guardar como PDF

Page ID: 124166

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\id}{\mathrm{id}}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\kernel}{\mathrm{null}\,}\)

\( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\)

\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\)

\( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)

\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)

\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vectorC}[1]{\textbf{#1}} \)

\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

Las “materias primas” para el análisis de datos son los archivos de datos creados por el proceso de gestión de datos. Sin embargo, las variables, registradas en el cuestionario e ingresadas a la base de datos como datos brutos, no siempre son las directamente adecuadas para el análisis de datos. Es probable que sea necesario recodificar y crear nuevas variables. Generalmente también es necesario combinar información de diferentes archivos de datos.

Al preparar los datos para su análisis, es una buena práctica crear un nuevo conjunto de datos con un nombre diferente para separarlo de los datos originales del estudio. Además, es recomendable conservar una copia de los comandos utilizados para preparar los datos (ya sea el programa que se utilizó o los archivos 'log'), en caso de que sea necesario volver a crear el archivo a partir de los datos sin procesar.

7.1 Diccionario de datos

El diccionario de datos forma parte de los metadatos y es el vínculo entre el cuestionario y los archivos de datos. Normalmente contiene el nombre y una descripción de cada variable, con información adicional como el tipo de datos (por ejemplo, numérico o texto), la codificación (por ejemplo, 0 = No, 1 = Sí), y la sección del cuestionario y el número de pregunta a los que se relaciona la variable. El diccionario de datos es esencial para comprender cómo se estructuran los datos y se utiliza en la preparación para el análisis de datos.

7.2 Crear nuevas variables

En ocasiones, es necesario crear una nueva variable a partir de dos o más variables existentes, ya que esta nueva variable puede ser más significativa que aquellas sobre las que se recolectaron datos directamente. Por ejemplo, el índice de masa corporal (IMC, definido como peso en kilogramos/ talla en metros2) o peso por edad pueden ser mejores marcadores del estado nutricional que el peso por sí solo. Dichas variables compuestas pueden calcularse directamente a partir de los datos brutos u obtenerse por comparación con un estándar dado (como en el caso del peso por edad).

Las variables relacionadas con el tiempo, como la duración de la residencia o la duración de la exposición a un factor de riesgo, presentan un caso especial. Dependiendo de las características de la variable y de la población en estudio, puede ser preferible registrar fechas relevantes en los cuestionarios y restarlas durante la etapa de análisis para calcular la duración de residencia, exposición, etc. Estos cálculos se pueden hacer, sin dificultad, con cualquier paquete estadístico.

Después de crear una variable compuesta, es útil verificar que la distribución de la nueva variable parezca razonable. También es apropiado verificar el rango de la nueva variable, ya que los errores de datos solo pueden aparecer en esta etapa. Por ejemplo, las edades negativas o los pesos extremos para la edad pueden resultar de errores en la fecha de nacimiento (o fecha de entrevista) en el cuestionario, aunque dichos errores deberían haberse detectado a través de comprobaciones de consistencia en una etapa anterior.

7.3 Codificación y recodificación

Antes de comenzar el análisis, suele ser necesario volver a codificar algunas variables, para que puedan agruparse en categorías. Dado que es aconsejable observar tabulaciones cruzadas de datos antes de pasar a los métodos de regresión, generalmente es necesaria la recodificación para las variables cuantitativas. La agrupación facilita la comprensión de los datos y, en particular, la búsqueda de asociaciones no lineales. Pero la re-codificación también puede ser necesaria para variables categóricas con un gran número de categorías, o pocas observaciones en algunas categorías.

Al recodificar variables cuantitativas, una estrategia es dividir el rango de la variable en cuartiles o quintiles, dando cuatro o cinco grupos con igual número de observaciones en cada grupo. Alternativamente, los puntos de corte pueden elegirse sobre la base de estándares establecidos. Por ejemplo, al agrupar la edad, es más natural usar bandas de edad de 5 o 10 años (por ejemplo, 20—29, 30—39, etc.), en lugar de basar la categorización en cuartiles. De igual manera, existen puntos de corte internacionales reconocidos para variables como el IMC (menos de 18.5 se considera bajo peso) o el peso para la edad (menos de −2.0 se considera atrofiado). Un histograma de los datos suele ser una buena manera de decidir cómo categorizar una variable cuantitativa sin puntos de corte estándar.

Con variables categóricas, puede ser necesario combinar grupos si hay muy pocas observaciones en algunos grupos. Al combinar grupos, un principio importante a recordar es que, para que la combinación sea apropiada, el riesgo del resultado debe ser similar en cada uno de los grupos combinados. Por ejemplo, en un estudio de desnutrición infantil, puede no ser apropiado agrupar a las madres sin escolaridad con las que tienen educación primaria.

El número de grupos a utilizar también depende, en parte, de cómo se utilizará la variable en el análisis. Si la variable es una exposición de interés, donde se planea examinar el patrón de dependencia del resultado de la cantidad de exposición (por ejemplo, una dosis-respuesta), es importante utilizar suficientes grupos para obtener una imagen razonable de la relación. Por ejemplo, para examinar el efecto de la ingesta de alcohol durante el embarazo sobre el peso al nacer, un grupo podría ser no bebedor, y podría haber cuatro o cinco grupos para diferentes niveles de ingesta de alcohol.

Después de decidir si y cómo debe agruparse cada variable, se deben asignar 'etiquetas' a las diferentes categorías para describirlas. Estas etiquetas deben guardarse en el conjunto de datos, lo que eliminará la necesidad de regresar a los cuestionarios o listas de códigos durante el análisis. Cuando se vuelve a codificar una variable, es importante crear una nueva variable y asignarle un nombre diferente, para preservar los datos sin procesar. Así, la variable 'AGE' podría agruparse y asignarse a otra variable llamada 'AGEGP'.

7.4 Fusión y vinculación de datos

Los datos requeridos para un análisis particular pueden necesitar provenir de varios conjuntos de datos diferentes (por ejemplo, los datos del cuestionario sobre el comportamiento sexual reciente de una persona pueden tener que vincularse a resultados de laboratorio, datos demográficos recopilados previamente y datos a nivel doméstico sobre el estado socioeconómico). Si se extraen tablas de datos completas para su análisis, la fusión de los datos puede manejarse más fácilmente en el paquete estadístico utilizado para el análisis.

Muchos paquetes de administración de datos permiten la construcción de vistas complejas de los datos y se pueden utilizar para extraer datos fusionados para su análisis. El analista de datos puede especificar las variables para su análisis, y éstas se pueden extraer de la base de datos, utilizando herramientas estándar de gestión de datos, manteniendo así la confidencialidad de los datos. También permite que los programas de extracción de datos simples se utilicen a intervalos regulares para datos longitudinales, dando instantáneas regulares de los datos para su análisis.

Search

Text Color

Text Size

Margin Size

Font Type