3.2: Datos sobre Datos

Última actualización
Guardar como PDF

Page ID: 88777

Anonymous
LibreTexts

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\id}{\mathrm{id}}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\kernel}{\mathrm{null}\,}\)

\( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\)

\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\)

\( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)

\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)

\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vectorC}[1]{\textbf{#1}} \)

\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

Objetivos de aprendizaje

El objetivo de esta sección es resaltar la diferencia entre las fuentes de datos primarias y secundarias y comprender la importancia de los metadatos y los estándares de datos.

Considere el siguiente archivo delimitado por comas:

ciudad, sol, temp, precip

Los Ángeles, 300, 70, 10

Londres, 50, 55, 40

Singapur, 330, 80, 60

Al observar el contenido del archivo, podemos ver que contiene datos sobre las ciudades de Los Ángeles, Londres y Singapur. Como se señaló, cada campo o atributo está separado por una coma, y el archivo también contiene una fila de encabezado que nos informa sobre los datos contenidos en cada columna. ¿O lo hace? ¿A qué se refiere la columna “sol”? ¿Es el número de días soleados este año, el año pasado, anualmente o cuándo? ¿Qué pasa con “temp”? ¿Esto se refiere a la temperatura promedio diurna, vespertina o anual? Para el caso, ¿cómo se mide la temperatura? ¿En Celsius? ¿Fahrenheit? ¿Kelvin? La columna “precip” probablemente se refiere a la precipitación, pero nuevamente, ¿cuáles son las unidades o marco de tiempo para tales medidas y datos? Por último, ¿de dónde provienen estos datos? ¿Quién los recolectó, cuándo fueron recolectados y con qué propósito?

Es increíble pensar que un archivo de texto tan pequeño puede llevar a tantas preguntas. Ahora vamos a extender el ejemplo a un archivo con cien registros sobre diez variables, mil registros sobre cien variables o mejor aún, diez mil registros sobre mil variables. A través de este ejemplo bastante simple, surgen una serie de cuestiones generales pero centrales que están relacionadas con los datos. Tales cuestiones van desde las convenciones de nomenclatura relativamente mundanas que se utilizan para identificar registros individuales (es decir, filas) y distinguir un campo (es decir, columna) de otro, hasta el tema de proporcionar documentación sobre qué datos se incluyen en un archivo dado; cuándo se recopilaron los datos; para qué propósito son los datos a utilizar; quién los recabó; y, por supuesto, ¿de dónde provienen los datos?

El archivo de texto simple anterior ilustra cómo no podemos y no debemos dar por sentado los datos y la información. También destaca dos conceptos importantes con respecto a la fuente de datos y al contenido de los archivos de datos. Con respecto a las fuentes de datos, los datos se pueden poner en una de dos categorías distintas. La primera categoría se llama datos primarios. Los datos primarios se refieren a datos que se recopilan directamente o de primera mano. Por ejemplo, si quisieras examinar la variabilidad de las temperaturas locales en el mes de mayo, y registraste la temperatura al mediodía todos los días de mayo, estarías construyendo un conjunto de datos primarios. Por el contrario, los datos secundarios se refieren a datos recopilados por otra persona o alguna otra parte. Por ejemplo, cuando trabajamos con datos censales o económicos recopilados y distribuidos por el gobierno, estamos utilizando datos secundarios.

Varios factores influyen en la decisión detrás de la construcción y uso de conjuntos de datos primarios versus conjuntos de datos secundarios. Entre los factores más importantes se encuentran los costos asociados a la adquisición de datos en términos de dinero, disponibilidad y tiempo. De hecho, la fase de adquisición e integración de datos de la mayoría de los proyectos de sistemas de información geográfica (SIG) suele ser la que consume más tiempo. En otras palabras, localizar, obtener y armar los datos que se utilizarán para un proyecto SIG, ya sea que recopile los datos usted mismo o use datos secundarios, puede tomar la mayor parte de su tiempo. Por supuesto, dependiendo del propósito, disponibilidad y necesidad, puede que no sea necesario construir un conjunto de datos completamente nuevo (es decir, conjunto de datos primario). A la luz de las grandes cantidades de datos e información que están disponibles públicamente, por ejemplo, a través de Internet, el ahorro de costos y tiempo del uso de datos secundarios a menudo compensa cualquier beneficio que esté asociado con la recolección de datos primarios.

Ahora que tenemos una comprensión básica de la diferencia entre los datos primarios y secundarios, así como la justificación detrás de cada uno, ¿cómo vamos para encontrar los datos y la información que necesitamos? Como se señaló anteriormente, hay una cantidad increíblemente vasta y creciente de datos e información disponibles para nosotros, y realizar una búsqueda en línea de “datos de deforestación” arrojará cientos, si no miles, de resultados. Para superar esta sobrecarga de datos e información necesitamos recurrir a... aún más datos. En particular, estamos buscando un tipo especial de datos llamados metadatos. Definidos de manera simple, los metadatos son datos sobre datos. En un nivel, una fila de encabezado en un archivo de texto simple como los discutidos en la sección anterior es análoga a los metadatos. La fila de encabezado proporciona datos (por ejemplo, nombres y etiquetas) sobre las filas de datos posteriores.

Sin embargo, las filas de cabecera pueden necesitar una explicación adicional como se ha ilustrado anteriormente. Además, al trabajar con o buscar en varios conjuntos de datos, puede ser bastante tedioso en el mejor de los casos o imposible en el peor de los casos abrir todos y cada uno de los archivos para determinar su contenido y usabilidad. Ingresa metadatos. Hoy en día muchos archivos, y en particular conjuntos de datos secundarios, vienen con un archivo de metadatos. Estos archivos de metadatos contienen elementos como descripciones generales sobre el contenido del archivo, definiciones de los diversos términos utilizados para identificar registros (filas) y campos (campos), el rango de valores para los campos, la calidad o confiabilidad de los datos y mediciones, cómo se recolectaron los datos, cuándo los datos fueron recabados, y quienes recabaron los datos. Aunque no todos los datos van acompañados de metadatos, es fácil ver y entender por qué los metadatos son importantes y valiosos a la hora de buscar datos secundarios, así como al construir datos primarios que puedan compartirse en el futuro.

Así como los archivos simples vienen en todas las formas, tamaños y formatos, también lo hacen los metadatos. A medida que la cantidad y disponibilidad de datos e información aumentan cada día, los metadatos juegan un papel fundamental para darle sentido a todo. La clase de metadatos que más nos preocupa cuando trabajamos con un SIG se denomina metadatos geoespaciales. Como su nombre indica, los metadatos geoespaciales son datos sobre datos geográficos y espaciales. De acuerdo con el Comité Federal de Datos Geográficos (FGDC) en Estados Unidos (ver http://www.fgdc.gov), “Los metadatos geoespaciales se utilizan para documentar recursos digitales geográficos como archivos GIS, bases de datos geoespaciales e imágenes terrestres. Un registro de metadatos geoespaciales incluye elementos centrales del catálogo de la biblioteca como Título, Resumen y Datos de Publicación; elementos geográficos como Extensión Geográfica e Información de Proyección; y elementos de base de datos como Definiciones de Etiqueta de Atributo y Valores de Dominio de Atributos”. La definición de metadatos geoespaciales consiste en mejorar la transparencia cuando se trata de datos, así como promover estándares. Tómese unos minutos para explorar y examinar el contenido de un archivo de metadatos geoespaciales que se ajusta al FGDC aquí.

Generalmente, los estándares se refieren a reglas y prácticas ampliamente promovidas, aceptadas y seguidas. Dado el rango y variabilidad de los datos y fuentes de datos, identificar un hilo común para localizar y comprender el contenido de cualquier archivo dado puede ser un desafío. Así como las reglas de la gramática y las matemáticas proporcionan las bases para la comunicación y los cálculos numéricos, respectivamente, los metadatos proporcionan marcos similares para trabajar y compartir datos e información de diversas fuentes.

El punto central detrás de los metadatos es que facilita el intercambio de datos e información. Dentro del contexto de grandes organizaciones como los gobiernos, el intercambio de datos e información puede eliminar redundancias y aumentar las eficiencias. Además, el acceso a los datos y la información promueve la integración de diferentes datos que pueden mejorar los análisis, informar las decisiones y dar forma a las políticas. El papel que desempeñan los metadatos, y en particular los metadatos geoespaciales, en el mundo de los SIG es crítico y ofrece enormes beneficios en términos de ahorro de costos y tiempo. Es precisamente el intercambio, la distribución generalizada y la integración de diversos datos e información geográficos y no geográficos, habilitados por metadatos, los que impulsan algunas de las innovaciones más interesantes y convincentes en los SIG y en la comunidad más amplia de tecnologías de la información geoespacial. Más importante, el acceso generalizado, la distribución y el intercambio de datos e información geográficos tienen costos y beneficios sociales importantes y producen mejores análisis y decisiones más informadas.

Principales conclusiones

Los datos primarios se refieren a los datos que se obtienen mediante observación directa o medida, y los datos secundarios se refieren a datos recopilados por una parte diferente.
La adquisición de datos es uno de los aspectos más lentos de cualquier proyecto de SIG.
Los metadatos son datos sobre datos y promueven el intercambio, difusión e integración de datos.

EJERCICIOS

¿Cuáles son los costos y beneficios de usar datos primarios en lugar de datos secundarios?
Consulte el sitio web del Comité Federal de Datos Geográficos (http://www.fgdc.gov) y describa en detalle qué información debe incluirse en un archivo de metadatos. ¿Por qué son importantes los metadatos y los estándares?

Search

Text Color

Text Size

Margin Size

Font Type