3.3: Encontrar datos
- Page ID
- 88776
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)Objetivos de aprendizaje
- El objetivo de esta sección es identificar y evaluar consideraciones clave a la hora de buscar datos.
Ahora que tenemos una comprensión básica de los datos y la información, ¿dónde podemos encontrar esos datos e información? Aunque una búsqueda en Internet ciertamente generará innumerables fuentes y tipos de datos, la búsqueda de datos relevantes y útiles suele ser un proceso desafiante e iterativo. Por lo tanto, antes de saltar en línea y descargar lo primero que aparece de una búsqueda en la web, es útil enmarcar nuestra búsqueda de datos con las siguientes preguntas y consideraciones:
- ¿Cuál es exactamente la finalidad de los datos? Dado el hecho de que el mundo está nadando en grandes cantidades de datos, articular por qué necesitamos (o por qué no necesitamos) un conjunto determinado de datos agilizará la búsqueda de datos útiles y relevantes. Para ello, cuanto más específicos podamos ser sobre la finalidad de los datos necesarios, más eficiente será nuestra búsqueda de datos. Por ejemplo, si nos interesa comprender y estudiar el crecimiento económico, es útil determinar escalas tanto temporales como geográficas. En otras palabras, ¿en qué períodos de tiempo (por ejemplo, 1850—1900) e intervalos (por ejemplo, trimestrales, anuales) estamos interesados, y en qué nivel de análisis (por ejemplo, nacional, regional, estatal)? A menudo, la disponibilidad de datos, o más específicamente, la falta de datos relevantes, nos obligará a cambiar el propósito o alcance de nuestra pregunta original. Un propósito claro dará lugar a una búsqueda más eficiente de datos y nos permitirá aceptar o descartar rápidamente los diversos conjuntos de datos que podamos encontrar.
- La segunda pregunta que debemos hacernos es ¿qué datos ya existen y a qué datos ya tenemos acceso? Antes de buscar nuevos datos, siempre es una buena idea hacer un inventario de los datos que ya tenemos. Dichos datos pueden ser de proyectos o análisis anteriores, o de colegas y compañeros de clase, pero el punto clave aquí es que podemos ahorrar mucho tiempo y esfuerzo utilizando datos que ya poseemos. Además, al identificar lo que tenemos, obtenemos una mejor comprensión de lo que necesitamos. Por ejemplo, aunque es posible que ya tengamos datos censales (es decir, datos de atributos), es posible que necesitemos datos geográficos actualizados que contengan los límites de los estados o condados estadounidenses.
- A continuación, necesitamos evaluar y evaluar los costos asociados a la adquisición de datos. Los costos de adquisición de datos van más allá de los costos financieros Tan importantes como los costos financieros de los datos son aquellos que involucran tu tiempo. Después de todo, el tiempo es dinero. El tiempo y la energía que gasta en recopilar, encontrar, limpiar y formatear datos son tiempo y energía quitados del análisis de datos. Dependiendo de los plazos, las limitaciones de tiempo y los entregables, es fundamental aprender a administrar su tiempo al buscar datos.
- Por último, el formato de los datos que se necesita es de importancia crítica. Aunque muchos programas pueden leer muchos formatos de datos, hay algunos tipos de datos que solo pueden ser leídos por algunos programas y algunos programas que requieren formatos de datos particulares. Entender qué formatos de datos puedes usar y aquellos que no puedes te ayudará en tu búsqueda de datos. Por ejemplo, una de las formas más comunes de datos del sistema de información geográfica (SIG) se llama shapefile. No todos los programas SIG pueden leer o usar shapefiles, pero puede ser necesario convertir a o desde un shapefile o algún otro formato. De ahí que, como se señaló anteriormente, cuantos más formatos de datos nos familiaricen, mejor estaremos en nuestra búsqueda de datos porque vamos a tener una comprensión no sólo de lo que podemos utilizar sino también qué conversiones de formato habrá que hacer si es necesario.
Todas estas preguntas son de igual importancia y poder responderlas ayudará en una búsqueda de datos más eficiente y efectiva. Obviamente, hay varias otras consideraciones detrás de la búsqueda de datos, y en particular los datos SIG, pero los enumerados aquí proporcionan una vía inicial para una búsqueda exitosa de datos.
A medida que la tecnología de la información evoluciona, y a medida que se recopilan y distribuyen cada vez más datos, aumentan las diversas formas de datos que se pueden utilizar con un SIG. Generalmente, y como se discutió anteriormente, un SIG utiliza e integra dos tipos de datos: datos geográficos y datos de atributos. En ocasiones la fuente de datos tanto geográficos como de atributos son uno en el mismo. Por ejemplo, la Oficina del Censo de Estados Unidos (http://www.census.gov) distribuye archivos de límites geográficos (p. ej., nivel de zona censal, nivel de condado, nivel estatal) así como los datos de atributos asociados (por ejemplo, población, raza/etnia, ingresos). Lo que es más es que dichos datos están disponibles gratuitamente y sin costo alguno. En muchos aspectos, los datos censales de Estados Unidos son excepcionales: son gratuitos y completos. ¡Si tan solo todos los datos fueran gratuitos y completos!
Obviamente, todas y cada una de las búsquedas de datos variarán según el propósito, pero los datos de los gobiernos tienden a tener una buena cobertura y proporcionan un punto de referencia a partir del cual se pueden agregar, comparar y evaluar otros datos. Ya sea que necesite datos de imágenes satelitales de la Administración Nacional de Aeronáutica y del Espacio (http://www.nasa.gov) o datos de uso del suelo del Servicio Geológico de los Estados Unidos (http://www.usgs.gov), dichas fuentes gubernamentales tienden a ser confiables, acreditadas y consistentes. Otro elemento clave de la mayoría de los datos gubernamentales es que son de libre acceso al público. Es decir, no hay ningún cargo por usar o adquirir los datos. Los datos que son de uso gratuito generalmente se denominan datos públicos.
A diferencia de los datos disponibles públicamente, existen numerosas fuentes de datos privados o propietarios. La principal diferencia entre los datos públicos y privados es que los primeros suelen ser gratuitos, y los segundos deben adquirirse a un costo. Además, a menudo hay restricciones en la redistribución y difusión de conjuntos de datos patentados (es decir, no se permite compartir los datos adquiridos). Nuevamente, dependiendo del tema, los datos propietarios pueden ser la única opción. Otra razón para usar datos propietarios es que los datos pueden formatearse y limpiarse de acuerdo a sus necesidades. El equilibrio entre el costo financiero y el tiempo ahorrado es uno que debe ser seriamente considerado y evaluado cuando se trabaja con plazos.
La búsqueda de datos, y en particular los datos que necesita, suele ser el aspecto que consume más tiempo en cualquier proyecto relacionado con el SIG. Por lo tanto, es fundamental tratar de definir y aclarar sus requisitos y necesidades de datos, desde las escalas temporales y geográficas de los datos hasta los formatos requeridos, lo más claramente posible y lo antes posible. Dicha definición y claridad pagarán dividendos en su búsqueda de los datos correctos, lo que a su vez le dará mejores análisis y decisiones bien informadas.
LLAVE PARA LLEVAR
- Antes de buscar datos, hágase las siguientes preguntas: ¿Por qué necesito los datos? ¿En qué escala de tiempo necesito los datos? ¿A qué escala geográfica quiero los datos? ¿Qué datos ya existen? ¿Qué formato necesito los datos?
EJERCICIOS
- Identificar cinco posibles fuentes de datos sobre el Producto Interno Bruto (PIB) para los países de África.
- Identificar dos fuentes de datos geográficos (archivos de límites) para África.
- ¿Qué tipo de datos geográficos proporcionan las Naciones Unidas?