4.3: Identidad de recursos

Última actualización
Guardar como PDF

Page ID: 98003

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\id}{\mathrm{id}}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\kernel}{\mathrm{null}\,}\)

\( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\)

\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\)

\( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)

\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)

\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vectorC}[1]{\textbf{#1}} \)

\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

Determinar la identidad de los recursos que pertenecen a un dominio, decidir qué propiedades son importantes o relevantes para las personas o sistemas que operan en ese dominio, y luego especificar los principios por los cuales esas propiedades encapsulan o definen las relaciones entre los recursos son lo esencial tareas a la hora de construir cualquier sistema de organización. En los sistemas de organización utilizados por individuos o con pequeño alcance, los métodos para realizar estas tareas suelen ser ad hoc y poco sistemáticos, y los sistemas de organización son, por lo tanto, idiosincrásicos y no escalan bien. En el otro extremo, los sistemas de organización diseñados para su uso institucional o industrial, especialmente en dominios intensivos en información, requieren métodos de diseño sistemáticos para determinar qué recursos tendrán identidades separadas y cómo se relacionan entre sí. Estos recursos y sus relaciones se describen luego en modelos conceptuales que guían la implementación de los sistemas que manejan los recursos y apoyan las interacciones con ellos. ^[1]

Identidad y Recursos Físicos

Nuestros sistemas visuales y cognitivos humanos hacen un trabajo notable al elegir objetos de sus orígenes y distinguirlos entre sí. De hecho, tenemos pocas dificultades para reconocer un objeto o una persona aunque los estemos viendo desde una distancia y ángulo de visión novedosos o con diferente iluminación, sombreado, etc. Cuando vemos un partido de futbol, no tenemos ningún problema para percibir a los jugadores moviéndose por el campo, y sus colores uniformes contrastantes nos permiten ver que hay dos equipos diferentes.

Los mecanismos perceptuales que nos hacen ver las cosas como objetos permanentes con propiedades visibles contrastantes son solo el requisito previo para las tareas de organización de identificar el objeto específico, determinar las categorías de objetos a los que pertenece y decidir cuál de esas categorías es apropiado para enfatizar. La mayoría de las veces realizamos estas tareas de manera automática, inconsciente; en otras ocasiones tomamos decisiones conscientes sobre ellas. Para algunos fines consideramos a un equipo deportivo como un recurso único, como una colección de jugadores separados para otros, como ofensiva y defensa, como titulares y reservas, y así sucesivamente. ^[2]

Si bien tenemos muchas opciones sobre cómo podemos organizar a los futbolistas, todas ellas incluirán el concepto de un solo jugador como el recurso identificable más pequeño. Nunca vamos a pensar en un jugador de fútbol como una colección intencional de recursos de piernas, brazos, cabeza y cuerpo identificados por separado porque no hay otras formas de “armar” a un humano a partir de partes del cuerpo. En términos más generales, existen algunas limitaciones naturales en la organización de la materia en partes o colecciones basadas en tamaños, formas, materiales y otras propiedades que nos hacen identificar algunas cosas como recursos indivisibles en algún dominio.

Identidad y recursos bibliográficos

Reflexionar sobre la cuestión de la identidad es algo relativamente reciente en el mundo de los bibliotecarios y catalogadores. Las bibliotecas existen desde hace unos 4000 años, pero hasta los últimos cientos de años los bibliotecarios crearon “bins” de encabezados y temas para organizar los recursos sin molestarse en darle a cada ítem individual un identificador o nombre por separado. Esto significaba que los buscadores primero tenían que hacer una suposición educada sobre qué contenedor podría albergar su información deseada: ¿"Historias”? ¿"Filosofía Médica y Química”? — luego recorre todo en la categoría en una búsqueda de su objeto deseado. Las elecciones fueron ad hoc y siempre locales —es decir, cada catalogador decidió las papeleras y agrupaciones para cada catálogo. ^[3]

El primer enfoque sistemático para tratar el concepto de identidad para los recursos bibliográficos fue desarrollado por Antonio Panizzi en el Museo Británico a mediados del siglo XIX. Panizzi se preguntó: ¿Cómo diferenciamos objetos similares en un catálogo de biblioteca? Su solución fue un catálogo organizado por nombre de autor con un índice de materias, junto con sus recién elaboradas Reglas para la Compilación del Catálogo. Esto contenía 91 reglas sobre cómo identificar y ordenar los nombres y títulos de los autores y qué hacer con las obras anónimas. Las reglas estaban destinadas a codificar cómo diferenciar y describir cada recurso singular en su biblioteca. En conjunto, las reglas sirven para agrupar todas las diferentes ediciones y versiones de una obra bajo una sola identidad. ^[4]

El concepto de identidad para los recursos bibliográficos fue refinado en la década de 1950 por Lubetzky, quien amplió el concepto de la obra para convertirla en una idea más abstracta de la creación intelectual o artística de un autor. Según el principio de Lubetzky, un audiolibro, una grabación de video de una obra de teatro y un libro electrónico deben enumerarse cada uno como elementos distintos, pero aún vinculados al original debido a su origen intelectual superpuesto. ^[5]

Las distinciones presentadas por Panizzi, Lubetzky, Svenonius y otros teóricos de la bibliotecología han evolucionado hoy en día en una jerarquía de abstracción de cuatro pasos (ver Figura: La Jerarquía de Abstracción FRBR.) entre la obra abstracta, una expresión en múltiples formatos o géneros, una manifestación particular en uno de esos formatos o géneros, y un ítem físico específico. El amplio alcance desde el trabajo abstracto hasta el ítem específico es esencial porque los sistemas de organización en las bibliotecas deben organizar artefactos tangibles al tiempo que expresan la estructura conceptual de los dominios del conocimiento representados en sus colecciones.

Esta jerarquía se define en los Requisitos Funcionales para Registros Bibliográficos (FRBR), publicados como norma por la Federación Internacional de Asociaciones e Instituciones Bibliotecarias (IFLA). ^[6]

Si repasamos la pregunta “¿Qué es esto que llamamos Macbeth? ” podemos ver cómo las diferentes formas de responder encajan en esta jerarquía de abstracción. La respuesta más específica es que “Macbeth” es un ítem específico, un recurso muy particular e individual, como ese libro de bolsillo con orejas de perro con páginas marcadas en amarillo que poseías cuando leías Macbeth en la secundaria. Una respuesta más abstracta es que Macbeth es una idealización llamada obra, una categoría que incluye todas las obras, películas, ballets u otras creaciones intelectuales que comparten una cantidad reconocible de la trama y el significado de la obra original de Shakespeare.

La Jerarquía de Abstracción FRBR

La jerarquía de abstracción para identificar recursos arroja cuatro respuestas diferentes sobre la identidad de un recurso de información.

Componentes de identidad e información

En dominios intensivos en información, documentos, bases de datos, aplicaciones de software u otros repositorios explícitos o fuentes de información son ubicuos y esenciales para la creación de valor para el usuario, lector, consumidor o cliente. El valor se crea a través de la comparación, compilación, coordinación o transformación de información en alguna cadena o coreografía de procesos que operan sobre información que fluye de una fuente o proceso de información a otra. Estos procesos se emplean en contabilidad, servicios financieros, adquisiciones, logística, gestión de la cadena de suministro, suscripción de seguros y procesamiento de reclamaciones, servicios legales y profesionales, atención al cliente, la programación informática y la gestión de la energía.

Los procesos que crean valor en dominios intensivos en información son “pegados” por componentes de información compartida que se intercambian en documentos, registros, mensajes o descripciones de recursos de algún tipo. Los componentes de información son los recursos primitivos y abstractos en dominios intensivos en información. Son las unidades de significado que sirven como bloques de construcción de descripciones compuestas y otros artefactos de información.

Los procesos de creación de valor en dominios intensivos en información funcionan mejor cuando sus componentes provienen de un vocabulario controlado común para componentes, o cuando cada uno usa un vocabulario con granularidad y precisión semántica compatible con los demás. Por ejemplo, el valor creado por un registro personal de salud surge cuando la información de médicos, clínicas, hospitales y compañías de seguros se puede combinar porque todos comparten el mismo componente “paciente” como una pieza lógica de información.

Esta definición abstracta de componentes de información no ayuda a identificarlos, por lo que introduciremos algunos criterios heurísticos: Un componente de información puede ser: (1) Cualquier pieza de información que tenga una etiqueta o identificador único o (2) Cualquier pieza de información que sea autónoma y comprensible por sí solo. ^[7]

Estos dos criterios para determinar la identidad de los componentes de información suelen ser fáciles de satisfacer a través de observaciones, entrevistas y análisis de tareas porque las personas naturalmente usan muchos tipos diferentes de información y hablan fácilmente sobre componentes específicos y los documentos que los contienen. Algunos componentes comunes (por ejemplo, persona, ubicación, fecha, artículo) y tipos de documentos familiares (por ejemplo, informe, catálogo, calendario, recibo) se pueden identificar en casi cualquier dominio. Otros componentes necesitan ser definidos con mayor precisión para cumplir con los requisitos semánticos más específicos de dominios más estrechos. Estos componentes más pequeños o de grano fino pueden verse como versiones refinadas o calificadas de los componentes genéricos y tipos de documentos, como los componentes de grado y semestre del curso en las transcripciones académicas, códigos de aeropuerto y números de vuelo en itinerarios y boletos de viaje, y nombres de medicamentos y dosis en prescripciones.

Décadas de esfuerzo práctico y teórico en el modelado conceptual, la teoría relacional y el diseño de bases de datos han dado como resultado métodos rigurosos para identificar componentes de información cuando los requisitos y reglas de negocio para la información pueden especificarse con precisión. Por ejemplo, en el dominio de las transacciones comerciales, la información requerida como números de artículo, cantidades, precios, información de pago, etc., debe codificarse como un tipo particular de datos (entero, decimal, cadena Unicode, etc.) con valores posibles claramente definidos y que sigue reglas claras de ocurrencia. ^[8]

Identificar componentes puede parecer superficialmente fácil en el extremo transaccional del Espectro de tipos de documento (consulte la barra lateral en “Dominio de recursos”), con pedidos o facturas, formularios que requieren entrada de datos u otros tipos de documentos altamente estructurados como catálogos de productos, donde se encuentran piezas de información típicamente etiquetados y delimitados por cajas, líneas, espacios en blanco u otras características de presentación que codifican las distinciones entre tipos de contenido. Por ejemplo, la presencia de etiquetas de ARTÍCULO, NOMBRE DEL CLIENTE, DIRECCIÓN e INFORMACIÓN DE PAGO en los campos de un formulario de pedido en línea sugiere que estos datos son componentes semánticamente distintos en una aplicación minorista. Además, estas etiquetas pueden tener análogos en nombres de variables en el código fuente que implementa el formulario de pedido, o como etiquetas en un documento XML creado por la aplicación de pedidos; <CustName>John Smith</CustName> y <Item>A-19</Item> en el documento de pedido se puede identificar fácilmente cuando es enviado a los demás servicios por la aplicación de gestión de pedidos.

Pero los métodos fundamentados teóricamente para identificar componentes como los de la teoría relacional y la normalización que funcionan para datos estructurados no se aplican estrictamente cuando los requisitos de información son más cualitativos y menos precisos al final narrativo del Espectro Tipo de Documento. Estos requisitos de información son típicos de tipos de documentos narrativos, no estructurados y semiestructurados, y fuentes de información como las que a menudo se encuentran en derecho, educación y servicios profesionales. Los documentos narrativos incluyen publicaciones técnicas, informes, políticas, procedimientos y otra información menos estructurada, donde los componentes semánticos rara vez se etiquetan explícitamente y a menudo están rodeados de texto que es más genérico. A diferencia de los documentos transaccionales que dependen de una semántica precisa porque son utilizados por computadoras, los documentos narrativos son utilizados por personas, quienes pueden preguntar si no están seguras de lo que significa algo, por lo que hay menos necesidad de definir explícitamente el significado de los componentes de información. Excepciones ocasionales, como donde los componentes de los documentos narrativos se identifican con etiquetas explícitas como NOTE y ADVERTENCIA, solo prueban la regla.

Identidad y Recursos Activos

Los recursos activos (“Usar Vocabularios Controlados”) inician efectos o crean valor por sí mismos. En muchos casos, un recurso físico inherentemente pasivo como un paquete de producto o un palé de envío se transforma en uno activo cuando se asocia con una etiqueta RFID o código de barras. Los teléfonos móviles contienen ID de dispositivo o suscriptor para que cualquier información que comuniquen se pueda asociar tanto al teléfono como a menudo, a través de referencia indirecta, con una persona en particular. Si el recurso tiene una dirección IP, se dice que forma parte del “Internet de las cosas. ” ^[9]

Los sistemas de organización que crean valor a partir de recursos activos a menudo coexisten o complementan sistemas de organización que tratan sus recursos como pasivos. En una biblioteca tradicional, los libros se sentaban pasivamente en estantes y requerían que los usuarios leyeran sus espinas para identificarlos. Hoy en día, algunos libros de biblioteca contienen etiquetas RFID activas que los convierten en fuentes de información dinámicas que se autoidentifican al publicar sus propias ubicaciones. De igual manera, un supermercado o tienda departamental podría organizar sus bienes como recursos físicos en estantes, tratándolos como recursos pasivos; superpuesto a ese sistema de organización tradicional es aquel que utiliza información de transacción de punto de venta creada cuando los artículos son escaneados en los mostradores de caja para reordenar automáticamente los bienes y reponer el inventario en la tienda donde se vendieron. En algunas tiendas las estanterías contienen sensores que continuamente “hablan con la mercancía” y la información que recopilan puede mantener los niveles de inventario e incluso ayudar a prevenir el robo de mercancía valiosa mediante el seguimiento de las mercancías a través de una tienda o almacén. El inventario se convierte en una colección de recursos activos; cada artículo ansioso por anunciar su propia ubicación y listo para realizar su propia venta. Otra categoría de objetos inanimados que son recursos activos son aquellos que utilizan Twitter para comunicar su estado o mediciones de sensores. Estos incluyen puentes, ríos y el Curiosity Rover en Marte.

El equipo alemán de fútbol de la Copa Mundial, que ganó el Mundial 2014, aprovechó la sofisticada recopilación y análisis de datos para optimizar la habilidad del jugador y el entrenamiento estratégico. La firma alemana de software SAP analizó datos de video de cámaras en el campo que capturaron miles de puntos de datos por segundo sobre la posición y el movimiento del jugador para identificar mejoras en los pases y el manejo del balón para los jugadores alemanes y detectar debilidades en los oponentes. La firma alemana de equipos deportivos Adidas diseñó tacos con sensores que rastrean el kilometraje, la posición de campo y los movimientos. (Norton 2014) y (Reynolds 2014).

La medida en que un recurso activo es “inteligente” depende de la capacidad informática que tenga disponible para refinar los datos que recopila y comunica. Una gran colección de sensores puede transmitir un torrente de datos capturados que requiere un procesamiento sustancial para distinguir eventos significativos de aquellos que reflejan el funcionamiento normal, y también de aquellos que son valores atípicos estadísticos con valores extraños causados por ruido aleatorio. Este desafío se vuelve cualitativamente más difícil a medida que la cantidad de datos crece al tamaño de big data, porque un evento de uno en millones podría ser un valor atípico estadístico que puede ser ignorado, pero si hay mil valores atípicos similares en mil millones de lecturas de sensores, este grupo de datos probablemente revela algo importante. Por otro lado, dar a cada sensor la capacidad informática para refinar sus datos para que solo comunique información significativa podría hacer que los sensores sean demasiado caros de implementar. ^[10]

Estos métodos tienen diferentes nombres en diferentes disciplinas, incluyendo “modelado de datos”, “análisis de sistemas” e “ingeniería de documentos” (por ejemplo, (Kent 2012), (Silverston 2000), (Glushko y McGrath 2005). Lo que tienen en común es que producen modelos conceptuales de un dominio que especifican sus componentes o partes y las relaciones entre estos componentes o partes. Estos modelos conceptuales se denominan “esquemas” u “ontologías de dominio” en algunos enfoques de modelado, y generalmente se implementan en modelos que están optimizados para tecnologías o aplicaciones particulares.
Específicamente, un equipo de fútbol americano de la NFL necesita ser considerado como un solo recurso para los juegos a lo largo de la temporada y en los playoffs, y 53 jugadores individuales para otras situaciones, como el draft de la NFL o los play-calling. El equipo y el roster del equipo pueden considerarse como recursos, y los jugadores individuales del equipo también son recursos que conforman a todo el equipo.
(Denton 2007) es un recuento altamente legible de la historia de la catalogación que sigue cuatro temas —el uso de axiomas, requerimientos del usuario, el trabajo, y estandarización e internacionalización — culminando con su síntesis en el Requerimientos Funcionales para Registros Bibliográficos (FRBR).
Esta fue una actividad sorprendentemente polémica. Muchos se opusieron a los esfuerzos de Panizzi como una pérdida de tiempo y esfuerzo porque asumieron que “construir un catálogo era una simple cuestión de escribir una lista de títulos” (Denton 2007, p. 38).
Seymour Lubetzky trabajó para la Biblioteca del Congreso de Estados Unidos desde 1943-1960 donde buscó incansablemente simplificar la masa proliferante de reglas de catalogación de casos especiales propuestas por la American Library Association, porque en su momento las Reglas y Principios de Catalogación (Lubetzky 1953) pregunta sin rodeos “¿Es necesaria esta regla? ” y fue un punto de inflexión en la catalogación.
Entre la abstracción de la obra y el ítem único específico se encuentran dos niveles adicionales en la expresión denota el múltiplo las múltiples realizaciones de una obra en algún medio o notación particular, donde realmente puede ser percibida. Hay muchas ediciones y traducciones de Macbeth, pero todas son la misma expresión, y son una expresión diferente a todas las adaptaciones cinematográficas de Macbeth. Una manifestación es el conjunto de artefactos físicos con la misma expresión. Todos los ejemplares de la edición impresa de la Biblioteca Folger de Macbeth son la misma manifestación.
Este tipo de consejos se pueden encontrar en muchos datos o textos de modelado conceptual, pero esta afirmación en particular proviene de (Glushko, Weaver, Coonan y Lincoln 1988). Consejos similares también se pueden encontrar en la literatura de ciencia de la información: “Una unidad de información... tendría que ser... correctamente interpretable fuera de cualquier contexto” (Wilson 1968, p. 18).
Un grupo de técnicas llamadas colectivamente “normalización” produce un conjunto de componentes de información estrechamente definidos que tienen redundancia y ambigüedad mínimas. Imagine que una empresa mantiene información sobre pedidos de clientes utilizando un estilo de organización de “hoja de cálculo” en el que una fila contiene celdas que registran la fecha, el número de pedido, el nombre del cliente, la dirección del cliente, el ID del artículo, la descripción del artículo, la cantidad, el precio unitario y el precio total. Si un pedido contiene varios productos, estos se registrarían en filas adicionales, al igual que los pedidos posteriores del mismo cliente. Toda esta información es importante para el negocio, pero esta forma de organizarla tiene mucha redundancia e ineficiencia. Por ejemplo, la dirección del cliente recurre en cada pedido, y el campo de dirección del cliente fusiona calle, ciudad, estado y código postal en un gran campo no estructurado en lugar de separarlos como componentes atómicos de diferentes tipos de información con usos potencialmente variables. Existe redundancia similar para los productos y precios. La cancelación de un pedido puede resultar en que el negocio borre toda la información que tiene sobre un cliente o producto en particular.

La normalización divide este gran cuerpo de información en cuatro tablas separadas, una para los clientes, una para los pedidos de los clientes, una para los artículos contenidos en cada pedido y otra para la información del artículo. Este modelo normalizado de información codifica toda la información en el modelo “estilo hoja de cálculo”, pero elimina la redundancia y evita los problemas de integridad de datos que le son inherentes.

La normalización se imparte en cada curso de diseño de bases de datos. El concepto y los métodos fueron propuestos por (Codd 1970), quien inventó el modelo de datos relacionales, y ha sido enseñado a los estudiantes en numerosos libros de texto de diseño de bases de datos como (Date 2003).
El concepto de “Internet de las cosas” se extendió muy rápidamente después de que fuera propuesto en 1999 por Kevin Ashton, quien cofundó el centro Auto-ID en el MIT ese año para estandarizar (Gershenfeld, Krikorian y Cohen 2004). Para una encuesta técnica reciente y una taxonomía de dominios y escenarios de aplicación ver (Atzori, Iera y Morabito 2010).
El análisis de patrones puede ayudar a escapar de este dilema al permitir el modelado predictivo para hacer un uso óptimo de los datos. Al diseñar cosas y dispositivos inteligentes para las personas, es útil crear un modelo inteligente para predecir los tipos de patrones y ubicaciones relevantes para los datos recopilados o monitoreados. Estos permiten a los diseñadores desarrollar un conjunto de dimensiones y principios que actuarán como guías inteligentes para el desarrollo de cosas inteligentes. El modelado ayuda a habilitar la automatización, la seguridad o la eficiencia energética, y los modelos de línea base se pueden utilizar para detectar anomalías. En cuanto a la ubicación, las ubicaciones exactas son innecesarias; el uso de un “espacio simbólico” para representar cada “zona de detección”, por ejemplo, las habitaciones de una casa, y la historia del movimiento de un individuo como una cadena de símbolos, por ejemplo, abcdegia, funciona suficientemente como modelo de predicción. Ver (Das et al. 2002).

Search

Text Color

Text Size

Margin Size

Font Type