Saltar al contenido principal
LibreTexts Español

7.4: Temas de diseño de categorías e implicaciones

  • Page ID
    98029
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    Anteriormente hemos discutido los principios más importantes para crear categorías: propiedades de recursos, similitud y metas. Cuando utilizamos uno o más de estos principios para desarrollar un sistema de categorías, debemos tomar decisiones sobre su profundidad y amplitud. Aquí, examinamos la idea de que algunos niveles de abstracción en un sistema de categorías son más básicos o naturales que otros. También consideramos cómo las elecciones que tomamos afectan a cómo creamos el sistema de organización en primer lugar, y cómo dan forma a nuestras interacciones cuando necesitamos encontrar algunos recursos que se categorizan en él.

    Categoría Abstracción y Granularidad

    Podemos identificar cualquier recurso como una instancia única o como miembro de una clase de recursos. El tamaño de esta clase —el número de recursos que se tratan como equivalentes viene determinado por las propiedades o características que consideramos cuando examinamos los recursos en algún dominio. La forma en que pensamos de un dominio de recursos depende del contexto y la intención, por lo que el mismo recurso puede pensarse abstractamente en algunas situaciones y muy concretamente en otras. Como discutimos en Descripción del recurso y Metadatos, esto influye en la naturaleza y el alcance de la descripción del recurso, y como hemos visto en este capítulo, influye entonces en la naturaleza y el alcance de las categorías que podemos crear.

    Considera la tarea habitual de guardar ropa limpia. Podemos considerar cualquier prenda de vestir como miembro de una amplia categoría cuyos miembros sean cualquier tipo de prenda que una persona pueda usar. Usar una categoría para toda la ropa, es decir, no distinguir entre los diversos artículos de alguna manera útil o práctica probablemente significaría que mantendríamos nuestra ropa en una gran pila desorganizada.

    Sin embargo, no podemos usar ninguna combinación aleatoria de prendas de vestir, necesitamos una camisa, un par de pantalones, calcetines, etc. Claramente, nuestra categoría de ropa indiscriminada es demasiado amplia para la mayoría de los propósitos. Entonces, en cambio, la mayoría de las personas organizan su ropa en categorías de grano más fino que se ajustan al patrón normal de cómo usan la ropa.

    Esta tendencia a utilizar categorías específicas en lugar de otras más amplias es un principio general que refleja cómo las personas organizan su experiencia cuando ven ejemplos o eventos similares, pero no idénticos. Este “principio de tamaño” para el aprendizaje de conceptos, como lo describe el científico cognitivo Josh Tenenbaum, es una preferencia por las reglas o descripciones más específicas que se ajustan a las observaciones. Por ejemplo, si visitas un zoológico y ves muchas especies diferentes de animales, tu concepción de lo que viste es diferente a si visitaste una perrera que solo contenía perros. Podrías decir “vi animales en el zoológico”, pero sería más probable que dijeras “vi perros en la perrera” porque usar la amplia categoría “animal” para describir tu visita a la perrera transmite menos de lo que aprendiste de tus observaciones allí. [1]

    En “Single Properties” describimos un sistema de organización para las camisas en nuestro clóset, así que hablemos de calcetines en su lugar. Cuando se trata de calcetines, la mayoría de la gente piensa que la unidad básica es un par porque siempre usan dos calcetines a la vez. Si vas a necesitar encontrar calcetines por parejas, parece sensato organizarlos en pares cuando los estás guardando. Algunas personas podrían separar aún más sus calcetines de vestir de los atléticos, y luego ordenar estos calcetines por color o material, creando una jerarquía de categorías de calcetines análoga a las categorías de playeras en nuestro ejemplo anterior.

    También surgen cuestiones de abstracción y granularidad de recursos cuando los sistemas de información de diferentes empresas, o diferentes partes de una empresa, necesitan intercambiar información o fusionarse en un solo sistema. Todas las partes deben definir la identidad de cada cosa de la misma manera, o de formas que puedan relacionarse o mapearse entre sí ya sea de forma manual o electrónica.

    Por ejemplo, ¿cómo debe tratar un sistema de negocios con la dirección de un cliente? Impreso en un sobre, “una dirección” suele aparecer como un objeto de texto completo de varias líneas. Dentro de un sistema de información, sin embargo, una dirección se almacena mejor como un conjunto de componentes de información claramente identificables. Esta organización de grano fino facilita la clasificación de los clientes por ciudad o códigos postales, para fines de ventas y marketing. Las incompatibilidades en la abstracción y granularidad de estos componentes de información, y las formas en que se presentan y reutilizan en los documentos, causarán problemas de interoperabilidad cuando las empresas necesiten compartir información. [2]

    El Lenguaje Universal de Negocios (UBL) (mencionado brevemente en “Semántica Institucional”) es una biblioteca de componentes de información diseñada para permitir la creación de modelos de documentos de negocios que abarcan un rango de abstracción de categorías. UBL viene equipado con esquemas XML que definen categorías de documentos como pedidos, facturas, pagos y recibos que muchas personas conocen por sus experiencias personales de compras y pago de facturas. Sin embargo, UBL también se puede usar para diseñar tipos de documentos transaccionales de nivel muy específico o subordinado como “orden de compra para productos químicos industriales cuando el comprador y el vendedor están en diferentes países”, o tipos de documentos en el otro extremo de la jerarquía de abstracción como “llenar el espacio en blanco ” formas legales para cualquier tipo de contrato.

    Bowker y Star señalan que a menudo existe un compromiso pragmático entre precisión y validez a la hora de definir categorías y asignarles recursos, particularmente en los dominios científicos y otros altamente técnicos. Las categorías más granulares hacen posible la clasificación más precisa en principio, pero los dominios altamente especializados pueden contener instancias tan complejas o difíciles de entender que es difícil decidir dónde organizarlas. [3]

    Como ejemplo de este desorden del mundo real que resiste la clasificación precisa, Bowker y Star recurren a la medicina y a la Clasificación Internacional de Enfermedades (CIE) de la Organización Mundial de la Salud, un sistema de categorías para reportar causas de muerte. El CIE requiere que cada muerte sea asignada a una y sólo una categoría de entre miles de opciones posibles, lo que facilita usos importantes como el reporte estadístico para la investigación en salud pública.

    En la práctica, sin embargo, los médicos a menudo carecen de pruebas concluyentes sobre la causa de una muerte en particular, o identifican una serie de factores contribuyentes, ninguno de los cuales podría describirse adecuadamente como la única causa. En estas situaciones, categorías menos precisas acomodarían mejor la ambigüedad, y los datos agregados sobre las causas de muerte tendrían mayor validez. Pero los médicos tienen que usar las categorías precisas del CIE cuando firman un certificado de defunción, lo que significa que a veces registran la causa equivocada de muerte solo para hacer su trabajo.

    Puede parecer contradictorio, pero cuando un sistema de categorías generadas por humanos es demasiado complejo para que las personas las interpreten y apliquen de manera confiable, los clasificadores computacionales que computan la similitud estadística entre elementos nuevos y ya clasificados pueden superar a las personas. [4]

    Categorías Básicas o Naturales

    La abstracción de categorías se describe normalmente en términos de una jerarquía de niveles de categoría superior, básica y subordinada. Ropa”, por ejemplo, es una categoría superior, “camisas” y “calcetines” son categorías básicas, y “camisas de vestir blancas de manga larga” y “calcetines de senderismo de lana blanca” son categorías subordinadas. Los miembros de categorías de nivel básico como “camisas” y “calcetines” tienen muchas propiedades perceptuales en común, y están más fuertemente asociados con los movimientos motores que los miembros de categorías superiores. Los miembros de categorías subordinadas tienen muchas propiedades comunes, pero estas propiedades también son compartidas por miembros de otras categorías subordinadas al mismo nivel de abstracción en la jerarquía de categorías. Es decir, si bien podemos identificar muchas propiedades compartidas por todas las “camisas de vestir blancas de manga larga”, muchas de ellas también son propiedades de “camisas de vestir de manga larga azules” y “camisas tipo jersey de manga larga negras”.

    La investigación psicológica sugiere que algunos niveles de abstracción en un sistema de categorías son más básicos o naturales que otros. Los antropólogos también han observado que las taxonomías folclóricas clasifican invariablemente los fenómenos naturales en una jerarquía de cinco o seis niveles, siendo uno de los niveles el nombre psicológicamente básico o “real” (como “gato” o “perro”), a diferencia de nombres más abstractos (e.g. mamífero”) que se utilizan menos en la vida cotidiana. Una implicación para organizar el diseño de sistemas es que las categorías de nivel básico son altamente eficientes en términos del esfuerzo cognitivo que requieren para crear y usar. Un corolario es que las clasificaciones con muchos niveles en diferentes niveles de abstracción pueden ser difíciles de navegar para los usuarios de manera efectiva. [5]

    El Recall/Precision Tradeoff

    El nivel de abstracción que elegimos determina con qué precisión identificamos los recursos. Cuando queremos hacer una afirmación general, o comunicar que el alcance de nuestro interés es amplio, utilizamos categorías superiores, como cuando preguntamos: “¿Cuántos animales hay en el zoológico de San Diego? ” Pero utilizamos categorías subordinadas precisas cuando necesitamos ser específicos: “¿Cuántos emús adultos hay hoy en día en el zoológico de San Diego?

    Si volvemos a nuestro ejemplo de ropa, encontrar un par de calcetines de senderismo de lana blanca es muy fácil si el sistema de organización para calcetines crea categorías de grano fino. Cuando los recursos se describen u ordenan con este nivel de detalle, una especificación igualmente detallada de los recursos que busca arroja precisamente lo que desea. Cuando llegas al lugar donde guardas los calcetines de senderismo de lana blanca, los encuentras todos y nada más. Por otro lado, si todos tus calcetines son arrojados sin clasificar en un cajón de calcetines, cuando vayas a cazar calcetín es posible que no puedas encontrar los calcetines que deseas y te encontrarás con muchos calcetines que no quieres. Pero no habrás puesto tiempo en clasificarlos, lo que a mucha gente no le gusta hacer; puedes dedicar tiempo ordenando o buscando dependiendo de tus preferencias.

    Si traducimos este ejemplo a la jerga de la recuperación de información, decimos que una organización más precisa reduce la recuperación, la cantidad de recursos que encuentra o recupera en respuesta a una consulta, pero aumenta la precisión del conjunto recordado, la proporción de elementos recuperados que son relevantes. Las categorías más amplias o de grano grueso aumentan la memoria, pero disminuyen la precisión. Todos estamos muy familiarizados con esta dura ganga cuando usamos un motor de búsqueda web; una consulta rápida de una palabra da como resultado muchas páginas de sitios en su mayoría irrelevantes, mientras que una consulta multipalabra cuidadosamente elaborada identifica los sitios con la información que buscamos. Discutiremos el recuerdo, la precisión y la evaluación de la recuperación de información más extensamente en Interacciones con Recursos.

    Este ejemplo mundano ilustra el equilibrio fundamental entre organización y recuperación. Un compromiso entre la inversión en organización y la inversión en recuperación persiste en casi todos los sistemas de organización. Cuanto más esfuerzo pongamos en organizar los recursos, más efectivamente se podrán recuperar. Cuanto más esfuerzo estemos dispuestos a poner en la recuperación de recursos, menos necesitan organizarse primero. La asignación de costos y beneficios entre el organizador y el recuperador difiere según la relación entre ellos. ¿Son la misma persona? ¿Quién hace el trabajo y quién obtiene el beneficio?

    Categoría Público y Propósito

    Las formas en que las personas categorizan dependen de los objetivos de categorización, la amplitud de los recursos en la colección a categorizar y los usuarios del sistema organizador. Supongamos que queremos categorizar idiomas. Nuestro primer paso podría ser determinar qué constituye una lengua, ya que no existe un acuerdo generalizado sobre lo que diferencia a una lengua de un dialecto, o incluso sobre si existe tal distinción.

    Lo que entendemos por “inglés” y “chino” como categorías puede cambiar dependiendo de la audiencia a la que nos dirijamos y cuál es nuestro propósito, sin embargo. [6] La representación del “inglés” de una escuela de aprendizaje de idiomas podría depender de preocupaciones prácticas, como cómo es probable que los estudiantes de la escuela usen el idioma que aprenden o qué maestros están disponibles. Para los efectos de una escuela que enseñe idiomas globales, y una de las variedades estándar del inglés (es decir, las asociadas con el poder político), o una amalgama de varias variedades estándar, podría pensarse como una sola instancia (“inglés”) de la categoría “Idiomas”.

    De igual manera, la estructura de categorías en la que se encuentra el “chino” puede variar con el contexto. Si bien algunas escuelas podrían no conceptualizar el “chino” como una categoría que abarca múltiples variedades lingüísticas, sino como una sola instancia dentro de la categoría “Idiomas”, otra escuela podría enseñar a sus alumnos mandarín, wu y cantonés como dialectos dentro de la categoría de idioma” Chino”, que están unificados por un único sistema de escritura estándar. Además, un lingüista podría considerar que el mandarín, el wu y el cantonés son mutuamente ininteligibles, lo que los convierte en idiomas separados dentro de la categoría más amplia “chino” con el fin de crear un sistema de clasificación lingüística de principios.

    Si la gente solo pudiera categorizar de una sola manera, el programa de juegos Pyramid, donde los concursantes adivinan qué categoría se ilustra con el ejemplo proporcionado por un dador de pistas, no plantearía ningún desafío. Las posibilidades creativas que brinda la categorización permiten a las personas ordenar el mundo y referirse a las interrelaciones entre concepciones a través de una especie de taquigrafía alusiva. Cuando hablamos del lenguaje de la moda, sugerimos que en el contexto de nuestra conversación, instancias como “inglés”,chino” y “moda” son iguales en formas que las distinguen de otras cosas que no clasificaríamos como idiomas.


    1. (Tenenbaum 2000) sostiene que esta preferencia por la hipótesis más específica que se ajuste a los datos es un principio general del aprendizaje bayesiano con muestras aleatorias.


    2. Considera lo que sucede si dos negocios modelan el concepto de “dirección” en una base de datos de clientes con diferente granularidad. Uno puede tener un campo grueso de “Dirección” en la base de datos, que almacena una dirección de calle, ciudad, estado y código postal, todo en un bloque, mientras que el otro almacena los componentes “StreetAddress”, “City” y “PostalCode” en campos separados. El modelo más granular se puede transformar automáticamente en uno menos granular, pero no al revés (Glushko y McGrath 2005).


    3. (Bowker y Star 2000)


    4. El estadístico y fanático del béisbol Nate Silver rechazó un complejo sistema que utilizaba veintiséis categorías de jugadores para predecir el desempeño del béisbol porque “requería tanto arte como ciencia para averiguar a qué grupo pertenecía un jugador. (Plata 2012, p, 83). Su sistema mejorado utilizó la técnica de análisis de “vecino más cercano” para identificar a los beisbolistas actuales cuyas estadísticas de ligas menores fueron más similares a las actuales jugadoras de ligas menores evaluadas. (Ver “Categorías creadas por Clustering”).

      Más tarde, la plata se hizo famosa por sus predicciones extremadamente precisas de las elecciones presidenciales de 2008 en Estados Unidos. Es el fundador y editor del blog FiveThirtyEight, llamado así porque hay 538 senadores y representantes en el Congreso de Estados Unidos.


    5. (Rosch 1999) llama a esto el principio de la economía cognitiva, que “lo que uno desea obtener de las categorías es una gran cantidad de información sobre el medio ambiente conservando al máximo los recursos finitos. [...] Es en beneficio del organismo no diferenciar un estímulo de otro cuando esa diferenciación es irrelevante para los propósitos en cuestión. ” (Páginas 3-4.)


    6. Por ejemplo, algunos lingüistas piensan en el “inglés” como una categoría amplia que abarca múltiples idiomas o dialectos, como “inglés británico estándar”, “inglés americano estándar” e “inglés de los Apalaches”.

      Si nos preocupa la diversidad lingüística y la supervivencia de las lenguas minoritarias, podríamos categorizar algunas lenguas como en peligro para movilizar los esfuerzos de preservación del idioma. También podríamos categorizar las lenguas en términos de ancestros lingüísticos compartidos (“lenguas romances”, por ejemplo), en términos de qué tipo de sonidos hacen uso, por qué tan bien los hablamos, por regiones en las que se habla comúnmente, ya sean firmados o no firmados, y así sucesivamente. También podríamos ampliar nuestra definición de la categoría de idiomas para incluir lenguajes informáticos artificiales, o lenguaje corporal, o lenguajes compartidos por las personas y sus mascotas, o pensando más metafóricamente, podríamos incluir el lenguaje de la moda.



    This page titled 7.4: Temas de diseño de categorías e implicaciones is shared under a not declared license and was authored, remixed, and/or curated by Robert J. Glushko.