6.4: La perspectiva léxica

Última actualización
Guardar como PDF

Page ID: 98108

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\id}{\mathrm{id}}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\kernel}{\mathrm{null}\,}\)

\( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\)

\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\)

\( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)

\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)

\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vectorC}[1]{\textbf{#1}} \)

\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

La perspectiva semántica para analizar las relaciones es la fundamental, pero está intrínsecamente ligada a la léxica porque una relación siempre se expresa usando palabras en un lenguaje específico. Por ejemplo, entendemos las relaciones entre los conceptos o clases de “comida”, “carne” y “carne de res” usando las palabras “comida”, “carne” y “carne” para identificar clases progresivamente más pequeñas de cosas comestibles en una clase jerarquía.

La conexión entre concepto y palabras no es tan sencilla. En el ejemplo de la familia Simpson con el que iniciamos este capítulo, notamos con “padre” y “padre” que los idiomas difieren en las palabras que utilizan para describir relaciones particulares de parentesco. Además, señalamos que las culturas difieren en las que las relaciones de parentesco son conceptualmente distintas, de manera que idiomas como el chino hacen distinciones sobre las edades relativas de los hermanos que no se hacen en inglés. ^[1]

Esto no es para sugerir que un angloparlante no pueda notar la diferencia entre sus hermanas mayores y menores, solo que esta distinción no está lexicalizada —capturada en una sola palabra — como lo es en chino. Esta “palabra faltante” en inglés desde la perspectiva del chino se llama brecha léxica. Exactamente cuando existe una brecha léxica a veces es complicado, porque depende de cómo definamos “palabra” — el oso polar y el caballo de mar no están lexicalizados sino que son una sola unidad portadora de significado porque no descomponemos y reensamblamos significado de las dos palabras separadas. Estas “brechas léxicas” difieren de un lenguaje a otro, mientras que las “brechas conceptuales” —las cosas que no podemos pensar o experimentar directamente, como la atracción de la gravedad — pueden ser innatas y universales. Revisamos este número como “relatividad lingüística” en Categorización: Describiendo clases y tipos de recursos. ^[2]

Anteriormente en este libro discutimos la denominación de los recursos (“Los problemas de la nomenclatura”) y el diseño de un vocabulario para la descripción de recursos (“Alcance, Escala y Descripción del Recurso”), y explicamos cómo aumentar el alcance y la escala de un sistema de organización hizo esencial ser más sistemática y precisa en la asignación de nombres y descripciones. Necesitamos estar seguros de que los términos que usamos para organizar los recursos capturen las similitudes y diferencias entre ellos lo suficientemente bien como para apoyar nuestras interacciones con ellos. Después de nuestra discusión sobre las relaciones semánticas en este capítulo, ahora tenemos un sentido más claro de lo que se requiere para unir cosas similares, mantener diferentes cosas separadas y satisfacer cualquier otra meta para el sistema organizador.

Por ejemplo, si estamos organizando autos, autobuses, bicicletas y trineos, todos los cuales son vehículos, existe una distinción importante entre los vehículos que están motorizados y los que son impulsados por el esfuerzo humano. También podría ser útil distinguir los vehículos con ruedas de los que carecen de ellos. No hacer estas distinciones deja un sistema de organización desequilibrado o desigual para describir la semántica del dominio vehicular. No obstante, solo el concepto “motorizado” está lexicalizado en inglés, razón por la cual necesitábamos inventar el término “vehículo de ruedas” en el segundo caso. ^[3]

En pocas palabras, necesitamos usar las palabras de manera efectiva en la organización de los sistemas. Para ello, hay que tener cuidado con la forma en que hablamos de las relaciones entre las palabras y cómo las palabras se relacionan con los conceptos. Hay dos contextos diferentes para esas relaciones.

Primero, necesitamos discutir las relaciones entre los significados de las palabras. (“Relaciones entre los significados de las palabras”) y la herramienta más utilizada para describirlos (“Thesauri”).
Segundo, necesitamos discutir las relaciones entre la forma de las palabras. (“Relaciones entre formas de palabras”)

Relaciones entre los significados de las palabras

Existen varios tipos diferentes de relaciones de significados de palabras. No en vano, en la mayoría de los casos son paralelos a los tipos de relaciones entre conceptos que describimos en “La perspectiva semántica”.

Hiponimia e Hiperonimia

Cuando las palabras codifican las distinciones semánticas expresadas por la inclusión de clase, la palabra para la clase más específica en esta relación se llama hipónimo, mientras que la palabra para la clase más general a la que pertenece se llama hipernym. George Miller sugirió una fórmula ejemplar para definir un hipónimo como su hipernimo precedido de adjetivos o seguido de cláusulas relativas que lo distinguen de sus cohipónimos, subtipos mutuamente excluyentes del mismo hipernym.

hyponym = {adjetivo+} hypernym {cláusula distintiva+}

Por ejemplo, petirrojo es un hipónimo de ave, y podría definirse como “un ave migratoria que tiene un claro canto melodioso y una pechuga rojiza con plumaje superior gris o negro. ” Esta definición no describe todas las propiedades de los petirrojos, pero es suficiente para diferenciar a los petirrojos de los pájaros azules o águilas. ^[4]

Metonimia

Las relaciones semánticas parte-enteras o meronímicas tienen análogos léxicos en la metonomía, cuando una entidad es descrita por algo que está contenido en o de otra manera parte de ella. La capital de un país o un edificio donde residen sus principales líderes se suele utilizar como metónimo para todo el gobierno: “La Casa Blanca anunció hoy...” Del mismo modo, concentraciones importantes de la actividad empresarial suelen ser metónimos para todas sus industrias: “Wall Street fue rescatado otra vez fuera...”

Sinonimia

Sinonimia es la relación entre palabras que expresan el mismo concepto semántico. La definición más estricta es que los sinónimos “son palabras que pueden reemplazarse entre sí en alguna clase de contextos con cambios insignificantes de todo el significado del texto. ” ^[5] Esta es una prueba extremadamente difícil de aprobar, a excepción de acrónimos o términos compuestos como “Estados Unidos”, “Estados Unidos” y “Estados Unidos de América” que son completamente sustituibles.

La mayoría de los sinónimos no son sinónimos absolutos, sino que se consideran sinónimos proposicionales. Los sinónimos proposicionales no son idénticos en sentido, sino que son lo suficientemente equivalentes como para que sustituir uno por otro no cambie el valor de verdad de la oración. Esta prueba más débil nos permite tratar la palabra como sinónimos aunque sus significados difieran sutilmente. Por ejemplo, si Lisa Simpson puede tocar el violín, entonces porque “violín” y “violín” son sinónimos proposicionales, nadie estaría en desacuerdo con una afirmación de que Lisa Simpson puede tocar el violín.

Un conjunto desordenado de sinónimos a menudo se llama synset, término utilizado por primera vez por el proyecto de “diccionario semántico” de WordNet iniciado en 1985 por George Miller en Princeton. ^[6] En lugar de utilizar la ortografía como principio principal de organización de las palabras, WordNet utiliza sus propiedades semánticas y relaciones para crear una red que capture la idea de que las palabras y los conceptos son un sistema inseparable. Los synsets están interconectados tanto por relaciones semánticas como léxicas, permitiendo la navegación en cualquiera de los dos espacios. ^[7]

Polisemia

Introdujimos la relación léxica de la polisemia, cuando una palabra tiene varios significados o sentidos diferentes, en el contexto de problemas con los nombres (“Homonimia, Polisemia y Falso Cognados”). Por ejemplo, la palabra “banco” puede referirse a: orilla del río, banco de dinero, tiros de banco en básquetbol y billar, una maniobra de avión, y otros conceptos. ^[8]

La polisemia se representa en WordNet al incluir una palabra en múltiples sincronizados. Esto permite que WordNet sea un recurso extremadamente útil para la desambiguación de los sentidos en la investigación y aplicaciones de procesamiento del lenguaje natural. Cuando se encuentra una palabra polisémica, ésta y las palabras que están cerca en el texto se buscan en WordNet. Siguiendo las relaciones léxicas en la jerarquía de synset, se puede calcular una “distancia de sincronismo”. La distancia semántica más pequeña entre las palabras, que identifica su hipernym más semánticamente específico, se puede utilizar para identificar el sentido correcto. Por ejemplo, en la oración:

Poner el dinero en el banco

Dos de los tres sentidos de WordNet por “dinero” son:

1) el medio de intercambio más común

2) la moneda oficial emitida por un gobierno o banco nacional

y los dos primeros de los diez sentidos de WordNet para “banco” son:

1) una institución financiera que acepta depósitos

2) terreno inclinado, especialmente la pendiente al lado de un cuerpo de agua

Las jerarquías de sincronización para los dos sentidos del “dinero” se cruzan después de un camino muy corto con la jerarquía para el primer sentido de “banco”, pero no se cruzan con el segundo sentido de “banco” hasta llegar a conceptos muy abstractos. ^[9]

Antonimía

La antonimia es la relación léxica entre dos palabras que tienen significados opuestos. La antonimia es una relación léxica muy destacada, y para los adjetivos es aún más poderosa que la sinonimia. En las pruebas de asociación de palabras, cuando la palabra sonda es un adjetivo familiar, la respuesta más común es su antónimo; una sonda de “bueno” provoca “malo”, y viceversa. Al igual que la sinonimia, la antonimia es a veces exacta y a veces más graduada. ^[10]

Los antónimos contrastantes o binarios se utilizan en contextos mutuamente excluyentes donde se puede usar una u otra palabra, pero nunca ambas. Por ejemplo, “vivo” y “muerto” nunca pueden usarse al mismo tiempo para describir el estado de alguna entidad, porque el significado de uno excluye o contradice el significado de la otra.

Otras relaciones antonímicas entre pares de palabras son menos semánticamente agudas porque a veces pueden aparecer en el mismo contexto como resultado del alcance semántico más amplio de una de las palabras. “Grande” y “pequeño”, o “viejo” y “joven” generalmente sugieren regiones particulares en tamaño o edad continua, pero “¿qué tan grande es? ” o “¿cuántos años tiene? ” se puede preguntar sobre recursos que son objetivamente pequeños o jóvenes. ^[11]

Tesauros

Las palabras que las personas usan naturalmente cuando describen recursos reflejan sus experiencias y perspectivas únicas, y esto significa que las personas a menudo usan palabras diferentes para el mismo recurso y las mismas palabras para otras diferentes. Guiar a las personas cuando seleccionan palabras descriptivas de un vocabulario controlado es una solución parcial a este problema de vocabulario (“El problema del vocabulario”) que se vuelve cada vez más esencial a medida que crece el alcance y la escala del sistema de organización. Un tesauro es una obra de referencia que organiza las palabras según sus relaciones semánticas y léxicas. Los tesauros suelen ser utilizados por los profesionales cuando describen recursos.

Los tesauros han sido creados para muchos dominios y áreas temáticas. Algunos tesauros son muy amplios y contienen palabras de muchas disciplinas, como la Biblioteca del Congreso Subject Headings (LOC-SH) utilizada para clasificar cualquier contenido publicado. Otros tesauros de uso común están más enfocados, como el Tesauro de Arte y Arquitectura (AAT) desarrollado por Getty Trust y el Vocabulario de Indización Legislativa desarrollado por la Biblioteca del Congreso. ^[12]

Podemos volver a nuestra sencilla taxonomía alimentaria para ilustrar cómo un tesauro anota términos de vocabulario con relaciones léxicas y semánticas. Las relaciones de inclusión de clase de hipernomía e hiponimia generalmente se codifican usando BT (“término más amplio”) y NT (“término más estrecho”):

Alimentos BT Carne
Carne de res NT Carne

Las relaciones BT y NT en un tesauro crean un sistema jerárquico de palabras, pero un tesauro es más que una taxonomía léxica para algún dominio porque también codifica relaciones léxicas adicionales para las palabras más importantes. Muchos tesauros enfatizan el cúmulo de relaciones para estas palabras clave y desenfatizan la jerarquía léxica general.

Debido a que el propósito de un tesauro es reducir la sinonimia, distingue entre sinónimos o casi sinónimos indicando uno de ellos como término preferido usando UF (“usado para”):

Alimentos UF Sustento, Alimentación

Un tesauro podría emplear USE como la inversa de la relación UF para referirse de un término menos preferido o variante a uno preferido:

Vituales UTILIZAN Alimentos

Los tesauros también usan RT (“término relacionado” o “ver también”) para indicar términos que no son sinónimos pero que a menudo ocurren en contextos similares:

Comida RT Cocina, Cenar, Cocina

Relaciones entre formas de palabras

Las relaciones entre los significados de las palabras son críticamente importantes. Siempre que creamos, combinamos o comparamos descripciones de recursos, también debemos prestar atención a las relaciones entre formas de palabras. Estas relaciones comienzan con la idea de que todos los lenguajes naturales crean palabras y formas de palabras a partir de unidades más pequeñas. Los bloques básicos de construcción de las palabras se llaman morfemas y pueden expresar conceptos semánticos (cuando se llaman palabras raíz) o conceptos abstractos como “pastoreo” o “plural”). El análisis de las formas por las que los lenguajes combinan los morfemas se llama morfología. ^[13]

Ejemplos simples ilustran esto:

“perros” = “perro” (raíz) + “s” (plural)

“incierto” = “cierto” (raíz) + “un” (negación)

“denegado” = “negar” (raíz) + “ed” (tiempo pasado)

El análisis morfológico de un lenguaje es muy utilizado en el procesamiento de textos para crear índices para la recuperación de información. Por ejemplo, el stemming (discutido con más detalle en Interacciones con Recursos) es un procesamiento morfológico que elimina prefijos y sufijos para dejar la forma raíz de las palabras. Del mismo modo, las aplicaciones simples de procesamiento de texto como la separación de palabras y la corrección ortográfica resuelven problemas de forma verbal usando raíces y reglas porque es más escalable y robusta que resolverlos usando listas de palabras. Muchos errores ortográficos de palabras comunes (por ejemplo, “dolor”) son palabras de menor frecuencia (por ejemplo, “panel”), por lo que agregar “panel” a una lista de palabras mal escritas ocasionalmente lo identificaría incorrectamente. Además, debido a que los lenguajes naturales son generativos y crean nuevas palabras todo el tiempo, una lista de palabras nunca puede estar completa; por ejemplo, cuando aparece “flickr” en el texto, ¿es un error ortográfico de “flicker” o la ortografía correcta del popular sitio para compartir fotos?

Morfología Derivacional

La morfología derivacional trata de cómo se crean las palabras combinando morfemas. Componer, juntar dos “morfemas libres” como en “batman” o “catwoman”, es un mecanismo extremadamente poderoso. El significado de algunos compuestos es fácil de entender cuando el primer morfema califica o restringe el significado del segundo, como en “jaula de pájaros” y “peaje”. ” ^[14] Sin embargo, muchos compuestos adquieren nuevos significados que no se derivan tan literalmente del significado de sus constituyentes, como “caballito de mar” y “batman”. ”

Otros tipos de derivaciones que utilizan morfemas “unidos” siguen reglas más precisas para combinarlas con morfemas “base”. Los tipos más comunes de morfemas enlazados son los prefijos y sufijos, que suelen crear una palabra de una categoría de parte del habla diferente cuando se agregan. Los prefijos familiares en inglés incluyen “a -”, “ab-”, “anti-”, “co-”, “de-”, “pre-” y “un-. ” Entre los sufijos ingleses más comunes se encuentran “-able”, “-ation”, “-ify”, “ing”, “-ity”, “-ize”, “-ment” y “-ness”. ” Componer y agregar prefijos o sufijos son mecanismos simples, pero se pueden formar palabras muy complejas como “inimaginabilidad” usándolas en combinación.

Morfología Infleccional

Los mecanismos de flexión cambian la forma de una palabra para representar el tiempo, el aspecto, el acuerdo u otra información gramatical. A diferencia de la derivación, la inflexión nunca cambia la parte del discurso del morfema base. La morfología infleccional del inglés es relativamente simple comparada con otras lenguas. ^[15]

Los idiomas y las culturas difieren en la forma en que distinguen y describen el parentesco, por lo que Bart podría encontrar el sistema de organización familiar más fácil de dominar en algunos países y culturas y más difícil en otros.
(Bentivogli y Pianta 2000).
Este ejemplo proviene de (Fellbaum 2010, páginas 236-237). Alemán tiene una palabra Kufenfahrzeug para vehículo en corredores.
(Miller 1998).
(Bolshakov y Gelbukh 2004), pág. 314. Continúa la cita “Las referencias a 'alguna clase' y al 'cambio insignificante' hacen que esta definición sea bastante vaga, pero no somos conscientes de ninguna definición significativamente más estricta. De ahí que la creación de diccionarios de sinonimia, que se sabe que son bastante grandes, es más bien una cuestión de arte y perspicacia. ”
George Miller hizo muchas contribuciones importantes al estudio de la mente y el lenguaje durante su larga carrera científica. Su artículo más famoso, El número mágico siete, más o menos dos (Miller 1956), fue fundamental en sus propuestas sobre la organización de la información en la memoria humana, a pesar de que es uno de los artículos científicos más mal citados de todos los tiempos. Relativamente tarde en su carrera Miller comenzó el proyecto WordNet para construir un diccionario semántico, que ahora es un recurso esencial en las aplicaciones de procesamiento del lenguaje natural. Ver http://wordnet.princeton.edu/.
Esta navegación es más fácil de llevar a cabo utilizando el producto comercial llamado “El Tesauro Visual” en http://www.visualthesaurus.com/.
Estos significados contrastantes para “banco” son casos claros de polisemia, pero a menudo hay diferencias de significado mucho más sutiles que surgen del contexto. El verbo “guardar” parece significar algo diferente en “El comprador salvó... ” versus “El socorrista salvó... ” aunque se superponen de alguna manera. (Fillmore y Atkins 2000) y otros han propuesto definiciones de polisemia, pero no existe una prueba rigurosa para determinar cuándo los significados de las palabras divergen lo suficiente como para llamarse sentidos diferentes.
Se han propuesto muchas técnicas para usar WordNet para calcular medidas de similitud semántica. Véase (Budanitsky e Hirst 2006).
Véase (Gross y Miller, 1990).
Este tipo de “asimetría léxica” se llama “marqueza”. ” El término más amplio o dominante es el sin marcar y el más estrecho es el marcado. Ver (Battistella 1996).
http://www.loc.gov/library/libarch-thesauri.html, http://www.getty.edu/research/tools/vocabularies/aat/index.html.
Las lenguas difieren mucho en la complejidad morfológica y en la naturaleza de sus mecanismos morfológicos. El chino mandarín tiene relativamente pocos morfemas y pocas inflexiones gramaticales, lo que lleva a una gran cantidad de homófonos. El inglés es bastante promedio en esta escala. Un libro de texto popular sobre morfología es (Haspelmath y Sims 2010).
Estos llamados compuestos endocéntricos significan esencialmente lo que los morfemas habrían significado por separado. Pero si una “jaula para pájaros” es exactamente una “jaula para pájaros”, ¿qué se gana al crear una nueva palabra? Esta cuestión se ha debatido desde hace mucho tiempo en la clasificación de temas, donde se enmarca como el contraste entre “precoordinación” y “post-coordinación”. ” Por ejemplo, ¿es mejor preclasificar algunos recursos como sobre “Apuestas Deportivas” o deberían encontrarse dichos recursos cruzando los clasificados como sobre “Deportes” y sobre “Juego de azar”. ” Véase (Svenonius 2000, páginas 187-192).
Los sustantivos ingleses tienen formas plurales (libro/libros) y posesivas (el libro del profesor), los adjetivos tienen comparativos y superlativos (grande/grande/más grande), y los verbos regulares tienen solo cuatro formas flexionadas (ver cla.calpoly.edu/~jrubba/morph/morph.over.html). En contraste, en griego clásico cada sustantivo puede tener 11 formas de palabra, cada adjetivo 30, y cada verbo regular superior a 300 (Anderson 2001).

Search

Text Color

Text Size

Margin Size

Font Type