Archive for marzo 2008

lenguajes documentales (II) – los tesauros

Posted by agnieszka en marzo 18, 2008

Son lenguajes documentales que organizan de forma semántica un determinado campo del conocimiento, facilitando el control de contenido gracias al listado de términos que se pueden utilizar para la indización y la recuperación, y las relaciones entre dichos términos.

La norma ISO 2788/TC46 «Principes directeurs pour létablissement et le devellopement de thesaurus monolingues«, define los tesauros según su función y su estructura:

Por su función. Como un instrumento de control terminológico utilizado para trasponer a un lenguaje más estricto el idioma natural empleado en los documentos y por los indizadores
Por su estructura. Es un vocabulario controlado y dinámico de términos que tienen entre ellos relaciones semánticas y genéricas y que se aplica a un dominio particular del conocimiento.

Como subraya Silvia Arano,

Los tesauros son el tipo de lenguaje documental que se asocia en mayor grado con la recuperación de la información. Son reconocidos como las herramientas documentales que logran una mayor precisión en la recuperación, debido al auxilio de su estructuración conceptual y el control terminológico que realizan.

Composición de un tesauro

Un tesauro se compone de unidades lexicales (descriptores, no descriptores y palabras herramienta).

Los descriptores son palabras o términos admitidos para la indización y búsqueda. Para evitar ambiguedad, un descriptor representa un solo concepto y un concepto puede ser designado por un solo descriptor. Los descriptores pueden ser simples (formados por una palabra) o compuestos (de dos o más palabras).

Los no descriptores son palabras incluidas en el tesauro, que no pueden ser utilizadas para la indización y la recuperación, pero cada uno de ellos emite a uno o más términos admitidos. La utilización de no descriptores facilita tanto la descripción como la búsqueda, permitiendo dar una mejor idea del significado de cada término y traducir los términos del lenguaje natural al documental. Entre los no descriptores están sinónimos (palabras con significado igual que el del descriptor correspondiente) y quasi-sinónimos (palabras que pueden tener significado distinto, pero se trata como sinónimos en el tesauro; por ejemplo, los términos con significados que se solapan, los términos cuyo alcance se incluye en el de otro término, o los contrarios).

Estructura de un tesauro

La estructura de un tesauro se basa en relaciones semánticas entre los términos. Las relaciones pueden ser de tres tipos: jerárquicas, de equivalencia y asociativas.

Las relaciones de equivalencia se establecen entre los descriptores y los no descriptores. En el tesuaro, se las indica utilizando las referencias USE/UP. Un término no descriptor se conecta normalmente al descriptor correspondiente mediante la referencia USE. La referencia correspondiente en la dirección opuesta es UP (» utilizado por «).

Ejemplo:
medievo USE edad media
edad media UP medievo

Las relaciones jerárquicas se establecen entre los descriptores del tesauro que deben pertenecer a la misma clase y que presentan distintos niveles de superordinación y subordinación. Existen cuatro subtipos de relaciones jerárquicas: género-especie (clase o categoría / miembros o especies), todo-parte, enumerativas (categoría general / caso individual), y polijerárquicas (conceptos que se insertan en más de una cadena jerárquica). La relación se expresa mediante la notación:

TG (Término genérico) o BT (Broad term)

TE (Término específico) o NT (Narrow Term)

Ejemplo:
TG arquitectura religiosa
TE iglesias
TE monasterios

Las relaciones asociativas son relaciones simétricas entre dos descriptores. La notación utilizada es:

TR (Término relacionado) o RT (Related term)

Ejemplo:
baquetón TR bocel

Además de las relaciones, a los descriptores del tesauro pueden acompañar notas de alcance (NA) que ayudan a mejor entendimiento de los términos utilizados. Pueden ser definiciones u otras notas explicativas donde se acota el significado o alcance conceptual que es representado por un término en particular.

Ejemplo:
bocel NA moldura convexa lisa de sección semicircular

Posted in lenguajes documentales, tesauros | Leave a Comment »

lenguajes documentales (I)

Posted by agnieszka en marzo 17, 2008

Según Blanca Gil (Manual de lenguajes documentales)

El lenguaje documental es un sistema artificial de signos normalizados, que facilitan la representación formalizada del contenido de los documentos para permitir la recuperación, manual o automática, de información solicitada por los usuarios.
El lenguaje documental es consultado por el analista/documentalista, en el momento de indizar los documentos, y por el usuario para describir sus necesidades de información, constituyéndose en el acceso temático más eficaz que ofrece cualquier servicio de información.

Los lenguajes documentales son una herramienta que permiten traducir el lenguaje libre del documento a un lenguaje controlado para facilitar su interpretación por los usuarios. Estos lenguajes intervienen en la cadena documental en dos momentos o funciones que denominaremos de «entrada y de salida». La entrada de la información implica dos pasos: la descripción física o catalogación y el análisis del contenido. La salida es la recuperación de la información (realizada por propios documentalistas o por usuarios finales), ya que el uso de lenguajes documentales define las estrategias de búsqueda.

Funciones del lenguaje documental

Las funciones fundamentales de los lenguajes documentales son:

Normalización de vocabulario, es decir, permitir unificar el vocabulario utilizado y controlar las posibles entradas. Se trata de evitar sinonimia y polisemia, controlar genero y número de las expresiones, etc.
Inducción, es decir, indcar al usuario todas las alternativas posibles para la recuperación de la información. Gracias a la posibilidad de consultar listas de términos utilizados, y relaciones (asociativas, jerárquicas y preferenciales) entre ellos, induce al usuario hacia la consulta de temas en los que previamente no había pensado.
Representación, es decir, facilitar, gracias al establecimiento de relaciones entre conceptos y términos, la formulación de preguntas para poder realizar búsquedas más efecivas.

Además, el uso de lenguajes documentales como tesauros multilingues o sistemas de clasificación, permiten realizar búsquedas en varios idiomas, facilitando su uso internacional.

Tipología de los lenguajes documentales

Aunque existen diversas clasificaciones de los lenguajes documentales, desde la perspectiva más general se puede distinguir tres tipologías, basadas en los criterios de control terminológico (control de vocabulario), coordinación de términos y estructura.

Según control de vocabulario:

lenguajes documentales libres
- listas de descriptores (palabras claves)
lenguajes documentales controlados
- clasificaciones
- listas de encabezamiento de materias
- tesauros

Todos los lenguajes controlados, a excepción de listas de descriptores libres, son lenguajes controlados, es decir, compuestos por un vocabulario previamente elaborado. El control terminológico permite evitar problemas relacionados con polisemia, sinonimia etc.

Según coordinación de términos:

lenguajes documentales precoordinados
- clasificaciones
- listas de encabezamientos de materia
lenguajes documentales postcoordinados
- listas de palabras clave
- tesauros

La distinción entre lenguajes precoordinados y postcoordinados se realiza en función del momento de combinación de sus elementos. Si la combinación se realiza en el momento de creción del lenguaje, hablamos de un lenguaje precoordinado. Si es en el momento de repcuperación, hablamos del lenguaje postcoordinado.

Según la estructura:

lenguajes documentales jerárquicos
- sistemas de clasifiación
lenguajes documentales combinatorios
- tesauros
- listas de encabezamientos de materia

El criterio se establece en función de que si las relaciones entre términos tienen relación jerárquica o se presentan en forma de red, permitiendo otros tipos de relaciones.

Listas de encabezamientos de materia

Lenguaje precoordinado, de estructura asociativa o combinatoria que se consiste en listas alfabéticas de palabras capaces de representar los temas de los que trata un documento. Son lenguajes documentales de vocabulario controlado que no responden a una estructuración conceptual, y que generalmente tienen una presentación alfabética.

Las listas se componen de encabezamientos y subencabezamientos. Los encabezamientos son palabras o terminos del lenguaje natural que representan conceptos o temas de los que trata un documento. El control terminológico se logra gracias al establecimiento de relaciones entre términos, como el envío simple (v., Véase – remite al término aceptado) y la explicación correlativa (U.p., Úsase por – procede al término no aceptado) para el control de sinónimos y equivalencias, o referencias de orientación (V.a., Véase además) que remiten a otros encabezamientos relacionados con el tema en cuestión.

Los encabezamientos pueden ser simples (formados por una sola palabra) o compuestos (dos o más palabras). Los subencabezamientos son palabras que siguen a un encabezamiento para formar un encabezamiento compuesto.

Sistemas de clasificación

Blanca Gil en su ya citada obra define un sistema de clasificación como

un conjunto ordenado de conceptos que se presentan distribuidos sistemáticamente en clases conformando una estructura.

Por regla general, estos sistemas de clasificación se componen de tablas principales, tablas auxiliares, un índice y un procedimiento de notación que varía sensiblemente de unas a otras. Las tablas principales del sistema contienen todas las materias, del campo abarcado por la clasificación. Las tablas auxiliares ya no abarcan materias sino términos de lugar, tiempo, forma y lengua, y son útiles para concretar la materia. El índice es una lista alfabética de todos los términos incluidos en el sistema, a cuyo lado debe figurar la notación correspondiente que guía a la tabla principal. La notación, por último, es un sistema de símbolos, números o combinación de ambos, que se asignan a los términos de la clasificación. El propósito de utilizar tal recurso es designar brevemente las materias y, a veces, sus relaciones.

Se pueden establecer varias tipologías de clasificaciones.

Según el contenido o cobertura temática:

clasificaciones enciclopédicas o universales (intentan abarcar todas las ramas del saber)
- Dewey Decimal Classification System
- Clasificación Decimal Universal
- Clasificación de la Biblioteca del Congreso
clasificaciones especializadas (términos de un área temático particular)
- Clasificación Decimal Astronómica
- Clasificación de la OCDE
- clasificación de la National Library of Medicine

Según la estructura:

clasificaciones enumerativas (listas de términos relacionados jerárquicamente)
- Dewey Decimal Classification System
clasificaciones por facetas (de tipo polijerárquico, es decir, cada categoría se puede aplicar a un conjunto de carácteres)
- Colon Classification
clasificaciones mixtas (de carácter enumerativo, pero adaptando el uso de facetas)
- Classification Decimal Universal

El pripncipal problema que presentan los sistemas de clasificación el su poca flexibilidad y su complejidad que hace difíl la recuperación de la información. Igual que las listas de encabezamientos de materias, con los avances tecnológicos y la difusión de tesauros especializados resulta que estos sistemas se están haciendo obsoletos.

Posted in análisis de contenido, lenguajes documentales | 4 Comments »

3 ARCHIVOS

blog del Taller de Empleo Conservación y Archivo del Patrimonio Fotográfico

Categorías

Archivos

entidades promotoras

organizaciones y proyectos españoles

otras bitácoras

revistas digitales

sitios de interés

Meta

Suscribirse