3 ARCHIVOS

blog del Taller de Empleo Conservación y Archivo del Patrimonio Fotográfico

lenguajes documentales (II) – los tesauros

Posted by agnieszka en marzo 18, 2008

Son lenguajes documentales que organizan de forma semántica un determinado campo del conocimiento, facilitando el control de contenido gracias al listado de términos que se pueden utilizar para la indización y la recuperación, y las relaciones entre dichos términos.

La norma ISO 2788/TC46 Principes directeurs pour létablissement et le devellopement de thesaurus monolingues“, define los tesauros según su función y su estructura:

  • Por su función. Como un instrumento de control terminológico utilizado para trasponer a un lenguaje más estricto el idioma natural empleado en los documentos y por los indizadores
  • Por su estructura. Es un vocabulario controlado y dinámico de términos que tienen entre ellos relaciones semánticas y genéricas y que se aplica a un dominio particular del conocimiento.

Como subraya Silvia Arano,

Los tesauros son el tipo de lenguaje documental que se asocia en mayor grado con la recuperación de la información. Son reconocidos como las herramientas documentales que logran una mayor precisión en la recuperación, debido al auxilio de su estructuración conceptual y el control terminológico que realizan.

Composición de un tesauro

Un tesauro se compone de unidades lexicales (descriptores, no descriptores y palabras herramienta).

Los descriptores son palabras o términos admitidos para la indización y búsqueda. Para evitar ambiguedad, un descriptor representa un solo concepto y un concepto puede ser designado por un solo descriptor. Los descriptores pueden ser simples (formados por una palabra) o compuestos (de dos o más palabras).

Los no descriptores son palabras incluidas en el tesauro, que no pueden ser utilizadas para la indización y la recuperación, pero cada uno de ellos emite a uno o más términos admitidos. La utilización de no descriptores facilita tanto la descripción como la búsqueda, permitiendo dar una mejor idea del significado de cada término y traducir los términos del lenguaje natural al documental. Entre los no descriptores están sinónimos (palabras con significado igual que el del descriptor correspondiente) y quasi-sinónimos (palabras que pueden tener significado distinto, pero se trata como sinónimos en el tesauro; por ejemplo, los términos con significados que se solapan, los términos cuyo alcance se incluye en el de otro término, o los contrarios).

Estructura de un tesauro

La estructura de un tesauro se basa en relaciones semánticas entre los términos. Las relaciones pueden ser de tres tipos: jerárquicas, de equivalencia y asociativas.

Las relaciones de equivalencia se establecen entre los descriptores y los no descriptores. En el tesuaro, se las indica utilizando las referencias USE/UP. Un término no descriptor se conecta normalmente al descriptor correspondiente mediante la referencia USE. La referencia correspondiente en la dirección opuesta es UP (” utilizado por “).

Ejemplo:
medievo USE edad media
edad media UP medievo

Las relaciones jerárquicas se establecen entre los descriptores del tesauro que deben pertenecer a la misma clase y que presentan distintos niveles de superordinación y subordinación. Existen cuatro subtipos de relaciones jerárquicas: género-especie (clase o categoría / miembros o especies), todo-parte, enumerativas (categoría general / caso individual), y polijerárquicas (conceptos que se insertan en más de una cadena jerárquica). La relación se expresa mediante la notación:

TG (Término genérico) o BT (Broad term)

TE (Término específico) o NT (Narrow Term)

Ejemplo:
TG arquitectura religiosa
TE iglesias
TE monasterios

Las relaciones asociativas son relaciones simétricas entre dos descriptores. La notación utilizada es:

TR (Término relacionado) o RT (Related term)

Ejemplo:
baquetón TR bocel

Además de las relaciones, a los descriptores del tesauro pueden acompañar notas de alcance (NA) que ayudan a mejor entendimiento de los términos utilizados. Pueden ser definiciones u otras notas explicativas donde se acota el significado o alcance conceptual que es representado por un término en particular.

Ejemplo:
bocel NA moldura convexa lisa de sección semicircular

Posted in lenguajes documentales, tesauros | Leave a Comment »

lenguajes documentales (I)

Posted by agnieszka en marzo 17, 2008

Según Blanca Gil (Manual de lenguajes documentales)

El lenguaje documental es un sistema artificial de signos normalizados, que facilitan la representación formalizada del contenido de los documentos para permitir la recuperación, manual o automática, de información solicitada por los usuarios.
El lenguaje documental es consultado por el analista/documentalista, en el momento de indizar los documentos, y por el usuario para describir sus necesidades de información, constituyéndose en el acceso temático más eficaz que ofrece cualquier servicio de información.

Los lenguajes documentales son una herramienta que permiten traducir el lenguaje libre del documento a un lenguaje controlado para facilitar su interpretación por los usuarios. Estos lenguajes intervienen en la cadena documental en dos momentos o funciones que denominaremos de “entrada y de salida”. La entrada de la información implica dos pasos: la descripción física o catalogación y el análisis del contenido. La salida es la recuperación de la información (realizada por propios documentalistas o por usuarios finales), ya que el uso de lenguajes documentales define las estrategias de búsqueda.

Funciones del lenguaje documental

Las funciones fundamentales de los lenguajes documentales son:

  • Normalización de vocabulario, es decir, permitir unificar el vocabulario utilizado y controlar las posibles entradas. Se trata de evitar sinonimia y polisemia, controlar genero y número de las expresiones, etc.
  • Inducción, es decir, indcar al usuario todas las alternativas posibles para la recuperación de la información. Gracias a la posibilidad de consultar listas de términos utilizados, y relaciones (asociativas, jerárquicas y preferenciales) entre ellos, induce al usuario hacia la consulta de temas en los que previamente no había pensado.
  • Representación, es decir, facilitar, gracias al establecimiento de relaciones entre conceptos y términos, la formulación de preguntas para poder realizar búsquedas más efecivas.

Además, el uso de lenguajes documentales como tesauros multilingues o sistemas de clasificación, permiten realizar búsquedas en varios idiomas, facilitando su uso internacional.

Tipología de los lenguajes documentales

Aunque existen diversas clasificaciones de los lenguajes documentales, desde la perspectiva más general se puede distinguir tres tipologías, basadas en los criterios de control terminológico (control de vocabulario), coordinación de términos y estructura.

Según control de vocabulario:

  • lenguajes documentales libres
    • listas de descriptores (palabras claves)
  • lenguajes documentales controlados
    • clasificaciones
    • listas de encabezamiento de materias
    • tesauros

Todos los lenguajes controlados, a excepción de listas de descriptores libres, son lenguajes controlados, es decir, compuestos por un vocabulario previamente elaborado. El control terminológico permite evitar problemas relacionados con polisemia, sinonimia etc.

Según coordinación de términos:

  • lenguajes documentales precoordinados
    • clasificaciones
    • listas de encabezamientos de materia
  • lenguajes documentales postcoordinados
    • listas de palabras clave
    • tesauros

La distinción entre lenguajes precoordinados y postcoordinados se realiza en función del momento de combinación de sus elementos. Si la combinación se realiza en el momento de creción del lenguaje, hablamos de un lenguaje precoordinado. Si es en el momento de repcuperación, hablamos del lenguaje postcoordinado.

Según la estructura:

  • lenguajes documentales jerárquicos
    • sistemas de clasifiación
  • lenguajes documentales combinatorios
    • tesauros
    • listas de encabezamientos de materia

El criterio se establece en función de que si las relaciones entre términos tienen relación jerárquica o se presentan en forma de red, permitiendo otros tipos de relaciones.

Listas de encabezamientos de materia

Lenguaje precoordinado, de estructura asociativa o combinatoria que se consiste en listas alfabéticas de palabras capaces de representar los temas de los que trata un documento. Son lenguajes documentales de vocabulario controlado que no responden a una estructuración conceptual, y que generalmente tienen una presentación alfabética.

Las listas se componen de encabezamientos y subencabezamientos. Los encabezamientos son palabras o terminos del lenguaje natural que representan conceptos o temas de los que trata un documento. El control terminológico se logra gracias al establecimiento de relaciones entre términos, como el envío simple (v., Véase – remite al término aceptado) y la explicación correlativa (U.p., Úsase por – procede al término no aceptado) para el control de sinónimos y equivalencias, o referencias de orientación (V.a., Véase además) que remiten a otros encabezamientos relacionados con el tema en cuestión.

Los encabezamientos pueden ser simples (formados por una sola palabra) o compuestos (dos o más palabras). Los subencabezamientos son palabras que siguen a un encabezamiento para formar un encabezamiento compuesto.

Sistemas de clasificación

Blanca Gil en su ya citada obra define un sistema de clasificación como

un conjunto ordenado de conceptos que se presentan distribuidos sistemáticamente en clases conformando una estructura.

Por regla general, estos sistemas de clasificación se componen de tablas principales, tablas auxiliares, un índice y un procedimiento de notación que varía sensiblemente de unas a otras. Las tablas principales del sistema contienen todas las materias, del campo abarcado por la clasificación. Las tablas auxiliares ya no abarcan materias sino términos de lugar, tiempo, forma y lengua, y son útiles para concretar la materia. El índice es una lista alfabética de todos los términos incluidos en el sistema, a cuyo lado debe figurar la notación correspondiente que guía a la tabla principal. La notación, por último, es un sistema de símbolos, números o combinación de ambos, que se asignan a los términos de la clasificación. El propósito de utilizar tal recurso es designar brevemente las materias y, a veces, sus relaciones.

Se pueden establecer varias tipologías de clasificaciones.

Según el contenido o cobertura temática:

Según la estructura:

  • clasificaciones enumerativas (listas de términos relacionados jerárquicamente)
    • Dewey Decimal Classification System
  • clasificaciones por facetas (de tipo polijerárquico, es decir, cada categoría se puede aplicar a un conjunto de carácteres)
  • clasificaciones mixtas (de carácter enumerativo, pero adaptando el uso de facetas)
    • Classification Decimal Universal

El pripncipal problema que presentan los sistemas de clasificación el su poca flexibilidad y su complejidad que hace difíl la recuperación de la información. Igual que las listas de encabezamientos de materias, con los avances tecnológicos y la difusión de tesauros especializados resulta que estos sistemas se están haciendo obsoletos.

Posted in análisis de contenido, lenguajes documentales | 4 Comments »

Refinación de elementos Dublin Core

Posted by agnieszka en febrero 25, 2008

A continuación se listan algunos elementos refinados de DCMI:

Para el elemento DESCRIPTION:

Nombre del elemento: Abstract (Resumen)
Etiqueta: abstract
Definición: Un sumario del contenido del recurso.

Nombre del elemento: TableOfContents (Tabla de Contenidos)
Etiqueta: Table Of Contents
Definición: Lista de contenidos; Una lista de sub-unidades del contenido del
recurso.

Para el elemento RIGHTS:

Nombre del elemento: accessRights (Derechos de Acceso)
Etiqueta: Access Rights
Definición: Establece las normas de acceso al recurso.
Comentario: Puede incluir información relacionada con restricciones basadas en privacidad, seguridad etc.

Nombre del elemento: licence (Licencia)
Etiqueta: Licence
Definición: Documento oficial que define los derechos de uso del recurso.
Comentario: Es recomendado utilizar un URI. Ver ejemplos en: http://creativecommons.org/licenses

Para el elemento TITLE:

Nombre del elemento: alternative (Titulo Alternativo)
Etiqueta: Alternative Title
Definición: Otra forma del título usada como un subtítulo o alternativa al título
formar del recurso.

Para el elemento IDENTIFIER:

Nombre del elemento: bibliographicCitation (Referencia Bibliográfica)
Etiqueta: Bibliographic Citation
Definición: Referencia bibliográfica del recurso.
Comentario: Se recomienda incluir suficiente detalle como para identificar el recurso sin ambigüedad.

Para el elemento DATE:

Nombre del elemento: created (Fecha de Creación)
Etiqueta: Date Created
Definición: Fecha de creación del recurso.

Nombre del elemento: valid (Fecha de Validez)
Etiqueta: Date Valid
Definición: Fecha de validez del recurso.

Nombre del elemento: available (Fecha de Disponibilidad)
Etiqueta: Date Available
Definición: Fecha (a menudo un rango) en la que el recurso comenzará o estará
disponible.

Nombre del elemento: issued (Fecha de Publicación)
Etiqueta: Date Issued
Definición: Fecha de la puesta en circulación formal (p.e., publicación) de un
recurso.

Nombre del elemento: modified (Fecha de Modificación)
Etiqueta: Date Modified
Definición: Fecha en que se ha cambiado el recurso.

Nombre del elemento: dateAccepted
Etiqueta: Date Accepted
Definición: Fecha de aceptación del recurso (p. e. de la tesis por un dpto.de
universidad, artículo para una revista, etc.).

Nombre del elemento: dateCopyrighted
Etiqueta: Date Copyrighted
Definición: Fecha del establecimiento del copyright.

Nombre del elemento: dateSubmitted
Etiqueta: Date Submitted
Definición: Fecha de la entrega del recurso (p.ej. artículo, tesis, etc.)

Para el elemento FORMAT:

Nombre del elemento: extent (Tamaño)
Etiqueta: Extent
Definición: Tamaño o duración del recurso.

Nombre del elemento: medium (Medio)
Etiqueta: Medium
Definición: El material o sustancia física del recurso.

Para el elemento RELATION:

Nombre del elemento: isVersionOf (Versión de)
Etiqueta: Is Version Of
Definición: El recurso descrito es una versión del recurso referido.

Nombre del elemento: isFormatOf (Es Formato)
Etiqueta: Is Format Of
Definición: El recurso descrito tiene el mismo contenido intelectual que el recurso
referido, pero presentado en otro formato.

Para el elemento COVERAGE:

Nombre del elemento: spatial (Cobertura Espacial)
Etiqueta: Spatial Coverage
Definición: Puede incluir nombres geográficos, coordenadas y otras referencias.
espaciales.

Nombre del elemento: temporal (Cobertura Temporal)
Etiqueta: Temporal Coverage
Definición: Características temporales del recurso, relacionadas con su contenido
y no con su ciclo de vida.

Posted in Dublin Core, metadatos | Leave a Comment »

Elementos Dublin Core

Posted by agnieszka en febrero 5, 2008

Conjunto de Elementos de Metadatos Dublin Core, Version 1.1 (traducción de Dublin Core Metadata Element Set, Version 1.1)

Nombre del elemento: Title (Título)
Etiqueta: Title
Definición: Nombre dado al recurso
Comentario: Normalmente, el título será el nombre por el que se conoce formalmente el recurso.

Nombre del elemento: Creator (Creador)
Etiqueta: Creator
Definición: Entidad principal responsable de crear el contenido del recurso.
Comentario: Ejemplo de Creador de un recurso pueden ser, una persona, una organización, o un servicio. Normalmente el nombre de un creador debeusarse para indicar la entidad.

Nombre del elemento: Subject (Materia)
Etiqueta: Subject y Keywords
Definición: Tema del contenido del recurso.
Comentario: Normalmente, la materia se expresará como palabras clave, frases clave o códigos de clasificación que describan un tema/asunto del recurso. La mejor práctica [best practice] recomendada es seleccionar un valor deun vocabulario controlado o de un esquema [scheme] de clasificación formal.

Nombre del elemento: Description (Descripción)
Etiqueta: Description
Definición: Explicación del contenido del recurso.
Comentario: Ejemplos de descripción son, aunque no están limitados a: un resumen, tabla de contenidos, referencia a una representación gráfica del contenido o una explicación en texto libre sobre el contenido.

Nombre del elemento: Publisher (Editor)
Etiqueta: Publisher
Definición: Entidad responsable de que el recursos esté disponible
Comentario: Ejemplos de editor son: una persona, una organización, o un servicio. Normalmente, el nombre de un editor debe utilizarse para indicar la entidad.

Nombre del elemento: Contributor (Colaborador)
Etiqueta: Contributor
Definición: Entidad responsable de realizar contribuciones al contenido de un recurso.
Comentario: Ejempos de colaborador pueden ser: una persona, una organización o un servicio. Normalmente el nombre de un colaborador debe utilizarse para indicar una entidad.

Nombre del elemento: Date (Fecha)
Etiqueta: Date
Definición: Fecha de una circunstacia relativa al ciclo de vida de un recurso.
Comentario: Normalmente, la fecha se asociará con la creación o la disponibilidad [availability, publicación en Red] de un recurso. La mejor práctica recomendada para codificar el valor de la fecha se define en el perfil ISO 8601 [W3CDTF] e incluye (entre otros) fechas en la forma AAAA-MMDD.

Nombre del elemento: Type (Tipo de recurso)
Etiqueta: Resource Type
Definición: Naturaleza o género del contenido del recurso.
Comentario: El tipo se refiere a términos que describen categorías generales, funciones, géneros o niveles de agregación del contenido. La practica recomendada en este sentido, es seleccionar un valor de un vocabulario controlado (por ejemplo, del Vocabulario de Tipos de la DCMI [DCT1]). Para describir la manifestación física o digital de un recursos, se usa el lemento FORMAT.

Nombre del elemento: Format (Formato)
Etiqueta: Format
Definición: Manifestación física o digital de un recurso
Comentario: Normalmente, el formato puede incluir tipos de medios o dimensiones de un recurso. El formato puede usarse para identificar el software, hardware, u otros equipamientos necesarios para visualizar/presentar u operar el recurso. Ejemplos de dimensiones pueden ser el tamaño o la duración. La práctica recomedada en este caso es seleccionar el valor de un vocabulario controlado (por ejemplo, la lista de Tipos de Medios en Internet [MIME] que define los formatos de medios informáticos).

Nombre del elemento: Identifier (Identificador)
Etiqueta: Resource Identifier
Definición: Referencia inequívoca a un recurso dentro de un contexto dado.
Comentario: La mejor práctica recomendada es identificar el recurso por medio de un string [serie de caracteres manipulados como un grupo] o número adaptado a un sistema formal de identificación. Algunos formatos de identificación formal de recursos son, entre otros, el Identificador niforme de Recursos (URI) (que incluye el Localizador Uniforme de Recursos (URL)), el Identificador de Objetos Digitales (DOI) y el Número Internacional Normalizado de Libros (ISBN).

Nombre del elemento: Source (Fuente)
Etiqueta: Source
Definición: Referencia a un recurso del cual deriva el recurso actual (que se está describiendo).
Comentario: El recurso actual puede derivar de un recurso Fuente en todo o en parte. La práctica mejor recomendada en este caso es identificar el recursos referenciado por medio de un string o número conforme con un sistema de identificación formal.

Nombre del elemento: Language (Idioma)
Etiqueta: Language
Definición: Idioma del contenido intelectual de un recurso.
Comentario: La mejor práctica recomendada es usar la RFC 3066 [RFC3066] que, en conjunción con la norma ISO639 [ISO639]), define dos -y tres etiquetas de idioma principal con subetiquetas opcionales. Por ejemplo, se incluye “en” o”eng” para el inglés, “akk” para el acadio, y “en-GB” para el inglés usado en el Reino Unido.

Nombre del elemento: Relation (Relación)
Etiqueta: Relation
Definición: Referencia a un recurso relacionado.
Comentario: La práctica recomendada es identificar los recursos referenciados mediante un string [conjunto de caracteres manipulados como un grupo] un número conforme a un sistema de identificación formal.

Nombre del elemento: Coverage (Cobertura)
Etiqueta: Coverage
Definición: La magnitud o el alcance del contenido de un recurso.
Comentario: Normalmente, la cobertura incluirá la localización espacial (un nombre de un lugar o unas coordenadas geográficas), periodo termporal (una expresión que identifica un período, fecha o rango de fecha) o jurisdicción (por ejemplo una denominación de una entidad administrativa). La práctica recomendada es seleccionar un valor de un vocabulario controlado (por ejemplo, del Tesauro de Nombres Geográficos [TGN]) y usar, cuando sea oportuno, nombres de periodos de tiempo o de lugares, mejor que identificadores numéricos, como un conjunto de coordenadas o rangos de fecha.

Nombre del elemento: Rights (Derechos)
Etiqueta: Rights Management
Definición: Información sobre los derechos legales que afectan al uso del recurso.
Comentario: Normalmente, los derechos contendrán una declaración de gestión de derechos para el recurso, o referenciarán un servicio que proporcione dicha información. La información sobre los derechos normalmente abarca los derechos de Propiedad Intelectual (IPR), Copyright, y varios derechos relacionados con la propiedad. Si no consta el elementos de Derechos, no se deben hacer asunciones sobre ningún derecho contenido en el recurso o entorno a él.

Posted in Dublin Core, metadatos | Leave a Comment »

Metadatos Dublin Core

Posted by agnieszka en febrero 4, 2008

La Dublin Core Metadata Iniciative (DCMI) es la iniciativa internacional de metadatos más importante para la organización y recuperación de información en Internet de manera normalizada, eficaz y de propósito general.

La idea surgió en octubre de 1994 en la 2nd International World Wide Conference, donde se ha propuesto la necesidad de creacion de un sistema que facilite la búsqueda de información en Internet. Como resultado, en un workshop convocado para 1995 en Dublin, Ohio (USA) surgió la Dublin Core Metadata Initiative (DCMI).

La Iniciativa Dublin Core es la responsable del desarrollo, estandarización y promoción del conjunto de los elementos de metadatos Dublin Core. Su objetivo es elaborar normas interoperables sobre metadatos y desarrollar vocabularios especializados en metadatos para la descripción de recursos que permitan sistemas de recuperación más inteligentes. Sus principales objetivos son:

  • Desarrollar estándares de metadatos para recuperar información en Internet a través de distintos dominios
  • Definir marcos para la interoperabilidad entre conjuntos de metadatos, y,
  • Facilitar el desarrollo de conjuntos de metadatos específicos de una comunidad -o disciplina- que sean consistentes con los apartados 1 y 2.

Los términos se clasifican en tres tipos: elements (elementos), element-refinement (califican a un elemento) y encoding scheme (esquemas de clasificación o normativas de escritura).

Elementos Dublin Core

Existen tres versiones formalmente refrendadas del Conjunto de Elementos de Metadatos Dublin Core, versión 1.1:

Norma ISO 15836-2003 (Febrero 2003): [PDF]

Norma NISO Z39.85-2001 (Septiembre 2001): [PDF]

Acuerdo de Taller del CEN: CWA 13874 (Marzo 2000): [PDF]

El conjunto de elementos de metadatos Dublin Core se compone de 15 descriptores, que son opcionales, pueden repetirse y aparecer en cualquier orden. Se pueden clasificar en tres grupos que indican la clase o el ámbito de la información que se guarda en ellos:

  1. Elementos relacionados principalmente con el contenido del recurso
  2. Elementos relacionados principalmente con el recurso cuando es visto como una propiedad intelectual
  3. Elementos relacionados principalmente con la instanciación del recurso

Etiquetas de contenido:

DC.Title (Título)
DC.Subject (Materias y palabras clave)
DC.Description (Descripción)
DC.Source (Fuente)
DC.Language (Lengua)
DC.Relation (Relación)
DC.Coverage (Cobertura)

Etiquetas de propiedad intelectual:

DC.Creator (Autor)
DC.Publisher (Editor)
DC.Contributor (Colaborador)
DC.Rights (Derechos)

Etiquetas de la instancia:

DC.Date (Fecha)
DC.Type (Tipo o categoría)
DC.Format (Formato)
DC.Identifier (Identificación)

El esquema permite además emplear calificadores opcionales para cada elemento que permiten aumentar la especificidad y precisión de los metadatos. Existen dos tipos de calificadores:

  • Refinación de elementos: específican el contenido del elemento (por ejemplo, los calificadores “Resumen” y “Tabla de Contenidos” forman parte del elemento “Descripción”)
  • Esquema de codificación (scheme): ayudan en la interpretación del valor de un elemento, utilizando vocabularios controlados y notaciones (por ejemplo, “2002-01-01” como la expresión estándar de una fecha).

El responsable de Dublin Core en España es la RedIris. En 2001 en el marco de SEDIC (Sociedad Española de Documentación e Información Científica) se creó el Grupo de Trabajo sobre Normalización para la Recuperación de Información en Internet (NORMAWEB), dentro de cuyos objetivos está la divulgación del estándar Dublin Core.

Posted in Dublin Core, metadatos | Leave a Comment »

Cursos oline gratuitos

Posted by agnieszka en febrero 1, 2008

Os paso información sobre ofertas de formación tecnológica dirigida a autónomos y PYMES. Son cursos gratuitos acogidos al Plan Avanza, para trabajadores en puestos de trabajo relacionados con las telecomunicaciones y las tecnologías de la información.

1. Cursos gratuitos por Grupo Garben.

2. Cursos gratuitos por INATED.

3. Curso gratuito de Office 2007 por Dreamsoft.

Posted in formación | Leave a Comment »

Preservación Digital

Posted by ellen en enero 31, 2008

La preservación de la información digital es un problema difícil y complejo. Cada vez hay más información digital pero, mientras que la información en papel y en otros soportes duraderos (como en microfilm) puede durar cientos de años, la información codificada en formato digital, es poco probable que dure más de una década o dos. A diferencia de materiales tradicionales, que tienden a ir desapareciendo de manera gradual, desvaneciéndose o amarilleándose con el paso del tiempo la información digital no se pierde de manera paulatina, esta existe o simplemente no existe.

La preservación digital nos plantea nuevos desafíos para la disciplina de la conservación. En primer lugar se tiene que afrontar a problemas técnicos, pero también algunas amenazas que vienen desde la organización misma. Los vamos a ver en la presentación que sigue a continuación.

Posted in presentación, preservación digital | Leave a Comment »

Introducción a los metadatos

Posted by agnieszka en enero 30, 2008

¿Qué son los metadatos?

Se puede definir los metadatos como un conjunto de datos relativos a un recurso digital, que permiten catalogar, identificar, describir y localizar este recurso, y además proporcionan una información adicional sobre sus características (básicamente el contenido, el contexto y la estructura). Este concepto es análogo al uso de índices y fichas catalográficas en bibliotecas, donde una serie de datos (autor, titulo, IBSN, fecha lugar de publicación, etc.) describen y ayudan a buscar libros. En un sentido amplio, una ficha catalogrfica se puede considerar un conjunto de metadatos. Sin embargo, se suele utilizar la palabra “metadatos” en un sentido estricto, definido por Berners Lee y el World Wide Web Consortium: “Los metadatos son información inteligible para el ordenador sobre recursos Web u otras cosas” (Tim Berners-Lee, Metadata Architecture).

Ya en el momento del surgimiento de catálogos informáticos en bibliotecas surgió la necesidad que las bibliotecas comparten unas normas internacionales de catalogación que permitan el intercambio de información y la integración de catálogos de varias bibliotecas, para facilitar la búsqueda en varias bases de datos a la vez. Con la aparición del Internet y la World Wide Web, cuando la función principal de metadatos se definió como describir los recursos que se encontraban en la Web, el problema de estandarización resultó todavía más urgente.

La digitalización de los fondos de archivos, museos, bibliotecas, empresas, editoriales, prensa etc. y la gestión de esos recursos en la red (sea Internet o intranet) resultó en un cambio de perspectiva hacia la catalogación. Mientras que las fichas catalográficas eran creadas manualmente por un bibliotecario o un archivero posteriormente a la creación/adquisición del documento, algunos metadatos se generan automáticamente en el momento de la creación del recurso, otros son introducidos manualmente, pero en mayoría de las veces también en las primeras etapas del ciclo de vida del documento, y el sistema de catalogación –para ser viable, útil adecuado- debe crearse antes de la producción de los recursos.

Categorías de metadatos

Las tres categorías básicas de metadatos son (ver tabla con explicación sacada del Tutorial de digitalización de imágenes
de la Cornell Library):

Metadatos descriptivos. Descripción e identificación de recursos de información

  • en el nivel (sistema) local para permitir la búsqueda y la recuperación (por ejemplo, búsqueda de una colección de imágenes para encontrar pinturas con ilustraciones de animales);
  • en el nivel Web, permite a los usuarios descubrir recursos (por ejemplo, búsqueda en la Web para encontrar colecciones digitalizadas sobre poesía).

Metadatos estructurales. Facilitan la navegación y presentación de recursos electrónicos

  • proporcionan información sobre la estructura interna de los recursos, incluyendo página, sección, capítulo, numeración, índices, y tabla de contenidos; describen la relación entre los materiales (por ejemplo, la fotografía B fue incluida en el manuscrito A);
  • unen los archivos y los textos relacionados (por ejemplo, el ArchivoA es el formato JPEG de la imagen de archivo del ArchivoB).

Metadatos administrativos. Facilitan la gestión y procesamiento de las colecciones digitales tanto a corto como a largo plazo

  • incluyen datos técnicos sobre la creación y el control de calidad;
  • incluyen gestión de derechos y requisitos de control de acceso y utilización;
  • información sobre acción de preservación.

La tipología expuesta arriba es sólo una de las existentes y no es nada exhaustiva. Como ejemplo, podemos ver también el esquema propuesto por Ann J. Gilliland-Swetland (ver fuente), que propone cinco categorías de metadatos: los administrativos (usados en la gestión y administración de recursos de información), los descriptivos (usados para representar recursos de información), los metadatos de preservación (para salvaguardar los recursos de información), técnicos (relativos a cómo funcionan los sistemas o el comportamiento de los metadatos), y de uso (relaticos al nivel y tipo de uso que se hace con los recursos informativos).

Además, se puede establecer otras tipologías en función de diversos elementos como pueden ser la fuente, los métodos de creación, la naturaleza de sus productores, la permanencia dentro del sistema, la estructura o la semántica de los metadatos (ver artículo del Grupo FORIS sobre la metadescripción [doc]).

Actualmente existen varios esquemas y formatos de metadatos, dependiendo del carácter de los recursos tratados, las necesidades de varias instituciones gestoras de la información digital (bibliotecas, archivos, centros de documentación…), pero como dice Isabel Daudinot Founier en su artículo Descripción de los recursos de información en Internet: formato Dublín Core, todos deben reunir las siguientes características considerarse como verdaderos formatos de metadatos:

  • Independientemente del área del conocimiento para la cual se utilicen, todos los formatos deben responder a las particularidades de los recursos de información de la red para facilitar su identificación y ulterior recuperación.
  • Todos los esquemas tienen un número limitado de elementos, un nombre para cada elemento o etiqueta y un significado asociado a cada elemento.
  • Todos contienen también, una semántica descriptiva con información relativa al contenido, ubicación, atributos físicos, tipo de documento, etcétera.

Codificación de metadatos

En todo caso, para poder ser leído por los ordenadores, los metadatos necesitan tener sintaxis o codificación apropiada. Los esquemas de codificación de metadatos más importantes son:

  • HTML (Hyper-Text Markup Language)
  • SGML (Standard Generalised Markup Language)
  • XML (eXtensible Markup Language)
  • RDF (Resource Description Framework)
  • MARC (MAchine Readable Cataloging)
  • MIME (Multipurpose Internet Mail Extensions)

Un ejemplo sencillo de metadatos son los conocidos “meta tags” incluidos en el código fuente de las páginas Web, que permiten que los motores de búsqueda (como Google) indicen esas páginas para su búsqueda y recuperación. Se insertan dentro del elemento HEAD (cabecera) de la página, y no se visualizan en los navegadores – son datos de interés para las máquinas y no para los humanos.

<head>
<title>Fundacion Santa Maria la Real – Centro de Estudios del Romanico</title>
<meta name=”Description” content=”Fundación cultural enfocada a todos los aspectos del románico y de la promoción del patrimonio en general” >
<meta name=”keywords” content=”arquitectura románica, románico, turismo cultural, romanesque, enciclopedia, patrimonio, escuela taller, fundacion, aguilar de campoo, palencia, medieval, campoo, aguilar” />
</head>

Como se puede ver en el ejemplo, los meta tags se indica mediante el código meta name= al que sigue, entre paréntesis, en nombre del metadato en cuestión (por ejemplo, meta name=”description”, es decir, descripción o resumen de la página). Después de content= se introduce -otra vez entre paréntesis- el texto deseado. Otro ejemplo es meta name=”keywords”, es decir, las palabras claves con las que queremos indizar nuestra página.

Además, dentro del mismo elemento HEAD se puede introducir otros metadatos (como por ejemplo los metadatos Dublín Core) siempre que vienen codificados según un esquema entendible para los motores de búsqueda.


<head>
<title> Introducción a los metadatos </title>
<meta name=”DC.Title” content=” Introducción a los metadatos “>
<meta name=”DC.Creator” content=”Swiatecka, Agnieszka”>
<meta name=”DC.Type” content=”text”>
<meta name=”DC.Date” content=”2008″>
<meta name=”DC.Format” content=”text/html”>
</head>

El ejemplo que vimos demuestra que los metadatos pueden ser codificados dentro del mismo documento, en este caso, una página Web. Sin embargo, los metadatos sirven para una variedad de fines y tipos de recursos. ¿Cómo aplicar los metadatos en documentos que no son páginas Web, y su indización, búsqueda y recuperación se realiza mediante un software especializado distinto a los motores de búsqueda y los navegadores?

Existen tres métodos de asignar los metadatos:

  • En un documento separado, o fichero vinculado al recurso en cuestión. Se utiliza sobre todo para material multimedia, imágenes, etc. Para indizar estos metadatos se necesita unas herramientas específicas.
  • En una base de datos, es decir, independientemente del recurso. La mayoría de las bases de datos sirven para el uso interno de organizaciones y su contenido no es accesible a los motores de búsqueda.
  • Incrustados dentro del propio documento, como los meta tags de las páginas Web.

Para aprender más, os recomiendo dos recursos que reúnen información básica sobre los metadatos:

Posted in metadatos, presentación | Leave a Comment »

Generadores de metadatos

Posted by agnieszka en enero 25, 2008

El Dublin Core Metadata Gen (Generador de metadatos de Dublin Core) es una aplicación que genera los metadatos Dublin Core a partir de un formulario on-line.
El Foto RDF-Gen es Generador de ficheros RDF para describir fotografías y otras imágenes.
¡Os animo a probarlos!

Posted in herramientas, metadatos, recursos de interés | Leave a Comment »

Los archivos frente a las necesidades de la sociedad de la información

Posted by Carol en enero 24, 2008

Desde el comienzo de los tiempos, el hombre ha buscado comunicarse, dejar señales que transmitan su existencia y sus conocimientos.

El hombre ha pasado desde la escritura cuneiforme en tablillas de arcilla, el pergamino, la invención del alfabeto, la utilización del papel, la imprenta, hasta llegar en nuestros días a olvidar los documentos en papel y adaptarse a las nuevas tecnologías de la información y la comunicación (NTIC).

Los documentos se convierten en algo “intangible”, sin la prioridad de tenerlos en principio, en nuestras manos, pero ofreciéndonos la posibilidad de compartirlos con muchas personas al mismo tiempo.

La transmisión de la información en nuestros días ha evolucionado de tal manera que es posible conocer una noticia en el mismo momento en que sucede. La “revolución de Internet” ha supuesto un paso gigantesco en la sociedad, permitiendo que personas distanciadas por miles de kilómetros y con modos de vida tan distintos puedan compartir sus opiniones, sus ideas, vivencias…

Posted in general, presentación | Leave a Comment »