Para facilitar la interpretación de los datos y poderlos categorizar, organizar y publicar con un contexto adecuado, estos se acompañan con una serie de metadatos, comúnmente definidos como los datos sobre los datos. Por ejemplo, gracias a los metadatos es posible rastrear el uso de los datos y dar correcta atribución a sus autores. Los metadatos también requieren de un estándar para lograr una documentación estable y organizada. Por consiguiente, la publicación de datos a partir de la herramienta de publicación IPT (Integrated Publishing Toolkit), desarrollada por GBIF, adopta el estándar EML(Ecological Metadata Language) y lo adapta en el GMP (GBIF Metadata Profile).
El lenguaje de metadatos ecológicos (EML) tiene una sintaxis basada en el lenguaje de marcado XML y encapsula o etiqueta la información documentada respecto a la investigación a publicar. Por lo tanto, ha tenido un uso generalizado en las ciencias ambientales, de la tierra y también en otras disciplinas. Por este motivo, GBIF lo usa como referencia para construir el estándar que permite documentar la información de los conjuntos de datos que se publican a través de su infraestructura (GBIF, 2022).
El estándar EML define el vocabulario y la sintaxis para documentar datos de investigación en las ciencias ambientales y de la tierra, permitiendo describir el alcance espacial, temporal, taxonómico y temático de los datos, así como describir métodos y protocolos de investigación. De esta manera, el GMP toma algunos de los componentes del EML e incluye otras secciones para lograr responder las preguntas básicas de qué, quién, cuándo, dónde y cómo se obtuvieron los datos que enmarcan el contenido de la publicación. Esto se realiza a través de doce secciones, las cuales se describen a continuación:
- Metadatos básicos
- Cobertura geográfica
- Cobertura taxonómica
- Cobertura temporal
- Palabras clave
- Partes asociadas
- Datos del proyecto
- Métodos de muestreo
- Referencias
- Datos de la colección
- Enlaces externos
- Metadatos adicionales
Todas las descripciones de los conjuntos de datos disponibles a través del SiB Colombia se basan en metadatos y utilizan el estándar EML de código abierto, que actualmente administra y mantiene The Knowledge Network for Biocomplexity. Cada Darwin Core Archive generado para los conjuntos de datos publicados a través del SiB Colombia incluye un archivo EML (escrito en formato XML), que contiene un perfil específico para estos conjuntos de datos.
Enlaces para conocer más sobre este estándar:
Así mismo el GMP facilita la consolidación de artículos de datos que se pueden publicar en revistas especializadas para el intercambio y la preservación de datos científicos. El IPT incluye la funcionalidad de exportar los metadatos con el formato de un artículo de datos en un archivo de texto enriquecido (RTF). Para conocer más acerca de los artículos de datos, se pueden consultar los siguientes enlaces: