Validador de datos - GBIF

Objetivo

Detectar posibles problemas en la estructura y contenido de los conjuntos de datos, mejorando la calidad de estos para ser publicados a través del SiB Colombia, GBIF y OBIS.

Introducción


Convenciones

  • Los elementos del estándar Darwin Core aparecen en color verde y cursiva. Por ejemplo: measurementUnit.
  • Los archivos a utilizar en los ejercicios se muestran entre comillas angulares, negrita, y tienen una tipografía diferente. Por ejemplo: «archivo_Ejemplo.xls».
  • Las secciones, ventanas y componentes de las herramientas utilizadas se muestran entre comillas inglesas y en negrita. Por ejemplo: “Create Project”.
  • Las opciones de las herramientas que se asocian a instrucciones (dar clic, seleccionar, etc.) aparecen en color amarillo y cursiva. Por ejemplo: New project.
  • Las secuencias de instrucciones y pasos se muestran en color amarillo, cursiva y negrita. Por ejemplo: Paso 1 > Paso 2.
  • Las líneas que se escriben directamente en las herramientas, para programar o realizar algún proceso en específico, aparecen en formato de código, con una tipografía distinta de color negro. Por ejemplo: value.replace(“ sp.”,””).

Sobre la Herramienta

El validador de datos es un servicio de GBIF que permite evaluar de manera automática la completitud y otros aspectos de la calidad en los conjuntos de datos estructurados bajo el estándar Darwin Core (DwC). El validador genera un informe sobre la sintaxis y la calidad de los datos. Esto permite detectar posibles problemas en la información antes de publicarla. Por consiguiente, si se somete un DwC-A, el validador también evalúa la completitud y estructura de los metadatos en el estándar EML.

Enlace

Data validator: gbif.org/es/tools/data-validator/

Requerimientos

  • La primera fila del conjunto de datos a validar debe tener el nombre de los elementos DwC en inglés.

  • El conjunto de datos debe tener la columna del ID según el tipo de datos que corresponda: occurrenceID (registros biológicos), eventID (eventos de muestreo) o taxonID (listas de especies). La columna debe estar documentada para todas las filas y cada ID debe ser único.

  • El validador admite archivos con los siguientes formatos:

    • Formato Excel (.xls o .xlsx).
    • Formato CSV.
    • Archivos Darwin Core comprimidos (DwC-A).

Archivo de trabajo

Descargue el archivo «datos_Estructurados.xls» para realizar el laboratorio.


Paso 1 - Ingreso a GBIF

Cree una cuenta de usuario en GBIF o ingrese con sus credenciales al validador de datos si ya se encuentra registrado (Fig. 1).

Figura 1. Ingreso/registro en la página de GBIF

Figura 1. Ingreso/registro en la página de GBIF.

Paso 2 - Cargar el archivo

Cargue el archivo «datos_Estructurados.xls» en el validador. Para esto, (1) haga clic en SELECCIONAR UN ARCHIVO o (2) arrastre el archivo desde una carpeta al ícono SOLTAR AQUÍ.

¡Precaución!

El grado de incertidumbre de la identificación puede indicarse agregando varios calificativos, como “aff.” y “cf.”, al nombre científico. El calificativo se escribe después del elemento al que corresponde la incertidumbre de identificación (género o especie).

El validador le indicará si el conjunto de datos tiene la estructura adecuada para ser publicado a través del SiB Colombia, GBIF y OBIS o si es necesario realizar ajustes. El informe de validación contiene la siguiente información:

2.1. Resumen

  • Un indicador semaforizado (rojo y verde) que indica si el conjunto de datos puede ser indexado (Fig. 2A).
  • Resumen del tipo de conjunto de datos (Fig. 2B).
  • Alertas de validación que indican potenciales problemas en la estructuración y calidad del conjunto de datos (Fig. 2C).

Figura 2. Componentes del informe - Resumen de validación del conjunto de datos

Figura 2. Componentes del informe - Resumen de validación del conjunto de datos.

2.2. Frecuencia del término

  • Número de registros (filas) interpretados con éxito (Fig. 3A).
  • Reporte del porcentaje de documentación de cada uno de los elementos del estándar DwC utilizados en el conjunto de datos (Fig. 3B).

Figura 3. Componentes del informe - Frecuencia del término

Figura 3. Componentes del informe - Frecuencia del término.

2.3. Problemas de validación

  • Reporte detallado de los problemas encontrados en el conjunto de datos por cada elemento del DwC (Fig. 4).

Figura 4. Componentes del informe - Problemas de validación

Figura 4. Componentes del informe - Problemas de validación.

Paso 3 - Validación

3.1. Resultado general de la validación

Revise el encabezado del reporte. Si aparece en rojo, significa que no puede ser indexado (Fig. 5A). Si aparece en verde, significa que se puede indexar a GBIF (Fig. 5B).

Figura 5. Posibles resultados de la validación

Figura 5. Posibles resultados de la validación. A. VERDE, el conjunto de datos puede ser indexado. B. ROJO, no puede indexarse.

¿Su conjunto de datos puede ser indexado?

Las razones más frecuentes por las que un archivo no puede ser indexado son:

Mensaje «Registro no identificado de forma única»: indica que los ID documentados en el elemento DwC occurrenceID (taxonID o eventID según el tipo de datos) no son únicos.

Mensaje «No se encontró ni determinó un rowType»: indica que algunas de las columnas obligatorias para realizar la validación no se encuentran en el conjunto de datos. Por ejemplo, occurrenceID, taxonID o eventID, dependiendo del tipo de datos que se esté indexando.

3.2. Ajuste elementos críticos

Si el conjunto no puede ser indexado, revise el mensaje de alerta de la herramienta (Fig. 6), realice los ajustes necesarios y vuelva a correr la validación. Posteriormente, el validador le debe indicar que el conjunto de datos se puede indexar.

En la sección “Problemas de validación”, encontrará los ID que están duplicados.

Figura 6. Mensaje de alerta - Estructura del recurso

Figura 6. Mensaje de alerta - Estructura del recurso. Al hacer clic en las alertas, podrá ver el detalle de los registros que presentan el error para saber qué debe ajustar. Al hacer clic en el ícono de información, obtendrá una descripción detallada del problema.

3.3. Problemas de validación

Diríjase a la sección “Problemas de validación”, donde encontrará varias alertas. El validador indicará el número de registros a revisar para cada una.

Haga clic sobre las flechas de cada una de las alertas para desglosar de los registros que deben ser revisados y ajustados. Utilice el botón de ayuda para obtener una breve explicación sobre las alertas de validación. (Fig. 7).

Figura 7. Mensaje de alerta - Interpretación del registro de GBIF

Figura 7. Mensaje de alerta - Interpretación del registro de GBIF. Al hacer clic en las alertas, podrá ver el detalle de los registros que presentan el error para saber qué debe ajustar. Al hacer clic en el ícono de información, obtendrá una descripción detallada del problema.

Las alertas se agrupan en 3 categorías según su color:

  • Alertas de color ROJO: indican un error estructural que no permite la indexación del recurso y debe ser corregido.

  • Alertas de color AMARILLO: indican potenciales errores que deben ser revisados en detalle para determinar si se debe o no corregir los datos.

  • Alertas de color GRIS: indican el proceso de interpretación realizado por el validador. En la mayoría de los casos, no requieren ajustes importantes en los datos.

3.4. Revisión de alertas

Revise todas las alertas de validación y ajuste los datos de acuerdo a estas (Fig. 7).

A continuación se explican las alertas más frecuentes, cómo interpretarlas y cómo solucionarlas:

Alerta Base del registro inválida

  • Problema: la base del registro (basisOfRecord) no cumple con los requerimientos del estándar.

  • Solución 1: revise que todos los registros (filas) tengan este elemento documentado.

  • Solución 2: documente el elemento con base en el vocabulario controlado en inglés (HumanObservation, PreservedSpecimen, LivingSpecimen, MachineObservation, MaterialSample, FossilSpecimen).

Alerta Coordenada inválida

  • Problema: las coordenadas documentadas no se encuentran estandarizadas en coordenadas decimales o las coordenadas originales no se pueden interpretar.

  • Solución: asegúrese de que los elementos Darwin Core decimalLatitude y decimalLongitude estén documentados con las coordenadas en formato decimal. Además, corrobore que las coordenadas originales (verbatimCoordinates) hayan sido digitalizadas adecuadamente.

Alerta Se presume latitud negativa

  • Problema: posible error en la latitud. Aunque se documentó como latitud sur, posiblemente corresponda a latitud norte (en coordenadas decimales, el norte se indica con un signo menos antes de la latitud).

  • Solución: asegúrese de que los elementos Darwin Core decimalLatitude y decimalLongitude estén documentados con las coordenadas en formato decimal. Además, corrobore que las coordenadas originales (verbatimCoordinates y verbatimLongitude) hayan sido digitalizadas adecuadamente.

También puede obtener el mensaje «Se presume longitud negativa», pero es menos común para los datos de Colombia y probablemente corresponda a un problema de digitalización.

Alerta Coincidencia del taxón - taxonomía superior

  • Problema: el nombre científico fue validado a un nivel taxonómico superior al documentado. Por ejemplo, si el nombre científico corresponde a una especie (género + epíteto específico), significa que el validador solo pudo interpretar el género mas no el epíteto específico.

  • Solución 1: revise que el nombre científico no contenga calificadores de identificación (cf., aff.) u otros calificadores como sp.

  • Solución 2: revise que el nombre científico esté escrito correctamente.

Nota: Es posible que algunos nombres válidos y correctamente escritos sean marcados con esta alerta si no se encuentran en el árbol taxonómico de GBIF. Esto es común en el caso de especíes endémicas o recientemente descritas. En tal caso, ignore la alerta.

Alerta Coincidencia aproximada del taxón

  • Problema: hay una coincidencia parcial del nombre cíentífico y el árbol taxonómico de GBIF. Por lo general, esta alerta aparece cuando hay errores de tipeo menores en el nombre científico.

  • Solución: asegúrese de que el nombre científico esté escrito correctamente.

Alerta Fecha registrada inválida

  • Problema: las fechas proporcionadas no cumplen con el formato ISO 8601: AAAA-MM-DD; AAAA-MM; AAAA; AAAA-MM-DD/AAAA-MM-DD.

  • Solución: convierta las fechas al formato ISO 8601.

Alerta Datum geodésico WGS84 asumido

  • Problema: el datum geodésico no fue documentado, pero el validador lo identificó como WGS84.

  • Solución 1: documentar el elemento DwC geodeticDatum como WGS84.

  • Solución 2: si las coordenadas tienen un datum diferente a WGS84, documéntelo para evitar que el validador lo asuma.

Alerta Coordenadas redondeadas

  • Problema: las coordenadas decimales tienen más de 5 cifras significativas. Más allá de 6 cifras, las coordenadas no mejoran su precisión, por lo que es más eficiente redondearlas.

  • Solución: no es necesario ajustar las coordenadas, ya que es solo una alerta de interpretación. Sin embargo, si lo desea, puede hacer cambios en el conjunto de datos.

Paso 4 - Verificación del resultado

Después de resolver las alertas, cargue nuevamente el conjunto de datos en el validador para confirmar el estado de calidad de los datos.

Compare sus resultados con el siguiente archivo, validado según las definiciones del estándar Darwin Core, para identificar aciertos y oportunidades de mejora. ¿Logró solucionar todas las alertas?

Paso 5 - Datos propios

Si tiene datos propios que desee publicar, pruebe validarlos siguiendo los pasos de este laboratorio.

Recomendaciones:

Según el origen de sus datos (colecciones biológicas, permisos de recolección, datos marinos, eventos de muestreo), compruebe que los elementos obligatorios estén documentados al 100%. Para ello, utilice como referencia la última «Plantilla DwC Registros biológicos» y la sección “Frecuencia del término” del validador de datos (Fig. 3B).


¡Felicitaciones! Ha mejorado la calidad de su conjunto de datos.


Atribución y uso de los laboratorios

La licencia CC-BY permite usar, redistribuir y construir sobre estos contenidos libremente. ¡La difusión de estos laboratorios contribuirá a la publicación de más y mejores conjuntos de datos sobre biodiversidad!

Citación sugerida

Plata C., Ortíz R., Marentes E., Lozano J. (2021). Laboratorio de datos, Ciclo de formación. Consultado a través del SiB Colombia. Disponible en https://biodiversidad.co/formacion/laboratorios.