Detectar posibles problemas en la estructura y contenido de los conjuntos de datos, mejorando la calidad de estos para ser publicados a través del SiB Colombia, GBIF y OBIS.
Introducción
Convenciones
Los elementos del estándar Darwin Core aparecen en color verde y cursiva. Por ejemplo: measurementUnit.
Los archivos a utilizar en los ejercicios se muestran entre comillas angulares, negrita, y tienen una tipografía diferente. Por ejemplo: «archivo_Ejemplo.xls».
Las secciones, ventanas y componentes de las herramientas utilizadas se muestran entre comillas inglesas y en negrita. Por ejemplo: “Create Project”.
Las opciones de las herramientas que se asocian a instrucciones (dar clic, seleccionar, etc.) aparecen en color amarillo y cursiva. Por ejemplo: New project.
Las secuencias de instrucciones y pasos se muestran en color amarillo, cursiva y negrita. Por ejemplo: Paso 1 > Paso 2.
Las líneas que se escriben directamente en las herramientas, para programar o realizar algún proceso en específico, aparecen en formato de código, con una tipografía distinta de color negro. Por ejemplo: value.replace(“ sp.”,””).
Sobre la Herramienta
El validador de datos es un servicio de GBIF que permite evaluar de manera automática la completitud y otros aspectos de la calidad en los conjuntos de datos estructurados bajo el estándar Darwin Core (DwC). El validador genera un informe sobre la sintaxis y la calidad de los datos. Esto permite detectar posibles problemas en la información antes de publicarla. Por consiguiente, si se somete un DwC-A, el validador también evalúa la completitud y estructura de los metadatos en el estándar EML.
La primera fila del conjunto de datos a validar debe tener el nombre de los elementos DwC en inglés.
El conjunto de datos debe tener la columna del ID según el tipo de datos que corresponda: occurrenceID (registros biológicos), eventID (eventos de muestreo) o taxonID (listas de especies). La columna debe estar documentada para todas las filas y cada ID debe ser único.
El validador admite archivos con los siguientes formatos:
Cree una cuenta de usuario en GBIF o ingrese con sus credenciales al validador de datos si ya se encuentra registrado (Fig. 1).
Figura 1. Ingreso/registro en la página de GBIF.
Paso 2 - Cargar el archivo
Cargue el archivo «datos_Estructurados.xls» en el validador. Para esto, (1) haga clic en SELECCIONAR UN ARCHIVO o (2) arrastre el archivo desde una carpeta al ícono SOLTAR AQUÍ.
¡Precaución!
El grado de incertidumbre de la identificación puede indicarse agregando varios calificativos, como “aff.” y “cf.”, al nombre científico. El calificativo se escribe después del elemento al que corresponde la incertidumbre de identificación (género o especie).
El validador le indicará si el conjunto de datos tiene la estructura adecuada para ser publicado a través del SiB Colombia, GBIF y OBIS o si es necesario realizar ajustes. El informe de validación contiene la siguiente información:
2.1. Resumen
Un indicador semaforizado (rojo y verde) que indica si el conjunto de datos puede ser indexado (Fig. 2A).
Resumen del tipo de conjunto de datos (Fig. 2B).
Alertas de validación que indican potenciales problemas en la estructuración y calidad del conjunto de datos (Fig. 2C).
Figura 2. Componentes del informe - Resumen de validación del conjunto de datos.
2.2. Frecuencia del término
Número de registros (filas) interpretados con éxito (Fig. 3A).
Reporte del porcentaje de documentación de cada uno de los elementos del estándar DwC utilizados en el conjunto de datos (Fig. 3B).
Figura 3. Componentes del informe - Frecuencia del término.
2.3. Problemas de validación
Reporte detallado de los problemas encontrados en el conjunto de datos por cada elemento del DwC (Fig. 4).
Figura 4. Componentes del informe - Problemas de validación.
Paso 3 - Validación
3.1. Resultado general de la validación
Revise el encabezado del reporte. Si aparece en rojo, significa que no puede ser indexado (Fig. 5A). Si aparece en verde, significa que se puede indexar a GBIF (Fig. 5B).
Figura 5. Posibles resultados de la validación. A. VERDE, el conjunto de datos puede ser indexado. B. ROJO, no puede indexarse.
¿Su conjunto de datos puede ser indexado?
Las razones más frecuentes por las que un archivo no puede ser indexado son:
Mensaje«Registro no identificado de forma única»: indica que los ID documentados en el elemento DwC occurrenceID (taxonID o eventID según el tipo de datos) no son únicos.
Mensaje«No se encontró ni determinó un rowType»: indica que algunas de las columnas obligatorias para realizar la validación no se encuentran en el conjunto de datos. Por ejemplo, occurrenceID, taxonID o eventID, dependiendo del tipo de datos que se esté indexando.
3.2. Ajuste elementos críticos
Si el conjunto no puede ser indexado, revise el mensaje de alerta de la herramienta (Fig. 6), realice los ajustes necesarios y vuelva a correr la validación. Posteriormente, el validador le debe indicar que el conjunto de datos se puede indexar.
En la sección “Problemas de validación”, encontrará los ID que están duplicados.
Figura 6. Mensaje de alerta - Estructura del recurso. Al hacer clic en las alertas, podrá ver el detalle de los registros que presentan el error para saber qué debe ajustar. Al hacer clic en el ícono de información, obtendrá una descripción detallada del problema.
3.3. Problemas de validación
Diríjase a la sección “Problemas de validación”, donde encontrará varias alertas. El validador indicará el número de registros a revisar para cada una.
Haga clic sobre las flechas de cada una de las alertas para desglosar de los registros que deben ser revisados y ajustados. Utilice el botón de ayuda para obtener una breve explicación sobre las alertas de validación. (Fig. 7).
Figura 7. Mensaje de alerta - Interpretación del registro de GBIF. Al hacer clic en las alertas, podrá ver el detalle de los registros que presentan el error para saber qué debe ajustar. Al hacer clic en el ícono de información, obtendrá una descripción detallada del problema.
Las alertas se agrupan en 3 categorías según su color:
Alertas de color ROJO: indican un error estructural que no permite la indexación del recurso y debe ser corregido.
Alertas de color AMARILLO: indican potenciales errores que deben ser revisados en detalle para determinar si se debe o no corregir los datos.
Alertas de color GRIS: indican el proceso de interpretación realizado por el validador. En la mayoría de los casos, no requieren ajustes importantes en los datos.
3.4. Revisión de alertas
Revise todas las alertas de validación y ajuste los datos de acuerdo a estas (Fig. 7).
A continuación se explican las alertas más frecuentes, cómo interpretarlas y cómo solucionarlas:
AlertaBase del registro inválida
Problema: la base del registro (basisOfRecord) no cumple con los requerimientos del estándar.
Solución 1: revise que todos los registros (filas) tengan este elemento documentado.
Solución 2: documente el elemento con base en el vocabulario controlado en inglés (HumanObservation, PreservedSpecimen, LivingSpecimen, MachineObservation, MaterialSample, FossilSpecimen).
AlertaCoordenada inválida
Problema: las coordenadas documentadas no se encuentran estandarizadas en coordenadas decimales o las coordenadas originales no se pueden interpretar.
Solución: asegúrese de que los elementos Darwin CoredecimalLatitude y decimalLongitude estén documentados con las coordenadas en formato decimal. Además, corrobore que las coordenadas originales (verbatimCoordinates) hayan sido digitalizadas adecuadamente.
AlertaSe presume latitud negativa
Problema: posible error en la latitud. Aunque se documentó como latitud sur, posiblemente corresponda a latitud norte (en coordenadas decimales, el norte se indica con un signo menos antes de la latitud).
Solución: asegúrese de que los elementos Darwin CoredecimalLatitude y decimalLongitude estén documentados con las coordenadas en formato decimal. Además, corrobore que las coordenadas originales (verbatimCoordinates y verbatimLongitude) hayan sido digitalizadas adecuadamente.
También puede obtener el mensaje «Se presume longitud negativa», pero es menos común para los datos de Colombia y probablemente corresponda a un problema de digitalización.
AlertaCoincidencia del taxón - taxonomía superior
Problema: el nombre científico fue validado a un nivel taxonómico superior al documentado. Por ejemplo, si el nombre científico corresponde a una especie (género + epíteto específico), significa que el validador solo pudo interpretar el género mas no el epíteto específico.
Solución 1: revise que el nombre científico no contenga calificadores de identificación (cf., aff.) u otros calificadores como sp.
Solución 2: revise que el nombre científico esté escrito correctamente.
Nota: Es posible que algunos nombres válidos y correctamente escritos sean marcados con esta alerta si no se encuentran en el árbol taxonómico de GBIF. Esto es común en el caso de especíes endémicas o recientemente descritas. En tal caso, ignore la alerta.
AlertaCoincidencia aproximada del taxón
Problema: hay una coincidencia parcial del nombre cíentífico y el árbol taxonómico de GBIF. Por lo general, esta alerta aparece cuando hay errores de tipeo menores en el nombre científico.
Solución: asegúrese de que el nombre científico esté escrito correctamente.
AlertaFecha registrada inválida
Problema: las fechas proporcionadas no cumplen con el formato ISO 8601: AAAA-MM-DD; AAAA-MM; AAAA; AAAA-MM-DD/AAAA-MM-DD.
Solución: convierta las fechas al formato ISO 8601.
AlertaDatum geodésico WGS84 asumido
Problema: el datum geodésico no fue documentado, pero el validador lo identificó como WGS84.
Solución 1: documentar el elemento DwC geodeticDatum como WGS84.
Solución 2: si las coordenadas tienen un datum diferente a WGS84, documéntelo para evitar que el validador lo asuma.
AlertaCoordenadas redondeadas
Problema: las coordenadas decimales tienen más de 5 cifras significativas. Más allá de 6 cifras, las coordenadas no mejoran su precisión, por lo que es más eficiente redondearlas.
Solución: no es necesario ajustar las coordenadas, ya que es solo una alerta de interpretación. Sin embargo, si lo desea, puede hacer cambios en el conjunto de datos.
Paso 4 - Verificación del resultado
Después de resolver las alertas, cargue nuevamente el conjunto de datos en el validador para confirmar el estado de calidad de los datos.
Compare sus resultados con el siguiente archivo, validado según las definiciones del estándar Darwin Core, para identificar aciertos y oportunidades de mejora. ¿Logró solucionar todas las alertas?
Si tiene datos propios que desee publicar, pruebe validarlos siguiendo los pasos de este laboratorio.
Recomendaciones:
Según el origen de sus datos (colecciones biológicas, permisos de recolección, datos marinos, eventos de muestreo), compruebe que los elementos obligatorios estén documentados al 100%. Para ello, utilice como referencia la última «Plantilla DwC Registros biológicos» y la sección “Frecuencia del término” del validador de datos (Fig. 3B).
¡Felicitaciones! Ha mejorado la calidad de su conjunto de datos.
Atribución y uso de los laboratorios
La licencia CC-BY permite usar, redistribuir y construir sobre estos contenidos libremente.
¡La difusión de estos laboratorios contribuirá a la publicación de más y mejores conjuntos de datos sobre biodiversidad!
Citación sugerida
Plata C., Ortíz R., Marentes E., Lozano J. (2021). Laboratorio de datos, Ciclo de formación. Consultado a través del SiB Colombia. Disponible en https://biodiversidad.co/formacion/laboratorios.
Este sitio web usa cookies, algunas son técnicamente necesarias otras mejoran la experiencia de usuario. Puede rechazar las cookies no esenciales seleccionando “Rechazar”. Consulte la Política de privacidad del sitio web para obtener más información.