La calidad de datos se puede definir como una característica esencial y necesaria para que los datos sean “adecuados para su uso” o tengan un “uso potencial valioso” (Chapman, 2005).
Cuando los datos se utilizan sin tener una visión crítica sobre los posibles errores que contienen, los resultados de sus análisis pueden conducir a conclusiones erróneas y decisiones imprudentes basadas en evidencia poco confiable. Los datos tendrán calidad cuando la información derivada de los mismos representa correctamente el mundo real (los hechos).
Con el fin de que los datos generados influyan en la toma de decisiones, es importante tener en cuenta el concepto de calidad de datos a lo largo de toda la cadena de la información. A continuación se listan varios documentos y herramientas útiles para la validación, estructuración y limpieza de los datos sobre biodiversidad.
Herramientas
Limpieza y estructuración de datos
Nombre | Descripción |
---|---|
OpenRefine | Permite limpiar, transformar y dar formato a los datos, usar servicios web, corrección masiva campos, entre muchas otras. Aprende más |
OpenRefine - Scripts for biodiversity Data Quality | Repositorio de rutinas de calidad de datos implementadas en el software de código abierto OpenRefine, basado en herramientas informáticas libres, gratuitas y fáciles de utilizar. Aprende más |
Data Validator | Detecta posibles problemas en la estructura y contenido de los conjuntos de datos, mejorando la calidad de estos para ser publicados a través del SiB Colombia, GBIF y OBIS. Aprende más |
R Project | Permite limpiar y transformar datos a través de paquetes que son cargados al software. |
R Studio | Facilita la visualización de la herramienta R project Integra distintas ventanas funcionales. |
LifeWatch - Data Services | A través de la conexión con diferentes servicios web la herramienta permite validar formatos, elementos DwC de publicación en OBIS, taxonomía y geografía. |
IPT - Integrated Publishing Toolkit | La Herramienta de Publicación (IPT) de GBIF es una aplicación web de código abierto, disponible de forma gratuita, que facilita la publicación de datos sobre biodiversidad. Durante el proceso de acompañamiento a la publicación de datos, el Equipo Coordinador del SiB Colombia (EC-SiB) le idicará a cada publicador que IPT usar y le facilitará un usuario y contraseña para la documentación de los metadatos. Aprende más |
Limpieza de fechas
Nombre | Descripción |
---|---|
Canadensys - Date parsing | Realiza la conversión masiva de fechas al formato ISO8601: AAAA-MM-DD. Formación - Conversión Fechas |
Validación de nombres y taxonomía
Nombre | Descripción |
---|---|
Species Matching | Normaliza nombres de especies a partir de un archivo CSV de acuerdo al árbol taxonómico de GBIF. El archivo a someter debe contener una columna nombrada como ‘scientificName’ y opcionalmente la columna ‘kingdom’ (para el Reino) y ‘id’ (para un identificador). Aprende más |
WoRMS Taxon match | Contrasta automáticamente una lista de especies o lista de taxones con World Register of Marine Species - WoRMS. Después de la coincidencia, la herramienta devolverá su archivo con los AphiaID, nombres válidos, autoridades, clasificación WoRMS y / o cualquier otra salida que haya seleccionado. Valida máx. 1500 registros. Aprende más |
TNRS | La herramienta TNRS por sus siglas en inglés (Taxonomic Name Resolution Service) permite estandarizar los nombres científicos botánicos a partir de fuentes taxonómicas como Tropicos, USDA y TPL) con la lista dinámica del Catálogo de la Vida (Catalogue of Life). Aprende más |
Global Names Resolver | Resuelve listas de nombres científicos contra fuentes conocidas. Este servicio separa los nombres científicos, identifica coincidencias exactas o ambiguas y despliega un punta de coincidencia. |
Regi0 | Es un paquete de Python con funciones útiles para complementar y verificar registros biológicos. Estas funciones están divididas en 2 módulos principales (geográfico y taxonómico) y se basan tanto en los datos del usuario como en varias API web (e.g. GNR, IUCN and Species+). |
List Matching Service | Permite comparar y validar los nombres ingresados (incluyendo nombres aceptados y sinónimos) con la lista dinámica del Catálogo de la Vida (Catalogue of Life). |
GBIF - Name parser | Separa los nombres científicos en sus distintos componentes a partir del nombre introducido. Permite interpretar la mayoría de nombres científicos y atomizarlos independientemente de su código nomenclatural. |
Global Names Index | Permite corregir y/o enlazar la información acerca de cualquier taxón por medio de un proceso de “reconciliación” entre los nombres ya que contiene ejemplos de nombres científicos escritos con alguna variación. |
Limpieza geográfica
Nombre | Descripción |
---|---|
QGIS - Validación geográfica | Realiza la conversión masiva de coordenadas geográficas (grados, minutos y segundos) a grados decimales. Aprende más |
Canadensys - Coordinate conversion | Realiza la conversión masiva de coordenadas geográficas (grados, minutos y segundos) a grados decimales. Aprende más |
Divipola | Permite la consulta de la División Político Administrativa de Colombia para la verificación de nombres y niveles. |
MarineRegions | Es una lista estándar de nombres y áreas marinas georeferenciadas a nivel global. Integra y brinda información geográfica desde el índice geográfico VLIMAR y la base de datos MARBOUND, y propone un estándar de ubicaciones, límites y regiones georeferenciadas marinas. |
Gacetero SiB | Permite conocer la ubicación y nombre de las localidades, documentadas en diferentes proyectos asociados a la publicación de datos de biodiversidad a través del SiB Colombia, que han sido sometidas a un proceso de georreferenciación. |
ispecies | Permite visualizar sobre un mapa los registros biológicos de una especie específica. Los registros están enlazados al Portal de datos de GBIF, donde se puede consultar información específica del espécimen. |
GEOLocate | Permite georreferenciar y confirmar localidades. Se encuentra también disponible la aplicación para escritorio. |
GPS Visualizer | Permite crear mapas y perfiles a partir de datos geográficos. La entrada de los datos puede ser en forma de datos de GPS, rutas, direcciones de calles o coordenadas simples. |
GeoNames | Facilita la consulta de más de 10 millones de nombres geográficos, disponibles para descargar gratuitamente. Permite georreferenciar y confirmar localidades. |
OBIS map tool | Se puede utilizar para geocodificar ubicaciones para emparejar pares de coordenadas o cadenas de coordenadas en formato WKT. Las cadenas WKT son representaciones textuales de geometrías como puntos, polígonos y líneas. |
Calculadora Geodésica | Permite la conversión o transformación coordenadas en hasta 18 sistemas diferentes. |
OBIS Plotter | Es una herramienta muy simple para revisar rápidamente puntos en un mapa. Requiere de entrada un formato de texto delimitado (por ejemplo, CSV o pegado de Excel) y que los datos tengan una columna de longitud decimal: ‘decimalLongitude’; y latitud decimal: ‘decimalLatitude’ para las corrdenadas . Así, es posible seleccionar un campo de interés a partir de la tabla original para cambiar el color de los puntos y la etiqueta que se muestra cuando se hace clic en un punto específico. Aprende más |
geo:truc | Permite obtener las coordenadas de un punto seleccionado en el mapa a través de google maps. |
CartoDB | Permite importar y visualizar datos geoespaciales mediante la creación de mapas dinámicos. |
infoXY | Al ingresar coordenadas decimales la herramienta retorna información sobre cada punto, como el nombre del país, departamento y otras divisiones politico-administrativas. Si el punto cae en el mar la herramienta calcula la distancia más cercana a la costa, indicando el nombre del país. |
Cursos
Nombre | Año | Descripción |
---|---|---|
Ciclo de formación virtual | 2021 | Los laboratorios de datos diseñados e instruidos por el EC-SiB te ayudarán a afianzar tus habilidades en el manejo y publicación de datos a través de SiB Colombia. |
Introducción a GBIF | 2021 | Este curso proporciona una introducción a GBIF, los datos disponibles en el portal de GBIF, cómo acceder a esos datos, e información sobre como participar en GBIF y su comunidad de práctica. |
Curso de Movilización de Datos sobre Biodiversidad | 2021 | Este curso permitirá a los participantes planificar e implementar de manera eficaz los esfuerzos de movilización de datos de biodiversidad utilizando estándares aceptados por la comunidad. Su objetivo es aumentar el volumen, la riqueza y la calidad de los datos publicados a través de la red GBIF. |
Documentos
Limpieza y estructuración de datos
Nombre | Año | Descripción |
---|---|---|
Guía para la limpieza de datos sobre biodiversidad con OpenRefine | 2021 | Guía de uso de OpenRefine para la validación y limpieza de datos sobre biodiversidad. |
OpenRefine - Guía básica | 2020 | Guía básica de uso de OpenRefine para la validación y limpieza de datos sobre biodiversidad. |
OpenRefine - Guía de validación y limpieza de datos sobre biodiversidad | 2020 | Guía de uso de rutinas de calidad de datos implementando en el entorno del software de código abierto OpenRefine, y permiten crear flujos de trabajo específicos para cada conjunto de datos (Registros, Listas, Eventos). |
OpenRefine - Guía de validación y limpieza de datos sobre biodiversidad | 2020 | Guía de uso de rutinas de calidad de datos implementando en el entorno del software de código abierto OpenRefine, y permiten crear flujos de trabajo específicos para cada conjunto de datos (Registros, Listas, Eventos). |
Calidad de Datos Guía de herramientas para mejorar los datos primarios de biodiversidad | 2015 | Este documento es una recopilación de las diversas herramientas y prácticas que intentan facilitar el proceso de dar calidad a los datos primarios sobre biodiversidad a través de distintas metodologías. |
Principios de calidad de datos | 2005 | Principios de calidad de datos y mejores practicas aplicables a datos primarios sobre biodiversidad en sus compenentes, taxonómicos, temporales y geográficos. |
Validación de información geográfica
Nombre | Año | Descripción |
---|---|---|
Guía de buenas prácticas de georreferenciación | 2020 | La Guía de buenas prácticas de georreferenciación provee los lineamientos para la correcta georreferenciación. Aunque está dirigida específicamente a registros biológicos, los conceptos y métodos presentados aquí pueden ser igual de útiles en otras disciplinas. |
Guía rápida de georreferenciación | 2020 | Este documento ofrece orientaciones sobre cómo georreferenciar usando el método radio punto. También, proporciona los métodos para determinar los límites de entidades geográficas, los cuales son la base del método de forma geométrica en georreferenciación |
Manual de la calculadora de georreferenciación | 2020 | La Calculadora de Georreferenciación (Wieczorek & Wieczorek 2020) descrita en este documento, es una herramienta creada para ayudar en la georreferenciación de localidades descriptivas. |
Protocolo de georreferenciación de localidades | 2016 | Define la metodología para la asignación de coordenadas en datos primarios sobre biodiversidad. |
Buenas prácticas de publicación
Nombre | Año | Descripción |
---|---|---|
Buenas prácticas para generalizar datos de especies sensibles | 2021 | El objetivo de este documento es proporcionar las buenas prácticas (o las buenas prácticas actuales) para tratar los datos de presencia de especies sensibles, y orientar sobre cómo poner a disposición la mayor cantidad de datos sin que la especie se vea expuesta por el hecho de que los datos se hayan puesto en el dominio público. |
Buenas prácticas para la publicación de datos sobre biodiversidad procedentes de evaluaciones de impacto ambiental | 2021 | Esta guía pretende ayudar a los profesionales, consultores y otras “partes interesadas y afectadas “(I&AP por sus siglas en inglés) que trabajan con evaluaciones de impacto ambiental a mejorar la curaduría, el almacenamiento y la gestión de los datos primarios sobre biodiversidad obtenidos durante los procesos de evaluación de impacto ambiental (EIA) y a compartir los datos de forma libre y abierta en formatos estandarizados, accesibles e interoperables a través del Infraestructura Mundial de Información en Biodiversidad (GBIF por sus siglas en inglés). |