Salamandra Manchada Fotografía de: Andrés Forero vía Flickr

Calidad de datos

Documentos, herramientas y cursos para la validación y limpieza de datos que permiten asegurar su uso por una amplia variedad de audiencias.

La calidad de datos se puede definir como una característica esencial y necesaria para que los datos sean “adecuados para su uso” o tengan un “uso potencial valioso” (Chapman, 2005).

Cuando los datos se utilizan sin tener una visión crítica sobre los posibles errores que contienen, los resultados de sus análisis pueden conducir a conclusiones erróneas y decisiones imprudentes basadas en evidencia poco confiable. Los datos tendrán calidad cuando la información derivada de los mismos representa correctamente el mundo real (los hechos).

Con el fin de que los datos generados influyan en la toma de decisiones, es importante tener en cuenta el concepto de calidad de datos a lo largo de toda la cadena de la información. A continuación se listan varios documentos y herramientas útiles para la validación, estructuración y limpieza de los datos sobre biodiversidad.

Herramientas

Limpieza y estructuración de datos

Nombre Descripción
OpenRefine Permite limpiar, transformar y dar formato a los datos, usar servicios web, corrección masiva campos, entre muchas otras.

Aprende más
OpenRefine - Scripts for biodiversity Data Quality Repositorio de rutinas de calidad de datos implementadas en el software de código abierto OpenRefine, basado en herramientas informáticas libres, gratuitas y fáciles de utilizar.

Aprende más
Data Validator Detecta posibles problemas en la estructura y contenido de los conjuntos de datos, mejorando la calidad de estos para ser publicados a través del SiB Colombia, GBIF y OBIS.

Aprende más
R Project Permite limpiar y transformar datos a través de paquetes que son cargados al software.
R Studio Facilita la visualización de la herramienta R project Integra distintas ventanas funcionales.
LifeWatch - Data Services A través de la conexión con diferentes servicios web la herramienta permite validar formatos, elementos DwC de publicación en OBIS, taxonomía y geografía.
IPT - Integrated Publishing Toolkit La Herramienta de Publicación (IPT) de GBIF es una aplicación web de código abierto, disponible de forma gratuita, que facilita la publicación de datos sobre biodiversidad. Durante el proceso de acompañamiento a la publicación de datos, el Equipo Coordinador del SiB Colombia (EC-SiB) le idicará a cada publicador que IPT usar y le facilitará un usuario y contraseña para la documentación de los metadatos.

Aprende más

Limpieza de fechas

Nombre Descripción
Canadensys - Date parsing Realiza la conversión masiva de fechas al formato ISO8601: AAAA-MM-DD.

Formación - Conversión Fechas

Validación de nombres y taxonomía

Nombre Descripción
Species Matching Normaliza nombres de especies a partir de un archivo CSV de acuerdo al árbol taxonómico de GBIF. El archivo a someter debe contener una columna nombrada como ‘scientificName’ y opcionalmente la columna ‘kingdom’ (para el Reino) y ‘id’ (para un identificador).

Aprende más
WoRMS Taxon match Contrasta automáticamente una lista de especies o lista de taxones con World Register of Marine Species - WoRMS. Después de la coincidencia, la herramienta devolverá su archivo con los AphiaID, nombres válidos, autoridades, clasificación WoRMS y / o cualquier otra salida que haya seleccionado. Valida máx. 1500 registros.

Aprende más
TNRS La herramienta TNRS por sus siglas en inglés (Taxonomic Name Resolution Service) permite estandarizar los nombres científicos botánicos a partir de fuentes taxonómicas como Tropicos, USDA y TPL) con la lista dinámica del Catálogo de la Vida (Catalogue of Life).

Aprende más
Global Names Resolver Resuelve listas de nombres científicos contra fuentes conocidas. Este servicio separa los nombres científicos, identifica coincidencias exactas o ambiguas y despliega un punta de coincidencia.
Regi0 Es un paquete de Python con funciones útiles para complementar y verificar registros biológicos. Estas funciones están divididas en 2 módulos principales (geográfico y taxonómico) y se basan tanto en los datos del usuario como en varias API web (e.g. GNR, IUCN and Species+).
List Matching Service Permite comparar y validar los nombres ingresados (incluyendo nombres aceptados y sinónimos) con la lista dinámica del Catálogo de la Vida (Catalogue of Life).
GBIF - Name parser Separa los nombres científicos en sus distintos componentes a partir del nombre introducido. Permite interpretar la mayoría de nombres científicos y atomizarlos independientemente de su código nomenclatural.
Global Names Index Permite corregir y/o enlazar la información acerca de cualquier taxón por medio de un proceso de “reconciliación” entre los nombres ya que contiene ejemplos de nombres científicos escritos con alguna variación.

Limpieza geográfica

Nombre Descripción
QGIS - Validación geográfica Realiza la conversión masiva de coordenadas geográficas (grados, minutos y segundos) a grados decimales.

Aprende más
Canadensys - Coordinate conversion Realiza la conversión masiva de coordenadas geográficas (grados, minutos y segundos) a grados decimales.

Aprende más
Divipola Permite la consulta de la División Político Administrativa de Colombia para la verificación de nombres y niveles.
MarineRegions Es una lista estándar de nombres y áreas marinas georeferenciadas a nivel global. Integra y brinda información geográfica desde el índice geográfico VLIMAR y la base de datos MARBOUND, y propone un estándar de ubicaciones, límites y regiones georeferenciadas marinas.
Gacetero SiB Permite conocer la ubicación y nombre de las localidades, documentadas en diferentes proyectos asociados a la publicación de datos de biodiversidad a través del SiB Colombia, que han sido sometidas a un proceso de georreferenciación.
ispecies Permite visualizar sobre un mapa los registros biológicos de una especie específica. Los registros están enlazados al Portal de datos de GBIF, donde se puede consultar información específica del espécimen.
GEOLocate Permite georreferenciar y confirmar localidades. Se encuentra también disponible la aplicación para escritorio.
GPS Visualizer Permite crear mapas y perfiles a partir de datos geográficos. La entrada de los datos puede ser en forma de datos de GPS, rutas, direcciones de calles o coordenadas simples.
GeoNames Facilita la consulta de más de 10 millones de nombres geográficos, disponibles para descargar gratuitamente. Permite georreferenciar y confirmar localidades.
OBIS map tool Se puede utilizar para geocodificar ubicaciones para emparejar pares de coordenadas o cadenas de coordenadas en formato WKT. Las cadenas WKT son representaciones textuales de geometrías como puntos, polígonos y líneas.
Calculadora Geodésica Permite la conversión o transformación coordenadas en hasta 18 sistemas diferentes.
OBIS Plotter Es una herramienta muy simple para revisar rápidamente puntos en un mapa. Requiere de entrada un formato de texto delimitado (por ejemplo, CSV o pegado de Excel) y que los datos tengan una columna de longitud decimal: ‘decimalLongitude’; y latitud decimal: ‘decimalLatitude’ para las corrdenadas . Así, es posible seleccionar un campo de interés a partir de la tabla original para cambiar el color de los puntos y la etiqueta que se muestra cuando se hace clic en un punto específico.

Aprende más
geo:truc Permite obtener las coordenadas de un punto seleccionado en el mapa a través de google maps.
CartoDB Permite importar y visualizar datos geoespaciales mediante la creación de mapas dinámicos.
infoXY Al ingresar coordenadas decimales la herramienta retorna información sobre cada punto, como el nombre del país, departamento y otras divisiones politico-administrativas. Si el punto cae en el mar la herramienta calcula la distancia más cercana a la costa, indicando el nombre del país.

Cursos

Nombre Año Descripción
Ciclo de formación virtual 2021 Los laboratorios de datos diseñados e instruidos por el EC-SiB te ayudarán a afianzar tus habilidades en el manejo y publicación de datos a través de SiB Colombia.
Introducción a GBIF 2021 Este curso proporciona una introducción a GBIF, los datos disponibles en el portal de GBIF, cómo acceder a esos datos, e información sobre como participar en GBIF y su comunidad de práctica.
Curso de Movilización de Datos sobre Biodiversidad 2021 Este curso permitirá a los participantes planificar e implementar de manera eficaz los esfuerzos de movilización de datos de biodiversidad utilizando estándares aceptados por la comunidad. Su objetivo es aumentar el volumen, la riqueza y la calidad de los datos publicados a través de la red GBIF.

Documentos

Limpieza y estructuración de datos

Nombre Año Descripción
Guía para la limpieza de datos sobre biodiversidad con OpenRefine 2021 Guía de uso de OpenRefine para la validación y limpieza de datos sobre biodiversidad.
OpenRefine - Guía básica 2020 Guía básica de uso de OpenRefine para la validación y limpieza de datos sobre biodiversidad.
OpenRefine - Guía de validación y limpieza de datos sobre biodiversidad 2020 Guía de uso de rutinas de calidad de datos implementando en el entorno del software de código abierto OpenRefine, y permiten crear flujos de trabajo específicos para cada conjunto de datos (Registros, Listas, Eventos).
OpenRefine - Guía de validación y limpieza de datos sobre biodiversidad 2020 Guía de uso de rutinas de calidad de datos implementando en el entorno del software de código abierto OpenRefine, y permiten crear flujos de trabajo específicos para cada conjunto de datos (Registros, Listas, Eventos).
Calidad de Datos Guía de herramientas para mejorar los datos primarios de biodiversidad 2015 Este documento es una recopilación de las diversas herramientas y prácticas que intentan facilitar el proceso de dar calidad a los datos primarios sobre biodiversidad a través de distintas metodologías.
Principios de calidad de datos 2005 Principios de calidad de datos y mejores practicas aplicables a datos primarios sobre biodiversidad en sus compenentes, taxonómicos, temporales y geográficos.

Validación de información geográfica

Nombre Año Descripción
Guía de buenas prácticas de georreferenciación 2020 La Guía de buenas prácticas de georreferenciación provee los lineamientos para la correcta georreferenciación. Aunque está dirigida específicamente a registros biológicos, los conceptos y métodos presentados aquí pueden ser igual de útiles en otras disciplinas.
Guía rápida de georreferenciación 2020 Este documento ofrece orientaciones sobre cómo georreferenciar usando el método radio punto. También, proporciona los métodos para determinar los límites de entidades geográficas, los cuales son la base del método de forma geométrica en georreferenciación
Manual de la calculadora de georreferenciación 2020 La Calculadora de Georreferenciación (Wieczorek & Wieczorek 2020) descrita en este documento, es una herramienta creada para ayudar en la georreferenciación de localidades descriptivas.
Protocolo de georreferenciación de localidades 2016 Define la metodología para la asignación de coordenadas en datos primarios sobre biodiversidad.

Buenas prácticas de publicación

Nombre Año Descripción
Buenas prácticas para generalizar datos de especies sensibles 2021 El objetivo de este documento es proporcionar las buenas prácticas (o las buenas prácticas actuales) para tratar los datos de presencia de especies sensibles, y orientar sobre cómo poner a disposición la mayor cantidad de datos sin que la especie se vea expuesta por el hecho de que los datos se hayan puesto en el dominio público.
Buenas prácticas para la publicación de datos sobre biodiversidad procedentes de evaluaciones de impacto ambiental 2021 Esta guía pretende ayudar a los profesionales, consultores y otras “partes interesadas y afectadas “(I&AP por sus siglas en inglés) que trabajan con evaluaciones de impacto ambiental a mejorar la curaduría, el almacenamiento y la gestión de los datos primarios sobre biodiversidad obtenidos durante los procesos de evaluación de impacto ambiental (EIA) y a compartir los datos de forma libre y abierta en formatos estandarizados, accesibles e interoperables a través del Infraestructura Mundial de Información en Biodiversidad (GBIF por sus siglas en inglés).