Conversión Fechas

Objetivo

Realizar la estandarización y conversión de fechas al formato ISO 8601 (AAAA-MM-DD), de manera automática y masiva.

Sobre la herramienta

La herramienta Date parsing, desarrollada por Canadensys (nodo GBIF de Canadá), permite transformar y estandarizar fechas de forma masiva, de acuerdo al estándar ISO 8601 (AAAA-MM-DD), requerido para la documentación de fechas en el estándar Darwin Core.

Enlace

Date parsing - Canadensys http://data.canadensys.net/tools/dates

Convenciones

  • Los elementos del estándar Darwin Core aparecen en color verde y cursiva. Por ejemplo: measurementUnit.
  • Los archivos a utilizar en los ejercicios se muestran entre comillas angulares, negrita, y tienen una tipografía diferente. Por ejemplo: «archivo_Ejemplo.xls».
  • Las secciones, ventanas y componentes de las herramientas utilizadas se muestran entre comillas inglesas y en negrita. Por ejemplo: “Create Project”.
  • Las opciones de las herramientas que se asocian a instrucciones (dar clic, seleccionar, etc.) aparecen en color amarillo y cursiva. Por ejemplo: New project.
  • Las secuencias de instrucciones y pasos se muestran en color amarillo, cursiva y negrita. Por ejemplo: Paso 1 > Paso 2.
  • Las líneas que se escriben directamente en las herramientas, para programar o realizar algún proceso en específico, aparecen en formato de código, con una tipografía distinta de color negro. Por ejemplo: value.replace(“ sp.”,””).

Requerimientos

  • Para realizar este ejercicio, es necesario contar con un procesador de archivos de texto como Excel.

Archivo de trabajo

Descargue el archivo «datos_canadensys.xlsx» para realizar el laboratorio.


Paso 1 - Ingreso

Ingrese a la aplicación en línea Date parsing y revise cuidadosamente las opciones disponibles para ingresar las fechas.

Tip: las fechas pueden estar escritas en múltiples formatos, siempre y cuando no haya ambiguedades. Por ejemplo, cuando el año no se puede distinguir del mes o del día. Opcionalmente, las fechas pueden cargarse a la herramienta por medio del identificador de registro, seguido por una tabulación o una barra vertical, como se muestra en los siguientes ejemplos.

Ejemplos de valores de entrada:

  • Jun 13, 2008
  • 15 Jan 2011
  • 2009 IV 02
  • VII 1986
  • 1 | 1999/02/24 (incluyendo un identificador del registro).
  • 2 | 02/17/1921 (incluyendo un identificador del registro).

Paso 2 - Carga de las fechas

Entre a Excel, abra el archivo «datos_canadensys.xlsx» y busque la información temporal de los registros. Encontrará la columna verbatimEventDate, la cual contiene las fechas de colecta en el formato original. Luego, seleccione la columna verbatimEventDate y cópiela sin el encabezado (Fig. 1).

Figura 1. Seleccion y copia de las fechas originales (verbatimEventDate).

Entre a la aplicación Date parsing y pegue los datos previamente copiados. Luego, haga clic en Submit para iniciar la conversión de fechas (Fig. 2).

Figura 2. Fechas originales ingresadas en la herramienta en diversos formatos.

Paso 3 - Resultados

Las fechas originales ingresadas apareceran en la columna “original”, que corresponde al elemento verbatimEventDate, junto con cuatro nuevas columas: year, month, day (equivalentes al estándar DwC) e “ISO 8601”, que es el resultado de la estandarización y corresponde al elemento DwC eventDate (Fig. 3).

Figura 3. Resultado de convertir las fechas al formato ISO 8601 con Date Parsing de Candensys.

¡Precaución!

Cuando las fechas son ambiguas, la herramienta no puede reconocer el formato de la fecha y muesta la fila de la fecha en rojo (Fig. 4). Esto ocurre cuando no es posible identificar los componentes (año, mes, día) con claridad. Por ejemplo, en la fecha 02/05/07, ¿el año es 2002 o 2007? Además, pueden haber inconvenientes cuando existen combinaciones de texto y número (Ej. Abr-2009), ya que el idioma original de la herramienta es el inglés. Por lo tanto, ocasionalmente no reconoce algunos meses en español. Si se presentan estas ambiguedades, es necesario hacer una corrección manual con base en el contexto de los datos.

Figura 4. Ejemplo de fechas ambiguas, donde la herramienta no reconoce el formato y no puede hacer la conversión (en rojo).

Paso 4 - Incorporar resultados en tabla DwC.

4.1. Preparar el archivo para incorporar los resultados

En el archivo «datos_canadensys.xlsx», agregue cinco columnas a la izquierda de la columna con las fechas originales. Para esto, ubíquese en el encabezado de la columna verbatimEventDate y dé clic derecho en Insertar. Repita este paso 4 veces (Fig. 5).

Figura 5. Proceso para insertar nuevas columnas en Excel.

En las opciones de Excel, configure las columnas que creó en formato de texto (Fig. 6)

Figura 6. Configuración de columnas en formato texto.

4.2. Copiar resultados

Diríjase a la herramienta Date Parsing, seleccione y copie toda la tabla con el resultado de la conversión, incluyendo el encabezado. Para facilitar la selección y el copiado, puede apoyarse en el mouse de su equipo, desplazándose desde el inicio hasta el final de la tabla con el clic izquierdo sostenido. (Fig. 7).

Figura 7. Selección y copia de los resultados.

4.3. Pegar resultados

Siga estos pasos para pegar la tabla copiada en el archivo Excel:

  1. Ubíquese sobre las celdas insertadas en el paso 5 (Fig. 8A).
  2. En el menú superior, haga clic en Inicio y seleccione Pegar > Pegado especial (Fig. 8B).
  3. En el menú de Pegado especial, seleccione Texto y luego Aceptar (Fig. 8C).
Tip: el pegado especial en formato de texto es indispensable para que Excel no haga interpretaciones erróneas sobre las fechas ya estandarizadas. Si no se tiene en cuenta, el programa revertirá las fechas a otro formato y el trabajo realizado podría perderse.

Figura 8. Pasos para insertar las fechas copiadas con formato texto: A. Ubicar la celda en donde se pegarán los resultados, B. Desplegar las opciones de pegado especial, C. Seleccionar la opción texto en el menú de pegado especial.

Luego de realizar este procedimiento, verá las columnas incorporadas en el Excel (Fig. 9). Sin embargo, la columna con la fecha del evento original estará duplicada.

Figura 9. Resultados de las fechas en la hoja de Excel.

Por consiguiente, para finalizar la estandarización, es pertinente renombrar y eliminar algunas columnas:

  • Eliminar la columna “original”.
  • Cambiar el nombre de la columna “ISO 8601” por eventDate.

Recuerde que puede aplicar este procedimiento a todos los elementos asociados a fechas en el estándar DwC, tales como dateIdentified(fecha de identificación), georeferencedDate (fecha de georreferenciación), etc.

Paso 5 - Verificación del resultado

Descargue y compare el siguiente archivo, estandarizado según los pasos de esta guía, con el archivo que trabajó en el laboratorio e identifique aciertos y oportunidades de mejora. ¿Qué diferencias encontró con sus resultados?

Paso 6 - Datos propios

Si tiene datos propios y desea publicarlos, intente seguir los pasos de este laboratorio para convertir las fechas al formato ISO 8601.


¡Felicitaciones! Terminó la conversión de las fechas del conjunto de datos a el estándar ISO 8601.


Atribución y uso de los laboratorios

La licencia CC-BY permite usar, redistribuir y construir sobre estos contenidos libremente.

¡La difusión de estos laboratorios contribuirá a la publicación de más y mejores conjuntos de datos sobre biodiversidad!

Citación sugerida

Plata C., Ortíz R., Marentes E., Lozano J. (2021). Laboratorio de datos, Ciclo de formación. Consultado a través del SiB Colombia. Disponible en https://biodiversidad.co/formacion/laboratorios.