Importancia de la Catalogación de Datos

Fecha de la noticia: 28-12-2020

La importancia de la catalogación de datos

Diariamente en el mundo, se generan grandes cantidades de datos que constituyen un potencial increíble para la creación de conocimiento. Muchos de estos datos son generados por organizaciones que los ponen a disposición de los ciudadanos.

Es recomendable que la publicación de estos datos en portales de datos abiertos, como el de datos.gob.es, siga los principios que caracterizan el Open Goverment Data desde sus orígenes, es decir, que los datos sean completos, primarios, en tiempo, accesibles, legibles por máquinas, no discriminatorios, en formatos libres y con licencias abiertas.

Para cumplir con estos principios y garantizar la trazabilidad de los datos, es muy importante su catalogación y para ello hay que conocer su ciclo de vida.

Ciclo de vida de los datos

Cuando hablamos de “ciclo de vida del dato” nos referimos a las diferentes etapas por las que pasa un dato desde su nacimiento hasta el fin. El dato no es un activo estático durante su ciclo de vida, sino que pasa por distintas fases, como recoge la siguiente imagen.

Fuente:El ciclo de Vida del Dato, @FUOC, Marcos Pérez. PID_00246836.

Dentro de las administraciones, se crean nuevas fuentes de datos continuamente, y es necesario mantener un registro que permita documentar los flujos de información a través de los distintos sistemas dentro de las organizaciones. Para ello, necesitamos establecer lo que se conoce como trazabilidad del dato.

La trazabilidad del dato es la capacidad de conocer todo el ciclo de vida del dato: la fecha y hora exacta de extracción, cuándo se produjo su transformación, y cuándo se cargó desde un entorno fuente a otro destino. A este proceso se le conoce como Data Linage.

Y para conocer cómo se ha comportado el dato durante su ciclo de vida, necesitamos una serie de metadatos.

Hablemos de los metadatos

La definición más concreta sobre los metadatos es que son los datos acerca de los datos y sirven para suministrar información sobre los datos que queremos usar. Los metadatos consisten en información que caracteriza datos, describe su contenido y estructura, las condiciones de uso, su origen y transformación, entre otra información relevante. Por ello son un elemento fundamental para conocer la calidad de los mismos.

La etimología del término metadatos también nos pone sobre la pista de su significado. Del griego meta, "después de" y de "data" plural del latín datum "datos”, literalmente significa "más allá de los datos", aludiendo a datos que describen otros datos.

Según el framework de trabajo DMBOK2 de la organización DAMA Internacional, existen tres tipos de metadatos:

  • Metadatos técnicos: como su nombre indica, proporcionan información sobre detalles técnicos de los datos, los sistemas que los almacenan y los procesos que los mueven entre sistemas.
  • Metadatos operacionales: describen detalles del procesamiento y acceso a los datos.
  • Metadatos de negocio: se enfocan principalmente en el contenido y la condición de los datos e incluyen detalles relacionados con la gobernabilidad de los datos.

Como ejemplo, los conjuntos de metadatos que necesitamos para la catalogación y  descripción de datos están recogidos en la Norma Técnica de Interoperabilidad (NTI) de Reutilización de recursos de la información y, entre otros, contienen:

  • Título o denominación del conjunto de datos.
  • Descripción que detalla aspectos relevantes del contenido de los datos.
  • Organismo que publica los datos. Por ejemplo, Ayuntamiento de Madrid.
  • Temática, que debemos seleccionar de la taxonomía de sectores primarios.
  • Formato del set de datos.
  • Conjunto de etiquetas que mejor describa el dataset para facilitar su descubrimiento.
  • Periodicidad de actualización de la información.

Además, si la norma de referencia para describir metadatos permite incluir propiedades para ello, se puede agregar la siguiente información, aunque no los recoja la NTI:

  • Si existen datos que han sufrido transformaciones, se deben comentar que métrica se ha utilizado.
  • Indicador sobre la calidad de los datos. Se puede definir utilizando el vocabulario diseñado para tal fin, Data Quality Vocabulary (DQV)
  • Trazo del linaje de los datos, es decir, como un árbol genealógico de los datos donde se explica de dónde viene cada fuente.

El beneficio de catalogar

Como hemos visto, gracias a la catalogación por medio de metadatos se proporciona información al usuario de los datos sobre dónde se han creado, cuándo se han creado, quién los ha creado, y cómo se han transformado cuando son objeto de flujos de información entre sistemas estando sujetos a operaciones extracción, transformación y carga.

De esta manera, estamos proporcionando una información muy valiosa para el usuario sobre cómo se ha obtenido el resultado final y así garantizar que se tiene la traza completa del dato objeto de reutilización.

En concreto, una correcta catalogación nos ayuda a:

  • Aumentar la confianza en los datos, proporcionando un contexto de los mismos permitiendo además medir su calidad.
  • Aumentar el valor de los datos estratégicos, como por ejemplo a través de los datos maestros que caracterizan a los datos transaccionales.
  • Evitar el uso de datos desactualizados o que ya han llegado a la fase final de su ciclo de vida.
  • Reducir el tiempo que invierte el usuario en investigar si los datos que necesita cumplen con sus requisitos.

El éxito de un portal de datos abiertos se encuentra en poseer unos datos bien descritos y fiables, ya que éstos constituyen un activo informacional muy importante para la generación de conocimiento. El buen gobierno de los datos debe garantizar que los datos empleados para tomar decisiones sean verdaderamente fiables y para ello, una adecuada catalogación es esencial. La catalogación de los datos proporciona respuestas y ofrece una mayor interpretabilidad de los datos, de modo que se pueda entender qué datos son los mejores para incorporar a mi análisis informacional.


Contenido elaborado por David Puig, Graduado en Información y Documentación y responsable del grupo de trabajo de Datos Maestros y de Referencia en DAMA ESPAÑA.

Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.