Esta presentación se ha realizado en el contexto de la Jornada sobre difusión, accesibilidad y reutilización de la estadística y cartografía oficial (http://www.juntadeandalucia.es/institutodeestadisticaycartografia/blog/2019/11/jornada-plan/), organizada por el Instituto de Estadística y Cartografía de Andalucía.
Adiós a los ficheros, hola a los grafos de conocimientos estadísticos
1. Oscar Corcho
Ontology Engineering Group, Universidad Politécnica de Madrid
Basado en materiales realizados con la colaboración de
Paola Espinoza, Idafen Santana-Pérez,
Hugo Lafuente, Juan Carlos Ballesteros, Esther Minguela,
David Portolés, César Cano y Alfredo Peris
Jornadas IECA: Difusión, accesibilidad y reutilizaciónde la
estadística y cartografía oficial
Adiós a los ficheros
Hola a los grafos de
conocimientos estadísticos
ocorcho@fi.upm.es
@ocorcho
25/11/2019
Jornadas IECA
2. Adiós a los ficheros. Hola a los grafos de conocimientos estadísticos – Jornadas IECA
License
• This work is licensed under the license
CC BY-NC-SA 4.0 International
• http://purl.org/NET/rdflicense/cc-by-nc-sa4.0
• You are free:
• to Share — to copy, distribute and transmit the work
• to Remix — to adapt the work
• Under the following conditions
• Attribution — You must attribute the work by inserting
• “[source Oscar Corcho]” at the footer of each reused slide
• a credits slide stating: “These slides are partially based on “Adiós a los
ficheros. Hola a los grafos de conocimientos estadísticos” by O. Corcho”
• Non-commercial
• Share-Alike
2
3. Adiós a los ficheros. Hola a los grafos de conocimientos estadísticos – Jornadas IECA
El mensaje principal de esta charla
• Si queremos facilitar la reutilización de los datos
estadísticos y geográficos, debemos evolucionar en la
forma de publicar estos datos:
• De la publicación de ficheros (PC-Axis, CSV) a la publicación
adicional de APIs y grafos de conocimientos
• Enlazando con grafos de conocimientos internos y externos:
• Datos geográficos (por ejemplo, datos.ign.es)
• Tesauros comunes (por ejemplo, INEBase, RAMON)
• Wikidata
3
4. Adiós a los ficheros. Hola a los grafos de conocimientos estadísticos – Jornadas IECA
Estructura de la charla
• Un ejemplo de publicación de datos estadísticos más
allá de los ficheros (Aragón - IAEST)
• Nuestro trabajo en la publicación de datos derivados
del padrón por parte de las ciudades
• Algunas recomendaciones finales
4
5. Adiós a los ficheros. Hola a los grafos de conocimientos estadísticos – Jornadas IECA
IAEST. De ficheros a APIs y Linked Data
5
§ IAEst: Instituto Aragonés de Estadística
o http://www.aragon.es/iaest
o Datos abiertos ofrecidos a través de:
• Portal de datos abiertos de Aragón
- http://opendata.aragon.es/
• Su propio portal (nuestro interés se centra en la parte de
“estadística local”)
6. Adiós a los ficheros. Hola a los grafos de conocimientos estadísticos – Jornadas IECA
Contexto: Infraestructura de datos del IAEst (2016)
7
§ Infraestructura existente
o Data warehouse basado en Oracle BI
o Exportaciones en diferentes formatos, incluyendo CSVs
7. Adiós a los ficheros. Hola a los grafos de conocimientos estadísticos – Jornadas IECA
Contexto: Infraestructura de datos del IAEst (2016)
9
§ Infraestructura existente
o Data warehouse basado en Oracle BI
o Exportaciones en diferentes formatos, incluyendo CSVs
o https://www.aragon.es/-/estadistica-local
§ Navegación y obtención de datos
o Basada en una taxonomía
o Filtros fijos, codificados en
la aplicación
o El usuario selecciona:
• División administrativa
• Municipio
• Estructura de carpetas
o Datos e HTML, PDF, CSV
8. Adiós a los ficheros. Hola a los grafos de conocimientos estadísticos – Jornadas IECA
Informes prediseñados,
ofrecidos por Oracle BI
Aplicación Web de
Estadística Local
Contexto: Infraestructura de datos del IAEst (2016)
9. Adiós a los ficheros. Hola a los grafos de conocimientos estadísticos – Jornadas IECA
Contexto: Infraestructura de datos del IAEst (2016)
§ En la Web del IAEst
o http://www.aragon.es/DepartamentosOrganismosPublicos/
Institutos/InstitutoAragonesEstadistica/AreasGenericas/
ci.EstadisticaLocal.detalleDepartamento
§ En OpenDataAragón
o http://opendata.aragon.es/catalogo/edificios-superficie-y-
vivienda-comarcas
10. Adiós a los ficheros. Hola a los grafos de conocimientos estadísticos – Jornadas IECA
Objetivos del trabajo realizado
15
Extraer los informes estadísticos (ficheros),
transformarlos a RDF de acuerdo con estándares del
W3C, “refinarlos”, enlazarlos con datos enlazados de
Aragón (fundamentalmente URIs de municipios y
regiones) y proporcionar una API y un interfaz de
usuario nuevo para utilizarlos
11. Adiós a los ficheros. Hola a los grafos de conocimientos estadísticos – Jornadas IECA
W3C Data Cube (basado en SDMX)
1616
http://www.w3.org/TR/vocab-data-cube/
Publicación de datos multi-dimensionales en la Web
12. Adiós a los ficheros. Hola a los grafos de conocimientos estadísticos – Jornadas IECA
W3C Data Cube (basado en SDMX)
1717
13. Adiós a los ficheros. Hola a los grafos de conocimientos estadísticos – Jornadas IECA
Resultados
19
§ Un proceso de transformación más fácil de mantener
o Enriquece las APIs Linked Data de Aragón
o Uso de GitHub para
• Control de versiones y archivado
• Actualizaciones continuas: detectando nuevos datos y
estructuras de datos cada día
• https://github.com/aragonopendata/local-data-aragopedia/
§ API para desarrolladores
§ Interfaces de usuario adicionales
o Mejorando las capacidades de acceso
y recuperación de datos
§ Resultado adicional: mejora de los datos
o Muchos errores y necesidades de mejora detectados en los
CSVs, que fueron corregidos en el proceso de transformación
14. Adiós a los ficheros. Hola a los grafos de conocimientos estadísticos – Jornadas IECA
Proceso de transformación y publicación
22
Caracterízación
inicial
• Identificar
fuentes
• Identificar
dimensiones y
medidas
Transformación
• Descarga diaria de
datos
• Procesamiento (UTF8)
• Subida a GitHub
• Anotación de nuevas
dimensiones y
medidas
• Transformación a RDF
Publicación y uso
• APIs Linked
Data
https://github.com/aragonopendata/local-data-aragopedia/
15. Adiós a los ficheros. Hola a los grafos de conocimientos estadísticos – Jornadas IECA
bi.aragon.es
Google
Drive
Descarga de
datasets y de su
configuración
¿Nuevo
dataset?
GitHub
Sí
Por cada
dataset
Generar nueva
configuración y
crear un issue
¿Nueva
estructura?
No
Crear
issue
Sí
¿Nuevos
datos?
Regenerar
los datos y
crear issue
No
Sí
SPARQL
Transformación de datos. Resumen…
16. Adiós a los ficheros. Hola a los grafos de conocimientos estadísticos – Jornadas IECA
Publicación de datos y uso
32
§ Datos accesibles en
o API (usando ELDA)
• http://opendata.aragon.es/herramientas/apis?#aragodbpedia
o GitHub (CSVs, RDF)
o SPARQL endpoint
SPARQL
Elda
Linked Data
17. Adiós a los ficheros. Hola a los grafos de conocimientos estadísticos – Jornadas IECA
Publicación de datos y uso
• Pasar de una orientación basada en la publicación de
conjuntos de datos / informes a una publicación de
granularidad más fina (por observación)
• Por ejemplo, un periodista puede hacer referencia directa, en
una noticia, a un dato concreto (fake news)
• “En el año 1998 en Zaragoza había 42916 mujeres en el rango de edad de
0 a 15 años” (enlace:
http://opendata.aragon.es/recurso/iaest/observacion/03-030005TM/
50a0a5b9-cb76-37f4-961c-8abdf1c458e3)
• “La tendencia de población de 0 a 15 años en mujeres en Zaragoza creció
hasta el 2013 y luego ha ido descendiendo levemente” (enlace:
https://github.com/aragonopendata/local-data-aragopedia/blob/master/
consultas.md)
• ¿Podemos permitir consultas más complejas y sobre varios
conjuntos de datos a la vez sin obligar a descargar y procesar
datos en local?
18. Adiós a los ficheros. Hola a los grafos de conocimientos estadísticos – Jornadas IECA
Estructura de la charla
• Un ejemplo de publicación de datos estadísticos más
allá de los ficheros (Aragón - IAEST)
• Nuestro trabajo en la publicación de datos derivados
del padrón por parte de las ciudades
• Algunas recomendaciones finales
43
19. Adiós a los ficheros. Hola a los grafos de conocimientos estadísticos – Jornadas IECA
Ciudades Abiertas (Open Cities) Project
INICIATIVA PLATAFORMA DE GOBIERNO ABIERTO,
COLABORATIVA E INTEROPERABLE (121/17-SP)
Julio 2018 – Junio 2020
Más detalles en http://www.ciudadesabiertas.es/
20. Adiós a los ficheros. Hola a los grafos de conocimientos estadísticos – Jornadas IECA
Temporalmente disponible en:
https://github.com/opencitydata/demografia-padron-municipal/tree/master/ontology
http://vocab.ciudadesabiertas.es/def/demografia/padron-municipal (en breve)
Publicación de datos del padrón municipal
21. Adiós a los ficheros. Hola a los grafos de conocimientos estadísticos – Jornadas IECA
Vocabularios a tener en cuenta
1. SDMX (Statistical Data and Metadata eXchange):
a) sdmx-dimension: área de referencia, período de referencia, y sexo
http://purl.org/linked-data/sdmx/2009/dimension
b) sdmx-code: sexo de los habitantes
http://purl.org/linked-data/sdmx/2009/code
2. Vocabularios IAEST:
a) iaest-dimension: edad grupos quinquenales y nombre país de nacionalidad
https://opendata.aragon.es/def/iaest/dimension
b) SKOS IAEST:
1) Rangos de edad de grupos quinquenales:
https://opendata.aragon.es/kos/iaest/edad-grupos-quinquenales
2) Nombre del país de nacionalidad:
https://opendata.aragon.es/kos/iaest/nacionalidad-pais-nombre
3. Otras listas SKOS:
a) Para la representación de los años de la dimensión del período de referencia
se reutilizará la lista de códigos definida por el gobierno británico y
disponible en http://reference.data.gov.uk/id/year
b) Para los niveles de estudio se reutilizará la lista de códigos definida para el
vocabulario de padrón municipal y que se encuentra disponible en
http://vocab.linkeddata.es/datosabiertos/kos/demografia/padron-municipal/
tipo-nivel-estudio
22. Adiós a los ficheros. Hola a los grafos de conocimientos estadísticos – Jornadas IECA
Publicación de cubos de datos derivados del padrón
§ Definición y ejemplos de los cubos de datos:
http://vocab.ciudadesabiertas.es/def/demografia/padron-municipal/cubos-datos
Temporalmente disponible en:
https://github.com/opencitydata/demografia-padron-municipal/tree/master/OnToology/census-cube-documentation
23. Adiós a los ficheros. Hola a los grafos de conocimientos estadísticos – Jornadas IECA
Cubo de población según edad
qb:Dataset qb:structure qb:DataStructureDefinition qb:ComponentSpecification qb:ComponentPropertyqb:component qb:componentProperty
qb:DimensionProperty
qb:MeasureProperty
qb:Observation
qb:dataset
qb:dimension
qb:measure
ex:DS_PoblacionPorEdad qb:structure ex:DSD_PoblacionPorEdad qb:component sdmx-dimension:sex
espad-medida:numero-
personas
qb:dimension
qb:measure
rdf:type
rdf:type
rdf:type
rdf:type
rdf:type
sdmx-dimension:refPeriod
sdmx-dimension:refArea
iaest-dimension:edad-
grupos-quinquenales
Referenced Ontologies:
qb: http://purl.org/linked-data/cube#
ex: http://vocab.ciudadesabiertas.es/recurso/demografia/padron-municipal/
iaest-dimension: http://opendata.aragon.es/def/iaest/dimension#
espad-medida: http://vocab.ciudadesabiertas.es/def/demografia/padron-municipal/medida#
sdmx-dimension: http://purl.org/linked-data/sdmx/2009/dimension#
24. Adiós a los ficheros. Hola a los grafos de conocimientos estadísticos – Jornadas IECA
Cubo de población según edad (por distrito y sexo)
<http://vocab.ciudadesabiertas.es/recurso/demografia/padron-municipal/DSD_PoblacionPorEdad> a qb:DataStructureDefinition ;
rdfs:label "Estructura de los cubos de datos que se corresponden con el conjunto de datos de padrón municipal de la ciudad Madrid,
en este archivo se detalla el número de habitantes según su sexo, rango de edad y el área donde reside"@es ;
skos:notation "DSD_PoblacionPorEdad" .
2) Definición de la estructura de datos
<http://vocab.ciudadesabiertas.es/recurso/demografia/padron-municipal/DS_PoblacionPorEdad> a qb:DataSet ;
qb:structure <http://vocab.ciudadesabiertas.es/recurso/demografia/padron-municipal/DSD_PoblacionPoblacionPorEdad> .
1) Definición del conjunto de datos
<http://vocab.ciudadesabiertas.es/recurso/demografia/padron-municipal/DSD_PoblacionPorEdad> qb:component _:node1egmfx1 .
_:node1egmfx1 qb:dimension sdmx-dimension:sex .
<http://vocab.ciudadesabiertas.es/recurso/demografia/padron-municipal/DSD_PoblacionPorEdad> qb:component _:node1egmfx2 .
_:node1egmfx2 qb:dimension sdmx-dimension:refArea .
<http://vocab.ciudadesabiertas.es/recurso/demografia/padron-municipal/DSD_PoblacionPorEdad> qb:component _:node1egmfx3 .
_:node1egmfx3 qb:dimension sdmx-dimension:refPeriod .
<http://vocab.ciudadesabiertas.es/recurso/demografia/padron-municipal/DSD_PoblacionPorEdad> qb:component _:node1egmfx4 .
_:node1egmfx4 qb:dimension iaest-dimension:edad-grupos-quinquenales.
2.1) Definición de las dimensiones de la estructura de datos
<http://vocab.ciudadesabiertas.es/recurso/demografia/padron-municipal/DSD_PoblacionPorEdad> qb:component _:node1egmfx5 .
_:node1egmfx5 qb:measure espad-measure:numero-personas.
2.2) Definición de las medidas de la estructura de datos
25. Adiós a los ficheros. Hola a los grafos de conocimientos estadísticos – Jornadas IECA
Distrito
Total
Rango de
20 a 24
Centro 2731,00
Arganzuela 3294,00
Retiro 2478,00
Salasanca 3466,00
Chamartín 3217,00
Latina 5770,00
Cubo de población según edad (por distrito y sexo)
<http://vocab.ciudadesabiertas.es/recurso/demografia/padron-muinicipal/a209fd32c10cf5d06e4e6aedf8b81950b4e981f3> a
qb:Observation ;
qb:dataSet <http://vocab.ciudadesabiertas.es/recurso/demografia/padron-muinicipal/DS_PoblacionPorEdad> ;
sdmx-dimension:refArea <http://vocab.ciudadesabiertas.es/recurso/territorio/distrito/Centro> ;
sdmx-dimension:refPeriod <http://reference.data.gov.uk/id/year/2019> ;
espad-medida:numero-personas ”2731"^^xsd:int ;
sdmx-dimension:sexo <http://purl.org/linked-data/sdmx/2009/code#sex-M> ;
iaest-dimension:edad-grupos-quinquenales <https://opendata.aragon.es/kos/iaest/edad-grupos-quinquenales/20-a-24> .
3) Definición de una observación del Dataset
26. Adiós a los ficheros. Hola a los grafos de conocimientos estadísticos – Jornadas IECA
Ejemplos de consultas
1. Número de hombres del rango de edad de 20 a 24 años que habitan en el distrito
Centro en el año 2019
PREFIX kos-year: <http://reference.data.gov.uk/id/year/>
PREFIX espad-medida: <http://vocab.ciudadesabiertas.es/def/demografia/padron-municipal/medida#>
PREFIX sdmx-dimension: <http://purl.org/linked-data/sdmx/2009/dimension#>
PREFIX iaest-dimension: <http://opendata.aragon.es/def/iaest/dimension#>
PREFIX qb: <http://purl.org/linked-data/cube#>
PREFIX kos-iaest : <http://opendata.aragon.es/kos/iaest/>
PREFIX sdmx-code : <http://purl.org/linked-data/sdmx/2009/code#>
SELECT (?x AS ?numeroHombres) WHERE {
?obs a qb:Observation ;
sdmx-dimension:refArea <http://vocab.ciudadesabiertas.es/recurso/territorio/distrito/Centro> ;
sdmx-dimension:refPeriod kos-year:2019 ;
sdmx-dimension:sex sdmx-code:sex-M ;
iaest-dimension:edad-grupos-quinquenales kos-iaest:edad-grupos-quinquenales/20-a-24 ;
espad-medida:numero-personas ?x ;
qb:dataSet <http://vocab.ciudadesabiertas.es/recurso/demografia/padron-municipal/DS_PoblacionPorEdad> .
}
numeroHombres
2731,00
27. Adiós a los ficheros. Hola a los grafos de conocimientos estadísticos – Jornadas IECA
Ejemplos de consultas
2. Total de hombres del rango de edad de 20 a 24 años que habitan en Madrid en el
año 2019
PREFIX kos-year: <http://reference.data.gov.uk/id/year/>
PREFIX espad-medida: <http://vocab.ciudadesabiertas.es/def/demografia/padron-municipal/medida#>
PREFIX sdmx-dimension: <http://purl.org/linked-data/sdmx/2009/dimension#>
PREFIX iaest-dimension: <http://opendata.aragon.es/def/iaest/dimension#>
PREFIX qb: <http://purl.org/linked-data/cube#>
PREFIX kos-iaest : <http://opendata.aragon.es/kos/iaest/>
PREFIX sdmx-code : <http://purl.org/linked-data/sdmx/2009/code#>
SELECT (SUM(?x) AS ?totalHombres) WHERE {
?obs a qb:Observation ;
sdmx-dimension:refPeriod kos-year:2019 ;
sdmx-dimension:sex sdmx-code:sex-M ;
iaest-dimension:edad-grupos-quinquenales kos-iaest:edad-grupos-quinquenales/20-a-24 ;
espad-medida:numero-personas ?x ;
qb:dataSet <http://vocab.ciudadesabiertas.es/recurso/demografia/padron-municipal/DS_PoblacionPorEdad> .
}
totalHombres
2731,00
28. Adiós a los ficheros. Hola a los grafos de conocimientos estadísticos – Jornadas IECA
Estructura de la charla
• Un ejemplo de publicación de datos estadísticos más
allá de los ficheros (Aragón - IAEST)
• Nuestro trabajo en la publicación de datos derivados
del padrón por parte de las ciudades
• Algunas recomendaciones finales
53
29. Adiós a los ficheros. Hola a los grafos de conocimientos estadísticos – Jornadas IECA
El mensaje principal de esta charla
• Para facilitar la reutilización de los datos estadísticos y
geográficos, debemos evolucionar en la publicación:
• De la publicación de ficheros (PC-Axis, CSV) a la publicación
adicional de APIs y grafos de conocimientos
• Más flexibilidad a la hora de consultar los datos que me interesan
(ej: los de un municipio, o un distrito)
• Facilidad para insertar visualizaciones en mi página Web
• Enlazando con grafos de conocimientos internos y externos:
• Datos geográficos (por ejemplo, datos.ign.es)
• Consultas más ricas/complejas, sin islas de datos aisladas
• Reutilización interna de los datos
• Tesauros comunes (por ejemplo, INEBase, RAMON)
• Deberían también estar publicados como Linked Data
• Facilita comparaciones, creación de visualizaciones, etc.
• Wikidata
• Aquí es donde mucha gente mira
54
30. Oscar Corcho
Ontology Engineering Group, Universidad Politécnica de Madrid
Basado en materiales realizados con la colaboración de
Paola Espinoza, Idafen Santana-Pérez,
Hugo Lafuente, Juan Carlos Ballesteros, Esther Minguela,
David Portolés, César Cano y Alfredo Peris
Jornadas IECA: Difusión, accesibilidad y reutilizaciónde la
estadística y cartografía oficial
Adiós a los ficheros
Hola a los grafos de
conocimientos estadísticos
ocorcho@fi.upm.es
@ocorcho
25/11/2019
Jornadas IECA