tecnologías avanzadas para la reconciliación semántica y ... · –integrar el trabajo de los...

38
Tecnologías avanzadas para la reconciliación semántica y acceso a la información bibliográfica con SPARQL Xavier Agenjo Francisca Hernández César Juanes Jeid'19 1

Upload: others

Post on 20-Aug-2020

12 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

Tecnologías avanzadas para la reconciliación semántica y acceso a

la información bibliográfica con SPARQL

Xavier Agenjo

Francisca Hernández

César JuanesJeid'19 1

Page 2: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

Resumen

• El marco general: La Biblioteca Virtual de Polígrafos

• Las bibliotecas y Linked Open Data: algunos planteamientos, proyectos y ejemplos

• Algunas fuentes Linked Open Data para las bibliotecas. Wikidata

• Reconciliación semántica

• Agregación de metadatos mediante SPARQL

• Perspectivas

Jeid'19 2

Page 3: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

Las bibliotecas y Linked Open Data (solo algunos hitos)

• Informe Final del Grupo Incubador de Datos Vinculados de Bibliotecas (2011)

• Europeana y Europeana Data Model (2011)

• datos.bne.es (2011)

• data.bnf.fr (2011)

Jeid'19 3

Page 4: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

Biblioteca Virtual de Polígrafos (2010)

Jeid'19 4

Page 5: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

Biblioteca Virtual de Polígrafos y Europeana Data Model (2011)

Jeid'19 5

Page 6: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

influenced

dc:creatordc:subject

Escepticismo

is related to

dc:subject

sameAs

skos:closeMatch

influenced

influencedinfluenced

influenced

influenced

skos:closeMatch

sameAsinfluenced

is related to

is related to

is related to

is related to

influenced

Jeid'19 6

Biblioteca Virtual de Polígrafos y Europeana Data Model (2011)

Page 7: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

Autoridades: MARC 21, RDA y Linked Open Data

Jeid'19 7

Page 8: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

Datos abiertos vinculados: Tim Berners-Lee Linked Data, design issues

(2006)

• Utilizar URIs HTTP para que se puedan localizar y consultar los recursos

• Proporcionar información útil (descripciones) sobre las cosas utilizando normas como RDF

• Relacionar los recursos con otros recursos

• http://www.larramendi.es/aut/POLI20090014206

• http://www.larramendi.es/aut/POLI20090014206.rdf

Jeid'19 8

Page 9: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

Bibliotecas y Linked Open Data: International Linked Data Surveys (OCLC)

• OCLC Research: 3 International Linked Data Survey (2014, 2015, 2018)– Smith-Yoshimura, Karen. Analysis of 2018 International Linked Data Survey for

Implementers. Code4lib Journal

• Razones para su uso:– Abrir los datos a un público más amplio en la Web– Incrementar la interoperabilidad– Explorar la transición de los datos bibliotecarios a la Web Semántica– Proporcionar a los usuarios mejores interfaces de consultaa– Proporcionar datos contextualizados e interrelacionados– Mejorar los datos propios consumiendo descripciones Linked Open Data de

otras fuentes

• La mayoría de instituciones con proyectos Linked Data han añadido estastareas a las responsabilidades de sus equipos de trabajo (86 /15)

Jeid'19 9

Page 10: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

Bibliotecas y Linked Open Data: International Linked Data Surveys (OCLC)

• Dificultades– Inconsistencia de los datos de origen (falta de control

de autoridades, diferentes criterios catalográficos...)

– Establecer los enlaces

– Correspondencia, desambiguación y alineamiento con recursos Linked Open Data

– Comprender la estructura de los datos para poderusarlos.

Jeid'19 10

Page 11: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

Bibliotecas y Linked Open Data: International Linked Data Surveys (OCLC)

• Consejos:– Integrar los procesos relacionados con Linked Open Data en los

servicios de las bibliotecas.

– Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales

– Mejorar los datos en el momento de la conversion• No desestimar las tareas de depuración de datos necesarias.

– Seleccionar las fuentes más productivas de recursos Linked Open Data por la calidad de su contenido y el número de enlaces a otras fuentes

Jeid'19 11

Page 12: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

Algunos cambios importantes

• La forma de presentar la información: la importancia del contexto (EAC-CPF)

• Bibframe y Europeana: no tienen registros de autoridad como tales– Registros de nombres de personas y registros de personas

• Fundamental en los proyectos de transformación: los registros tienen que tener URIs desreferenciables y estar vinculados a otros recursos– Enriquecimiento semántico de Europeana

– BIBFRAME (Pilot Project Phase II)

Jeid'19 12

Page 13: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

Jeid'19 13

Page 14: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

Reconciliación y enriquecimiento semántico

• Depuración previa de los datos a tratar– Selección del/los campos a tratar– Forma del encabezamiento– Ortografía y acentuación– Otros caracteres

• Procedimientos automáticos– Comparación simple de la cadenas de caracteres con distintas fuentes

• (p.e., Barcelona (Provincia) en VIAF, GeoNames...)

– Comparación en contexto de cadenas de caracteres • (p.e., VIAF: “Barcelona” en “Nombres geográficos”)

• Procedimientos semiautomáticos– Posibles falsos positivos y desambiguación– Doble reconciliación

• Coincidencia de valores extraídos de más de una fuente (p.e. VIAF y Wikidata)

– Comparación de otras propiedades además del nombre• (p.e., los mismos lugares deben tener las mismas coordenadas geográficas: Barcelona (España) y

Barcelona(Venezuela) diferirán )

Jeid'19 14

Page 15: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

Reconciliación y enriquecimiento semántico

• Enriquecimiento semántico– Reconciliación: obtención de la URI

del recurso (p.e., http://viaf.org/viaf/124213732)

– Extracción de propiedades a partir de la URI. Dependiendo de las fuentes:• Coordenadas geográficas• Otras formas del nombre• Lugar de nacimiento y defunción• Sedes• Fechas de nacimiento y defunción• Fechas de establecimiento• Descripciones y biografías• Relaciones con otras fuentes

• Selección de fuentes – Fuentes Linked Open Data

• Fuentes bibliográficas• Datos biográficos• Datos geográficos• Datos temporales

– Otras fuentes: • Datos abiertos gubernamentales

– (INE, Instituto Geográfico Nacional, Servicios geográficos CCAA)

• Integración de datos abiertos de una CCAA

– (Ley 18/2015, de 9 de julio, por la que se modifica la Ley 37/2007, de 16 de noviembre, sobre reutilización de la información del sector público)

Jeid'19 15

Page 16: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

Datos bibliográficos: RDA y MARC 21

Jeid'19 16

Page 17: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

Transformación dinámica: de MARC 21 a RDF

Jeid'19 17

Page 18: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

18Jeid'19

Reconciliación y enriquecimientos masivos: proyectos realizados

Page 19: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

Jeid'19 19

Page 20: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

Jeid'19 20

Page 21: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

Jeid'19 21

Page 22: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

Jeid'19 22

Reconciliación y enriquecimientos masivos: proyectos realizados

Page 23: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

Jeid'19 23

Page 24: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

Visibilidad: Wikipedia y Wikidata

Jeid'19 24

Page 25: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

Biblioteca Virtual de la Escuela de Salamanca en Wikipedia y Wikidata

Jeid'19 25

Page 26: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

Wikipedia y Wikidata: concentradores de relaciones y propiedades

Jeid'19 26

http://www.wikidata.org/entity/Q207416

Page 27: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

Agregación de metadatos por medio de servicios SPARQL

Jeid'19 27

Page 28: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

SPARQL

• SPARQL Protocol and RDF Query Language– Búsqueda en descripciones RDF– Recomendación del W3C– Elemento clave para la Web Semántica

• Servicios SPARQL: guía de buenas practicas para la publicación enLinked Open Data– Wikidata– datos.bne.es– data.cervantesvirtual.com– Europeana– Biblioteca Digital de Galicia– ...

Jeid'19 28

Page 29: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

Ejemplo de búsqueda SPARQL: Biblioteca Virtual Miguel de Cervantes

PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>SELECT ?persona ?nombre ?obra ?titulo ?expresion ?manifestacion ?materiaWHERE{{?persona rdfs:label ?nombre . FILTER (regex(?nombre, "Isla, José Francisco de|Juanini, Juan Bautista|Losada, Luis de|Losada, Luís de|Martí, Manuel|Martínez, Crisóstomo|Martínez, Martín|Martínez, Martin|Mayans y

Siscar, Gregorio|Muñoz y Peralta, Juan")) .?persona <http://rdaregistry.info/Elements/a/authorOf> ?obra .?obra <http://rdaregistry.info/Elements/w/manifestationOfWork> ?manifestacion .?obra rdfs:label ?titulo

} UNION{?obra <http://purl.org/dc/elements/1.1/subject> ?materia. FILTER (regex(?materia, "Isla, José Francisco de|Juanini, Juan Bautista|Losada, Luis de|Losada, Luís de|Martí, Manuel|Martínez,

Crisóstomo|Martínez, Martín|Martínez, Martin|Mayans y Siscar, Gregorio|Muñoz y Peralta, Juan")) .?obra <http://rdaregistry.info/Elements/w/manifestationOfWork> ?manifestacion

}UNION{?obra <http://purl.org/dc/elements/1.1/subject> ?persona.?persona rdfs:label ?nombre. FILTER (regex(?nombre, "Isla, José Francisco de|Juanini, Juan Bautista|Losada, Luis de|Losada, Luís de|Martí, Manuel|Martínez, Crisóstomo|Martínez,

Martín|Martínez, Martin|Mayans y Siscar, Gregorio|Muñoz y Peralta, Juan")) .?obra <http://rdaregistry.info/Elements/w/manifestationOfWork> ?manifestacion

}UNION{?expresion <http://rdaregistry.info/Elements/e/translator> ?persona.?persona rdfs:label ?nombre. FILTER (regex(?nombre, "Isla, José Francisco de|Juanini, Juan Bautista|Losada, Luis de|Losada, Luís de|Martí, Manuel|Martínez, Crisóstomo|Martínez,

Martín|Martínez, Martin|Mayans y Siscar, Gregorio|Muñoz y Peralta, Juan")) .?expresion <http://rdaregistry.info/Elements/e/workExpressed> ?obra .?obra <http://rdaregistry.info/Elements/w/manifestationOfWork> ?manifestacion

}UNION{?manifestacion <http://rdaregistry.info/Elements/m/otherPFCManifestation> ?persona.?persona rdfs:label ?nombre. FILTER (regex(?nombre, "Isla, José Francisco de|Juanini, Juan Bautista|Losada, Luis de|Losada, Luís de|Martí, Manuel|Martínez, Crisóstomo|Martínez,

Martín|Martínez, Martin|Mayans y Siscar, Gregorio|Muñoz y Peralta, Juan")) .?manifestacion <http://rdaregistry.info/Elements/m/workManifested> ?obra .

}}

Jeid'19 29

Page 30: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

SPARQL: búsquedas federadas

SELECT ?autor ?nombreautor ?obra ?tituloWHERE{

{SERVICE <http://data.cervantesvirtual.com/openrdf-sesame/repositories/data> {?autor rdfs:label ?nombreautor . FILTER regex((?nombreautor), "Vitoria, Francisco de") .?autor <http://rdaregistry.info/Elements/a/authorOf> ?obra.?obra rdfs:label ?titulo

}

}UNION{ SERVICE <http://datos.bne.es/sparql>

{?autor rdfs:label ?nombreautor. FILTER REGEX ((?nombreautor), "Vitoria, Francisco de")?autor <http://datos.bne.es/def/OP5001> ?obra. ?obra rdfs:label ?titulo.}

}}

Jeid'19 30

Page 31: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

Biblioteca Virtual de la Escuela de Salamanca: Agregación de metadatos, incluyendo SPARQL:

• 1.192 descripciones bibliográficas sobre recursos digitales– Universidades españolas (448)

• Especialmente Granada, Salamanca y La Rioja

– Bayersische Staatsbibliothek(215)

– Bibliotecas de CCAA: 126– Biblioteca Virtual Miguel de

Cervantes: 60– Biblioteca Virtual de

Patrimonio Bibliográfico: 47– Biblioteca Digital Hispánica: 47

• Distintas instituciones europeas: 39 – (Gallica, 10; Goethe Universität,

7...)– Portugal: 13

• Instituciones americanas: 3– Nuevos repositorios pendientes

de recolectar– Biblioteca Digital Hispánica

• Ejemplares digitalizados por la Fundación Ignacio Larramendi: 88

Jeid'19 31

Page 32: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

Reutilización de datos abiertos:

• Obras digitalizadas

• Ediciones digitales

Jeid'19 32

Page 33: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

Reutilización de datos abiertos: servicio SPARQL

Jeid'19 33

Page 34: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

Reutilización de datos abiertos: servicio SPARQL

Jeid'19 34

Page 35: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

Reutilización de datos abiertos: servicio SPARQL

Jeid'19 35

Page 36: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

Principales problemas para la reutilización de metadatos

• Hasta un 35 % de registros eliminados por distintas circunstancias

– Mala calidad de las reproducciones

– Falta de integridad de las reproducciones

– Reproducciones inaccesibles

• enlaces rotos

• requisitos no soportados por los navegadores actuales

Jeid'19 36

Page 37: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

Algunas conclusiones

• Transformación a Linked Open Data:– Tareas ineludibles:

• Asignar HTTP URIs desreferenciables• Seleccionar una ontología (p.e. EDM, BIBFRAME, Schema.org)• Relacionar con fuentes de datos externas• Enriquecer los registros semánticamente

• No es viable reconciliar, enriquecer o agregar metadatos de obras digitalizadas manualmente

• Servicios de reconciliación, enriquecimiento y agregación de datos

Jeid'19 37

Page 38: Tecnologías avanzadas para la reconciliación semántica y ... · –Integrar el trabajo de los proyectos Linked Open Data en los flujos de trabajo habituales –Mejorar los datos

Muchas gracias

• Xavier Agenjo• [email protected]

• Francisca Hernández• [email protected]

• César Juanes• [email protected]

Jeid'19 38