linked data pro evropský sociální fond

42
Využití principů Linked Data v rámci webových aplikací ESF ČR Martin Nečaský, Ph.D. [email protected] Matematicko-fyzikální fakulta Univerzity Karlovy http://xrg.cz http://opendata.cz

Upload: martin-necasky

Post on 12-May-2015

3.663 views

Category:

Documents


0 download

DESCRIPTION

In Czech.

TRANSCRIPT

Page 1: Linked Data pro Evropský sociální fond

Využití principů Linked Data v rámci

webových aplikací ESF ČR

Martin Nečaský, Ph.D.

[email protected]

Matematicko-fyzikální fakulta Univerzity Karlovy

http://xrg.cz

http://opendata.cz

Page 2: Linked Data pro Evropský sociální fond

Architektura klasického webu

Jednotný globální prostor dokumentů Postavený na několika standardech:

• HTML jako formát pro publikaci dokumentů

• URL jako jednoznačné globální identifikátory dokumentů

• HTTP protokol pro vyhledávání a získávání dokumentů dle jejich URL

• odkazy pro propojování dokumentů

Nad prostorem dokumentů pracují aplikace dvou typů:

• webové prohlížeče (přístup k dokumentům dle URL + procházení přes hypertextové odkazy)

• vyhledávače (indexace a fulltextové vyhledávání v dokumentech)

Databáze A

HTML

Databáze B

HTML

Databáze D

HTML

Databáze C

HTML

Webový prohlížeč

Vyhledávač

HTTP

HTTP

Page 3: Linked Data pro Evropský sociální fond

Co umožňuje klasický web?

Můžeme publikovat dokumenty tak, aby si je každý mohl ve svém prohlížeči zobrazit, pokud zná jejich URL.

Vazby nám umožňují dostat se i na dokumenty, jejichž URL přímo neznáme:

Procházení odkazů vedoucích z jiných dokumentů

Z katalogů odkazů

Fulltextové vyhledání dokumentů (klíčová slova)

Page 4: Linked Data pro Evropský sociální fond

Co neumožňuje klasický web?

Problém klasického webu je orientace na dokumenty místo na entity, o kterých dokumenty mluví. entita = entita z reálného světa, o níž chceme na webu

publikovat nějaká data

např. instituce, kniha, osoba, smlouva, zakázka, ...

Data o jedné entitě jsme nuceni zakódovat do dokumentu na webu v podobě, která neumožňuje strojové zpracování

propojování a sdílení míst, kde se o entitě mluví

propojování entity na související entity

(viz příklady na následujících slajdech)

Page 5: Linked Data pro Evropský sociální fond

Co neumožňuje klasický web?

Získat všechna data publikována o entitě „Martin Nečaský“ v dokumentech na webu

Sdílení dat mezi portály Portál může spravovat jen

data o entitě, která jsou v jeho primárním zájmu.

Ostatní (sekundární) data může čerpat z jiných portálů.

Page 6: Linked Data pro Evropský sociální fond

Co neumožňuje klasický web?

Jak pomocí odkazů říci, že stránky pojednávají o stejné entitě? Jak vyznačit, kde jsou data o entitě určená pro sdílení? Jak mohu na své stránce využít data z jiných stránek?

Page 7: Linked Data pro Evropský sociální fond

Co neumožňuje klasický web?

Odpovídat na složitější vyhledávací dotazy:

Jaká témata Martin vyučuje?

Na jakých školách Martin vyučuje?

Na jakých projektech Martin pracuje?

S kým Martin spolupracuje?

Page 8: Linked Data pro Evropský sociální fond

Lze na webu publikovat i data?

Současnou výzvou tedy je publikovat nejenom dokumenty, ale i zdrojová data o entitách. Aby web mohl poskytnout i výše uvedené služby.

Již dnes ale přeci na webu publikujeme často právě i zdrojová data určená pro další zpracování.

Známe dokonce 2 způsoby publikace dat: Datové soubory mají také svoje jednoznačné URL a

data reprezentují v různých formátech. • XML, CSV, XLS, ...

Pokročilým způsobem publikace dat jsou tzv. datová API (součástí konceptu web 2.0).

Page 9: Linked Data pro Evropský sociální fond

Architektura webu 2.0

Různá API poskytují strojově čitelná data pro další zpracování v tzv. mashup aplikacích. Také postaveny na několika jednoduchých standardech:

• XML/JSON jako formáty pro publikaci dat

• HTTP protokol pro získávání dat

Ale pozor • chybí URL identifikátory (resp. jsou

používány, ale nevhodně) • chybí odkazy mezi daty

Databáze A

Databáze B

Databáze D

Databáze C

Aplikace

Aplikace

HTTP

Data API

Data API

Data API

Data API

HTTP

HTTP HTTP

Page 10: Linked Data pro Evropský sociální fond

Současné principy a technologie mají řadu nedostatků! Je potřeba si uvědomit, že jednotkou pro publikaci není soubor s

daty ale entita (většinou objekt reálného světa), o které chceme data publikovat.

Publikace dat o entitách ale není postavena na principech, které už byly jednou vynalezeny pro publikaci dokumentů.

Publikace dat na webu

Svět dokumentů Svět dat

HTML jako formát pro publikaci dokumentů formátů pro publikaci dat používáme řadu (XML, JSON, CSV, XLS, ...)

URL jako jednoznačné globální identifikátory dokumentů

entitám nepřiřazujeme žádné globální identifikátory

HTTP protokol pro vyhledávání a získávání dokumentů dle jejich URL

HTTP protokol bychom mohli použít (REST), ale nemáme URL identifikátory věcí

odkazy pro propojování dokumentů žádný z používaných formátů neumožňuje propojování souvisejících entit

Máme web dokumentů

Ale nemáme web dat

Page 11: Linked Data pro Evropský sociální fond

Srovnání webu dokumentů a publikace dat

na webu

Můžeme publikovat dokumenty tak, aby si je každý mohl ve svém prohlížeči zobrazit, pokud zná jejich URL.

Vazby nám umožňují dostat se i na dokumenty, jejichž URL přímo neznáme: Procházení odkazů

vedoucích z jiných dokumentů

Z katalogů odkazů Fulltextové vyhledání

dokumentů (klíčová slova)

Můžeme publikovat entity tak, aby si je každý mohl ve svém prohlížeči zobrazit, pokud zná jejich URL.

Vazby nám umožňují dostat se i na entity, jejichž URL přímo neznáme: Procházení odkazů

vedoucích z jiných entit

Z katalogů odkazů Fulltextové vyhledání

entit (klíčová slova)

Page 12: Linked Data pro Evropský sociální fond

Linked Data

principy Linked Data = sada „best practices“ pro publikaci, sdílení a propojování entit a dat o nich na webu

využití standardů současného Webu pro publikaci a přístup k entitám a datům o nich ve strojově čitelné podobě (publishing data)

možnost vytvářet vazby mezi souvisejícími entitami a publikovat vazby jako součást dat pro jejich strojové zpracování (linking data)

+ tajná zbraň, o které se zmíníme později

Page 13: Linked Data pro Evropský sociální fond

Publikace a přístup k datům

data = entity, údaje o nich a vazby mezi nimi entita = organizace, projekt, zakázka, lék, ... údaj o věci = název organizace, IČ organizace vazba = zakázka je realizovaná v rámci projektu, organizace je

příjemcem projektu, účinná látka je obsažená v léku

Svět dokumentů Svět Linked Data

HTML jako formát pro publikaci dokumentů RDF jako formát pro publikaci entit

URL jako jednoznačné globální identifikátory dokumentů

URL jako jednoznačné globální identifikátory entit

HTTP protokol pro vyhledávání a získávání dokumentů dle jejich URL

HTTP protokol pro vyhledávání a získávání entit dle jejich URL

odkazy pro propojování dokumentů vazby pro propojování entit

+ a jdeme ještě dál, je tu ta tajná zbraň

Máme web dokumentů

Máme web dat!

Page 14: Linked Data pro Evropský sociální fond

Údaje o entitách a vazby mezi nimi

Page 15: Linked Data pro Evropský sociální fond

URL jako identifikátory entit

Page 16: Linked Data pro Evropský sociální fond

Vazby jsou chápány také jako entity

Page 17: Linked Data pro Evropský sociální fond

RDF reprezentace

RDF je datový model reprezentuje entity, datové hodnoty a vazby v podobě RDF

grafu každá entita a datová hodnota tvoří uzel každá vazba mezi dvěma entitami nebo mezi entitou a datovou

hodnotou tvoří hranu entity i vazby mají svá URL

Page 18: Linked Data pro Evropský sociální fond

Zápis RDF reprezentace

RDF graf je vždy zapsán jako množina trojic

trojice popisuje jednu vazbu ve tvaru

subjekt predikát objekt

trojice jsou zapisovány ve vhodné notaci

RDF/XML, RDFa, N3, Turtle, JSON

Page 19: Linked Data pro Evropský sociální fond

Zápis RDF reprezentace - Turtle <http://esfcr.cz/data/projekt/CZ10421016300169>

esf:nazev "INNOSTART" ;

esf:registracni_cislo "CZ.1.04/2.1.01/63.00169" ;

esf:castka "4711681" ;

esf:realizace_od "2011-06-01" ;

esf:realizace_do "2013-03-31" ;

esf:realizator <http://esfcr.cz/data/institution/25438352> ;

esf:partner <http://esfcr.cz/data/institution/25438352> ;

esf:kontaktni_osoba <http://esfcr.cz/data/person/8541274571> ;

esf:region <http://esfcr.cz/data/kraj/ustecky> .

Page 20: Linked Data pro Evropský sociální fond

Přístup přes HTTP protokol

Webový prohlížeč

esfcr.cz

HTTP (HTML)

http://esfcr.cz/.../projekt/ CZ10421016300169

Aplikace

HTTP (RDF)

<http://esfcr.cz/data/projekt/CZ10421016300169>

esf:nazev "INNOSTART" ;

esf:registracni_cislo "CZ.1.04/2.1.01/63.00169" ;

esf:castka "4711681" ;

esf:realizace_od "2011-06-01" ;

esf:realizace_do "2013-03-31" ;

esf:realizator <http://esfcr.cz/.../25438352> ;

esf:partner <http://esfcr.cz/.../25438352> ;

esf:kontaktni_osoba <http://esfcr.cz/.../8541274571>;

esf:region <http://esfcr.cz/.../ustecky> . http://esfcr.cz/.../projekt/ CZ10421016300169

Page 21: Linked Data pro Evropský sociální fond

Propojování objektů napříč datovými zdroji

Page 22: Linked Data pro Evropský sociální fond

Propojování objektů napříč datovými zdroji

ESFCR

ESFDB RISY

strukturalni-fondy.cz

OPPI

OPD

ROP *

Zakázky

Obchodní rejstřík

Rozpočty

Školy

Územní celky

Page 23: Linked Data pro Evropský sociální fond

LOD cloud

Pokud se někdo z lokálního „cloudu“ napojí na LOD cloud, profitují z napojení všichni

Propojování mohou vznikat postupně a v různé kvalitě; kvantita i kvalita propojení se může postupně zvyšovat

ESFCR

ESFDB RISY

strukturalni-fondy.cz

OPPI

OPD

ROP * Zakázky

Obchodní rejstřík

Rozpočty

Školy

Územní celky

Page 24: Linked Data pro Evropský sociální fond

Ukázka z LOD cloudu

http://dbpedia.org/resource/Most http://dbpedia.org/resource/Ústí_nad_Labem_Region

Page 25: Linked Data pro Evropský sociální fond

Rekapitulace Linked Data

Svět Linked Data

RDF jako formát pro publikaci entit

URL jako jednoznačné globální identifikátory entit

HTTP protokol pro vyhledávání a získávání entit dle jejich URL

vazby pro propojování entit

+ a nyní ta tajná zbraň

Page 26: Linked Data pro Evropský sociální fond

Tajná zbraň = Ontologie (slovníky)

web dokumentů zná jen dva jednoduché koncepty dokumenty hypertextové nevýznamové odkazy mezi dokumenty

web dat zná řadu různých konceptů entity mnoha významů (typů)

• osoby, města, projekty, rozpočty, ...

významová propojení mezi entitami a jejich datovými hodnotami i mezi entitami navzájem • jméno osoby, jméno města, region projektu, ....

významy jsou důležité pro strojové zpracování významy jsou zachyceny v tzv. ontologiích

• tento pojem web dokumentů NEZNÁ

Page 27: Linked Data pro Evropský sociální fond

Tajná zbraň = Ontologie (slovníky)

popisují strukturu a sémantiku dat

související ontologie vzájemně propojeny interoperabilita

Page 28: Linked Data pro Evropský sociální fond

Tajná zbraň = Ontologie (slovníky)

http://labs.mondeca.com/dataset/lov/

Page 29: Linked Data pro Evropský sociální fond

Tajná zbraň = Ontologie (slovníky)

schema.org CreativeWork, Book, Movie, MusicRecording, Recipe,

TVSeries ...

AudioObject, ImageObject, VideoObject

Event

Organization

Person

Place, LocalBusiness, Restaurant ...

Product, Offer, AggregateOffer

Review, AggregateRating

+ mnoho dalších

Page 30: Linked Data pro Evropský sociální fond

Jak s LD pracovat?

Bohužel dnes není technicky možné pracovat s celým LOD cloudem

Současné projekty využívají LD principů k publikaci a obohacování vlastních dat

Výběr konkrétních obohacujících datasetů (přístup přes HTTP URI nebo pomocí jazyka SPARQL)

Napojení vlastních dat na zvolené externí datasety

Page 31: Linked Data pro Evropský sociální fond

Publikace

Co nabízí MFF UK?

Veřejná Linked Data

Veřejné zdroje (HTML, Excel, ...)

Neveřejná interní databáze

Analýzy Vizualizace

APP

APP

APP

Reference: • veřejné zakázky

a související data pro LOD2 a DG Market

• rozpočty a účetní informace ze systému ÚFIS

• OGP pro Vládu ČR a MV ČR

• legislativa ČR v rámci výzkumného projektu INTLIB (TAČR)

• vlastní iniciativa OpenData.cz

Služby: • semináře,

školení • průzkum

možností využití LD ve vaší organizaci (obohacování dat o LD, publikace dat jako LD)

• vývoj aplikací nad LD

• konverze existujících veřejných datových zdrojů do LD (HTML, Excel)

• ...

- extrakce - deduplikace - čištění - propojování - odvozování

ETL

Page 32: Linked Data pro Evropský sociální fond

Co znamená publikovat vlastní LD?

Analýza vlastních dat Jaká máme data? Co můžeme/chceme publikovat? Jak data v různých našich databázích spolu souvisí? Jak souvisí s daty

jiných subjektů?

Strukturovaný popis domény Popis struktury a sémantiky dat, které chceme zveřejnit?

Návrh ontologie Jaké již existují používané ontologie pokrývající náš doménový model? Návrh vlastní ontologie pro části nepokryté existujícími ontologiemi. Mapování vlastní nové ontologie konceptů na existující ontologie.

Export dat Skripty exportující data do podoby navržené ontologie. Propojení dat s existujícími daty v LOD cloudu.

Publikace dat Aplikace nad daty

Lze nechat na někom jiném

Page 33: Linked Data pro Evropský sociální fond

Příklad publikace LD (Veřejné zakázky) Analýza a popis domény

Page 34: Linked Data pro Evropský sociální fond

Příklad publikace LD (Veřejné zakázky) Návrh ontologie

Page 35: Linked Data pro Evropský sociální fond

Příklad publikace LD (Veřejné zakázky) Publikace dat

http://ld.opendata.cz/resource/business-entity/00276111

data o Semilech vytvořená v rámci OpenData.cz dle navržené ontologie

http://ld.opendata.cz/resource/municipality/00276111

jiná data o Semilech

všimněte si vazeb sameAs

Page 36: Linked Data pro Evropský sociální fond

Příklad publikace LD (Veřejné zakázky) Aplikace nad daty

http://ld.opendata.cz/demo

demo aplikace nad Linked Daty o veřejných zakázkách v celé EU

data vytěžená z TED, národních portálů (např. isvzus.cz) + DBPedia

Page 38: Linked Data pro Evropský sociální fond

LD principy zlepšují atributy kvality

datové infrasturktury Propojitelnost

Mohu snadno propojovat svá data na jiná data. Svá data tak obohatím o nová související data, která ale nemusím udržovat ve své databázi.

Dohledatelnost Ostatní mohou efektivněji nalézt má data díky propojením na jiná data.

Kontextovost Na moje data lze nahlížet z různých kontextů daných vazbami na jiná data.

Neúplnost Data o objektech a především propojení mezi objekty lze budovat a zveřejňovat postupně. Propojení

nemusejí být zdaleka úplná (jak kvantitativně tak kvalitativně). Už při malém množství propojení se přínosy projeví.

Distribuovatelnost Data a propojení mezi nimi není nutné publikovat „u zdroje“. Může je publikovat kdokoliv a kdekoliv.

Souvislost Díky propojením tvoří data souvislý datový prostor, se kterým mohou aplikace pracovat jako s jednou

databází.

Pluralita Různí lidé mohou publikovat různá (i protichůdná) tvrzení o stejném objektu. Lze tak reflektovat běžné

situace ve společnosti.

Modifikovatelnost (flexibilita) Datová infrastruktura je odolná vůči změnám. Změny (např. mazání dat) mohou být jen na úrovni

jednotlivých trojic a nezasahují jiné trojice. Jsou tak maximálně lokalizovány. A to jak na úrovni instancí, tak na úrovni schémat (ontologií).

Transparentnost V datech lze také zaznamenat, kdo, kde, kdy a pod jakou licencí data publikoval.

Page 39: Linked Data pro Evropský sociální fond

Co přinášejí LD pro vydavatele dat

rozložení nákladů na různé činnosti s daty v čase mezi jednotlivé uživatele činnosti

• publikace – data mohu publikovat postupně a publikuji jen svá primární data (na sekundární se napojím)

• aktualizace – aktualizuji ve své databázi jen svá primární data, sekundární data aktualizují jejich správci a díky propojením se o aktualizacích hned dozvím

• propojování – nemusím propojení vytvářet sám a nemusím hned vytvářet přesná propojení; ostatní uživatelé infrastruktury mi pomohou s kvantitou i kvalitou propojení

obohacování dat zveřejněním dat v podobě LD a vytvořením relativně malého množství

propojení obohatím svá data o všechna související data v LOD cloudu s obohacováním mi pomáhají všichni uživatelé LOD cloudu uživatelé mi pomáhají se zvyšováním kvality mých dat (mohou chyby v

mých datech opravovat tak, že své opravy publikují v LOD cloudu)

Page 40: Linked Data pro Evropský sociální fond

Co přinášejí LD pro tvůrce aplikací?

získávají jednotný formát, ve kterém mohou konzumovat data z různých zdrojů

z dat se díky propojením snadno dostanou na související data

získávají přístup k celosvětové distribuované databázi (LOD cloudu), kterou mohou využít ve své aplikaci databáze navíc kontinuálně roste a zvyšuje svoji

informační hodnotu

vědí, od koho data pocházejí a pod jakou licencí jsou publikována

Page 41: Linked Data pro Evropský sociální fond

Enterprise Linked Data

pojem označující využívání LD principů uvnitř organizace v případech, kdy se svými daty nemůže nakládat zcela

otevřeně (osobní či jiné chráněné údaje)

jedná se o architektonický styl budování datové infrastruktury uvnitř organizace navíc velmi přirozený, neboť je postaven na běžných

technologiích (URI, HTTP, ...) – fungují stávající nástroje

přináší všechny výhody LD do organizace viz atributy kvality výše

umožňuje využívat externí otevřená LD z LOD cloudu uvnitř organizace pro obohacování vlastních dat organizace

Page 42: Linked Data pro Evropský sociální fond

Příklady ze světa

BBC US and UK Government NY Times Best Buy Sears Kmart Overstock Google Nature mnoho dalších (viz LOD cloud)