semantic web and library
DESCRIPTION
เทคโนโลยีเว็บเชิงความหมายกับการประยุกต์ใช้งานทางด้านห้องสมุดTRANSCRIPT
เทคโนโลยเวบเชงความหมายกบ การประยกตใชงานทางดานหองสมด
Semantic Web Technology for Library Applications
ดร.มารต บรณรช
หนวยปฏบตการวจยวทยาการมนษยภาษา
ศนยเทคโนโลยอเลกทรอนกสและคอมพวเตอรแหงชาต (NECTEC)
การประชมวชาการประจ าป 2554 ฝายบรการความรทางวทยาศาสตรและเทคโนโลย (STKS) วนท 21 กรกฎาคม 2554
หวขอบรรยาย
แนวโนมการพฒนาเทคโนโลยส าหรบหองสมด (Evolution of Libraries)
แนะน าเทคโนโลยเวบเชงความหมาย (Semantic Web Technology)
มาตรฐานขอมล RDF, RDFS, OWL, SPARQL
การประยกตเทคโนโลยเวบเชงความหมายกบงานดานหองสมด
การบรณาการขอมล RDF ในแบบขอมลทมการเชอมโยง (Linked Data)
การสบคนขอมล RDF ในแบบการคนหาตามมต (Faceted Search)
2
แนวโนมการพฒนาเทคโนโลยส าหรบหองสมด (Evolution of Libraries)
หองสมด (Libraries)
หองสมดดจตอล (Digital Libraries)
หองสมด (Library)
สถานทเกบ: หองเกบหนงสอและเอกสาร
การลงรายการ: บตรรายการหนงสอ (Catalog Card)
ผชวยคนหา: บรรณารกษ
5
หองสมด (Library) (2)
จดเดน
สามารถปรกษาบรรณารกษได หากมขอสงสย หาหนงสอไมพบ
หองสมดมสภาพแวดลอมทด สามารถพบปะผอน
จดดอย
ตองใชสถานทและพนทในการจดเกบหนงสอ และเอกสารตางๆ
หองสมดหลายแหงมไดเชอมโยงกน บางครงผใชตองเดนทางไปยงหองสมดหลายแหงเพอใหไดขอมลทตองการ
6
หองสมดดจตอล (Digital Library)
สถานทเกบ: หนงสอและเอกสารจดเกบในฐานขอมล
การลงรายการ: เมตาดาตา (Metadata)
ผชวยคนหา: ระบบสบคนขอมล (Full-text search)
7
หองสมดดจตอล (Digital Library) (2)
จดเดน
สามารถเขาถงไดแบบออนไลน (Online Access) ผานอนเทอรเนต
ประหยดเนอทในการจดเกบ ประหยดเวลาเดนทาง
จดดอย
ผใชโดดเดยว ไมสามารถสอบถามบรรณารกษไดหากคนหาเรองทตองการไมพบ (เชน ใส keyword ในการคนหาไมถกตอง)
ยงขาดการเชอมโยงระหวางระบบหองสมดดจตอลตางระบบ (Library interconnections)
8
หองสมดดจตอลในยคตอไป (Next-generation Digital Library)
สถานทเกบ: หนงสอและเอกสารจดเกบในฐานขอมล บนเวบ
การลงรายการ:
เมตาดาตาทมการบรณาการ (Integrated Metadata)
เมตาดาตาทผใชเปนผปอนขอมล (Social Metadata)
ผชวยคนหา: ระบบการคนหาทชาญฉลาด (Smart Search and Browsing)
9
หองสมดดจตอลในยคตอไป (Next-generation Digital Library) (2)
จดเดน
การบรณาการขอมลเมตาดาตาตางมาตรฐาน เพอการเชอมโยงระบบหองสมดดจตอลตางระบบ (Library Interoperability)
การสบคนขอมลทใชขอมลอนๆ มาชวยในการเพมประสทธภาพในการคนหาขอมล เชน ขอมลปจเจกวธาน (folksonomy), ขอมลสวนตวของผใช (user profiles/ preferences), ออนโทโลย (ontology) เปนตน
10
เทคโนโลยเวบเชงความหมาย (Semantic Web Technology)
เทคโนโลยเวบเชงความหมาย เปนกลมมาตรฐานขอมลเพอการจดการขอมลในแบบเมตาเดตา (Metadata) ส าหรบเวบ
RDF (Resource Description Framework)
OWL (Web Ontology Language)
SPARQL (An RDF query language)
SKOS (Simple Knowledge Organization System)
ตวอยางการประยกตใชงานในปจจบน:
วกเชงความหมาย (Semantic Wikis)
การบรณาการขอมลโดยใชมาตรฐาน RDF (Linked Data)
ระบบหองสมดดจตอล (Digital Libraries)
11
เทคโนโลยเวบเชงความหมายส าหรบหองสมดดจตอล
ชวยในการบรณาการขอมลทใชมาตรฐานแตกตางกนจากตางระบบ
บรณาการขอมลเมตาดาตาตางมาตรฐาน (เชน Dublin Core, Marc21) โดยใชมาตรฐาน RDF
บรณาการขอมลทมาจากระบบหองสมดดจตอลตางระบบ รวมทงขอมลจากแหลงขอมลอนๆ บนอนเทอรเนตดวยมาตรฐาน RDF
ชวยเพมประสทธภาพการสบคนขอมลดวยเทคนคการสบคนแบบใหมๆ เชน
การสบคนขอมลตามออนโทโลย (Ontology-based search) หรอการสบคนขอมลตามมต (Faceted search)
การน าขอมลเฉพาะบคคลของผใช รวมทงขอมลจากผใชคนอนๆ มาชวยในการสบคน เชน User Profile/ Preference, Folksonomy, Bookmark เปนตน
12
หองสมดดจตอล vs. เทคโนโลยเวบเชงความหมาย
หองสมดดจตอล เทคโนโลยเวบเชงความหมาย
• มขอมลเมตาเดตาอยแลว • เมตาเดตามหลากหลาย
มาตรฐาน เชน Dublin Core, Marc21, FRBR เปนตน
• ก าหนดกรอบการบรณาการขอมลเมตาเดตาตางมาตรฐานโดยใชมาตรฐาน RDF
13
หองสมดดจตอล vs. เทคโนโลยเวบเชงความหมาย (2)
หองสมดดจตอล เทคโนโลยเวบเชงความหมาย
• มค าศพทควบคม (Controlled Vocabulary) ทงในแบบของอนกรมวธาน (Taxonomy) หรอ อรรถาภธาน (Thesaurus) ใชงานอยแลว เชน Library of Congress Classification (LCC), Dewey Decimal Classification (DDC), Medical Subject Headings (MeSH)
• ท าใหชดค าศพทควบคมอยในแบบทประมวลผลไดโดยโปรแกรมคอมพวเตอร (machine understandable) และสามารถบรณาการกนได
• ก าหนดมาตรฐานขอมลออนโทโลย ไดแก RDF Schema, OWL, SKOS
14
แนะน าเทคโนโลยเวบเชงความหมาย (Semantic Web technology)
Peter Haase and Denny Vrandečić, AIFB, Universität Karlsruhe (TH) Asian School for the Semantic Web ASSW2008, Bangkok, Thailand – December 2008
Slide 16
Universal Access to All Knowledge
17
18
19
20
21
Angola
Africa
Zambia
Country Continent
22
Angola
Africa
Zambia
Country Continent
type
Country
Continent
23
Angola
Africa
Zambia
Country Continent
24
Angola
Africa
Zambia
Country
Continent
type
Slide 25
RDF
A set of triples
Triples are Subject, Predicate, Object
26
http://semanticweb.org/id/Denny_Vrandecic
URIs / IRIs
URIs are “Uniform Resource Identifiers”
– IRI: Unicode-based “Internationalized Resource Identifiers”
Every URI identifies one entity
Semantic Web URIs usually use HTTP
– HyperText Transfer Protocol
– Can be resolved to get more data (ideally)
– Linked data
QName as abbreviation (Qualified Name)
Protocol Domain Local name
thing:Denny_Vrandecic Prefix
Namespace
28
Angola
Africa
Zambia
Country
Continent
type
29
http://ontoworld.org/id/Angola
http://ontoworld.org/id/Africa
http://ontoworld.org/id/Zambia
Angola
http://www.w3.org/2000/01/rdf-schema#label
Africa
Located in
Zambia
Country
Borders
Continent http://ontoworld.org/id/Category:Country
http://ontoworld.org/id/Category:Continent
http://www.w3.org/1999/02/22/rdf-syntax-ns#type
30
http://ontoworld.org/id/Angola
http://ontoworld.org/id/Africa
http://ontoworld.org/id/Zambia
ประเทศแองโกลา
http://www.w3.org/2000/01/rdf-schema#label
ทวปแอฟรกา
แหง
ประเทศแซมเบย
ประเทศ
ชายแดน
ทวป http://ontoworld.org/id/Category:Country
http://ontoworld.org/id/Category:Continent
http://www.w3.org/1999/02/22/rdf-syntax-ns#type
31
ประเทศแองโกลา
ทวปแอฟรกา
ประเทศแซมเบย
ประเทศ
ทวป
32
Angola
Africa
Zambia
Country Continent
Slide 33
RDF
A set of triples
Triples are Subject, Predicate, Object
Subjects and Predicates are URIs
Objects are URIs or Literals
– Literals are concrete data values
– e.g. the integer 27 or the date Dec 1, 2008
34
http://ontoworld.org/id/Angola
http://ontoworld.org/id/Africa
http://ontoworld.org/id/Zambia
Angola
http://www.w3.org/2000/01/rdf-schema#label
Africa
Located in
Zambia
Country
Borders
Continent http://ontoworld.org/id/Category:Country
http://ontoworld.org/id/Category:Continent
http://www.w3.org/1999/02/22/rdf-syntax-ns#type
Slide 35
Slide 36
RDF
A set of triples
Triples are Subject, Predicate, Object
Subjects and Predicates are URIs
Objects are URIs or Literals
– Literals are concrete data values
– e.g. the integer 27 or the date Dec 1, 2008
Several serialization formats like RDF/XML, N3, etc.
37
Slide 38
SPARQL : RDF Query Language
PREFIX rdfs:
<http://www.w3.org/2000/01/rdf-schema#>
PREFIX thing:
<http://ontoworld.org/id/>
PREFIX relation:
<http://ontoworld.org/id/Relation:>
SELECT ?label
WHERE {
thing:Angola relation:Located_in ?c.
?c rdfs:label ?label
}
39
http://ontoworld.org/id/Angola
http://ontoworld.org/id/Africa
http://ontoworld.org/id/Zambia
Angola
http://www.w3.org/2000/01/rdf-schema#label
Africa
Located in
Zambia
Country
Borders
Continent http://ontoworld.org/id/Category:Country
http://ontoworld.org/id/Category:Continent
http://www.w3.org/1999/02/22/rdf-syntax-ns#type
40
RDF Schema
Define relations between terms to give formal semantics
In RDF(S): – subClassOf
– subPropertyOf
– And others (domain, range, list, collection, etc.)
Example: – Country subClassOf Location
– Continent subClassOf Location
Allows inferences – Angola type Country
– Country subClassOf Location
– -> Angola type Location
42
Angola
Africa
Zambia
Country Continent
Location
43
http://ontoworld.org/id/Angola
http://ontoworld.org/id/Africa
http://ontoworld.org/id/Zambia
Angola
http://www.w3.org/2000/01/rdf-schema#label
Africa
Located in
Zambia
Country
Borders
Continent http://ontoworld.org/id/Category:Country
http://ontoworld.org/id/Category:Continent
http://ontoworld.org/id/Category:Location
Location
http://www.w3.org/2000/01/rdf-schemas#subClassOf
http://www.w3.org/1999/02/22/rdf-syntax-ns#type
Slide 44
RDF Schema
Define relations between terms to give formal semantics
In RDF(S): – subClassOf
– subPropertyOf
– And others (domain, range, list, collection, etc.)
Example: – Country subClassOf Location
– Continent subClassOf Location
Allows inferences – Angola type Country
– Country subClassOf Location
– -> Angola type Location
45
http://ontoworld.org/id/Angola
http://ontoworld.org/id/Africa
http://ontoworld.org/id/Zambia
Angola
http://www.w3.org/2000/01/rdf-schema#label
Africa
Located in
Zambia
Country
Borders
Continent http://ontoworld.org/id/Category:Country
http://ontoworld.org/id/Category:Continent
http://ontoworld.org/id/Category:Location
Location
http://www.w3.org/2000/01/rdf-schemas#subClassOf
http://www.w3.org/1999/02/22/rdf-syntax-ns#type
46
Angola
Africa
Zambia
Country Continent
Location
Slide 47
Semantic Web
Angola
Zambia
Africa
Continent
African Elephant
Indian
Elephant
Mammal
Animal
Gorilla
Egypt
Pig
Alexandria
Memphis
Alexander the Great
China
Ceylon
India
Airline
Asia
Hotel Restaurant
Enterprise
Airport Vacation
Plant Vegeterian restaurant
Europe
Earth
Inchineon
Mumbay Airport
Mumbay
Cell
DNA
Genom
Lao Tse Aristotle
Philosophy
48
49
50
Universal Access to All Knowledge
การประยกตเทคโนโลยเวบเชงความหมาย กบงานดานหองสมด Semantic Web Applications for Libraries
การประยกตเทคโนโลยเวบเชงความหมาย กบงานดานหองสมด
การบรณาการขอมล RDF ในแบบขอมลทมการเชอมโยง (Linked Data)
การสบคนขอมล RDF ในแบบการคนหาตามมต (Faceted Search)
52
การบรณาการขอมล RDF ในแบบ Linked Data
เวบในปจจบน
เวบในปจจบนเปนการเชอมโยงหนาเวบโดยใช Hypertext links หรอ เวบของเอกสาร (Web of Documents)
ขอมลถกน าเสนอในแบบทใหผใชอานและน าไปใชประโยชนโดยตรง
โปรแกรมคอมพวเตอรน าขอมลไปใชประโยชนไดยาก
53
การบรณาการขอมล RDF ในแบบ Linked Data (2)
Linked Data (http://linkeddata.org/)
น าขอมลทมอยในฐานขอมลอยเผยแพรในแบบขอมลตามแบบมาตรฐานขอมล RDF
ขอมลสามารถอางองไปยงขอมล RDF จากแหลงขอมลอนๆ ได
เพอใหสะดวกตอโปรแกรมคอมพวเตอรน าไปใชงาน
Slides from Tim Berners-Lee’s Linked Data Talk at TED 2009 54
Documents vs. Linked Data
สรางหนาเวบ (Web documents) จากฐานขอมล (Database)
55
Documents vs. Linked Data (2)
สรางหนาเวบ (Web documents) และขอมล RDF ในแบบ Linked Data จากฐานขอมล (Database)
56
Linked Data ม 5 ระดบ
★ ขอมลเขาถงไดผานเวบในรปแบบใดกตาม ในแบบไมมลขสทธ (open license)
★★ ขอมลอยในแบบทมโครงสราง (structured data) เชน ในแบบไฟล MS Excel เปนตน
★★★ ขอมลอยในแบบทมโครงสราง และใชมาตรฐานเปด เชน ในแบบไฟล CSV เปนตน
★★★★ ขอมลในแบบทมโครงสราง และใชมาตรฐานเปดของ W3C ไดแก ขอมลแบบ RDF ซงตองใช URI ในการอางองถงสงตางๆ ในฐานขอมล
★★★★★ ขอมลในแบบเดยวกบระดบท 4 และมการเชอมโยง (linked) โดยอางถงขอมลจากแหลงขอมล RDF อนๆ ดวย
http://www.w3.org/DesignIssues/LinkedData.html 57
ตวอยางหนวยงานทเผยแพรขอมล ในแบบ Linked Data
UK Government
US Government
BBC
Open Calais – Thomson Reuters
Freebase
NY Times
Best Buy
CNET
Dbpedia
58
Data.gov.uk – Opening up government
http://data.gov.uk/linked-data/
BBC Ontologies
http://www.bbc.co.uk/ontologies
60
http://www.bbc.co.uk/nature/life
62
63
64
การเตบโตของ Linked Data
เรมตนป 2007
65
ป 2010
66
Library Linked Data (LLD)
http://ckan.net/group/lld
67
Library Linked Data (LLD) (2)
1. AGROVOC
2. BibBase
3. Calames
4. Chronicling America
5. Gemeinsame Normdatei (GND)
6. Europeana Linked Open Data
7. Freebase
8. TheSoz Thesaurus for the Social Sciences (GESIS)
9. Hungarian National Library (NSZL) catalog
10. IdRef: Sudoc authority data
11. Library of Congress Subject Headings
12. LCSubjects.org Library of Congress Subject Headings
13. LIBRIS
14. LinkedLCCN
15. Linked Periodicals Database
16. lobid. Index of libraries and related organisations
17. lobid. Bibliographic Resources
68
Library Linked Data (LLD) (3)
18. medline
19. Web NDL Authorities - National Diet Library of Japan
20. National Diet Library of Japan subject headings
21. Norwegian Medical Subject Headings (MeSH)
22. Norsk inndeling av vitenskapsdisipliner
23. The Open Library
24. Polythematic Structured Subject Heading System
25. Rådata nå!
26. RAMEAU subject headings (STITCH)
27. Sudoc bibliographic data
28. Thesaurus for Graphic Materials (t4gm.info)
29. Open Library data mirror in the Talis Platform
30. TEKORD
31. Thesaurus W for Local Archives
32. theses.fr
33. Linked Data Service der Universitätsbibliothek Mannheim
34. VIAF: The Virtual International Authority File
35. Yleinen suomalainen asiasanasto - YSA
36. 20th Century Press Archives
69
The British National Bibliography
http://www.bl.uk/bibliographic/datafree.html
70
The British National Bibliography (2)
71
Library of Congress Authorities and Vocabularies
72
http://id.loc.gov/
Library of Congress Authorities and Vocabularies (2)
RDF Data (adopting SKOS, Dublin Core) 73
Dewey Summaries
http://dewey.info
74
LOD-LAM Summit at Linked Data and Libraries 2011
http://lod-lam.net 75
ปญหาของการสบคนขอมลในระบบหองสมดดจตอล
การบราวสขอมล (Browse) ในระบบหองสมดดจตอล มการออกแบบสวนตดตอกบผใชทแตกตางกนในแตละแหลงขอมล (collection)
ระบบหองสมดดจตอล เชน DSpace ชวยใหการจดการทรพยากรเนอหา และการคนหาขอมลของผใชท าได สะดวกยงขน ทงในสวนของการคนหาแบบ full-text และ การบราวส
ขอมลตามเมตาดาตา
http://dspace.org/
76
การสบคนขอมล RDF ในแบบ Faceted Search
การคนหาตามมต (Faceted Search)
เปนเทคนคการ Browse ขอมลโดยกรองผลลพธการคนหาขอมลตามมตตางๆ
กลนกรองขอมล (Filter) ตามฟลดของเมตาดาตาทก าหนดไวใหเปนมตของขอมล (Facet)
รปแบบการบราวส และคนหาขอมลในระบบหองสมดดจตอลตางระบบทเปนรปแบบเดยวกน
เปนเทคนคการคนหาขอมลทสามารถประยกตใชงานกบขอมลแบบ RDF ไดโดยตรง
77
ตวอยางระบบหองสมดดจตอลทประยกตใช เทคโนโลยเวบเชงความหมาย
SIMILE (http://simile.mit.edu/)
FedoraCommons (http://fedora-
commons.org/)
JeromeDL (http://www.jeromedl.org/)
78
SIMILE
โครงการ SIMILE ของ MIT เปนการพฒนาเทคโนโลยเพอเพมประสทธภาพของระบบหองสมดดจตอล โดยใชเทคโนโลยเวบเชงความหมาย
ตวอยางโปรแกรมเครองมอทชวยในการพฒนาระบบสบคนขอมลแบบ Faceted Search
Longwell
Exhibit
79
SIMILE’s Longwell
80
SIMILE’s Exhibit
http://simile-widgets.org/exhibit/
81
SIMILE’s Exhibit (2)
82
Fedora Commons
ซอฟแวรระบบหองสมดดจตอลทเรมการพฒนาตงแตป 1997 ทมหาวทยาลย Cornell
เนนใหรองรบการรองรบ Digital Objects หลากหลายชนด ปรมาณมหาศาล (> 10,000,000 objects)
จดเกบความสมพนธระหวาง object ตางๆ ใน collection โดยใชมาตรฐาน RDF
สบคนขอมล RDF ในแบบ faceted search (โดยใชภาษา SPARQL)
83
Fedora Commons (2)
DuraSpace = Fedora Commons + DSpace
http://duraspace.org/
Islandora = Fedora Commons + Drupal
http://islandora.ca/
84
Fedora Commons (3)
http://digital.lib.umd.edu/ 85
สรป
เทคโนโลยเวบเชงความหมาย (Semantic Web Technology) จะเขามามบทบาทส าคญเพมมากยงขนตอไปในระบบหองสมดดจตอล
ชวยสงเสรมการสราง และแบงปนขอมลเมตาเดตาในแบบมาตรฐาน RDF
ชวยการบรณาการเชอมโยงขอมลเมตาเดตาจากตางระบบในแบบ Linked Data
ชวยการสบคนขอมลตามเมตาดาตาในแบบของ Faceted Search
86