linked datalinked dataの現状と日本の課題 · linked data zlinked dataとは何か zlinked...
TRANSCRIPT
Linked Dataの現状と日本の課題Linked Dataの現状と日本の課題
武田英明
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
武田英明
国立情報学研究所
東京大学 人工物工学研究センター
Linked DataLinked Dataとは何か
Linked Dataの現状
Linking Open Data (LOD)Linking Open Data (LOD)Linked Dataの使い方
検索エンジン
ブラウザ
アプリ
日本におけるLinked Dataの課題
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
本 おける 課題
3
Linked DataLinked Dataとは “Web of Data”
RDFで公開されるデータ
外部から参照可能(dereferenceable)外部から参照可能(dereferenceable)
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
Linked Data, TBL, http://www.w3.org/DesignIssues/LinkedData.html
Semantic Webの階梯
RDF (Resource Description Framework)最も原始的な意味記述の枠組みを提供ー>SVOモデル
Entity-Relation Model(実体関連モデル)
セマンティックネットセマンティックネット
RDF SchemaRDFに最も原始的な概念記述の仕組みを追加
class-subclass関係,制約
OWL (Web Ontology Language)記述論理(description logics)に基づいた概念とその関係を記述する言語
R l ML
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
Rule-ML…
Tim Berners-Lee http://www.w3.org/2002/Talks/09-lcs-sweb-tbl/
もっと上へ、もっと上へ
4
Semantic Webの階梯
抽象問題から具体問題への回帰
クラスに関する記述オントロジー
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
Tim Berners-Lee http://www.w3.org/2002/Talks/09-lcs-sweb-tbl/
インスタンスに関する記述
オントロジ
Linked Data
Semantic Webの階梯
オントロジー
クラスに関する記述
RDFS、OWLオントロジ 構築の課題オントロジー構築の課題
オントロジー構築はそもそも大変
一貫性、網羅性、論理性
複数オントロジーの統合・関連付けはもっと大変
クラスに関する記述オントロジー
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
Tim Berners-Lee http://www.w3.org/2002/Talks/09-lcs-sweb-tbl/
インスタンスに関する記述
オントロジ
Linked Data
5
Semantic Webの階梯
Linked Dataインスタンスに関する記述=個々の事物に関する記述
RDF + (RDFS, OWL)Li k d D t の記述における利点Linked Dataの記述における利点
書きやすい(事実に関する記述が主)
リンクしやすい(同)
Linked Dataの記述における問題点
複雑な記述は難しい
それでもクラス定義は必要(→オントロジー)
クラスに関する記述オントロジー
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
Tim Berners-Lee http://www.w3.org/2002/Talks/09-lcs-sweb-tbl/
インスタンスに関する記述
オントロジ
Linked Data
Linked DataLinked Dataのための4条件
事柄の名前にURIを使うこと Use URIs as names for things すべてのモノ コトにURIを!すべてのモノ,コトにURIを!
名前の参照がHTTP URIでできることUse HTTP URIs so that people can look up those names.
DOIとかいったURNは使わないでね
URIを参照したときに関連情報が手に入るようにWhen someone looks up a URI, provide useful information, using the
d d ( S A Q )
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
standards (RDF, SPARQL) 理解可能なデータを提供してね.
外部へのリンクも含めようInclude links to other URIs. so that they can discover more things.
Webのようにリンクでつながるデータを作ろうLinked Data, TBL, http://www.w3.org/DesignIssues/LinkedData.html
6
Linked DataLinked Dataとは何か
Linked Dataの現状
Linking Open Data (LOD)Linking Open Data (LOD)Linked Dataの使い方
検索エンジン
ブラウザ
アプリ
日本におけるLinked Dataの課題
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
本 おける 課題
Linking Open Data (LOD)公開されたLinked Dataを集めるプロジェクト
主要なLinked Data(データ変換)(デ タ変換)
Dbpedia (Wikipedia) : 百科事典, 2.7億文
Geonames:地名と緯度経度, 9300万文
MusicBrainz:音楽
WordNet:辞書
DBLP bibliography:論文の書誌,2800万文
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
g p y 論文 書誌, 万文
US Census Data: 米国国勢調査(2000年), 10億文
(クロール)
FOAF (Friend Of A Friend):個人と個人関係のプロファイル
(ラッパー)
Flickr Wrapper
7
Dbpediaの例
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
131億文1 41 万個のリンク
8
Web-based Information
Music
Geographic informationPapers
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
131億文1 41 万個のリンク
Life Science and Health Care
LODの発展(1)
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
As of March 2008
9
LODの発展(2)
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
LODの発展(3)
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
10
LODの発展(4)
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
131億文1 41 万個のリンク
Linked DataLinked Dataとは何か
Linked Dataの現状
Linking Open Data (LOD)Linking Open Data (LOD)Linked Dataの使い方
検索エンジン
ブラウザ
アプリ
日本におけるLinked Dataの課題
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
本 おける 課題
11
Linked Data Search EngineLink Data汎用サーチエンジン
SwoogleWatsonWatsonSWME
http://swse.deri.org/Sindice
http://sindice.com/特殊サーチ
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
特殊サ チ
Sameashttp://sameas.org/
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
http://sameas.org/
12
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
Linked Data BrowserデータをWebページのようにみていくツール
システム
MableMableリンクを順に表示
Tabulator Firefox plugin版/online 版1ページの中にどんどん情報を追加
Sig.ma
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
gRDFのソースを同時提示して、操作可能
13
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
Tabulator
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
14
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
Linked Data Mashup
Linked Data Browser
Linked Data Mashup
Linked Data Search Engine
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
Things Things Things Things Things
15
How to use Linked DataSemantic Data Mash-up Applications
SemaPlorerSemaPlorerhttp://btc.isweb.uni-koblenz.de/
Dbpedia Mobilehttp://wiki.dbpedia.org/DBpediaMobile
Bio2RDFhttp://bio2rdf.org/
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
DBpedia Mobile
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
16
Bio2RDFBio系のリソース検索
RDFでないものは勝手にRDF化RDF化
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
Bio2RDF
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
17
Web APIとLinked Dataの比較
Linked Dataのメリット
統一されたインタフェース
RDF / SPARQL endpointRDF / SPARQL endpoint意味の明示
サイトを越えた連携
sameAsLinked Dataのデメリット
速度
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
速度
意味解釈の曖昧さ
データの信頼性
由来
新鮮さ
Linked DataLinked Dataとは何か
Linked Dataの現状
Linking Open Data (LOD)Linking Open Data (LOD)Linked Dataの使い方
検索エンジン
ブラウザ
アプリ
日本におけるLinked Dataの課題
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
本 おける 課題
18
日本におけるLinked Data
課題
日本語の壁URI
我々の取り組み
WordNet 日本語版RDFURI
ハブの欠如Dbpedia
RDFの普及の遅さRDFa
ことはぶ
CiNii RDF
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
日本語WordNet RDF日本語WordNet (verson 0.9)
NICTによるWordNetの日本語化
Wordの翻訳のみ(synsetはそのまま)Wordの翻訳のみ(synsetはそのまま)
49,655 概念 (synset数) 87,133 words 語146,811 語義 (synsetと単語のペア)
日本語WordNet RDF日本語WordNetのRDF化
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
本語 化
RDF/OWL Representation of WordNet, W3C Working Draft 19 June 2006をWordNet 3.0用に変更
HTMLおよびRDFで表示
SUMOとの統合
19
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
20
“ことはぶ/KotoHub”のコンセプト
すべての言葉にURIを!
言葉から定義へのハブ
ネット上に散在している日本語辞書・百科事典・用語集のリポネット上に散在している日本語辞書・百科事典・用語集のリポジトリ
Dictionary of Dictionary分野を跨いだ横断検索
専門家によって編纂された知識体系と,ユーザ参加型コミュニティによって生成された知識体系の融合
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
21
辞書のソースWikipedia日本語版 : 549,521語
http://download.wikimedia.org/jawiki/20090423/jawiki-20090423-pages-meta-history.xml.bz2kotobank.jp : 333,780語
http://kotobank.jpはてなキ ワ ド 247 690語はてなキーワード : 247,690語
http://d.hatena.ne.jp/images/keyword/keywordlist_furigana_with_kid.csvYahoo!百科事典 : 98,056語
http://100.yahoo.co.jp/ニコニコ大百科(仮) : 48,911語
http://dic.nicovideo.jp/m/a/aWeblio: 953,828語
http://www.weblio.jp/WordNet日本語版0.9: 227,753語(うち日本語85,966語); 50,739概念; 151,831語義
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
日本語版 , 語(うち日本語 , 語); , 概念; , 語義http://nlpwww.nict.go.jp/wn-ja/
IPA辞書2.7: 231,900語http://sourceforge.jp/projects/ipadic/
のべ単語数: 2,691,439語; 正規化済み: 2,113,688語; 読み: 546,364語
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
22
RDFによるWebサービス連携
http://wordnet.jp/kotohub/term/愛.rdf<?xml version='1.0' encoding='UTF-8'?> <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"xmlns:rdfs http://www.w3.org/2000/01/rdf schema# xmlns:foaf="http://xmlns.com/foaf/0.1/"xmlns:linked="http://wordnet.jp/kotohub/ns/linked/0.1/" xml:lang="ja">
<rdf:Description rdf:about="http://wordnet.jp/kotohub/term/愛"><foaf:isPrimaryTopicOf rdf:resource="http://wordnet.jp/kotohub/term/愛" /><rdfs:seeAlso rdf:resource="http://dic.nicovideo.jp/a/愛" /><rdfs:seeAlso rdf:resource="http://ja.wikipedia.org/wiki/愛" /><rdfs:seeAlso rdf:resource="http://ja.wikipedia.org/wiki/愛_(TBSテレビドラマ) " /><rdfs:seeAlso rdf:resource="http://100.yahoo.co.jp/detail/愛/" /><rdfs:seeAlso rdf:resource="http://kotobank.jp/word/愛" />
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
<rdfs:seeAlso rdf:resource="http://www.weblio.jp/content/愛" /> <rdfs:seeAlso rdf:resource="http://wordnet.jp/jp09/instances/word-愛" /><linked:yomi rdf:resource="http://wordnet.jp/kotohub/term/あい" /><linked:yomi rdf:resource="http://wordnet.jp/kotohub/term/ちか" /><linked:yomi rdf:resource="http://wordnet.jp/kotohub/term/めぐみ" /><linked:yomi rdf:resource="http://wordnet.jp/kotohub/term/まな" />
</rdf:Description></rdf:RDF>
CiNii RDFCiNii: NIIが提供する論文目録データベースサービス
約1300万件
この各論文のメタデータをRDFで提供この各論文のメタデ タをRDFで提供
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
23
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
24
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
25
まとめ
Linked DataはWeb of Data機械のためWeb
つながることで広がる新しい世界つながることで広がる新しい世界
cf. Web, SNS敷居の低いSemantic Web
今すぐに参加できるSemantic Web今すぐにつかえるSemantic Web
様々な問題点はあるが、それは普及してから考えましょう
Hideaki Takeda @ {National Institute of Informatics, The University of Tokyo}
様 な問題点はある 、それは普及し ら考えましょう
26