dbpedia japanese

23
DBpedia Japanese 加藤文彦 第5回LinkedData勉強会, 2012-07-24

Upload: fumihiro-kato

Post on 15-Dec-2014

4.055 views

Category:

Technology


0 download

DESCRIPTION

2012-07-24 第5回LinkedData勉強会での資料.DBpedia Japaneseについて

TRANSCRIPT

Page 1: DBpedia Japanese

DBpedia Japanese

加藤文彦第5回LinkedData勉強会, 2012-07-24

Page 4: DBpedia Japanese

経緯

• 2012-05-09 URI版公開

• 2012-06-30 IRI版公開

• xx.dbpedia.orgは今後IRIに移行

• URI <-> IRIはowl:sameAs ?

Page 6: DBpedia Japanese

http://ja.dbpedia.org/resource/東京都

http://ja.dbpedia.org/page/東京都

http://ja.dbpedia.org/data/東京都

"東京都"のIRIHTML表現

データ表現

DBpediaのIRI設計

cf. http://www.w3.org/TR/cooluris/

Page 7: DBpedia Japanese

http://ja.dbpedia.org/resource/東京都

http://ja.dbpedia.org/page/東京都

http://ja.dbpedia.org/data/東京都

"東京都"のIRIHTML表現

データ表現

% curl -IH 'Accept: text/html' http://ja.dbpedia.org/resource/東京都HTTP/1.1 303 See OtherServer: Virtuoso/06.01.3127 (Linux) x86_64-pc-linux-gnu Connection: closeContent-Type: text/html; charset=UTF-8Date: Fri, 20 Jul 2012 06:24:29 GMTAccept-Ranges: bytesLink: <http://mementoarchive.lanl.gov/dbpedia/timegate/http://ja.dbpedia.org/resource/東京都>; rel="timegate"Location: http://ja.dbpedia.org/page/東京都Content-Length: 0

Page 8: DBpedia Japanese

http://ja.dbpedia.org/resource/東京都

http://ja.dbpedia.org/page/東京都

http://ja.dbpedia.org/data/東京都

"東京都"のIRIHTML表現

データ表現

% curl -IH 'Accept: text/n3' http://ja.dbpedia.org/resource/東京 HTTP/1.1 303 See OtherServer: Virtuoso/06.01.3127 (Linux) x86_64-pc-linux-gnu Connection: closeDate: Fri, 20 Jul 2012 06:37:56 GMTAccept-Ranges: bytesTCN: choiceVary: negotiate,acceptContent-Location: /data/東京都.n3Content-Type: text/n3; qs=0.8Link: <http://mementoarchive.lanl.gov/dbpedia/timegate/http://ja.dbpedia.org/resource/東京都>; rel="timegate"Location: http://ja.dbpedia.org/data/東京都.n3Content-Length: 0

Page 9: DBpedia Japanese

SELECT DISTINCT *WHERE { <http://ja.dbpedia.org/resource/東京都> ?p ?o .}

東京都のデータ

Page 10: DBpedia Japanese

SELECT DISTINCT ?label ?birthYearwhere { ?s <http://ja.dbpedia.org/property/生日> 1 ; <http://ja.dbpedia.org/property/生月> 1 ; <http://ja.dbpedia.org/property/生年> ?birthYear ; rdfs:label ?label .}ORDER BY ?birthYear

生月日が1月1日

Page 12: DBpedia Japanese

既知の問題• regexで日本語使うときには"i"が必要

• Virtuosoのバグと言っていいかも

SELECT DISTINCT *WHERE { <http://ja.dbpedia.org/resource/東京都> ?p ?o . FILTER regex(str(?o), "東京", "i")}

Page 13: DBpedia Japanese

DBpediaの処理

ja.dbpedia.org

Wikipedia Dump

データ抽出

データインポート

DBpedia Extraction Framework

mappings.dbpedia.org

Page 14: DBpedia Japanese

DBpedia Extraction Framework

• 言語: Scala

• WikipediaダンプからRDFデータ抽出

• 主にInfoboxから

• 本文概要や画像等も

• DBpedia Mappings

• http://wiki.dbpedia.org/Documentation

Page 15: DBpedia Japanese

ja.dbpedia.org

•サーバ: Virtuoso

• SPARQL Endpoint•拡張パッケージ: dbpedia_dav.vad

•ウェブサイト

• content-negotiation

Page 16: DBpedia Japanese

VirtuosoのIRI処理

•まともになったのが6.1.4以降らしい

•現在develop/6 branchを使用している

•まだ不具合多そう

Page 17: DBpedia Japanese

既知のIRIバグ• /pageが色々とおかしい...

• プロパティのリンク

• head内のリンク

• div.footer内のリンク

• dbpedia_dav.vadのバグかどうかまだわかっていない

Page 18: DBpedia Japanese

DBpedia Mappings• 語彙へのマッピング

• 項目名そのままでは表記揺れ,多言語横断,単語間関係等の問題

• Wikiで誰でも編集可

• DBpedia Ontology Schema

• クラス,プロパティ,データ型の定義

• http://mappings.dbpedia.org/server/ontology/

• DBpedia infobox/table Mappings

• テンプレートをクラスに

• テンプレート内の項目名をプロパティに

Page 19: DBpedia Japanese

マッピングのはじめ方1. Mappings Wikiにアカウント作成

• http://mappings.dbpedia.org/index.php/Main_Page

2. dbpedia-discussionリストに登録

• https://lists.sourceforge.net/lists/listinfo/dbpedia-discussion

3. dbpedia-discussion にマッピング権限を要求

Page 21: DBpedia Japanese
Page 22: DBpedia Japanese
Page 23: DBpedia Japanese

まとめ

•データ使って下さい

•協力者歓迎

•マッピング作業者

•Virtuosoハッカー