ciniiのメタデータ・デザイン@linkeddata勉強会(2012.01.18)
TRANSCRIPT
CiNii のメタデータ・デザイン
国立情報学研究所大向 一輝
Twitter: @i2k
自己紹介
国立情報学研究所 コンテンツ科学研究系(教員)
セマンティックウェブ・ソーシャルメディア Linked Open Data ・ LODAC プロジェクト
学術コンテンツサービス研究開発センター 学術基盤推進部学術コンテンツ課システム室長
CiNii (論文)・ NACSIS-CAT (大学図書館) 株式会社グルコース
日本最古?の RSS リーダー( 2002 〜)
CiNii とは
国内最大規模の学術情報サービス 論文( CiNii Articles )
国内学会誌・紀要のデジタル化 本文 400 万件 書誌 1500 万件
書籍・雑誌( CiNii Books ) [New!] 大学図書館の蔵書データベース 書誌 1100 万件 所蔵 1 億 1000 万件 著者名典拠 150 万件
書誌データを RDF で提供
学術情報とメタデータ
学術情報分野の特徴 情報の構造化を生業とする職業集団・組織がある
研究者(大学・研究機関)・学会・図書館… 情報の構造化フォーマットが共有されている
タイトル・著者名・抄録・本文・参考文献… フォーマットを変換するだけでメタデータが出せる
CiNii Articles のメタデータ
検索: OpenSearch RSS 1.0 (= RDF )と Atom 1.0
RSS/Atom 基本語彙+ Dublin Core ( Simple ) 一般のブラウザ・フィードリーダーで扱えるように
Prism Standard 書誌情報は国際標準に準拠( Nature など)
書誌: RDF Dublin Core + Prism Standard (書誌情報)※日・英 FOAF (著者情報)
独自語彙は極力使用しない はじめての試みだったため その後…
CiNii Articles のメタデータ
検索 RSS と書誌 RDF をつなぐ 課題・問題点
RDF と HTML と実体をどうつなぐか? 著者が空白ノード( URI なし)
CiNii 著者検索
NII 著者 ID (NRID) の導入 科研費番号+機械処理による著者への ID 付与 著者ごとに URI を発行(著者パーマリンク)
NRID ベースの論文検索機能 著者名→ ID リスト→論文リスト API の提供
新たなデータ生成・管理モデル 研究成果の活用 ユーザーフィードバック
組織
機械 ユーザ
CiNii Books のメタデータ
検索: OpenSearch RSS/Atom 基本語彙+ Dublin Core ( Simple )+ Prism
Standard CiNii Articles と同じ
書誌: RDF Dublin Core + Prism Standard (書誌情報) FOAF (著者名典拠) Bibliographic Ontology (所蔵情報) CiNii 独自語彙
CiNii のメタデータ設計
設計方針をどうするか? データ構造・語彙… 厳密性と利便性のトレードオフ
日本語読み問題 書誌の階層問題
ウェブ API として考える できるだけ開発者が使いやすいように
シンプルなデータ構造 ライブラリの普及状況を念頭に 世界標準( Dublin Core ・ FOAF など)
CiNii メタデータへのアクセス
アプリケーション ID ( appid )の取得 OpenSearch
REST appid 必須
RDF URI+.rdf
appid 推奨 コンテントネゴシエーション実装予定
アクセス状況 月間 1000 万〜 2000 万アクセス
CiNii ウェブ API コンテスト
2回開催( 2009 ・ 2010 ) 第 1回: 24 件 第 2回: 33 件
Mashup award への参加 LODチャレンジへの協力
論文ったー
まとめ
Library Linked Data ( LLD )の潮流 各国の国立図書館典拠データの公開 アメリカ・イギリス・フランス・ドイツ… 国立国会図書館
何のための Linked Open Data ? 公開すること自体の重要性・ドメイン内の相互利用 ドメインを超えた相互利用
自身が持つデータの新たな価値を知る
困っていること
Linked Open Data の要件は厳しい Cool URI ・コンテントネゴシエーション ライセンス( CC0 ?) SPARQL
そもそもリンクするのが難しい 100 万アクセス / 日 オンデマンドのリンクは実質不可能(爆撃) 名寄せ
ID の URI をどうするか( ISBN ・ ISSN ) プロパティ? HTTP URI ? URN ? rdf:datatype ?
IR/NIR 問題 作り直したい症候群