warpとデータセット - ndlラボ...2016.7.30 ndl データ利活用ワークショップ...
TRANSCRIPT
2016.7.30 NDLデータ利活用ワークショップ~ウェブ・アーカイブの自治体サイトを可視化しよう~
WARPとデータセット
国立国会図書館
WARP
WARPとは
・ウェブサイトのアーカイブ
・2002年に始めて15年目
・2010年から公的機関サイトを大規模に収集
http://warp.da.ndl.go.jp/3
区分 根拠 対象 サイト数 収集頻度
公的機関 法律
国の機関
5,400
月1回地方自治体
年4回独立行政法人国公立大学
民間 契約公益法人、私立大学、政党、イベント、震災、電子雑誌
4,600 年1~4回
集めているウェブサイト
4
容量で可視化
本日のターゲット
218TB/633TB
5
都道府県政令指定都市市町村特別地方公共団体(東京23区を含む)
収集対象 現存する自治体 消えた自治体 合計都道府県 47 - 47政令指定都市 20 - 20市町村 1,698 989 2,687東京23区 23 - 23合計 1,788 989 2,777
内訳
6
~2009年消えた自治体が多い
2010年~全自治体を保存
保存状況
7
具体例をみてみましょう
8
・消えた町-佐賀県大和町
・2003年の香川県
・2012年の・・・(うどん県)
・2015年の香川県
http://warp.da.ndl.go.jp/info:ndljp/pid/246720/www.saganet.ne.jp/yamato/
http://warp.da.ndl.go.jp/info:ndljp/pid/236640/www.pref.kagawa.jp/
http://warp.da.ndl.go.jp/info:ndljp/pid/9498887/www.pref.kagawa.jp/
http://warp.da.ndl.go.jp/info:ndljp/pid/6019057/www.my-kagawa.jp/udon-ken/top.html
データセット
1. メタデータ
2. 検索API
本日、使えるデータ
10
・2003年から2015年の自治体サイトの全件メタデータ
・2つのメタデータ
1. メタデータ
(自治体) 2,777 件
(収集回ごとのまとまり) 47,318 件
11
収集対象
収集個体
ファイルをひとまとめにして保存➄
ここで収集のイメージを
www.pref.kagawa.jp/abc.html
www.pref.kagawa.jp/xyz.html
リンク先のページでも同じようにファイル複製、リンク解析
➂
abc.pref.kagawa.jp
www.pref.kagawa.lg.jp/gikai/
udon.pref.kagawa.jpwww.pref.kagawa.jp/def.html
指定した範囲の全てのファイルを複製するまで繰り返す
➃
起点URLにあるファイルを複製
起点URLwww.pref.kagawa.jp
クローラによる収集
➀
➁ リンクを解析してページ遷移
12
2つの関係
13
収集対象 収集個体
WARP画面
14
収集対象
収集個体
自治体 2015年3月まで 2015年4月以降都道府県
政令指定都市 5日 20日
市町村東京23区 1日
必ずしも100%ではありません
・収集回ごとの時間制限(オーバーしたら停止)
15
・技術的にとれないもの
http://www.ndl.go.jp/jp/aboutus/standards/opendataset.html
詳細とダウンロードはこちら
16
・自治体サイトをページ単位で検索できるページ数 62,286,266 ページ自治体数 1,788(47都道府県、20政令指定都市、1,698市町村、東京23区)対象年 2010年、2013年、2015年
・キーワード、外部リンクなど様々な情報を取得
2. 検索API
17
詳細はこちら
18
・館内でのみ見られるものが19%
⇒ 各グループのPCで見られます
補足
19