ログデータの活用が進まない現状を打破するために:...
DESCRIPTION
Code4Lib JAPAN カンファレンス2014 発表TRANSCRIPT
ログデータの活用が進まない現状を打破するために:
Wikipediaページ閲覧統計データを題材とした試み
清田 陽司
(株式会社ネクスト)
Code4Lib JAPANカンファレンス2014 @福井県鯖江市 2014年9月7日
ユーザーログ活用の意義
前提: ヒト(サービス提供者、ユーザー)の意思決定に活かす • サービス改善のヒントを得る – ユーザーの行動を理解する(時間帯別、曜日別、
月別の傾向など) – ユーザーインターフェース上の課題を洗い出す
• 新たな価値を生み出す – 個別ユーザーの潜在的ニーズ掘り起こし
• 推薦(図書、情報、….) • サジェスト
ユーザーログ活用に必要なこと
• 情報インフラ • ツール利用に関する知識 – Web上に豊富にある
• 実践・習熟する機会 – すでに活用されている組織内には豊富にある – 組織外では少ない
どうやって実践・習熟するか?
• インフラ、ツール – パブリッククラウドなどで容易に利用可能 – Web画面からも操作可能
• コミュニティ、場所 – ハンズオンなど
• おカネ • 共有できるデータ
実践・習熟に求められるデータの性質
• データ量 – 現場で応用するため
• リアリティ(ヒトや社会の動きを反映) – 学習効果を高めるためには、「面白い」と思える
結果が得られることが大事
• 鮮度 – 意思決定に活かすため
パブリッククラウド
• 必要に応じて利用できるコンピューター資源のサービス(従量課金制) – サーバー – ストレージ(記憶領域) – ネットワーク
• 主要なパブリッククラウドサービス – Amazon Web Services (AWS) – MicrosoE Windows Azure – Google App Engine – さくらのクラウド
AWS Public Data Sets
hOp://aws.amazon.com/jp/public-‐data-‐sets/
AOL Search Query Logs (2006年)
hOp://www.gregsadetsky.com/aol-‐data/
hOp://techcrunch.com/2006/08/06/aol-‐proudly-‐releases-‐massive-‐amounts-‐of-‐user-‐search-‐data/
hOps://search-‐id.com/
データ解析による個人特定のリスク • マサチューセッツ州知事の医療記録が公開情報
から特定可能 – 収集した医療データを加工して公開している 左円内 – 一方、選挙の投票者名簿は公開 右円内
• 両者をつきあわせると • 6 人が知事と同じ生年月日 うち3 人が男 うち1 人が同じ郵便番号
• 1990年の the US 1990 census dataによれば – 87% の人が (zipcode, 性別, 生年月日)によって一意特定可能
NIIデータセット
hOp://www.nii.ac.jp/cscenter/idr/datalist.html
ユーザーログ共有の現状
• 一般公開されている生ログデータはほぼ存在しない – プライバシー侵害のリスク – IPアドレスなどを削除したとしても個人特定の可
能性が残る
• 研究用途に限定して提供されているログデータは存在する – 秘密保持契約手続きが必要
Page view sta\s\cs for Wikimedia projects
• Wikimedia全言語版のアクセス数データ – 1時間ごとの全ページのアクセス数
• 生ログデータではないが、集計に必要なノウハウは生ログデータと共通
• 実践・習熟に必要な性質を(ある程度)満たす – データ量: 1ヶ月あたり約70Gbytes (Gzip圧縮) – リアリティ: 世の中の動きを反映したデータ – 鮮度: 30分後には公開
hOp://dumps.wikimedia.org/other/pagecounts-‐raw/
抜粋 (Wikipedia日本語版, 2014/09/01 09:00〜10:00 JST)
ja デング熱 10745 554450816 ja メインページ 14093 438162758 ja 関東大震災 3114 281205408 ja 9月1日 1833 165384461 ja 24時間テレビ_「愛は地球を救う」 1723 137958282 ja イチロー 192 120358324 ja 東日本大震災 437 110995792 ja 吉永小百合 2284 86710534 ja ボルシア・ドルトムント 1388 75815693 ja 黒田孝高 1168 71345773 ja 花子とアン 877 67992101 ja 城島茂 2197 55590788 ja 新世紀エヴァンゲリオン 415 55537912 ja 防災の日 4493 55510476 ja 小渕優子 2751 52931239 ja 訃報_2014年 111 52488871 ja 阪神・淡路大震災 285 52182898
今後の展開
• AWS上でデータセットを使えるようにする – Elas\c MapReduce (Hadoop) などで集計可能に
• ハンズオン用のコンテンツ作成 • Code4Libコミュニティでのハンズオン実施