ログデータの活用が進まない現状を打破するために:...

17
ログデータの活用が進まない現状 を打破するために: Wikipediaページ閲覧統計データを 題材とした試み 清田 陽司 (株式会社ネクスト) Code4Lib JAPANカンファレンス2014 @福井県鯖江市 201497

Upload: yoji-kiyota

Post on 17-Dec-2014

373 views

Category:

Engineering


3 download

DESCRIPTION

Code4Lib JAPAN カンファレンス2014 発表

TRANSCRIPT

Page 1: ログデータの活用が進まない現状を打破するために: Wikipediaページ閲覧統計データを題材とした試み

ログデータの活用が進まない現状を打破するために:    

Wikipediaページ閲覧統計データを題材とした試み

清田 陽司  

(株式会社ネクスト)

Code4Lib  JAPANカンファレンス2014  @福井県鯖江市  2014年9月7日

Page 2: ログデータの活用が進まない現状を打破するために: Wikipediaページ閲覧統計データを題材とした試み

ユーザーログ活用の意義

前提:  ヒト(サービス提供者、ユーザー)の意思決定に活かす  •  サービス改善のヒントを得る  – ユーザーの行動を理解する(時間帯別、曜日別、

月別の傾向など)  – ユーザーインターフェース上の課題を洗い出す  

•  新たな価値を生み出す  – 個別ユーザーの潜在的ニーズ掘り起こし  

•  推薦(図書、情報、….)  •  サジェスト  

Page 3: ログデータの活用が進まない現状を打破するために: Wikipediaページ閲覧統計データを題材とした試み

ユーザーログ活用に必要なこと

•  情報インフラ  •  ツール利用に関する知識  – Web上に豊富にある  

•  実践・習熟する機会  – すでに活用されている組織内には豊富にある  – 組織外では少ない  

 

Page 4: ログデータの活用が進まない現状を打破するために: Wikipediaページ閲覧統計データを題材とした試み

どうやって実践・習熟するか?

•  インフラ、ツール  – パブリッククラウドなどで容易に利用可能  – Web画面からも操作可能  

•  コミュニティ、場所  – ハンズオンなど  

•  おカネ  •  共有できるデータ  

Page 5: ログデータの活用が進まない現状を打破するために: Wikipediaページ閲覧統計データを題材とした試み

実践・習熟に求められるデータの性質

•  データ量  – 現場で応用するため  

•  リアリティ(ヒトや社会の動きを反映)  – 学習効果を高めるためには、「面白い」と思える

結果が得られることが大事  

•  鮮度  – 意思決定に活かすため  

Page 6: ログデータの活用が進まない現状を打破するために: Wikipediaページ閲覧統計データを題材とした試み

パブリッククラウド

•  必要に応じて利用できるコンピューター資源のサービス(従量課金制)  – サーバー  – ストレージ(記憶領域)  – ネットワーク  

•  主要なパブリッククラウドサービス  – Amazon  Web  Services  (AWS)  – MicrosoE  Windows  Azure  – Google  App  Engine  – さくらのクラウド  

Page 7: ログデータの活用が進まない現状を打破するために: Wikipediaページ閲覧統計データを題材とした試み

AWS  Public  Data  Sets

hOp://aws.amazon.com/jp/public-­‐data-­‐sets/

Page 8: ログデータの活用が進まない現状を打破するために: Wikipediaページ閲覧統計データを題材とした試み

AOL  Search  Query  Logs  (2006年)  

hOp://www.gregsadetsky.com/aol-­‐data/

Page 9: ログデータの活用が進まない現状を打破するために: Wikipediaページ閲覧統計データを題材とした試み

hOp://techcrunch.com/2006/08/06/aol-­‐proudly-­‐releases-­‐massive-­‐amounts-­‐of-­‐user-­‐search-­‐data/

Page 10: ログデータの活用が進まない現状を打破するために: Wikipediaページ閲覧統計データを題材とした試み

hOps://search-­‐id.com/

Page 11: ログデータの活用が進まない現状を打破するために: Wikipediaページ閲覧統計データを題材とした試み

データ解析による個人特定のリスク  •  マサチューセッツ州知事の医療記録が公開情報

から特定可能  – 収集した医療データを加工して公開している 左円内  – 一方、選挙の投票者名簿は公開 右円内  

•  両者をつきあわせると  •  6  人が知事と同じ生年月日    うち3  人が男    うち1  人が同じ郵便番号  

•  1990年の the US 1990 census dataによれば –  87% の人が (zipcode, 性別, 生年月日)によって一意特定可能

Page 12: ログデータの活用が進まない現状を打破するために: Wikipediaページ閲覧統計データを題材とした試み

NIIデータセット

hOp://www.nii.ac.jp/cscenter/idr/datalist.html

Page 13: ログデータの活用が進まない現状を打破するために: Wikipediaページ閲覧統計データを題材とした試み

ユーザーログ共有の現状

•  一般公開されている生ログデータはほぼ存在しない  – プライバシー侵害のリスク  –  IPアドレスなどを削除したとしても個人特定の可

能性が残る  

•  研究用途に限定して提供されているログデータは存在する  – 秘密保持契約手続きが必要

Page 14: ログデータの活用が進まない現状を打破するために: Wikipediaページ閲覧統計データを題材とした試み

Page  view  sta\s\cs  for  Wikimedia  projects

•  Wikimedia全言語版のアクセス数データ  –  1時間ごとの全ページのアクセス数  

•  生ログデータではないが、集計に必要なノウハウは生ログデータと共通  

•  実践・習熟に必要な性質を(ある程度)満たす  – データ量:  1ヶ月あたり約70Gbytes  (Gzip圧縮)  – リアリティ:  世の中の動きを反映したデータ  – 鮮度:  30分後には公開  

 hOp://dumps.wikimedia.org/other/pagecounts-­‐raw/  

Page 15: ログデータの活用が進まない現状を打破するために: Wikipediaページ閲覧統計データを題材とした試み

抜粋  (Wikipedia日本語版,  2014/09/01  09:00〜10:00  JST)

ja            デング熱 10745      554450816  ja            メインページ 14093      438162758  ja            関東大震災 3114        281205408  ja            9月1日 1833        165384461  ja            24時間テレビ_「愛は地球を救う」 1723        137958282  ja            イチロー 192          120358324  ja            東日本大震災 437          110995792  ja            吉永小百合 2284        86710534  ja            ボルシア・ドルトムント 1388        75815693  ja            黒田孝高 1168        71345773  ja            花子とアン 877          67992101  ja            城島茂 2197        55590788  ja            新世紀エヴァンゲリオン 415          55537912  ja            防災の日 4493        55510476  ja            小渕優子 2751        52931239  ja            訃報_2014年 111          52488871  ja            阪神・淡路大震災 285          52182898  

Page 16: ログデータの活用が進まない現状を打破するために: Wikipediaページ閲覧統計データを題材とした試み
Page 17: ログデータの活用が進まない現状を打破するために: Wikipediaページ閲覧統計データを題材とした試み

今後の展開

•  AWS上でデータセットを使えるようにする  – Elas\c  MapReduce  (Hadoop)  などで集計可能に  

•  ハンズオン用のコンテンツ作成  •  Code4Libコミュニティでのハンズオン実施