2009年4月8日セミナー 4.レコメンデーション q&a

Post on 25-Jun-2015

2.425 Views

Category:

Technology

2 Downloads

Preview:

Click to see full reader

DESCRIPTION

2009年4月8日開催のセミナー「Extreme Search! 次世代検索エンジンSedue 24が実現する驚異のパフォーマンス」における、セッション「レコメンデーションQ&A」の配布資料。

TRANSCRIPT

1

レコメンデーションQ&A

(株)プリファードインフラストラクチャー岡野原大輔

徳永拓之

2

この発表は?

レコメンドに関する様々なトピックをid:tkngとhillbigがQ&A形式で紹介

3

Q.1

このTシャツは何ですか?

4

Q.1 このTシャツは何ですか?答え猫は弊社とリクルートが提供しているサービス「ねことパソコン」です

質問型レコメンデーションエンジン0件残念問題を解決

簡単な対話で店を絞り込む

5

導入編

6

Q.2

レコメンドってどこで使われて

いるの?

導入編

7

Q.2 レコメンドってどこで使われているの?

答え

ECサイトamazon.com

楽天

メディアサービスasahi.com

はてなブックマーク(はてぶ)

SNSサービス人のお勧め

物と情報と人があるところにはどこでも!

8

導入編Q.3

レコメンドにはどういう

種類があるの?

9

Q.3 レコメンドにはどういう種類があるの?

「行動履歴ベース」「この商品を買った人はこれも買っています」の考え

長所:直接的な関連がなくてもOK(例:おむつとビール)

短所:履歴が無いとできない

「コンテンツベース」対象の商品/情報を解析し、それに基づいてお勧めの商品/情報を求める

長所:履歴が無くてもでき、制御がしやすい

短所:問題の前提知識が必要

10

導入編Q.4

レコメンドはどうして

できるようになったの?

11

Q.4 レコメンドはどうしてできるようになったの?

答え

大量の履歴データが入手可能になった誰が何をどうしたかが全部わかる

詳細な商品データ

レコメンデーションの技術の発展行列の低ランク分解

機械学習との関連

自然言語処理

12

導入編Q.5

レコメンドを利用するには?

13

Q.5 レコメンドを利用するには?

今自分が使えるデータを確かめる利用者のアクセスデータ

商品データ(自然文とか)

パッケージを購入Reflexa, Hotateなど

提供されているサービスを利用する他社ASPなど

自分で作る意外と簡単

14

導入編Q.6

検索とレコメンデーションは

違うの?

15

Q.6 検索とレコメンデーションは違うの? (1/2)

情報を元に、関連するコンテンツを返す点では同じ検索の情報:ユーザーのクエリ

レコメンドの情報:履歴情報、商品情報

検索は能動的、レコメンデーションは受動的検索では「探しているものが出ない」と不満

レコメンドでは「知っているものが出る」と不満

16

Q.6 検索とレコメンデーションは違うの?(2/2)

境界は非常にあいまいになってきている

検索の中でもレコメンドがたくさんもしかして機能

クエリ拡張(東大で検索しても、東京大学も探す)

レコメンドの中でも検索はたくさん似た履歴情報、個人情報を大量のDBから探す

17

導入編Q.7

ユーザーはどうしたら便利?

18

Q.7 ユーザーはどうしたら便利?

教えてください

レコメンドは出しゃばると嫌がられる場合が多いユーザーにとっては望んでいる行動ではない

はてなブックマークの例

19

技術編

20

技術編Q.8

購入履歴情報は

どう扱えばいいの?

21

Q.8 購入履歴情報はどう扱えばいいの?

答え:大抵「疎な行列情報」で表せます二つの要素間の関係を記述

三つ以上の関係を真面目に記述するとテンソル

ミスチル らき☆すた 水樹奈々 FF ドラクエ

田中 ○ ○

太田 ○ ○

徳永 ○

岡野原 ○ ○ ○

西川 ○ ○

22

技術編Q.9

お勧め商品を

紹介するには?

23

Q.9 お勧め商品を紹介するには?

似ている人を探し、その人が買っていて、もう一人が買っていないものを探せばよい例:太田にお勧めは、「ドラクエ」

ミスチル らき☆すた 水樹奈々 FF ドラクエ

田中 ○ ○

太田 ○ ○

徳永 ○

岡野原 ○ ○ ○

西川 ○ ○

チャンス!

24

技術編Q.10

「似ている」はどう計算する?

25

Q.10「似ている」はどう計算する?

共通に買った個数を「似ている度」とする

問題点:たくさん商品を買っている人は誰からみても「似ている度」が高い

解決法:スコアを正規化する自分と全く同じ人との「似ている度」を1にする

ミスチル らき☆すた

水樹奈々

FF ドラクエ

太田 ○ ○ ○

岡野原 ○ ○ ○

海老原 ○ ○ ○ ○ ○

似ている度3正規化後1

似ている度3正規化後0.7

26

数学で話すと

購入情報をm次元のベクトル v∈Rm

vi = 1 i番目の商品を買った

vi = 0 買っていない

「似ている度」=ベクトル間の内積vとwの似ている度(両方買ってるなら1)

正規化された「似ている度」=ベクトル間のコサイン値(0~1)

mmwvwvwvwv ..., 2211

wwvv

wv

,,

,

27

疑似コードで話すと

購入情報を長さmの配列 v[m]で表すv[i] = 1 i番目の商品を買った

v[i] = 0 買っていない

「似ている度」=ベクトル間の内積calcInp(v, w)

sum = 0;

for (i = 0; i < m; i++) sum += v[i] * w[i];return sum;

• 正規化されたスコア• calcInp(v, w) / sqrt(calcInp(v, v) * calcInp(w,w))

28

技術編Q.11

コンテンツベースの情報は

どう扱えばよいの?

29

Q.11 コンテンツベースの情報はどう扱えばよいの? (1/2)

疎な行列で同じように表にして処理する似た商品を探す方法は先ほどと同じ

男性アーティスト

女性アーティスト

ゲーム 価格<3000

価格3000<

<5000

ミスチル ○ ○

サザン ○ ○

水樹奈々 ○ ○

FF ○ ○

ドラクエ ○ ○

30

Q.11 コンテンツベースの情報はどう扱えばよいの?(2/2)文書の場合は、文書に含まれる単語を属性だと思う

BoW (Bag of Words)表現

日本 W杯 中村俊輔 野球 …

文書1 ○ ○ ○

文書2 ○ ○ ○

文書3 ○

文書1:日本代表は28日、W杯アジア最終予選第5戦でバーレーンと対戦し、1―0で勝った。後半2分にMF中村俊輔(30)が国際Aマッチ通算23点目となるFKからのゴールを決め、チームを最終予選ホーム初勝利に導いた。

31

技術編Q.12

パーソナライゼーションは

どうやって実現?

32

Q. 12 パーソナライゼーションはどうやって実現?行動履歴の情報を詳細に入れれば、自然にパーソナライゼーションが実現個人に関係する情報も特徴情報に入れてよい

買った人の情報など

性別・年齢

計算量とのトレードオフ特徴情報が非常に大きくなる可能性

33

技術編Q. 13

非常に大きいデータを

扱うには

34

Q.13 非常に大きいデータを扱うには

とにかくメモリに入るように努力する疎なベクトルを“アドレス”と”値“のペアで管理WEB+DB Pressを見てください

誰でも持っているような特徴情報は捨てる

サンプリングする

索引を工夫する転置ファイル

低次元:Cover Tree

高次元:Locality Sensitive Hash / Spectral Hash

35

PFI編

36

PFI編Q.14

Preferred Infrastructureは

どんなレコメンド製品を

提供しているの?

37

Q.14 Preferred Infrastructureはどんなレコメンド製品を提供?

データの性質と手法でいろいろ

Reflexa先ほどの行列がある場合似たものを高速に探す

Hotate似た文書を探すのに特化

他にもケースバイケースで

38

PFI編Q.15

Reflexaについて教えて

39

Q.15 Reflexaについて教えて

行列を与えたら、似た行・列を高速に探すエンジンデモサイト http://labs.preferred.jp/reflexa/行:単語 列:Wikipediaの文書

「はてぶ」の関連エントリ行:エントリ 列:ユーザーが付けたタグ

「似ている」の計算は内積よりちょっと複雑“Bayesian Set”と呼ばれる手法を元に

行列情報は圧縮して格納非常に大きい情報でもメモリ上で操作可能

40

PFI編Q.16

Hotateについて教えて

41

Q.16 Hotateについて教えて

関連文書を探すのに特化利用例:asahi.com, IT-Proの関連ニュース

文書からのキーワードの抽出に工夫辞書と文脈情報(どこで切れるか)を組み合わせる

各キーワードにスコアが付いている字種情報、キーワードの意味情報(住所など)

関連度は秘密の計算式

文書間が何故似ているかを出力少ないキーワードで関連付ける

キーワードのOn/Offで精度調整が可能

42

Q.17

もっとレコメンドを詳しく

知るには?

43

Q.17 もっとレコメンドを詳しく知るには?

製品情報弊社ホームページ http://preferred.jp

雑誌WEB+DB Press Vol 49. レコメンド特集

論文「情報処理」 Vol.48 No.9 嗜好抽出技術の最前線

「Netflix Prize」、「Recommender system」(wikipedia)

Google Scholarで「Collaborative Filtering」「Matrix Factorization」「Recommend」

44

Q.18

まとめて!

45

Q.18 まとめて!

データさえあればすぐ試せますReflexa, Hotate

他、データに合わせていろいろ

興味がある方はご連絡を!info@preferred.jp

top related