2009年4月8日セミナー 4.レコメンデーション q&a

レコメンデーションＱ＆Ａ

(株)プリファードインフラストラクチャー岡野原大輔

徳永拓之

この発表は？

レコメンドに関する様々なトピックをid:tkngとhillbigがQ&A形式で紹介

Ｑ.１

このＴシャツは何ですか？

Q.1 このＴシャツは何ですか？答え猫は弊社とリクルートが提供しているサービス「ねことパソコン」です

質問型レコメンデーションエンジン０件残念問題を解決

簡単な対話で店を絞り込む

導入編

レコメンドってどこで使われて

いるの？

導入編

Q.2 レコメンドってどこで使われているの？

答え

ECサイトamazon.com

楽天

メディアサービスasahi.com

はてなブックマーク（はてぶ）

SNSサービス人のお勧め

物と情報と人があるところにはどこでも！

導入編Q.3

レコメンドにはどういう

種類があるの？

Q.3 レコメンドにはどういう種類があるの？

「行動履歴ベース」「この商品を買った人はこれも買っています」の考え

長所：直接的な関連がなくてもＯＫ（例：おむつとビール）

短所：履歴が無いとできない

「コンテンツベース」対象の商品/情報を解析し、それに基づいてお勧めの商品/情報を求める

長所：履歴が無くてもでき、制御がしやすい

短所：問題の前提知識が必要

導入編Q.4

レコメンドはどうして

できるようになったの？

Q.4 レコメンドはどうしてできるようになったの？

答え

大量の履歴データが入手可能になった誰が何をどうしたかが全部わかる

詳細な商品データ

レコメンデーションの技術の発展行列の低ランク分解

機械学習との関連

自然言語処理

導入編Q.5

レコメンドを利用するには？

Q.5 レコメンドを利用するには？

今自分が使えるデータを確かめる利用者のアクセスデータ

商品データ（自然文とか）

パッケージを購入Reflexa, Hotateなど

提供されているサービスを利用する他社ASPなど

自分で作る意外と簡単

導入編Ｑ.6

検索とレコメンデーションは

違うの？

Ｑ.6 検索とレコメンデーションは違うの？ (1/2)

情報を元に、関連するコンテンツを返す点では同じ検索の情報：ユーザーのクエリ

レコメンドの情報：履歴情報、商品情報

検索は能動的、レコメンデーションは受動的検索では「探しているものが出ない」と不満

レコメンドでは「知っているものが出る」と不満

Ｑ.6 検索とレコメンデーションは違うの？（2/2）

境界は非常にあいまいになってきている

検索の中でもレコメンドがたくさんもしかして機能

クエリ拡張（東大で検索しても、東京大学も探す）

レコメンドの中でも検索はたくさん似た履歴情報、個人情報を大量のＤＢから探す

導入編Q.7

ユーザーはどうしたら便利？

Q.7 ユーザーはどうしたら便利？

教えてください

レコメンドは出しゃばると嫌がられる場合が多いユーザーにとっては望んでいる行動ではない

はてなブックマークの例

技術編

技術編Q.8

購入履歴情報は

どう扱えばいいの？

Q.8 購入履歴情報はどう扱えばいいの？

答え：大抵「疎な行列情報」で表せます二つの要素間の関係を記述

三つ以上の関係を真面目に記述するとテンソル

ミスチルらき☆すた水樹奈々 FF ドラクエ

田中 ○ ○

太田 ○ ○

徳永 ○

岡野原 ○ ○ ○

西川 ○ ○

技術編Q.9

お勧め商品を

紹介するには？

Q.9 お勧め商品を紹介するには？

似ている人を探し、その人が買っていて、もう一人が買っていないものを探せばよい例：太田にお勧めは、「ドラクエ」

ミスチルらき☆すた水樹奈々 FF ドラクエ

田中 ○ ○

太田 ○ ○

徳永 ○

岡野原 ○ ○ ○

西川 ○ ○

チャンス！

技術編Q.10

「似ている」はどう計算する？

Q.10「似ている」はどう計算する？

共通に買った個数を「似ている度」とする

問題点：たくさん商品を買っている人は誰からみても「似ている度」が高い

解決法：スコアを正規化する自分と全く同じ人との「似ている度」を１にする

ミスチルらき☆すた

水樹奈々

FF ドラクエ

太田 ○ ○ ○

岡野原 ○ ○ ○

海老原 ○ ○ ○ ○ ○

似ている度３正規化後１

似ている度３正規化後０．７

数学で話すと

購入情報をm次元のベクトル v∈Rm

vi = 1 i番目の商品を買った

vi = 0 買っていない

「似ている度」＝ベクトル間の内積vとwの似ている度（両方買ってるなら1）

正規化された「似ている度」＝ベクトル間のコサイン値（０～１）

mmwvwvwvwv ..., 2211

疑似コードで話すと

購入情報を長さmの配列 v[m]で表すv[i] = 1 i番目の商品を買った

v[i] = 0 買っていない

「似ている度」＝ベクトル間の内積calcInp(v, w)

sum = 0;

for (i = 0; i < m; i++) sum += v[i] * w[i];return sum;

• 正規化されたスコア• calcInp(v, w) / sqrt(calcInp(v, v) * calcInp(w,w))

技術編Q.11

コンテンツベースの情報は

どう扱えばよいの？

Q.11 コンテンツベースの情報はどう扱えばよいの？（1/2）

疎な行列で同じように表にして処理する似た商品を探す方法は先ほどと同じ

男性アーティスト

女性アーティスト

ゲーム価格<3000

価格3000<

ミスチル ○ ○

サザン ○ ○

水樹奈々 ○ ○

FF ○ ○

ドラクエ ○ ○

Q.11 コンテンツベースの情報はどう扱えばよいの？（2/2）文書の場合は、文書に含まれる単語を属性だと思う

BoW (Bag of Words)表現

日本Ｗ杯中村俊輔野球 …

文書１ ○ ○ ○

文書２ ○ ○ ○

文書３ ○

文書１：日本代表は２８日、Ｗ杯アジア最終予選第５戦でバーレーンと対戦し、１―０で勝った。後半２分にＭＦ中村俊輔（３０）が国際Ａマッチ通算２３点目となるＦＫからのゴールを決め、チームを最終予選ホーム初勝利に導いた。

技術編Q.12

パーソナライゼーションは

どうやって実現？

Q. 12 パーソナライゼーションはどうやって実現？行動履歴の情報を詳細に入れれば、自然にパーソナライゼーションが実現個人に関係する情報も特徴情報に入れてよい

買った人の情報など

性別・年齢

計算量とのトレードオフ特徴情報が非常に大きくなる可能性

技術編Q. 13

非常に大きいデータを

扱うには

Q.13 非常に大きいデータを扱うには

とにかくメモリに入るように努力する疎なベクトルを“アドレス”と”値“のペアで管理WEB+DB Pressを見てください

誰でも持っているような特徴情報は捨てる

サンプリングする

索引を工夫する転置ファイル

低次元：Cover Tree

高次元：Locality Sensitive Hash / Spectral Hash

PFI編

PFI編Q.14

Preferred Infrastructureは

どんなレコメンド製品を

提供しているの？

Q.14 Preferred Infrastructureはどんなレコメンド製品を提供？

データの性質と手法でいろいろ

Reflexa先ほどの行列がある場合似たものを高速に探す

Hotate似た文書を探すのに特化

他にもケースバイケースで

PFI編Q.15

Reflexaについて教えて

Q.15 Reflexaについて教えて

行列を与えたら、似た行・列を高速に探すエンジンデモサイト http://labs.preferred.jp/reflexa/行：単語列：Wikipediaの文書

「はてぶ」の関連エントリ行：エントリ列：ユーザーが付けたタグ

「似ている」の計算は内積よりちょっと複雑“Bayesian Set”と呼ばれる手法を元に

行列情報は圧縮して格納非常に大きい情報でもメモリ上で操作可能

PFI編Q.16

Hotateについて教えて

Q.16 Hotateについて教えて

関連文書を探すのに特化利用例：asahi.com, IT-Proの関連ニュース

文書からのキーワードの抽出に工夫辞書と文脈情報（どこで切れるか）を組み合わせる

各キーワードにスコアが付いている字種情報、キーワードの意味情報（住所など）

2009年4月8日セミナー 4.レコメンデーション q&a

Technology

rails解説セミナー第4章

20160608 iotセミナー

connectom × wa1st セミナー

itpass セミナー～ zindaiji ～

開催セミナー・講演会等一覧－1－...

amazon elastic mapreduce + apache mahout...

jastpro sipsセミナー

共催学術セミナー...

「openstack最新情報セミナー」2014/4...

【pixta 動画セミナー】2014.10.18_構図セミナー

岡田謙介...

movable typeセミナー 2010年4月5日...

『報告書』 · web サービスメール： gmail...

20140130 セミナー

ブロードバンドタワー様講演...

movable type セミナー

テキストマイニングと...

movable typeセミナー2011年4月20日 in 名古屋...

セミナーa4 1129...title セミナーa4_1129 created date...

第4回東京セミナー dnp