分布のカーネル埋め込みに基づく bag-of-words ...€¦ ·...

分布のカーネル埋め込みに基づくBag-of-Wordsデータのための潜在変数モデル吉川友也千葉工業大学人工知能・ソフトウェア技術研究センター

自己紹介：吉川友也千葉工業大学人工知能・ソフトウェア技術研究センター主任研究員

経歴n 2015年9月奈良先端科学技術大学院大学博士後期課程修了

• コミュニケーション学（NTTCS研）連携研究室と自然言語処理学研究室に在籍

• 博士（工学）

n 2015年10月から現職

研究トピックnカーネル法、潜在変数モデル、ベイズ確率モデルn動画像解析のためのディープラーニング

2

STAIR Lab.Software Technology and Artificial Intelligence Research Laboratory

2015年4月設立

所長：米澤明憲先生nメンバーは9人

研究専門機関n学部・大学院とは独立n所員は研究専任

研究テーマn機械学習、自然言語処理、画像処理、ソフトウェア技術 3

ステアラボ人工知能セミナー@スカイツリー

4

分布のカーネル埋め込みに基づくBag-of-Wordsデータのための潜在変数モデル吉川友也千葉工業大学人工知能・ソフトウェア技術研究センター

２群の検定

分布のカーネル埋め込みを使ってできること一部だけを挙げました

6

𝑋~ℙ 𝑌~ℚ

ℙ = ℚ ?

独立性の検定

𝑃 𝑋, 𝑌 = 𝑃 𝑋 𝑃(𝑌) ?

密度推定

分布データの分類分布データの回帰分布データの異常値検出

𝑋~ℙ 𝑌~ℚ

[Szabó+, JMLR2016][Muandet+, NIPS2014] [Muandet+, AISTATS2015]

[Gretton+, JMLR2012] [Gretton +, ALT2005][Dudik+, NIPS2005]

青

赤

1.2

-0.3

𝑋~ℙ𝑋+

少数のサンプルから元の確率密度を復元

２群の検定

本発表で関連のある技術

7

𝑋~ℙ 𝑌~ℚ

ℙ = ℚ ?

独立性の検定

𝑃 𝑋, 𝑌 = 𝑃 𝑋 𝑃(𝑌) ?

密度推定

分布データの分類分布データの回帰分布データの異常値検出

𝑋~ℙ 𝑌~ℚ

[Szabó+, JMLR2016][Muandet+, NIPS2014] [Muandet+, AISTATS2015]

[Gretton+, JMLR2012] [Gretton +, ALT2005][Dudik+, NIPS2005]

青

赤

1.2

-0.3

𝑋~ℙ𝑋+

少数のサンプルから元の確率密度を復元

本日の内容

紹介する研究n Yuya Yoshikawa, Tomoharu Iwata, Hiroshi Sawada,

“Latent Support Measure Machines for Bag-of-Words Data Classification,” NIPS, 2014.

n Yuya Yoshikawa, Tomoharu Iwata, Hiroshi Sawada,“Non-linear Regression for Bag-of-Words Data via Gaussian Process Latent Variable Set Model,” AAAI, 2015.

n Yuya Yoshikawa, Tomoharu Iwata, Hiroshi Sawada, Takeshi Yamada,“Cross-Domain Matching for Bag-of-Words Data via Kernel Embeddings of Latent Distributions,” NIPS, 2015.

8

“Bag-of-Wordsデータの分類・回帰・異種データ間マッチング”について話します

対象データ：Bag-of-Words (BoW)カウントデータとも呼びます

データを特徴の多重集合によって表現するn文書：単語の多重集合n画像：ベクトル量子化された画像特徴量の多重集合n商品：購入したユーザの多重集合

9注意：簡単のため、多重集合を集合表記で書きます

文書

アギーレアジアアメリカ野球サッカー

21002

……

頻度ベクトル単語のBoWv

自然言語処理の例

D

みんな大好き？カーネル法直感的な解釈です

基本アイディア：データを高次元空間で扱うn元空間では非線形関数が必要➡高次元空間なら線形で十分

10

カーネル法のメリットn陽に高次元空間へ写像する必要はないn代わりに、元空間でのデータ間の類似度（カーネル）を使用

カーネル法の具体例：SVMカーネル界で最も有名

目的：二値分類のための識別関数fの学習n 𝑦 ∈ 1,−1 ：クラスラベル 𝒗：データ点n 𝑓 𝒗 > 0のとき1、𝑓 𝒗 < 0のとき− 1と分類したい

方法：異なるクラス間のマージン最大化

最適な識別関数の形：

11

f(v) = sgn⇣ nX

i=1

yiaiK(vi,v) + b⌘

カーネル関数によって、上手く識別できるか決まる

マージン

識別関数

カーネル関数

内積に基づくカーネル関数の問題点線形カーネル、多項式カーネル、RBFカーネル…

内積＝同じ次元の相関の和n欠点：関連する特徴との相関が考慮されない

12

KLIN(v,v0) = v>v0

KPOLY(v,v0) =

�v>v0 + a

�b線形カーネル：

多項式カーネル：

RBFカーネル：

v>v0 =dX

l=1

vlv0l

21002

…

01002

…


…

v v0

KRBF(v,v0) = exp(��||v � v0||22/2)/ exp(2v>v0 � v>v � v0>v0

)

解決策その１：特徴のカテゴリ化特徴に関する知識があればそれを使えば良いが…

問題点nカテゴリ情報が役に立つかはタスク次第n限定的な解決策

13

スポーツカテゴリ

サッカー野球テニス卓球


21002

……

スポーツカテゴリ 2

外部の言語資源を利用して、素性のカテゴリを新たな特徴として加える

解決策その２：データの低次元表現を利用行列分解、トピックモデル、word2vec…

問題点n目的のタスクにとって良い表現になっているか不明

14

LSA等(行列分解)によって得られるデータの低次元表現を利用して、カーネルを計算する

頻度行列

データ

特徴

データ

q 特徴

q⇡データの低次元表現

提案するカーネル法の枠組み2つのパートから構成されます

1. BoWのためのデータ表現法n 分布のカーネル埋め込みを利用したBoWデータ表現n BoWのためのカーネル関数: Latent Distribution Kernel (LDK)

2.問題に合わせたLDKに基づく定式化n 分類・回帰・異種データ間マッチングに適用

15

BoWのためのデータ表現法この表現法を使い回して、分類・回帰・異種データマッチングをやります

各特徴𝑓に潜在ベクトル𝒙6 ∈ ℝ8を割り当てるn潜在ベクトルで特徴の役割の近さを捉えるn適用したいタスクの目的関数を使って学習

𝑖番目のデータは潜在ベクトルの多重集合𝑿; = {𝒙6}6∈>?n 𝐷;：𝑖番目のBoWデータ（特徴の多重集合）

16


21002

……

潜在空間ℝ8

xアギーレ

xアメリカx野球

xアジア

潜在ベクトルの集合を上手く表現したい ➡ 分布のカーネル埋め込み

xサッカー

分布のカーネル埋め込みカーネル平均を計算することに相当します

何ができる？nある分布からのサンプル集合のカーネル平均を計算することにより、その分布のモーメントを表現できる

カーネル平均n分布Ρからのサンプル集合𝑿 = {𝒙B}BCDE

nカーネル関数としてガウスカーネルを使うと、分布Ρの無限次モーメントまで保存される

17

[Fukumizu+ ‘04, Smola+ ‘07]

k : カーネル関数（埋め込みカーネル）m(X) =

1

M

MX

m=1

k(·,xm)

分布のカーネル埋め込みによるBoWデータ表現潜在ベクトルの分布をカーネル埋め込みします

1. 𝑖番目のデータの潜在ベクトル集合 𝑿; = {𝒙6}6∈>?n 𝐷;：𝑖番目のBoWデータ（特徴の多重集合）

2. 𝑿;のカーネル平均を計算：

18

潜在空間

xアギーレ

xアメリカx野球

xアジア

xサッカー

高次元空間（RKHS）

X1

X2

m(X2)

m(X1)

m(Xi) =1

|Di|X

f2Di

k(·,xf )

BoWデータのためのカーネル関数Latent Distribution Kernel (LDK)と呼びます

LDKn潜在ベクトルの集合の類似度を測る

LDKの定義: カーネル平均の内積

19

高次元空間（RKHS）

m(X2)

m(X1)

K(X1,X2)

LDKの解釈LDKの計算 = 全ての特徴間の頻度相関の重み付き和

n重みは、特徴の潜在ベクトル間のカーネル値

20

相関重み21002

…

01002

…


…21002

…

01002

…


…

内積に基づくカーネル LDK

潜在ベクトルの座標で特徴の関係が捉えられる

提案するカーネル法の枠組み2つのパートから構成されます

1. BoWのためのデータ表現法n 分布のカーネル埋め込みを利用したBoWデータ表現n BoWのためのカーネル関数: Latent Distribution Kernel (LDK)

2.問題に合わせたLDKに基づく定式化n 分類・回帰・異種データ間マッチングに適用

21

LDKを使って分類最初の適用例

具体例：文書分類nゴール：正しいカテゴリに文書を分類できる関数𝑓の学習

22

文書

分類器f

yカテゴリ


21002

……頻度ベクトルv

提案手法: Latent Support Measure Machine (Latent SMM)n SVMとともにLDKを学習

[Yoshikawa+ NIPS2014]

提案法: Latent SMMSVMとの違い: カーネルにLDKを使っている点

目的：二値分類のための識別関数fの学習n 𝑦 ∈ 1,−1 ：クラスラベル 𝒗：データ点n 𝑓 𝒗 > 0のとき1、𝑓 𝒗 < 0のとき− 1と分類したい

方法：異なるクラス間のマージン最大化

最適な識別関数の形：

23

f(v) = sgn⇣ nX

i=1

yiaiK(vi,v) + b⌘

マージン

識別関数

ここの部分がLDK

Latent SMMの学習簡単にいえば、LDKとSVMの同時学習です

学習のイメージ

24

xgoal xamerica

xbaseballxasia

xsoccer

潜在空間

RKHS

xgoal

xamericaxbaseballxasia

xsoccer

xgoal

xamerica

xbaseballxasia

xsoccer

Latent SMMの最適化潜在ベクトルX、カーネルパラメータθ、識別関数パラメータAを学習します

解く問題

25

□：SVMと同じ形（ただし、X と θ が潜在変数）□：X に対するL2正則化

解き方n min部とmax部を交互に最適化nマルチカーネル学習と同じ戦略（c.f. wrapper method）

標準的なテキスト分類データセットによる実験3種類のデータセットで実験

比較手法n SVM: RBFカーネル、二次多項式カーネルn MedLDA: トピックモデル+識別器の同時学習n SMM: SVDやword2vecで得た単語のベクトル表現を使いSMMを学習

26

統計量

結果1: 訓練データ数を変化させたときの分類性能

提案手法（赤線）が全てのデータで最高性能を達成

27

WebKBでの結果Good

結果2:潜在ベクトルの次元数を変えた時の分類性能

提案手法は低次元(2次元)で最も高い分類精度n単語の可視化が分類性能を保ったまま可能

28

WebKBでの結果Good

結果3:ハイパーパラメータの設定に対する性能の変化

Cが大きいと性能が良い →ハードマージンでOKn SVMより少ないハイパーパラメータ調整で良い性能を達成できる可能性が示唆される

29

WebKBでの結果

縦軸：単語の潜在ベクトルの正則化パラメータ

横軸：誤識別に対する罰則パラメータ Cハードマージン

結果4:各カテゴリにおける単語分布の可視化

カテゴリ間の内容の相関関係が分析できるn例: facultyとstudentの文書は、単語分布の山が重なっているので、内容的に似ている

30

WebKBでの結果（2次元の潜在空間）各カテゴリの文書に含まれる単語を可視化

LDKを使って回帰2つ目の適用例

ゴール：正確な予測関数𝑓の学習

31

文書

予測関数f

yスコア


21002

……

頻度ベクトルv

提案法nガウス過程回帰モデルとLDKを同時に学習

[Yoshikawa+ AAAI2015]

ガウス過程の概要必要最小限の知識だけ…

ガウス過程n関数を生成するための事前分布

32

f(v)の平均（通常、ゼロベクトル） f(v)の共分散

f(v) ⇠ GP(m(v), k(v,v0))

カーネル法との関係n出力の共分散を表すために、入力のカーネル関数を使う

ガウス過程回帰モデルガウス過程で生成した関数を使って回帰

33

y = f(v) + ✏ f(v) ⇠ GP(0, k(v,v0))where

p(y|{vi}ni=1,�) =

ZN (y|f ,�2I)N (f |0, [K(vi,vj)]

ni,j=1)df

出力の尤度ガウス過程事前分布

= N (y|0, [K(vi,vj ; ✓)]ni,j=1 + �2I)

出力𝑦の尤度関数：

予測性能はカーネル関数に依存➡ LDKによって予測性能が上げられる可能性あり

提案法: ガウス過程潜在変数集合モデルGaussian Process Latent Variable Set Model (GP-LVSM)

生成モデルのイメージ

34

Kernel&embeddings of&distributions

アイテムレビューデータでの実験アイテムレビューからレビュースコアを予測

35

GP-LVSMは、25のデータ中19のデータで最も低い予測誤差

学習した単語の潜在ベクトルの可視化単語の極性が反映された単語の座標になっている

36

Blue:positivewordsRed:negativewords

(教師あり)異種データ間マッチング最後の適用例です

異なる特徴から成るデータ間のマッチング問題nデータはBoWで表現されているn例: 日本語文書と英語文書、画像とタグ

37

[Yoshikawa+ NIPS2015]

異種データ間マッチングにおける難しさ

マッチングを当てるために、データ間の類似度を直接的に測れない

n元ドメインと目標ドメインの特徴が異なるため

38

アギーレアジアアメリカ野球

サッカー

2100

2

……サッカー Soccer

AguirreAsiaAmericaBaseball

Soccer

2100

……

2

……

類似度が直接的には定義できない

sim(x,y) =?

y 2 Zq+x 2 Zp

+

既存手法正準相関分析（CCA）

nマッチするデータ間の相関が大きくなるように、潜在空間へ写像

39

s.t. Var[a] = Var[b] = 1解く問題: max

a,ba>X>Yb

非線形な構造を捉えたい →カーネルCCA

�� Soccer�� Soccer

Soccer��

X 2 Zn⇥p+ Y 2 Zn⇥q

+

��

Soccer

��

max

a,b

a>Kx

Ky

b

||Kx

a|| ||Ky

b||解く問題: K

x

,Ky

: X, Y内のカーネル行列

[Akaho ‘01]

[Hotelling ‘36]

既存手法の問題点

CCAn線形関数によるマッチングなので、予測性能に限界

カーネルCCAn内積に基づくカーネル関数の問題があり、改善の余地あり

40

提案法LDKを異種データ間のカーネルを計算するために使います

基本アイディアnこれまでと同様、BoWを特徴の潜在ベクトルの集合で表現

n「対応のあるデータは潜在ベクトルの分布の形が似ている」と仮定

n対応のあるデータ間のLDKの値が大きくなるように最適化

41

マッチング予測実験元ドメインのデータを与えたとき、正しい目標ドメインのデータを見つける

データn多言語Wikipedia記事データ（15の2言語ペアデータセットを作成）n Webページ−タグペアデータn画像−タグペアデータ

比較手法n CCA, KCCA, Bilingual Topic Model, 等

評価尺度n R個のマッチング候補に正解が入っているかどうか正解率の平均

42

予測性能：多言語Wikipediaマッチング候補数を増やすと提案手法がかなり良くなる

43

予測精度

マッチング候補数

マッチングの具体例提案法は正解と内容が似ている記事をちゃんと候補として見つける

44

予測性能：Webページ−タグ、画像−タグ

45

予測精度

マッチング候補数

l Webページ−タグ：提案法が圧倒的に良いl 画像−タグ：どの手法もほぼチャンスレベルだが、提案法が若干良い

具体例：タグから画像を見つける

46

l タグを表す画像を見つけてきているl 間違っていても、かなり似ている画像を見つけている

まとめ「分布のカーネル埋め込みに基づくBag-of-Wordsデータのための潜在変数モデル」

BoWデータに使えるカーネル法n BoWを特徴の潜在ベクトルのカーネル埋め込みで表現n Latent Distribution Kernelを定義n SVMやGPとともにLDKを学習して分類・回帰n直接類似度が測れない異種データ間のLDKを学習し、マッチング予測

47

研究課題まだまだこれからの研究です

学習の高速化n確率的勾配法nカーネル近似

BoW以外への適用n連続値データ、系列データ

新しい応用モデルの作成nトピックモデル（LDA）の発展がヒントになるはず

48

Yoshikawa, Iwata, “Randomized Kernel Mean Networks for Bag-of-Words Data,” IPSJ TOM, 2017.(to appear)

分布のカーネル埋め込みに基づく bag-of-words ...€¦ ·...

Documents