nttコミュニケーション科学基礎研究所 中野允裕...

109
1 ノンパラメトリックベイズによるメディア処理 NTTコミュニケーション科学基礎研究所 中野允裕 [email protected] 2012. 11. 15 AIチャレンジ研究会

Upload: others

Post on 07-Jul-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

1

ノンパラメトリックベイズによるメディア処理

NTTコミュニケーション科学基礎研究所 中野允裕

nakanomasahirolabnttcojp

2012 11 15 AIチャレンジ研究会

2

56年前であれば

教科書に載っているような各種ツールの ノンパラベイズ化が話題の中心になっていたが

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

3

2006 2012

Infinite HMM [Beal+2002]

HDP-HMM [Teh+2006]

Sticky HDP-HMM [Fox+2007]

Block diagonal iHMM [Stepleton+2009]

Infinite factorial HMM [Van Gael+2008]

Infinite hierarchical HMM [Heller+2008]

Infinite latent event model [Wingate+2009]

Infinite dynamic Bayesian net [Finale+2011]

Hidden Markov model

Combinatorial State space model

Infinite-gram model [Mochihashi amp Sumita2007]

Sequence memoizer [2009以降多数]

N-gram model

IBP NMF [2007以降多数]

Mondrian iHMM [Nakano+2012]

GaP NMF [Hoffman+2010]

Infinite ICA [2007以降多数]

Infinite PCFG [Liang+2007]

Nonnegative matrix factorization Probabilistic

context free grammar

Independent component analysis

4

本発表の流れ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

3混合モデル と因子モデル 4階層

入れ子 相関

1アプリケーション 2ベイズとはノンパラベイズとは

5

例 電子透かし [ShterevampDunson2012]

どこに埋め込んだのかは未知

埋め込み箇所未知 埋め込み信号未知 画像中に繰り返し登場

目的 画像動画像からのwatermarking

I V Shterev and D B Dunson (2012) Bayesian watermark attacks ICML

6

例 動画系列群からパターン発見 [HughesampSudderth2012]

目的 動画系列群をbehaviorごとにセグメント分け time

一本の動画

M Hughes and E Sudderth (2012) Nonparametric discovery of active patterns from video collections CVPR

7

例 画像群のパーツ分解+階層的な分類

目的 画像+アノテーションの手がかりから画像とそのパッチの階層クラスタリングをしつつ画像のパーツ分解

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

8

例 音楽のメロディーの予測生成

目的 メロディーのような時間方向に長い依存関係があるものの予測や自動生成

[Spiliopoulou amp Storkey2012]

A Spiliopoulou and A Storkey (2012) A topic model for melody sequences ICML

9

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

ベイズ的なメディア処理の基本的な戦略

10

隠れ変数 N個の観測データ

観測データの確率的生成モデル

を推定

平均共分散

尤度関数

事前分布

ベイズ的なメディア処理の基本的な戦略

11

隠れ変数 N個の観測データ

観測データの確率的生成モデル

を推定

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

= + 音量

楽器音の 代表スペクトル

1種の楽器音 スペクトログラム

例)音楽信号分解

確率空間 可算集合の場合

12

標本空間 標本点

σ加法族 標本空間の部分集合の集合族

確率測度 上の非負値関数

べき集合

13

標本空間

「長さ」が測れる

標本空間 標本点

σ加法族 標本空間の部分集合の集合族

確率測度 上の非負値関数

確率空間

確率変数と確率分布

14

確率空間 確率変数

確率空間

確率分布

「確率変数」とはとる値に対して確率が計算できるもの

15

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

16

混合モデルの設計法

混合モデル

山 森 人

各ラベルごとの パラメータの生成

離散分布の生成

ラベルの割り当て

観測データの生成

17

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング

18

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング

番目のGaussian

平均共分散

各ラベルごとのパラメータ

19

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

20

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

21

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

データ生成

22

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

23

Dirichlet分布

総和が1となるベクトルを生成するための分布

Dirichlet変数の作り方1

1 Gamma変数を生成

2 それらを総和が1になるよう正規化

24

ディリクレ分布-離散分布(12)

ラベル割り当て

1 2 3

1 1

1 2 2

2 2 2

3

3

ラベル割当確率

に関して何の事前知識(事前分布)もなければ

1 が何回使われたか

3 5 2 times

25

ディリクレ分布-離散分布(22)

1 2 3

の事前分布を考えると

1 が何回使われたか

ラベル割当確率

事前分布は各ラベルの使用回数へ下駄を履かせたもの

ラベル割り当て

1 1

1 2 2

2 2 2

3

3

26

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

27

モデルの複雑度の設定

28

モデルの複雑度の設定無限モデルの導入

ラベルの重み(総和1) ラベル付随のパラメータ

の可算無限個のペア

膨大なパラメータのうち

観測データを説明するのに必要な分だけが

機能するようにしたい

29

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

30

Dirichlet processesの定義

に従うとき任意の disjoint な の分割 に対して

基底測度

可測空間 の基底測度を 集中度を とする確率測度 が

31

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

32

Dirichlet変数の作り方2 ポリアの壺

[BlackwellampMacqueen1973]

は 番目のラベルに対する事前の「価値」

可測空間 上の測度 に対して

のようなDirichlet変数を作りたい

パラメータへの事前の価値

33

Dirichlet変数の作り方2 ポリアの壺

0回の試行

[BlackwellampMacqueen1973]

34

Dirichlet変数の作り方2 ポリアの壺

1つのボールを取り出す

[BlackwellampMacqueen1973]

35

Dirichlet変数の作り方2 ポリアの壺

取り出したボールと同色のボールを加えて2つを戻す

[BlackwellampMacqueen1973]

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 2: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

2

56年前であれば

教科書に載っているような各種ツールの ノンパラベイズ化が話題の中心になっていたが

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

3

2006 2012

Infinite HMM [Beal+2002]

HDP-HMM [Teh+2006]

Sticky HDP-HMM [Fox+2007]

Block diagonal iHMM [Stepleton+2009]

Infinite factorial HMM [Van Gael+2008]

Infinite hierarchical HMM [Heller+2008]

Infinite latent event model [Wingate+2009]

Infinite dynamic Bayesian net [Finale+2011]

Hidden Markov model

Combinatorial State space model

Infinite-gram model [Mochihashi amp Sumita2007]

Sequence memoizer [2009以降多数]

N-gram model

IBP NMF [2007以降多数]

Mondrian iHMM [Nakano+2012]

GaP NMF [Hoffman+2010]

Infinite ICA [2007以降多数]

Infinite PCFG [Liang+2007]

Nonnegative matrix factorization Probabilistic

context free grammar

Independent component analysis

4

本発表の流れ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

3混合モデル と因子モデル 4階層

入れ子 相関

1アプリケーション 2ベイズとはノンパラベイズとは

5

例 電子透かし [ShterevampDunson2012]

どこに埋め込んだのかは未知

埋め込み箇所未知 埋め込み信号未知 画像中に繰り返し登場

目的 画像動画像からのwatermarking

I V Shterev and D B Dunson (2012) Bayesian watermark attacks ICML

6

例 動画系列群からパターン発見 [HughesampSudderth2012]

目的 動画系列群をbehaviorごとにセグメント分け time

一本の動画

M Hughes and E Sudderth (2012) Nonparametric discovery of active patterns from video collections CVPR

7

例 画像群のパーツ分解+階層的な分類

目的 画像+アノテーションの手がかりから画像とそのパッチの階層クラスタリングをしつつ画像のパーツ分解

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

8

例 音楽のメロディーの予測生成

目的 メロディーのような時間方向に長い依存関係があるものの予測や自動生成

[Spiliopoulou amp Storkey2012]

A Spiliopoulou and A Storkey (2012) A topic model for melody sequences ICML

9

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

ベイズ的なメディア処理の基本的な戦略

10

隠れ変数 N個の観測データ

観測データの確率的生成モデル

を推定

平均共分散

尤度関数

事前分布

ベイズ的なメディア処理の基本的な戦略

11

隠れ変数 N個の観測データ

観測データの確率的生成モデル

を推定

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

= + 音量

楽器音の 代表スペクトル

1種の楽器音 スペクトログラム

例)音楽信号分解

確率空間 可算集合の場合

12

標本空間 標本点

σ加法族 標本空間の部分集合の集合族

確率測度 上の非負値関数

べき集合

13

標本空間

「長さ」が測れる

標本空間 標本点

σ加法族 標本空間の部分集合の集合族

確率測度 上の非負値関数

確率空間

確率変数と確率分布

14

確率空間 確率変数

確率空間

確率分布

「確率変数」とはとる値に対して確率が計算できるもの

15

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

16

混合モデルの設計法

混合モデル

山 森 人

各ラベルごとの パラメータの生成

離散分布の生成

ラベルの割り当て

観測データの生成

17

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング

18

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング

番目のGaussian

平均共分散

各ラベルごとのパラメータ

19

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

20

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

21

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

データ生成

22

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

23

Dirichlet分布

総和が1となるベクトルを生成するための分布

Dirichlet変数の作り方1

1 Gamma変数を生成

2 それらを総和が1になるよう正規化

24

ディリクレ分布-離散分布(12)

ラベル割り当て

1 2 3

1 1

1 2 2

2 2 2

3

3

ラベル割当確率

に関して何の事前知識(事前分布)もなければ

1 が何回使われたか

3 5 2 times

25

ディリクレ分布-離散分布(22)

1 2 3

の事前分布を考えると

1 が何回使われたか

ラベル割当確率

事前分布は各ラベルの使用回数へ下駄を履かせたもの

ラベル割り当て

1 1

1 2 2

2 2 2

3

3

26

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

27

モデルの複雑度の設定

28

モデルの複雑度の設定無限モデルの導入

ラベルの重み(総和1) ラベル付随のパラメータ

の可算無限個のペア

膨大なパラメータのうち

観測データを説明するのに必要な分だけが

機能するようにしたい

29

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

30

Dirichlet processesの定義

に従うとき任意の disjoint な の分割 に対して

基底測度

可測空間 の基底測度を 集中度を とする確率測度 が

31

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

32

Dirichlet変数の作り方2 ポリアの壺

[BlackwellampMacqueen1973]

は 番目のラベルに対する事前の「価値」

可測空間 上の測度 に対して

のようなDirichlet変数を作りたい

パラメータへの事前の価値

33

Dirichlet変数の作り方2 ポリアの壺

0回の試行

[BlackwellampMacqueen1973]

34

Dirichlet変数の作り方2 ポリアの壺

1つのボールを取り出す

[BlackwellampMacqueen1973]

35

Dirichlet変数の作り方2 ポリアの壺

取り出したボールと同色のボールを加えて2つを戻す

[BlackwellampMacqueen1973]

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 3: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

3

2006 2012

Infinite HMM [Beal+2002]

HDP-HMM [Teh+2006]

Sticky HDP-HMM [Fox+2007]

Block diagonal iHMM [Stepleton+2009]

Infinite factorial HMM [Van Gael+2008]

Infinite hierarchical HMM [Heller+2008]

Infinite latent event model [Wingate+2009]

Infinite dynamic Bayesian net [Finale+2011]

Hidden Markov model

Combinatorial State space model

Infinite-gram model [Mochihashi amp Sumita2007]

Sequence memoizer [2009以降多数]

N-gram model

IBP NMF [2007以降多数]

Mondrian iHMM [Nakano+2012]

GaP NMF [Hoffman+2010]

Infinite ICA [2007以降多数]

Infinite PCFG [Liang+2007]

Nonnegative matrix factorization Probabilistic

context free grammar

Independent component analysis

4

本発表の流れ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

3混合モデル と因子モデル 4階層

入れ子 相関

1アプリケーション 2ベイズとはノンパラベイズとは

5

例 電子透かし [ShterevampDunson2012]

どこに埋め込んだのかは未知

埋め込み箇所未知 埋め込み信号未知 画像中に繰り返し登場

目的 画像動画像からのwatermarking

I V Shterev and D B Dunson (2012) Bayesian watermark attacks ICML

6

例 動画系列群からパターン発見 [HughesampSudderth2012]

目的 動画系列群をbehaviorごとにセグメント分け time

一本の動画

M Hughes and E Sudderth (2012) Nonparametric discovery of active patterns from video collections CVPR

7

例 画像群のパーツ分解+階層的な分類

目的 画像+アノテーションの手がかりから画像とそのパッチの階層クラスタリングをしつつ画像のパーツ分解

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

8

例 音楽のメロディーの予測生成

目的 メロディーのような時間方向に長い依存関係があるものの予測や自動生成

[Spiliopoulou amp Storkey2012]

A Spiliopoulou and A Storkey (2012) A topic model for melody sequences ICML

9

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

ベイズ的なメディア処理の基本的な戦略

10

隠れ変数 N個の観測データ

観測データの確率的生成モデル

を推定

平均共分散

尤度関数

事前分布

ベイズ的なメディア処理の基本的な戦略

11

隠れ変数 N個の観測データ

観測データの確率的生成モデル

を推定

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

= + 音量

楽器音の 代表スペクトル

1種の楽器音 スペクトログラム

例)音楽信号分解

確率空間 可算集合の場合

12

標本空間 標本点

σ加法族 標本空間の部分集合の集合族

確率測度 上の非負値関数

べき集合

13

標本空間

「長さ」が測れる

標本空間 標本点

σ加法族 標本空間の部分集合の集合族

確率測度 上の非負値関数

確率空間

確率変数と確率分布

14

確率空間 確率変数

確率空間

確率分布

「確率変数」とはとる値に対して確率が計算できるもの

15

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

16

混合モデルの設計法

混合モデル

山 森 人

各ラベルごとの パラメータの生成

離散分布の生成

ラベルの割り当て

観測データの生成

17

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング

18

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング

番目のGaussian

平均共分散

各ラベルごとのパラメータ

19

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

20

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

21

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

データ生成

22

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

23

Dirichlet分布

総和が1となるベクトルを生成するための分布

Dirichlet変数の作り方1

1 Gamma変数を生成

2 それらを総和が1になるよう正規化

24

ディリクレ分布-離散分布(12)

ラベル割り当て

1 2 3

1 1

1 2 2

2 2 2

3

3

ラベル割当確率

に関して何の事前知識(事前分布)もなければ

1 が何回使われたか

3 5 2 times

25

ディリクレ分布-離散分布(22)

1 2 3

の事前分布を考えると

1 が何回使われたか

ラベル割当確率

事前分布は各ラベルの使用回数へ下駄を履かせたもの

ラベル割り当て

1 1

1 2 2

2 2 2

3

3

26

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

27

モデルの複雑度の設定

28

モデルの複雑度の設定無限モデルの導入

ラベルの重み(総和1) ラベル付随のパラメータ

の可算無限個のペア

膨大なパラメータのうち

観測データを説明するのに必要な分だけが

機能するようにしたい

29

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

30

Dirichlet processesの定義

に従うとき任意の disjoint な の分割 に対して

基底測度

可測空間 の基底測度を 集中度を とする確率測度 が

31

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

32

Dirichlet変数の作り方2 ポリアの壺

[BlackwellampMacqueen1973]

は 番目のラベルに対する事前の「価値」

可測空間 上の測度 に対して

のようなDirichlet変数を作りたい

パラメータへの事前の価値

33

Dirichlet変数の作り方2 ポリアの壺

0回の試行

[BlackwellampMacqueen1973]

34

Dirichlet変数の作り方2 ポリアの壺

1つのボールを取り出す

[BlackwellampMacqueen1973]

35

Dirichlet変数の作り方2 ポリアの壺

取り出したボールと同色のボールを加えて2つを戻す

[BlackwellampMacqueen1973]

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 4: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

4

本発表の流れ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

3混合モデル と因子モデル 4階層

入れ子 相関

1アプリケーション 2ベイズとはノンパラベイズとは

5

例 電子透かし [ShterevampDunson2012]

どこに埋め込んだのかは未知

埋め込み箇所未知 埋め込み信号未知 画像中に繰り返し登場

目的 画像動画像からのwatermarking

I V Shterev and D B Dunson (2012) Bayesian watermark attacks ICML

6

例 動画系列群からパターン発見 [HughesampSudderth2012]

目的 動画系列群をbehaviorごとにセグメント分け time

一本の動画

M Hughes and E Sudderth (2012) Nonparametric discovery of active patterns from video collections CVPR

7

例 画像群のパーツ分解+階層的な分類

目的 画像+アノテーションの手がかりから画像とそのパッチの階層クラスタリングをしつつ画像のパーツ分解

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

8

例 音楽のメロディーの予測生成

目的 メロディーのような時間方向に長い依存関係があるものの予測や自動生成

[Spiliopoulou amp Storkey2012]

A Spiliopoulou and A Storkey (2012) A topic model for melody sequences ICML

9

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

ベイズ的なメディア処理の基本的な戦略

10

隠れ変数 N個の観測データ

観測データの確率的生成モデル

を推定

平均共分散

尤度関数

事前分布

ベイズ的なメディア処理の基本的な戦略

11

隠れ変数 N個の観測データ

観測データの確率的生成モデル

を推定

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

= + 音量

楽器音の 代表スペクトル

1種の楽器音 スペクトログラム

例)音楽信号分解

確率空間 可算集合の場合

12

標本空間 標本点

σ加法族 標本空間の部分集合の集合族

確率測度 上の非負値関数

べき集合

13

標本空間

「長さ」が測れる

標本空間 標本点

σ加法族 標本空間の部分集合の集合族

確率測度 上の非負値関数

確率空間

確率変数と確率分布

14

確率空間 確率変数

確率空間

確率分布

「確率変数」とはとる値に対して確率が計算できるもの

15

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

16

混合モデルの設計法

混合モデル

山 森 人

各ラベルごとの パラメータの生成

離散分布の生成

ラベルの割り当て

観測データの生成

17

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング

18

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング

番目のGaussian

平均共分散

各ラベルごとのパラメータ

19

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

20

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

21

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

データ生成

22

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

23

Dirichlet分布

総和が1となるベクトルを生成するための分布

Dirichlet変数の作り方1

1 Gamma変数を生成

2 それらを総和が1になるよう正規化

24

ディリクレ分布-離散分布(12)

ラベル割り当て

1 2 3

1 1

1 2 2

2 2 2

3

3

ラベル割当確率

に関して何の事前知識(事前分布)もなければ

1 が何回使われたか

3 5 2 times

25

ディリクレ分布-離散分布(22)

1 2 3

の事前分布を考えると

1 が何回使われたか

ラベル割当確率

事前分布は各ラベルの使用回数へ下駄を履かせたもの

ラベル割り当て

1 1

1 2 2

2 2 2

3

3

26

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

27

モデルの複雑度の設定

28

モデルの複雑度の設定無限モデルの導入

ラベルの重み(総和1) ラベル付随のパラメータ

の可算無限個のペア

膨大なパラメータのうち

観測データを説明するのに必要な分だけが

機能するようにしたい

29

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

30

Dirichlet processesの定義

に従うとき任意の disjoint な の分割 に対して

基底測度

可測空間 の基底測度を 集中度を とする確率測度 が

31

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

32

Dirichlet変数の作り方2 ポリアの壺

[BlackwellampMacqueen1973]

は 番目のラベルに対する事前の「価値」

可測空間 上の測度 に対して

のようなDirichlet変数を作りたい

パラメータへの事前の価値

33

Dirichlet変数の作り方2 ポリアの壺

0回の試行

[BlackwellampMacqueen1973]

34

Dirichlet変数の作り方2 ポリアの壺

1つのボールを取り出す

[BlackwellampMacqueen1973]

35

Dirichlet変数の作り方2 ポリアの壺

取り出したボールと同色のボールを加えて2つを戻す

[BlackwellampMacqueen1973]

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 5: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

5

例 電子透かし [ShterevampDunson2012]

どこに埋め込んだのかは未知

埋め込み箇所未知 埋め込み信号未知 画像中に繰り返し登場

目的 画像動画像からのwatermarking

I V Shterev and D B Dunson (2012) Bayesian watermark attacks ICML

6

例 動画系列群からパターン発見 [HughesampSudderth2012]

目的 動画系列群をbehaviorごとにセグメント分け time

一本の動画

M Hughes and E Sudderth (2012) Nonparametric discovery of active patterns from video collections CVPR

7

例 画像群のパーツ分解+階層的な分類

目的 画像+アノテーションの手がかりから画像とそのパッチの階層クラスタリングをしつつ画像のパーツ分解

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

8

例 音楽のメロディーの予測生成

目的 メロディーのような時間方向に長い依存関係があるものの予測や自動生成

[Spiliopoulou amp Storkey2012]

A Spiliopoulou and A Storkey (2012) A topic model for melody sequences ICML

9

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

ベイズ的なメディア処理の基本的な戦略

10

隠れ変数 N個の観測データ

観測データの確率的生成モデル

を推定

平均共分散

尤度関数

事前分布

ベイズ的なメディア処理の基本的な戦略

11

隠れ変数 N個の観測データ

観測データの確率的生成モデル

を推定

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

= + 音量

楽器音の 代表スペクトル

1種の楽器音 スペクトログラム

例)音楽信号分解

確率空間 可算集合の場合

12

標本空間 標本点

σ加法族 標本空間の部分集合の集合族

確率測度 上の非負値関数

べき集合

13

標本空間

「長さ」が測れる

標本空間 標本点

σ加法族 標本空間の部分集合の集合族

確率測度 上の非負値関数

確率空間

確率変数と確率分布

14

確率空間 確率変数

確率空間

確率分布

「確率変数」とはとる値に対して確率が計算できるもの

15

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

16

混合モデルの設計法

混合モデル

山 森 人

各ラベルごとの パラメータの生成

離散分布の生成

ラベルの割り当て

観測データの生成

17

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング

18

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング

番目のGaussian

平均共分散

各ラベルごとのパラメータ

19

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

20

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

21

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

データ生成

22

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

23

Dirichlet分布

総和が1となるベクトルを生成するための分布

Dirichlet変数の作り方1

1 Gamma変数を生成

2 それらを総和が1になるよう正規化

24

ディリクレ分布-離散分布(12)

ラベル割り当て

1 2 3

1 1

1 2 2

2 2 2

3

3

ラベル割当確率

に関して何の事前知識(事前分布)もなければ

1 が何回使われたか

3 5 2 times

25

ディリクレ分布-離散分布(22)

1 2 3

の事前分布を考えると

1 が何回使われたか

ラベル割当確率

事前分布は各ラベルの使用回数へ下駄を履かせたもの

ラベル割り当て

1 1

1 2 2

2 2 2

3

3

26

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

27

モデルの複雑度の設定

28

モデルの複雑度の設定無限モデルの導入

ラベルの重み(総和1) ラベル付随のパラメータ

の可算無限個のペア

膨大なパラメータのうち

観測データを説明するのに必要な分だけが

機能するようにしたい

29

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

30

Dirichlet processesの定義

に従うとき任意の disjoint な の分割 に対して

基底測度

可測空間 の基底測度を 集中度を とする確率測度 が

31

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

32

Dirichlet変数の作り方2 ポリアの壺

[BlackwellampMacqueen1973]

は 番目のラベルに対する事前の「価値」

可測空間 上の測度 に対して

のようなDirichlet変数を作りたい

パラメータへの事前の価値

33

Dirichlet変数の作り方2 ポリアの壺

0回の試行

[BlackwellampMacqueen1973]

34

Dirichlet変数の作り方2 ポリアの壺

1つのボールを取り出す

[BlackwellampMacqueen1973]

35

Dirichlet変数の作り方2 ポリアの壺

取り出したボールと同色のボールを加えて2つを戻す

[BlackwellampMacqueen1973]

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 6: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

6

例 動画系列群からパターン発見 [HughesampSudderth2012]

目的 動画系列群をbehaviorごとにセグメント分け time

一本の動画

M Hughes and E Sudderth (2012) Nonparametric discovery of active patterns from video collections CVPR

7

例 画像群のパーツ分解+階層的な分類

目的 画像+アノテーションの手がかりから画像とそのパッチの階層クラスタリングをしつつ画像のパーツ分解

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

8

例 音楽のメロディーの予測生成

目的 メロディーのような時間方向に長い依存関係があるものの予測や自動生成

[Spiliopoulou amp Storkey2012]

A Spiliopoulou and A Storkey (2012) A topic model for melody sequences ICML

9

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

ベイズ的なメディア処理の基本的な戦略

10

隠れ変数 N個の観測データ

観測データの確率的生成モデル

を推定

平均共分散

尤度関数

事前分布

ベイズ的なメディア処理の基本的な戦略

11

隠れ変数 N個の観測データ

観測データの確率的生成モデル

を推定

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

= + 音量

楽器音の 代表スペクトル

1種の楽器音 スペクトログラム

例)音楽信号分解

確率空間 可算集合の場合

12

標本空間 標本点

σ加法族 標本空間の部分集合の集合族

確率測度 上の非負値関数

べき集合

13

標本空間

「長さ」が測れる

標本空間 標本点

σ加法族 標本空間の部分集合の集合族

確率測度 上の非負値関数

確率空間

確率変数と確率分布

14

確率空間 確率変数

確率空間

確率分布

「確率変数」とはとる値に対して確率が計算できるもの

15

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

16

混合モデルの設計法

混合モデル

山 森 人

各ラベルごとの パラメータの生成

離散分布の生成

ラベルの割り当て

観測データの生成

17

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング

18

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング

番目のGaussian

平均共分散

各ラベルごとのパラメータ

19

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

20

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

21

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

データ生成

22

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

23

Dirichlet分布

総和が1となるベクトルを生成するための分布

Dirichlet変数の作り方1

1 Gamma変数を生成

2 それらを総和が1になるよう正規化

24

ディリクレ分布-離散分布(12)

ラベル割り当て

1 2 3

1 1

1 2 2

2 2 2

3

3

ラベル割当確率

に関して何の事前知識(事前分布)もなければ

1 が何回使われたか

3 5 2 times

25

ディリクレ分布-離散分布(22)

1 2 3

の事前分布を考えると

1 が何回使われたか

ラベル割当確率

事前分布は各ラベルの使用回数へ下駄を履かせたもの

ラベル割り当て

1 1

1 2 2

2 2 2

3

3

26

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

27

モデルの複雑度の設定

28

モデルの複雑度の設定無限モデルの導入

ラベルの重み(総和1) ラベル付随のパラメータ

の可算無限個のペア

膨大なパラメータのうち

観測データを説明するのに必要な分だけが

機能するようにしたい

29

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

30

Dirichlet processesの定義

に従うとき任意の disjoint な の分割 に対して

基底測度

可測空間 の基底測度を 集中度を とする確率測度 が

31

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

32

Dirichlet変数の作り方2 ポリアの壺

[BlackwellampMacqueen1973]

は 番目のラベルに対する事前の「価値」

可測空間 上の測度 に対して

のようなDirichlet変数を作りたい

パラメータへの事前の価値

33

Dirichlet変数の作り方2 ポリアの壺

0回の試行

[BlackwellampMacqueen1973]

34

Dirichlet変数の作り方2 ポリアの壺

1つのボールを取り出す

[BlackwellampMacqueen1973]

35

Dirichlet変数の作り方2 ポリアの壺

取り出したボールと同色のボールを加えて2つを戻す

[BlackwellampMacqueen1973]

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 7: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

7

例 画像群のパーツ分解+階層的な分類

目的 画像+アノテーションの手がかりから画像とそのパッチの階層クラスタリングをしつつ画像のパーツ分解

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

8

例 音楽のメロディーの予測生成

目的 メロディーのような時間方向に長い依存関係があるものの予測や自動生成

[Spiliopoulou amp Storkey2012]

A Spiliopoulou and A Storkey (2012) A topic model for melody sequences ICML

9

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

ベイズ的なメディア処理の基本的な戦略

10

隠れ変数 N個の観測データ

観測データの確率的生成モデル

を推定

平均共分散

尤度関数

事前分布

ベイズ的なメディア処理の基本的な戦略

11

隠れ変数 N個の観測データ

観測データの確率的生成モデル

を推定

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

= + 音量

楽器音の 代表スペクトル

1種の楽器音 スペクトログラム

例)音楽信号分解

確率空間 可算集合の場合

12

標本空間 標本点

σ加法族 標本空間の部分集合の集合族

確率測度 上の非負値関数

べき集合

13

標本空間

「長さ」が測れる

標本空間 標本点

σ加法族 標本空間の部分集合の集合族

確率測度 上の非負値関数

確率空間

確率変数と確率分布

14

確率空間 確率変数

確率空間

確率分布

「確率変数」とはとる値に対して確率が計算できるもの

15

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

16

混合モデルの設計法

混合モデル

山 森 人

各ラベルごとの パラメータの生成

離散分布の生成

ラベルの割り当て

観測データの生成

17

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング

18

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング

番目のGaussian

平均共分散

各ラベルごとのパラメータ

19

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

20

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

21

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

データ生成

22

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

23

Dirichlet分布

総和が1となるベクトルを生成するための分布

Dirichlet変数の作り方1

1 Gamma変数を生成

2 それらを総和が1になるよう正規化

24

ディリクレ分布-離散分布(12)

ラベル割り当て

1 2 3

1 1

1 2 2

2 2 2

3

3

ラベル割当確率

に関して何の事前知識(事前分布)もなければ

1 が何回使われたか

3 5 2 times

25

ディリクレ分布-離散分布(22)

1 2 3

の事前分布を考えると

1 が何回使われたか

ラベル割当確率

事前分布は各ラベルの使用回数へ下駄を履かせたもの

ラベル割り当て

1 1

1 2 2

2 2 2

3

3

26

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

27

モデルの複雑度の設定

28

モデルの複雑度の設定無限モデルの導入

ラベルの重み(総和1) ラベル付随のパラメータ

の可算無限個のペア

膨大なパラメータのうち

観測データを説明するのに必要な分だけが

機能するようにしたい

29

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

30

Dirichlet processesの定義

に従うとき任意の disjoint な の分割 に対して

基底測度

可測空間 の基底測度を 集中度を とする確率測度 が

31

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

32

Dirichlet変数の作り方2 ポリアの壺

[BlackwellampMacqueen1973]

は 番目のラベルに対する事前の「価値」

可測空間 上の測度 に対して

のようなDirichlet変数を作りたい

パラメータへの事前の価値

33

Dirichlet変数の作り方2 ポリアの壺

0回の試行

[BlackwellampMacqueen1973]

34

Dirichlet変数の作り方2 ポリアの壺

1つのボールを取り出す

[BlackwellampMacqueen1973]

35

Dirichlet変数の作り方2 ポリアの壺

取り出したボールと同色のボールを加えて2つを戻す

[BlackwellampMacqueen1973]

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 8: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

8

例 音楽のメロディーの予測生成

目的 メロディーのような時間方向に長い依存関係があるものの予測や自動生成

[Spiliopoulou amp Storkey2012]

A Spiliopoulou and A Storkey (2012) A topic model for melody sequences ICML

9

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

ベイズ的なメディア処理の基本的な戦略

10

隠れ変数 N個の観測データ

観測データの確率的生成モデル

を推定

平均共分散

尤度関数

事前分布

ベイズ的なメディア処理の基本的な戦略

11

隠れ変数 N個の観測データ

観測データの確率的生成モデル

を推定

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

= + 音量

楽器音の 代表スペクトル

1種の楽器音 スペクトログラム

例)音楽信号分解

確率空間 可算集合の場合

12

標本空間 標本点

σ加法族 標本空間の部分集合の集合族

確率測度 上の非負値関数

べき集合

13

標本空間

「長さ」が測れる

標本空間 標本点

σ加法族 標本空間の部分集合の集合族

確率測度 上の非負値関数

確率空間

確率変数と確率分布

14

確率空間 確率変数

確率空間

確率分布

「確率変数」とはとる値に対して確率が計算できるもの

15

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

16

混合モデルの設計法

混合モデル

山 森 人

各ラベルごとの パラメータの生成

離散分布の生成

ラベルの割り当て

観測データの生成

17

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング

18

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング

番目のGaussian

平均共分散

各ラベルごとのパラメータ

19

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

20

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

21

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

データ生成

22

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

23

Dirichlet分布

総和が1となるベクトルを生成するための分布

Dirichlet変数の作り方1

1 Gamma変数を生成

2 それらを総和が1になるよう正規化

24

ディリクレ分布-離散分布(12)

ラベル割り当て

1 2 3

1 1

1 2 2

2 2 2

3

3

ラベル割当確率

に関して何の事前知識(事前分布)もなければ

1 が何回使われたか

3 5 2 times

25

ディリクレ分布-離散分布(22)

1 2 3

の事前分布を考えると

1 が何回使われたか

ラベル割当確率

事前分布は各ラベルの使用回数へ下駄を履かせたもの

ラベル割り当て

1 1

1 2 2

2 2 2

3

3

26

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

27

モデルの複雑度の設定

28

モデルの複雑度の設定無限モデルの導入

ラベルの重み(総和1) ラベル付随のパラメータ

の可算無限個のペア

膨大なパラメータのうち

観測データを説明するのに必要な分だけが

機能するようにしたい

29

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

30

Dirichlet processesの定義

に従うとき任意の disjoint な の分割 に対して

基底測度

可測空間 の基底測度を 集中度を とする確率測度 が

31

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

32

Dirichlet変数の作り方2 ポリアの壺

[BlackwellampMacqueen1973]

は 番目のラベルに対する事前の「価値」

可測空間 上の測度 に対して

のようなDirichlet変数を作りたい

パラメータへの事前の価値

33

Dirichlet変数の作り方2 ポリアの壺

0回の試行

[BlackwellampMacqueen1973]

34

Dirichlet変数の作り方2 ポリアの壺

1つのボールを取り出す

[BlackwellampMacqueen1973]

35

Dirichlet変数の作り方2 ポリアの壺

取り出したボールと同色のボールを加えて2つを戻す

[BlackwellampMacqueen1973]

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 9: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

9

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

ベイズ的なメディア処理の基本的な戦略

10

隠れ変数 N個の観測データ

観測データの確率的生成モデル

を推定

平均共分散

尤度関数

事前分布

ベイズ的なメディア処理の基本的な戦略

11

隠れ変数 N個の観測データ

観測データの確率的生成モデル

を推定

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

= + 音量

楽器音の 代表スペクトル

1種の楽器音 スペクトログラム

例)音楽信号分解

確率空間 可算集合の場合

12

標本空間 標本点

σ加法族 標本空間の部分集合の集合族

確率測度 上の非負値関数

べき集合

13

標本空間

「長さ」が測れる

標本空間 標本点

σ加法族 標本空間の部分集合の集合族

確率測度 上の非負値関数

確率空間

確率変数と確率分布

14

確率空間 確率変数

確率空間

確率分布

「確率変数」とはとる値に対して確率が計算できるもの

15

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

16

混合モデルの設計法

混合モデル

山 森 人

各ラベルごとの パラメータの生成

離散分布の生成

ラベルの割り当て

観測データの生成

17

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング

18

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング

番目のGaussian

平均共分散

各ラベルごとのパラメータ

19

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

20

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

21

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

データ生成

22

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

23

Dirichlet分布

総和が1となるベクトルを生成するための分布

Dirichlet変数の作り方1

1 Gamma変数を生成

2 それらを総和が1になるよう正規化

24

ディリクレ分布-離散分布(12)

ラベル割り当て

1 2 3

1 1

1 2 2

2 2 2

3

3

ラベル割当確率

に関して何の事前知識(事前分布)もなければ

1 が何回使われたか

3 5 2 times

25

ディリクレ分布-離散分布(22)

1 2 3

の事前分布を考えると

1 が何回使われたか

ラベル割当確率

事前分布は各ラベルの使用回数へ下駄を履かせたもの

ラベル割り当て

1 1

1 2 2

2 2 2

3

3

26

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

27

モデルの複雑度の設定

28

モデルの複雑度の設定無限モデルの導入

ラベルの重み(総和1) ラベル付随のパラメータ

の可算無限個のペア

膨大なパラメータのうち

観測データを説明するのに必要な分だけが

機能するようにしたい

29

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

30

Dirichlet processesの定義

に従うとき任意の disjoint な の分割 に対して

基底測度

可測空間 の基底測度を 集中度を とする確率測度 が

31

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

32

Dirichlet変数の作り方2 ポリアの壺

[BlackwellampMacqueen1973]

は 番目のラベルに対する事前の「価値」

可測空間 上の測度 に対して

のようなDirichlet変数を作りたい

パラメータへの事前の価値

33

Dirichlet変数の作り方2 ポリアの壺

0回の試行

[BlackwellampMacqueen1973]

34

Dirichlet変数の作り方2 ポリアの壺

1つのボールを取り出す

[BlackwellampMacqueen1973]

35

Dirichlet変数の作り方2 ポリアの壺

取り出したボールと同色のボールを加えて2つを戻す

[BlackwellampMacqueen1973]

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 10: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

ベイズ的なメディア処理の基本的な戦略

10

隠れ変数 N個の観測データ

観測データの確率的生成モデル

を推定

平均共分散

尤度関数

事前分布

ベイズ的なメディア処理の基本的な戦略

11

隠れ変数 N個の観測データ

観測データの確率的生成モデル

を推定

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

= + 音量

楽器音の 代表スペクトル

1種の楽器音 スペクトログラム

例)音楽信号分解

確率空間 可算集合の場合

12

標本空間 標本点

σ加法族 標本空間の部分集合の集合族

確率測度 上の非負値関数

べき集合

13

標本空間

「長さ」が測れる

標本空間 標本点

σ加法族 標本空間の部分集合の集合族

確率測度 上の非負値関数

確率空間

確率変数と確率分布

14

確率空間 確率変数

確率空間

確率分布

「確率変数」とはとる値に対して確率が計算できるもの

15

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

16

混合モデルの設計法

混合モデル

山 森 人

各ラベルごとの パラメータの生成

離散分布の生成

ラベルの割り当て

観測データの生成

17

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング

18

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング

番目のGaussian

平均共分散

各ラベルごとのパラメータ

19

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

20

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

21

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

データ生成

22

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

23

Dirichlet分布

総和が1となるベクトルを生成するための分布

Dirichlet変数の作り方1

1 Gamma変数を生成

2 それらを総和が1になるよう正規化

24

ディリクレ分布-離散分布(12)

ラベル割り当て

1 2 3

1 1

1 2 2

2 2 2

3

3

ラベル割当確率

に関して何の事前知識(事前分布)もなければ

1 が何回使われたか

3 5 2 times

25

ディリクレ分布-離散分布(22)

1 2 3

の事前分布を考えると

1 が何回使われたか

ラベル割当確率

事前分布は各ラベルの使用回数へ下駄を履かせたもの

ラベル割り当て

1 1

1 2 2

2 2 2

3

3

26

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

27

モデルの複雑度の設定

28

モデルの複雑度の設定無限モデルの導入

ラベルの重み(総和1) ラベル付随のパラメータ

の可算無限個のペア

膨大なパラメータのうち

観測データを説明するのに必要な分だけが

機能するようにしたい

29

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

30

Dirichlet processesの定義

に従うとき任意の disjoint な の分割 に対して

基底測度

可測空間 の基底測度を 集中度を とする確率測度 が

31

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

32

Dirichlet変数の作り方2 ポリアの壺

[BlackwellampMacqueen1973]

は 番目のラベルに対する事前の「価値」

可測空間 上の測度 に対して

のようなDirichlet変数を作りたい

パラメータへの事前の価値

33

Dirichlet変数の作り方2 ポリアの壺

0回の試行

[BlackwellampMacqueen1973]

34

Dirichlet変数の作り方2 ポリアの壺

1つのボールを取り出す

[BlackwellampMacqueen1973]

35

Dirichlet変数の作り方2 ポリアの壺

取り出したボールと同色のボールを加えて2つを戻す

[BlackwellampMacqueen1973]

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 11: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

ベイズ的なメディア処理の基本的な戦略

11

隠れ変数 N個の観測データ

観測データの確率的生成モデル

を推定

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

= + 音量

楽器音の 代表スペクトル

1種の楽器音 スペクトログラム

例)音楽信号分解

確率空間 可算集合の場合

12

標本空間 標本点

σ加法族 標本空間の部分集合の集合族

確率測度 上の非負値関数

べき集合

13

標本空間

「長さ」が測れる

標本空間 標本点

σ加法族 標本空間の部分集合の集合族

確率測度 上の非負値関数

確率空間

確率変数と確率分布

14

確率空間 確率変数

確率空間

確率分布

「確率変数」とはとる値に対して確率が計算できるもの

15

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

16

混合モデルの設計法

混合モデル

山 森 人

各ラベルごとの パラメータの生成

離散分布の生成

ラベルの割り当て

観測データの生成

17

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング

18

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング

番目のGaussian

平均共分散

各ラベルごとのパラメータ

19

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

20

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

21

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

データ生成

22

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

23

Dirichlet分布

総和が1となるベクトルを生成するための分布

Dirichlet変数の作り方1

1 Gamma変数を生成

2 それらを総和が1になるよう正規化

24

ディリクレ分布-離散分布(12)

ラベル割り当て

1 2 3

1 1

1 2 2

2 2 2

3

3

ラベル割当確率

に関して何の事前知識(事前分布)もなければ

1 が何回使われたか

3 5 2 times

25

ディリクレ分布-離散分布(22)

1 2 3

の事前分布を考えると

1 が何回使われたか

ラベル割当確率

事前分布は各ラベルの使用回数へ下駄を履かせたもの

ラベル割り当て

1 1

1 2 2

2 2 2

3

3

26

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

27

モデルの複雑度の設定

28

モデルの複雑度の設定無限モデルの導入

ラベルの重み(総和1) ラベル付随のパラメータ

の可算無限個のペア

膨大なパラメータのうち

観測データを説明するのに必要な分だけが

機能するようにしたい

29

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

30

Dirichlet processesの定義

に従うとき任意の disjoint な の分割 に対して

基底測度

可測空間 の基底測度を 集中度を とする確率測度 が

31

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

32

Dirichlet変数の作り方2 ポリアの壺

[BlackwellampMacqueen1973]

は 番目のラベルに対する事前の「価値」

可測空間 上の測度 に対して

のようなDirichlet変数を作りたい

パラメータへの事前の価値

33

Dirichlet変数の作り方2 ポリアの壺

0回の試行

[BlackwellampMacqueen1973]

34

Dirichlet変数の作り方2 ポリアの壺

1つのボールを取り出す

[BlackwellampMacqueen1973]

35

Dirichlet変数の作り方2 ポリアの壺

取り出したボールと同色のボールを加えて2つを戻す

[BlackwellampMacqueen1973]

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 12: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

確率空間 可算集合の場合

12

標本空間 標本点

σ加法族 標本空間の部分集合の集合族

確率測度 上の非負値関数

べき集合

13

標本空間

「長さ」が測れる

標本空間 標本点

σ加法族 標本空間の部分集合の集合族

確率測度 上の非負値関数

確率空間

確率変数と確率分布

14

確率空間 確率変数

確率空間

確率分布

「確率変数」とはとる値に対して確率が計算できるもの

15

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

16

混合モデルの設計法

混合モデル

山 森 人

各ラベルごとの パラメータの生成

離散分布の生成

ラベルの割り当て

観測データの生成

17

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング

18

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング

番目のGaussian

平均共分散

各ラベルごとのパラメータ

19

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

20

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

21

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

データ生成

22

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

23

Dirichlet分布

総和が1となるベクトルを生成するための分布

Dirichlet変数の作り方1

1 Gamma変数を生成

2 それらを総和が1になるよう正規化

24

ディリクレ分布-離散分布(12)

ラベル割り当て

1 2 3

1 1

1 2 2

2 2 2

3

3

ラベル割当確率

に関して何の事前知識(事前分布)もなければ

1 が何回使われたか

3 5 2 times

25

ディリクレ分布-離散分布(22)

1 2 3

の事前分布を考えると

1 が何回使われたか

ラベル割当確率

事前分布は各ラベルの使用回数へ下駄を履かせたもの

ラベル割り当て

1 1

1 2 2

2 2 2

3

3

26

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

27

モデルの複雑度の設定

28

モデルの複雑度の設定無限モデルの導入

ラベルの重み(総和1) ラベル付随のパラメータ

の可算無限個のペア

膨大なパラメータのうち

観測データを説明するのに必要な分だけが

機能するようにしたい

29

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

30

Dirichlet processesの定義

に従うとき任意の disjoint な の分割 に対して

基底測度

可測空間 の基底測度を 集中度を とする確率測度 が

31

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

32

Dirichlet変数の作り方2 ポリアの壺

[BlackwellampMacqueen1973]

は 番目のラベルに対する事前の「価値」

可測空間 上の測度 に対して

のようなDirichlet変数を作りたい

パラメータへの事前の価値

33

Dirichlet変数の作り方2 ポリアの壺

0回の試行

[BlackwellampMacqueen1973]

34

Dirichlet変数の作り方2 ポリアの壺

1つのボールを取り出す

[BlackwellampMacqueen1973]

35

Dirichlet変数の作り方2 ポリアの壺

取り出したボールと同色のボールを加えて2つを戻す

[BlackwellampMacqueen1973]

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 13: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

13

標本空間

「長さ」が測れる

標本空間 標本点

σ加法族 標本空間の部分集合の集合族

確率測度 上の非負値関数

確率空間

確率変数と確率分布

14

確率空間 確率変数

確率空間

確率分布

「確率変数」とはとる値に対して確率が計算できるもの

15

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

16

混合モデルの設計法

混合モデル

山 森 人

各ラベルごとの パラメータの生成

離散分布の生成

ラベルの割り当て

観測データの生成

17

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング

18

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング

番目のGaussian

平均共分散

各ラベルごとのパラメータ

19

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

20

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

21

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

データ生成

22

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

23

Dirichlet分布

総和が1となるベクトルを生成するための分布

Dirichlet変数の作り方1

1 Gamma変数を生成

2 それらを総和が1になるよう正規化

24

ディリクレ分布-離散分布(12)

ラベル割り当て

1 2 3

1 1

1 2 2

2 2 2

3

3

ラベル割当確率

に関して何の事前知識(事前分布)もなければ

1 が何回使われたか

3 5 2 times

25

ディリクレ分布-離散分布(22)

1 2 3

の事前分布を考えると

1 が何回使われたか

ラベル割当確率

事前分布は各ラベルの使用回数へ下駄を履かせたもの

ラベル割り当て

1 1

1 2 2

2 2 2

3

3

26

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

27

モデルの複雑度の設定

28

モデルの複雑度の設定無限モデルの導入

ラベルの重み(総和1) ラベル付随のパラメータ

の可算無限個のペア

膨大なパラメータのうち

観測データを説明するのに必要な分だけが

機能するようにしたい

29

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

30

Dirichlet processesの定義

に従うとき任意の disjoint な の分割 に対して

基底測度

可測空間 の基底測度を 集中度を とする確率測度 が

31

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

32

Dirichlet変数の作り方2 ポリアの壺

[BlackwellampMacqueen1973]

は 番目のラベルに対する事前の「価値」

可測空間 上の測度 に対して

のようなDirichlet変数を作りたい

パラメータへの事前の価値

33

Dirichlet変数の作り方2 ポリアの壺

0回の試行

[BlackwellampMacqueen1973]

34

Dirichlet変数の作り方2 ポリアの壺

1つのボールを取り出す

[BlackwellampMacqueen1973]

35

Dirichlet変数の作り方2 ポリアの壺

取り出したボールと同色のボールを加えて2つを戻す

[BlackwellampMacqueen1973]

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 14: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

確率変数と確率分布

14

確率空間 確率変数

確率空間

確率分布

「確率変数」とはとる値に対して確率が計算できるもの

15

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

16

混合モデルの設計法

混合モデル

山 森 人

各ラベルごとの パラメータの生成

離散分布の生成

ラベルの割り当て

観測データの生成

17

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング

18

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング

番目のGaussian

平均共分散

各ラベルごとのパラメータ

19

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

20

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

21

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

データ生成

22

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

23

Dirichlet分布

総和が1となるベクトルを生成するための分布

Dirichlet変数の作り方1

1 Gamma変数を生成

2 それらを総和が1になるよう正規化

24

ディリクレ分布-離散分布(12)

ラベル割り当て

1 2 3

1 1

1 2 2

2 2 2

3

3

ラベル割当確率

に関して何の事前知識(事前分布)もなければ

1 が何回使われたか

3 5 2 times

25

ディリクレ分布-離散分布(22)

1 2 3

の事前分布を考えると

1 が何回使われたか

ラベル割当確率

事前分布は各ラベルの使用回数へ下駄を履かせたもの

ラベル割り当て

1 1

1 2 2

2 2 2

3

3

26

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

27

モデルの複雑度の設定

28

モデルの複雑度の設定無限モデルの導入

ラベルの重み(総和1) ラベル付随のパラメータ

の可算無限個のペア

膨大なパラメータのうち

観測データを説明するのに必要な分だけが

機能するようにしたい

29

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

30

Dirichlet processesの定義

に従うとき任意の disjoint な の分割 に対して

基底測度

可測空間 の基底測度を 集中度を とする確率測度 が

31

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

32

Dirichlet変数の作り方2 ポリアの壺

[BlackwellampMacqueen1973]

は 番目のラベルに対する事前の「価値」

可測空間 上の測度 に対して

のようなDirichlet変数を作りたい

パラメータへの事前の価値

33

Dirichlet変数の作り方2 ポリアの壺

0回の試行

[BlackwellampMacqueen1973]

34

Dirichlet変数の作り方2 ポリアの壺

1つのボールを取り出す

[BlackwellampMacqueen1973]

35

Dirichlet変数の作り方2 ポリアの壺

取り出したボールと同色のボールを加えて2つを戻す

[BlackwellampMacqueen1973]

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 15: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

15

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

16

混合モデルの設計法

混合モデル

山 森 人

各ラベルごとの パラメータの生成

離散分布の生成

ラベルの割り当て

観測データの生成

17

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング

18

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング

番目のGaussian

平均共分散

各ラベルごとのパラメータ

19

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

20

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

21

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

データ生成

22

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

23

Dirichlet分布

総和が1となるベクトルを生成するための分布

Dirichlet変数の作り方1

1 Gamma変数を生成

2 それらを総和が1になるよう正規化

24

ディリクレ分布-離散分布(12)

ラベル割り当て

1 2 3

1 1

1 2 2

2 2 2

3

3

ラベル割当確率

に関して何の事前知識(事前分布)もなければ

1 が何回使われたか

3 5 2 times

25

ディリクレ分布-離散分布(22)

1 2 3

の事前分布を考えると

1 が何回使われたか

ラベル割当確率

事前分布は各ラベルの使用回数へ下駄を履かせたもの

ラベル割り当て

1 1

1 2 2

2 2 2

3

3

26

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

27

モデルの複雑度の設定

28

モデルの複雑度の設定無限モデルの導入

ラベルの重み(総和1) ラベル付随のパラメータ

の可算無限個のペア

膨大なパラメータのうち

観測データを説明するのに必要な分だけが

機能するようにしたい

29

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

30

Dirichlet processesの定義

に従うとき任意の disjoint な の分割 に対して

基底測度

可測空間 の基底測度を 集中度を とする確率測度 が

31

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

32

Dirichlet変数の作り方2 ポリアの壺

[BlackwellampMacqueen1973]

は 番目のラベルに対する事前の「価値」

可測空間 上の測度 に対して

のようなDirichlet変数を作りたい

パラメータへの事前の価値

33

Dirichlet変数の作り方2 ポリアの壺

0回の試行

[BlackwellampMacqueen1973]

34

Dirichlet変数の作り方2 ポリアの壺

1つのボールを取り出す

[BlackwellampMacqueen1973]

35

Dirichlet変数の作り方2 ポリアの壺

取り出したボールと同色のボールを加えて2つを戻す

[BlackwellampMacqueen1973]

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 16: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

16

混合モデルの設計法

混合モデル

山 森 人

各ラベルごとの パラメータの生成

離散分布の生成

ラベルの割り当て

観測データの生成

17

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング

18

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング

番目のGaussian

平均共分散

各ラベルごとのパラメータ

19

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

20

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

21

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

データ生成

22

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

23

Dirichlet分布

総和が1となるベクトルを生成するための分布

Dirichlet変数の作り方1

1 Gamma変数を生成

2 それらを総和が1になるよう正規化

24

ディリクレ分布-離散分布(12)

ラベル割り当て

1 2 3

1 1

1 2 2

2 2 2

3

3

ラベル割当確率

に関して何の事前知識(事前分布)もなければ

1 が何回使われたか

3 5 2 times

25

ディリクレ分布-離散分布(22)

1 2 3

の事前分布を考えると

1 が何回使われたか

ラベル割当確率

事前分布は各ラベルの使用回数へ下駄を履かせたもの

ラベル割り当て

1 1

1 2 2

2 2 2

3

3

26

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

27

モデルの複雑度の設定

28

モデルの複雑度の設定無限モデルの導入

ラベルの重み(総和1) ラベル付随のパラメータ

の可算無限個のペア

膨大なパラメータのうち

観測データを説明するのに必要な分だけが

機能するようにしたい

29

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

30

Dirichlet processesの定義

に従うとき任意の disjoint な の分割 に対して

基底測度

可測空間 の基底測度を 集中度を とする確率測度 が

31

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

32

Dirichlet変数の作り方2 ポリアの壺

[BlackwellampMacqueen1973]

は 番目のラベルに対する事前の「価値」

可測空間 上の測度 に対して

のようなDirichlet変数を作りたい

パラメータへの事前の価値

33

Dirichlet変数の作り方2 ポリアの壺

0回の試行

[BlackwellampMacqueen1973]

34

Dirichlet変数の作り方2 ポリアの壺

1つのボールを取り出す

[BlackwellampMacqueen1973]

35

Dirichlet変数の作り方2 ポリアの壺

取り出したボールと同色のボールを加えて2つを戻す

[BlackwellampMacqueen1973]

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 17: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

17

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング

18

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング

番目のGaussian

平均共分散

各ラベルごとのパラメータ

19

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

20

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

21

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

データ生成

22

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

23

Dirichlet分布

総和が1となるベクトルを生成するための分布

Dirichlet変数の作り方1

1 Gamma変数を生成

2 それらを総和が1になるよう正規化

24

ディリクレ分布-離散分布(12)

ラベル割り当て

1 2 3

1 1

1 2 2

2 2 2

3

3

ラベル割当確率

に関して何の事前知識(事前分布)もなければ

1 が何回使われたか

3 5 2 times

25

ディリクレ分布-離散分布(22)

1 2 3

の事前分布を考えると

1 が何回使われたか

ラベル割当確率

事前分布は各ラベルの使用回数へ下駄を履かせたもの

ラベル割り当て

1 1

1 2 2

2 2 2

3

3

26

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

27

モデルの複雑度の設定

28

モデルの複雑度の設定無限モデルの導入

ラベルの重み(総和1) ラベル付随のパラメータ

の可算無限個のペア

膨大なパラメータのうち

観測データを説明するのに必要な分だけが

機能するようにしたい

29

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

30

Dirichlet processesの定義

に従うとき任意の disjoint な の分割 に対して

基底測度

可測空間 の基底測度を 集中度を とする確率測度 が

31

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

32

Dirichlet変数の作り方2 ポリアの壺

[BlackwellampMacqueen1973]

は 番目のラベルに対する事前の「価値」

可測空間 上の測度 に対して

のようなDirichlet変数を作りたい

パラメータへの事前の価値

33

Dirichlet変数の作り方2 ポリアの壺

0回の試行

[BlackwellampMacqueen1973]

34

Dirichlet変数の作り方2 ポリアの壺

1つのボールを取り出す

[BlackwellampMacqueen1973]

35

Dirichlet変数の作り方2 ポリアの壺

取り出したボールと同色のボールを加えて2つを戻す

[BlackwellampMacqueen1973]

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 18: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

18

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング

番目のGaussian

平均共分散

各ラベルごとのパラメータ

19

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

20

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

21

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

データ生成

22

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

23

Dirichlet分布

総和が1となるベクトルを生成するための分布

Dirichlet変数の作り方1

1 Gamma変数を生成

2 それらを総和が1になるよう正規化

24

ディリクレ分布-離散分布(12)

ラベル割り当て

1 2 3

1 1

1 2 2

2 2 2

3

3

ラベル割当確率

に関して何の事前知識(事前分布)もなければ

1 が何回使われたか

3 5 2 times

25

ディリクレ分布-離散分布(22)

1 2 3

の事前分布を考えると

1 が何回使われたか

ラベル割当確率

事前分布は各ラベルの使用回数へ下駄を履かせたもの

ラベル割り当て

1 1

1 2 2

2 2 2

3

3

26

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

27

モデルの複雑度の設定

28

モデルの複雑度の設定無限モデルの導入

ラベルの重み(総和1) ラベル付随のパラメータ

の可算無限個のペア

膨大なパラメータのうち

観測データを説明するのに必要な分だけが

機能するようにしたい

29

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

30

Dirichlet processesの定義

に従うとき任意の disjoint な の分割 に対して

基底測度

可測空間 の基底測度を 集中度を とする確率測度 が

31

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

32

Dirichlet変数の作り方2 ポリアの壺

[BlackwellampMacqueen1973]

は 番目のラベルに対する事前の「価値」

可測空間 上の測度 に対して

のようなDirichlet変数を作りたい

パラメータへの事前の価値

33

Dirichlet変数の作り方2 ポリアの壺

0回の試行

[BlackwellampMacqueen1973]

34

Dirichlet変数の作り方2 ポリアの壺

1つのボールを取り出す

[BlackwellampMacqueen1973]

35

Dirichlet変数の作り方2 ポリアの壺

取り出したボールと同色のボールを加えて2つを戻す

[BlackwellampMacqueen1973]

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 19: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

19

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

20

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

21

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

データ生成

22

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

23

Dirichlet分布

総和が1となるベクトルを生成するための分布

Dirichlet変数の作り方1

1 Gamma変数を生成

2 それらを総和が1になるよう正規化

24

ディリクレ分布-離散分布(12)

ラベル割り当て

1 2 3

1 1

1 2 2

2 2 2

3

3

ラベル割当確率

に関して何の事前知識(事前分布)もなければ

1 が何回使われたか

3 5 2 times

25

ディリクレ分布-離散分布(22)

1 2 3

の事前分布を考えると

1 が何回使われたか

ラベル割当確率

事前分布は各ラベルの使用回数へ下駄を履かせたもの

ラベル割り当て

1 1

1 2 2

2 2 2

3

3

26

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

27

モデルの複雑度の設定

28

モデルの複雑度の設定無限モデルの導入

ラベルの重み(総和1) ラベル付随のパラメータ

の可算無限個のペア

膨大なパラメータのうち

観測データを説明するのに必要な分だけが

機能するようにしたい

29

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

30

Dirichlet processesの定義

に従うとき任意の disjoint な の分割 に対して

基底測度

可測空間 の基底測度を 集中度を とする確率測度 が

31

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

32

Dirichlet変数の作り方2 ポリアの壺

[BlackwellampMacqueen1973]

は 番目のラベルに対する事前の「価値」

可測空間 上の測度 に対して

のようなDirichlet変数を作りたい

パラメータへの事前の価値

33

Dirichlet変数の作り方2 ポリアの壺

0回の試行

[BlackwellampMacqueen1973]

34

Dirichlet変数の作り方2 ポリアの壺

1つのボールを取り出す

[BlackwellampMacqueen1973]

35

Dirichlet変数の作り方2 ポリアの壺

取り出したボールと同色のボールを加えて2つを戻す

[BlackwellampMacqueen1973]

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 20: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

20

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

21

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

データ生成

22

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

23

Dirichlet分布

総和が1となるベクトルを生成するための分布

Dirichlet変数の作り方1

1 Gamma変数を生成

2 それらを総和が1になるよう正規化

24

ディリクレ分布-離散分布(12)

ラベル割り当て

1 2 3

1 1

1 2 2

2 2 2

3

3

ラベル割当確率

に関して何の事前知識(事前分布)もなければ

1 が何回使われたか

3 5 2 times

25

ディリクレ分布-離散分布(22)

1 2 3

の事前分布を考えると

1 が何回使われたか

ラベル割当確率

事前分布は各ラベルの使用回数へ下駄を履かせたもの

ラベル割り当て

1 1

1 2 2

2 2 2

3

3

26

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

27

モデルの複雑度の設定

28

モデルの複雑度の設定無限モデルの導入

ラベルの重み(総和1) ラベル付随のパラメータ

の可算無限個のペア

膨大なパラメータのうち

観測データを説明するのに必要な分だけが

機能するようにしたい

29

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

30

Dirichlet processesの定義

に従うとき任意の disjoint な の分割 に対して

基底測度

可測空間 の基底測度を 集中度を とする確率測度 が

31

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

32

Dirichlet変数の作り方2 ポリアの壺

[BlackwellampMacqueen1973]

は 番目のラベルに対する事前の「価値」

可測空間 上の測度 に対して

のようなDirichlet変数を作りたい

パラメータへの事前の価値

33

Dirichlet変数の作り方2 ポリアの壺

0回の試行

[BlackwellampMacqueen1973]

34

Dirichlet変数の作り方2 ポリアの壺

1つのボールを取り出す

[BlackwellampMacqueen1973]

35

Dirichlet変数の作り方2 ポリアの壺

取り出したボールと同色のボールを加えて2つを戻す

[BlackwellampMacqueen1973]

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 21: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

21

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

離散分布

クラスタ割り当て

データ生成

22

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

23

Dirichlet分布

総和が1となるベクトルを生成するための分布

Dirichlet変数の作り方1

1 Gamma変数を生成

2 それらを総和が1になるよう正規化

24

ディリクレ分布-離散分布(12)

ラベル割り当て

1 2 3

1 1

1 2 2

2 2 2

3

3

ラベル割当確率

に関して何の事前知識(事前分布)もなければ

1 が何回使われたか

3 5 2 times

25

ディリクレ分布-離散分布(22)

1 2 3

の事前分布を考えると

1 が何回使われたか

ラベル割当確率

事前分布は各ラベルの使用回数へ下駄を履かせたもの

ラベル割り当て

1 1

1 2 2

2 2 2

3

3

26

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

27

モデルの複雑度の設定

28

モデルの複雑度の設定無限モデルの導入

ラベルの重み(総和1) ラベル付随のパラメータ

の可算無限個のペア

膨大なパラメータのうち

観測データを説明するのに必要な分だけが

機能するようにしたい

29

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

30

Dirichlet processesの定義

に従うとき任意の disjoint な の分割 に対して

基底測度

可測空間 の基底測度を 集中度を とする確率測度 が

31

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

32

Dirichlet変数の作り方2 ポリアの壺

[BlackwellampMacqueen1973]

は 番目のラベルに対する事前の「価値」

可測空間 上の測度 に対して

のようなDirichlet変数を作りたい

パラメータへの事前の価値

33

Dirichlet変数の作り方2 ポリアの壺

0回の試行

[BlackwellampMacqueen1973]

34

Dirichlet変数の作り方2 ポリアの壺

1つのボールを取り出す

[BlackwellampMacqueen1973]

35

Dirichlet変数の作り方2 ポリアの壺

取り出したボールと同色のボールを加えて2つを戻す

[BlackwellampMacqueen1973]

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 22: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

22

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

23

Dirichlet分布

総和が1となるベクトルを生成するための分布

Dirichlet変数の作り方1

1 Gamma変数を生成

2 それらを総和が1になるよう正規化

24

ディリクレ分布-離散分布(12)

ラベル割り当て

1 2 3

1 1

1 2 2

2 2 2

3

3

ラベル割当確率

に関して何の事前知識(事前分布)もなければ

1 が何回使われたか

3 5 2 times

25

ディリクレ分布-離散分布(22)

1 2 3

の事前分布を考えると

1 が何回使われたか

ラベル割当確率

事前分布は各ラベルの使用回数へ下駄を履かせたもの

ラベル割り当て

1 1

1 2 2

2 2 2

3

3

26

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

27

モデルの複雑度の設定

28

モデルの複雑度の設定無限モデルの導入

ラベルの重み(総和1) ラベル付随のパラメータ

の可算無限個のペア

膨大なパラメータのうち

観測データを説明するのに必要な分だけが

機能するようにしたい

29

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

30

Dirichlet processesの定義

に従うとき任意の disjoint な の分割 に対して

基底測度

可測空間 の基底測度を 集中度を とする確率測度 が

31

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

32

Dirichlet変数の作り方2 ポリアの壺

[BlackwellampMacqueen1973]

は 番目のラベルに対する事前の「価値」

可測空間 上の測度 に対して

のようなDirichlet変数を作りたい

パラメータへの事前の価値

33

Dirichlet変数の作り方2 ポリアの壺

0回の試行

[BlackwellampMacqueen1973]

34

Dirichlet変数の作り方2 ポリアの壺

1つのボールを取り出す

[BlackwellampMacqueen1973]

35

Dirichlet変数の作り方2 ポリアの壺

取り出したボールと同色のボールを加えて2つを戻す

[BlackwellampMacqueen1973]

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 23: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

23

Dirichlet分布

総和が1となるベクトルを生成するための分布

Dirichlet変数の作り方1

1 Gamma変数を生成

2 それらを総和が1になるよう正規化

24

ディリクレ分布-離散分布(12)

ラベル割り当て

1 2 3

1 1

1 2 2

2 2 2

3

3

ラベル割当確率

に関して何の事前知識(事前分布)もなければ

1 が何回使われたか

3 5 2 times

25

ディリクレ分布-離散分布(22)

1 2 3

の事前分布を考えると

1 が何回使われたか

ラベル割当確率

事前分布は各ラベルの使用回数へ下駄を履かせたもの

ラベル割り当て

1 1

1 2 2

2 2 2

3

3

26

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

27

モデルの複雑度の設定

28

モデルの複雑度の設定無限モデルの導入

ラベルの重み(総和1) ラベル付随のパラメータ

の可算無限個のペア

膨大なパラメータのうち

観測データを説明するのに必要な分だけが

機能するようにしたい

29

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

30

Dirichlet processesの定義

に従うとき任意の disjoint な の分割 に対して

基底測度

可測空間 の基底測度を 集中度を とする確率測度 が

31

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

32

Dirichlet変数の作り方2 ポリアの壺

[BlackwellampMacqueen1973]

は 番目のラベルに対する事前の「価値」

可測空間 上の測度 に対して

のようなDirichlet変数を作りたい

パラメータへの事前の価値

33

Dirichlet変数の作り方2 ポリアの壺

0回の試行

[BlackwellampMacqueen1973]

34

Dirichlet変数の作り方2 ポリアの壺

1つのボールを取り出す

[BlackwellampMacqueen1973]

35

Dirichlet変数の作り方2 ポリアの壺

取り出したボールと同色のボールを加えて2つを戻す

[BlackwellampMacqueen1973]

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 24: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

24

ディリクレ分布-離散分布(12)

ラベル割り当て

1 2 3

1 1

1 2 2

2 2 2

3

3

ラベル割当確率

に関して何の事前知識(事前分布)もなければ

1 が何回使われたか

3 5 2 times

25

ディリクレ分布-離散分布(22)

1 2 3

の事前分布を考えると

1 が何回使われたか

ラベル割当確率

事前分布は各ラベルの使用回数へ下駄を履かせたもの

ラベル割り当て

1 1

1 2 2

2 2 2

3

3

26

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

27

モデルの複雑度の設定

28

モデルの複雑度の設定無限モデルの導入

ラベルの重み(総和1) ラベル付随のパラメータ

の可算無限個のペア

膨大なパラメータのうち

観測データを説明するのに必要な分だけが

機能するようにしたい

29

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

30

Dirichlet processesの定義

に従うとき任意の disjoint な の分割 に対して

基底測度

可測空間 の基底測度を 集中度を とする確率測度 が

31

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

32

Dirichlet変数の作り方2 ポリアの壺

[BlackwellampMacqueen1973]

は 番目のラベルに対する事前の「価値」

可測空間 上の測度 に対して

のようなDirichlet変数を作りたい

パラメータへの事前の価値

33

Dirichlet変数の作り方2 ポリアの壺

0回の試行

[BlackwellampMacqueen1973]

34

Dirichlet変数の作り方2 ポリアの壺

1つのボールを取り出す

[BlackwellampMacqueen1973]

35

Dirichlet変数の作り方2 ポリアの壺

取り出したボールと同色のボールを加えて2つを戻す

[BlackwellampMacqueen1973]

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 25: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

25

ディリクレ分布-離散分布(22)

1 2 3

の事前分布を考えると

1 が何回使われたか

ラベル割当確率

事前分布は各ラベルの使用回数へ下駄を履かせたもの

ラベル割り当て

1 1

1 2 2

2 2 2

3

3

26

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

27

モデルの複雑度の設定

28

モデルの複雑度の設定無限モデルの導入

ラベルの重み(総和1) ラベル付随のパラメータ

の可算無限個のペア

膨大なパラメータのうち

観測データを説明するのに必要な分だけが

機能するようにしたい

29

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

30

Dirichlet processesの定義

に従うとき任意の disjoint な の分割 に対して

基底測度

可測空間 の基底測度を 集中度を とする確率測度 が

31

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

32

Dirichlet変数の作り方2 ポリアの壺

[BlackwellampMacqueen1973]

は 番目のラベルに対する事前の「価値」

可測空間 上の測度 に対して

のようなDirichlet変数を作りたい

パラメータへの事前の価値

33

Dirichlet変数の作り方2 ポリアの壺

0回の試行

[BlackwellampMacqueen1973]

34

Dirichlet変数の作り方2 ポリアの壺

1つのボールを取り出す

[BlackwellampMacqueen1973]

35

Dirichlet変数の作り方2 ポリアの壺

取り出したボールと同色のボールを加えて2つを戻す

[BlackwellampMacqueen1973]

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 26: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

26

例 3-Gaussian mixture model

課題 平面上の点のクラスタリング 各ラベルごとのパラメータ

多項分布

クラスタ割り当て

データ生成

27

モデルの複雑度の設定

28

モデルの複雑度の設定無限モデルの導入

ラベルの重み(総和1) ラベル付随のパラメータ

の可算無限個のペア

膨大なパラメータのうち

観測データを説明するのに必要な分だけが

機能するようにしたい

29

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

30

Dirichlet processesの定義

に従うとき任意の disjoint な の分割 に対して

基底測度

可測空間 の基底測度を 集中度を とする確率測度 が

31

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

32

Dirichlet変数の作り方2 ポリアの壺

[BlackwellampMacqueen1973]

は 番目のラベルに対する事前の「価値」

可測空間 上の測度 に対して

のようなDirichlet変数を作りたい

パラメータへの事前の価値

33

Dirichlet変数の作り方2 ポリアの壺

0回の試行

[BlackwellampMacqueen1973]

34

Dirichlet変数の作り方2 ポリアの壺

1つのボールを取り出す

[BlackwellampMacqueen1973]

35

Dirichlet変数の作り方2 ポリアの壺

取り出したボールと同色のボールを加えて2つを戻す

[BlackwellampMacqueen1973]

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 27: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

27

モデルの複雑度の設定

28

モデルの複雑度の設定無限モデルの導入

ラベルの重み(総和1) ラベル付随のパラメータ

の可算無限個のペア

膨大なパラメータのうち

観測データを説明するのに必要な分だけが

機能するようにしたい

29

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

30

Dirichlet processesの定義

に従うとき任意の disjoint な の分割 に対して

基底測度

可測空間 の基底測度を 集中度を とする確率測度 が

31

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

32

Dirichlet変数の作り方2 ポリアの壺

[BlackwellampMacqueen1973]

は 番目のラベルに対する事前の「価値」

可測空間 上の測度 に対して

のようなDirichlet変数を作りたい

パラメータへの事前の価値

33

Dirichlet変数の作り方2 ポリアの壺

0回の試行

[BlackwellampMacqueen1973]

34

Dirichlet変数の作り方2 ポリアの壺

1つのボールを取り出す

[BlackwellampMacqueen1973]

35

Dirichlet変数の作り方2 ポリアの壺

取り出したボールと同色のボールを加えて2つを戻す

[BlackwellampMacqueen1973]

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 28: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

28

モデルの複雑度の設定無限モデルの導入

ラベルの重み(総和1) ラベル付随のパラメータ

の可算無限個のペア

膨大なパラメータのうち

観測データを説明するのに必要な分だけが

機能するようにしたい

29

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

30

Dirichlet processesの定義

に従うとき任意の disjoint な の分割 に対して

基底測度

可測空間 の基底測度を 集中度を とする確率測度 が

31

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

32

Dirichlet変数の作り方2 ポリアの壺

[BlackwellampMacqueen1973]

は 番目のラベルに対する事前の「価値」

可測空間 上の測度 に対して

のようなDirichlet変数を作りたい

パラメータへの事前の価値

33

Dirichlet変数の作り方2 ポリアの壺

0回の試行

[BlackwellampMacqueen1973]

34

Dirichlet変数の作り方2 ポリアの壺

1つのボールを取り出す

[BlackwellampMacqueen1973]

35

Dirichlet変数の作り方2 ポリアの壺

取り出したボールと同色のボールを加えて2つを戻す

[BlackwellampMacqueen1973]

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 29: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

29

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

30

Dirichlet processesの定義

に従うとき任意の disjoint な の分割 に対して

基底測度

可測空間 の基底測度を 集中度を とする確率測度 が

31

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

32

Dirichlet変数の作り方2 ポリアの壺

[BlackwellampMacqueen1973]

は 番目のラベルに対する事前の「価値」

可測空間 上の測度 に対して

のようなDirichlet変数を作りたい

パラメータへの事前の価値

33

Dirichlet変数の作り方2 ポリアの壺

0回の試行

[BlackwellampMacqueen1973]

34

Dirichlet変数の作り方2 ポリアの壺

1つのボールを取り出す

[BlackwellampMacqueen1973]

35

Dirichlet変数の作り方2 ポリアの壺

取り出したボールと同色のボールを加えて2つを戻す

[BlackwellampMacqueen1973]

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 30: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

30

Dirichlet processesの定義

に従うとき任意の disjoint な の分割 に対して

基底測度

可測空間 の基底測度を 集中度を とする確率測度 が

31

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

32

Dirichlet変数の作り方2 ポリアの壺

[BlackwellampMacqueen1973]

は 番目のラベルに対する事前の「価値」

可測空間 上の測度 に対して

のようなDirichlet変数を作りたい

パラメータへの事前の価値

33

Dirichlet変数の作り方2 ポリアの壺

0回の試行

[BlackwellampMacqueen1973]

34

Dirichlet変数の作り方2 ポリアの壺

1つのボールを取り出す

[BlackwellampMacqueen1973]

35

Dirichlet変数の作り方2 ポリアの壺

取り出したボールと同色のボールを加えて2つを戻す

[BlackwellampMacqueen1973]

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 31: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

31

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

32

Dirichlet変数の作り方2 ポリアの壺

[BlackwellampMacqueen1973]

は 番目のラベルに対する事前の「価値」

可測空間 上の測度 に対して

のようなDirichlet変数を作りたい

パラメータへの事前の価値

33

Dirichlet変数の作り方2 ポリアの壺

0回の試行

[BlackwellampMacqueen1973]

34

Dirichlet変数の作り方2 ポリアの壺

1つのボールを取り出す

[BlackwellampMacqueen1973]

35

Dirichlet変数の作り方2 ポリアの壺

取り出したボールと同色のボールを加えて2つを戻す

[BlackwellampMacqueen1973]

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 32: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

32

Dirichlet変数の作り方2 ポリアの壺

[BlackwellampMacqueen1973]

は 番目のラベルに対する事前の「価値」

可測空間 上の測度 に対して

のようなDirichlet変数を作りたい

パラメータへの事前の価値

33

Dirichlet変数の作り方2 ポリアの壺

0回の試行

[BlackwellampMacqueen1973]

34

Dirichlet変数の作り方2 ポリアの壺

1つのボールを取り出す

[BlackwellampMacqueen1973]

35

Dirichlet変数の作り方2 ポリアの壺

取り出したボールと同色のボールを加えて2つを戻す

[BlackwellampMacqueen1973]

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 33: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

33

Dirichlet変数の作り方2 ポリアの壺

0回の試行

[BlackwellampMacqueen1973]

34

Dirichlet変数の作り方2 ポリアの壺

1つのボールを取り出す

[BlackwellampMacqueen1973]

35

Dirichlet変数の作り方2 ポリアの壺

取り出したボールと同色のボールを加えて2つを戻す

[BlackwellampMacqueen1973]

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 34: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

34

Dirichlet変数の作り方2 ポリアの壺

1つのボールを取り出す

[BlackwellampMacqueen1973]

35

Dirichlet変数の作り方2 ポリアの壺

取り出したボールと同色のボールを加えて2つを戻す

[BlackwellampMacqueen1973]

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 35: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

35

Dirichlet変数の作り方2 ポリアの壺

取り出したボールと同色のボールを加えて2つを戻す

[BlackwellampMacqueen1973]

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 36: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

36

Dirichlet変数の作り方2 ポリアの壺

1回の試行

[BlackwellampMacqueen1973]

1

3

1

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 37: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

37

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

1

3

1 1 2

1

1

3 3

1

3 2

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 38: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

38

Dirichlet変数の作り方2 ポリアの壺 [BlackwellampMacqueen1973]

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 39: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

39

Dirichlet変数とDirichlet過程

Dirichlet変数

Dirichlet過程

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 40: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

40

Dirichlet過程が離散(無限のatom)的なのは何故

一般化ポリアの壺 [BlackwellampMacqueen1973]

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 41: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

41

一般化ポリアの壺

[証明スケッチ]

1 標本空間が有限のポリア列はディリクレ変数を作る 2 M回目までに登場したatom以外を引いた時にはnullを返すような新しい有限のポリアの壺を作る

3 Mrarrinfinにしたときそれらだけで確率1を占有する

Dirichlet過程が離散(無限のatom)的なのは何故

[BlackwellampMacqueen1973]

nrarrinfin 正規化

[BlackwellampMacqueen1973]

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 42: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

42

Dirichlet processに関するFAQ

bull Dirichlet processはなぜ無限のアトムを持つような確率測度になるのか

bull Dirichlet process混合モデルは「コンポーネント数」を推定することが出来るのか

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 43: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

43

Dirichlet過程はコンポーネント数を推定可能か

3-componentのGMMから人工的に生成したデータに Dirichlet process mixture modelを適用すると「3」componentになるか

[Miller2012]

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 44: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

44

Dirichlet過程はコンポーネント数を推定可能か

1 密度関数

2 混合

3 コンポーネント数

[Miller2012]

「3」

(観測データ数-gtinfin)

(観測データ数-gtinfin)

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 45: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

45

Dirichlet過程はコンポーネント数を推定可能か

個のデータ

ラベルに分割

例)100個のデータを3クラスタに分割

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 46: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

46

Dirichlet過程混合モデルの構成法と推論

bull Chinese restaurant process bull Stick-breaking process bull Normalized Gamma process bull Poisson process (beta intensity)

bull Gibbs sampler bull VB collapsed VB bull Slice sampler bull Retrospective sampler

構成法

推論法

[Sethuraman1994]

[RoyampTeh2009]

[Ferguson1973]

[Aldous1981]

[Walker2007]

[Papaspiliopoulos2008]

[多数]

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 47: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

47

Stick-breaking construction

確率測度 は次のように構成できる

Stick-breaking construction

base measure

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 48: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

48

Stick-breaking constructionの略証

Stick-breaking construction

無限次元Dirichletに従う

無限次元Dirichletに従う

上手く取り除く

確率変数 が

に従うとき は

補題1

正規化Gamma processを使って書き直すと簡単に確認出来る

[Paisely2008]

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 49: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

49

Stick-breaking constructionの略証

Stick-breaking construction

Z番目だけ1

確率変数 は

補題2

から作れる

ダミーデータを一個先に作る

ダミーデータ一個分をDirichlet分布のパラメータに加えることが出来る

補題1が使える として一般性を失わない

[Paisely2008]

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 50: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

50

Stick-breaking constructionの略証

確率変数 が

に従うとき は

補題1

Z番目だけ1

確率変数 は

補題2

から作れる

Z番目のatomが自動的に採用される

Beta変数による可算無限回の棒折りでDPMが作れる

[Paisely2008]

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 51: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

51

メディア処理頻出のツール

主成分分析 独立成分分析

非負値行列分解 隠れマルコフモデル

確率文脈自由文法 n-gram

ダイナミックベイジアンネット

ディープニューラルネット

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 52: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

Hidden Markov models

52

状態遷移行列

次の状態

隠れ状態

出力

各状態が持つパラメータ

HMM

多項分布

状態遷移確率

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 53: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

53

隠れ状態

出力

HMM

合計して「1」になる重み

標本空間の離散的なアトム

Dirichlet processを用いた無限混合モデルを用いる

Hierarchical Dirichlet process HMM [Teh+2006]

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 54: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

54

アトム達を陽に共有させたい

何故 Dirichlet process を階層化する必要があるのか

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 55: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

55

base measure

アトムを陽に共有化するために Dirichlet processを階層化する

Hierarchical Dirichlet process HMM [Teh+2006]

1層目

2層目

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 56: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

56

二つの基本的な確率的生成モデル

混合モデル 因子モデル

山 森 人

単一のクラスタがデータを生成

[Torralba+2008]

複数の因子がデータを生成

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 57: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

57

例 nonnegative matric factorization

時間

周波数

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ +

Bayesian NMF

線形モデル

[Hoffman2010]

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 58: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

58

モデルの複雑度の設定 無限因子モデル

20 40 60 80 100 120

50

100

150

200

250

300

350

400

450

500

~ + +

潜在的に無限の因子を考えたい

バイナリ(0 or 1) (0 1)の実数 の実数

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 59: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

59

Levy processの特別な(離散的な)場合 lsquo

0

1

例) Beta process

x x

x x x x x x

Machine learning の文脈でよく登場するのは

1 Beta process 2 Bernoulli process 3 Gamma process 4 Negative binomial process

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 60: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

60

(準備) Poisson process

測度

x x x x x x x x

点の発生回数

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 61: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

61

Levy processの特別な(離散的な)場合 lsquo

0

1

Beta process のPoisson process

x x

x x x x x x

Levy measure

[Kingman1967]

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 62: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

62

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

事前知識

[Thibaux amp Jordan2007]

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 63: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

63

Beta ndash Bernoulli process

ドラム

ベース

ギター

ストリングス

ボーカル

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

オン=1 事前知識

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0

[Thibaux amp Jordan2007]

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 64: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

64

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

事前知識

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

[Thibaux amp Jordan2007]

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 65: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

65

Beta ndash Bernoulli process

factor

① factor候補とそれぞれの出現しやすさを表すコインを作る

ドラム ベース

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

[Thibaux amp Jordan2007]

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 66: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

66

factor

② 各時刻ごとに全コインをふって表の出たものだけオンに

ドラム ベース

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

1

1

0

0

1

1

1

0

0

1

1

1

0

0

1

1

1

1

0

1

オフ=0 オン=1

基底測度

標本空間

Beta process

factor

重み

集中度

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 67: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

67

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

Bernoulli process

factor

Binary変数

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 68: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

68

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

Beta process

factor

重み

集中度

基底測度

標本空間

factor

Beta ndash Bernoulli process [Thibaux amp Jordan2007]

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 69: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

69

Beta processのLevy measure decomposition

0

1

improper

無限のatom

+ + + 有限のatom

[Ren+2012]

無限和

Beta process

Levy measure

Improper beta の解消

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 70: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

70

Beta processのLevy measure decomposition

Taylor展開しただけ

Improperではない

[Ren+2012]

+ + + 有限のatom

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 71: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

71

モデルの拡張法

階層化

2012

Infinite HMM [Beal+2002]

Nested partition model [Rodriguez+2012]

Hierarchical DP [Teh+2006]

Infinite PCFG [Liang+2007]

Infinity-gram [Mochihashi+2007]

入れ子

相関

Nested DP [Rodriguez+2008]

Nested BP [Jordan2009]

Nested GaP [Jordan2009]

Hierarchical BP [Jordan2007]

Nested hierarchical DP [Paisley+2012]

Kernel SBP [Dumson2008]

logistic SBP [Ren+2011]

Kernel BP [Ren+2011]

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 72: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

Nested Dirichlet process

72

[Rodgiruez+2008]

バラ

おおまかなクラスタリング

詳細なクラスタリング

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 73: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

Nested Dirichlet process

73

[Rodgiruez+2008]

バラ

無限混合

次の詳細なクラスタリング 用の手がかり

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 74: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

Nested Dirichlet process

74

[Rodgiruez+2008]

バラ

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 75: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

75

画像群に対する木構造の分類+パーツ分解

パーツ

因子のオンオフ

[Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 76: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

76

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 77: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

77

各画像を木の pathに割り当て

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 78: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

78

画像群に対する木構造の分類+パーツ分解 [Li+2012]

L Li X Zhang M Zhou and L Carin (2012) Nested Dictionary Learning for Hierarchical Organization of Imagery and Text UAI

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 79: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

79

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

cluster

factor

factor候補

Cluster と factor を結びつけるために共変量を導入

[Ren+2011] Kernel Beta process

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 80: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

80

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 81: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

81

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 82: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

82

Aメロ Bメロ サビ

ドラム ドラム ドラム

ベース

ボーカル

ベース

ギター

ボーカル

ベース

ギター

ストリングス

ボーカル

共変量スペース

各factorが持つ共変量

各factorが共変量スペースの局所的な計量を決めるパラメータ

Cluster 共変量

Cluster共変量に 近いfactorがactiveになりやすいように

Kernel Beta process [Ren+2011]

Cluster と factor を結びつけるために共変量を導入

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 83: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

83

intro A B A B

g

np vp

noun

noun

np verb

noun

np

swat flies like ants

音楽信号からの構文解析

音楽 自然言語

[Nakano+2011 Kameoka+2012]

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 84: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

84

音楽の構造には「時間」の情報が重要な役割を果たす

time

時間分割の分岐規則

同期の分岐規則

Realistic productions

Unrealistic productions

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 85: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

85

シンボルの木構造に対する確率分布を作りたい

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 86: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

86

左の子

親rdquo1rdquoから子(i j)が生成される確率 1

右の子

左の子

親rdquo2rdquoから子(i j)が生成される確率 2

右の子

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

シンボル 候補

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 87: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

87

i

j

親kから子(i j)が生成される確率

シンボル候補と その出現しやすさ

シンボル2つ組の出現しやすさ

従来のinfinite PCFG

音長

シンボル候補

提案モデル

親子間で音長を保存するよう働くバイアス

音楽信号からの構文解析 [Nakano+2011 Kameoka+2012]

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 88: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

88

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 89: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

89

F

G

F G C

Dm

Am

C

F

G

F G C

Dm

Am E7 Gdim

動機 コード進行2-gram表からブロックを見つけたい

ブルース ポップス

C

「コード」は直接観測出来ない 隠れ状態系列の2-gram表からの ブロックの抽出が必要

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 90: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

目的 状態遷移行列内のブロックの発見

90

複数の楽曲に隠れマルコフモデルを適用する際に

状態遷移行列 (遷移確率)

楽曲1 楽曲2 楽曲3 楽曲4

楽曲5 楽曲6 楽曲7 楽曲8

楽曲9 楽曲10 楽曲11 楽曲12

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 91: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

91

状態の並び順を上手く誘導しつつ

目的 状態遷移行列内のブロックの発見

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 92: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

92

状態遷移配列の中に潜むブロックを見つけたい

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

目的 状態遷移行列内のブロックの発見

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 93: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

93

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

Unit squareへのパーティションの生成

隠れ状態に関する縦横の並び順の生成

オンオフを表すバイナリ変数の生成

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 94: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

94

Mondrian HMM(モンドリアン模様の状態遷移確率の生成モデル)

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

1 234 567 89101112

123456789101112

12 3456 789101112

123456789101112

1 234 567 89101112

123456789101112

1 2 3 4 5 6 7 8 9 10 11 12

1

2

3

4

5

6

7

8

9

10

11

12

隠れ状態2-gram表に潜むブロック

楽曲ごとの遷移のオンオフ 楽曲ごとの状態遷移確率

無限混合のためのTop-level Dirichlet process

無限HMMのためのsecond-level Dirichlet process

各遷移のオンオフに基づく重みの修正

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 95: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

Guillotine partitions

95

[Gonzales amp Zheng1989]

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 96: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

Mondrian process

96

Guillotine partitionsを与える確率過程

[Roy amp Teh2009]

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 97: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

Mondrian process

97

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 98: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

Mondrian process

98

レートカーネル

現在のパーティション

カットの起こりやすさ

[Roy 2011]

Guillotine partitions の発展を表現したマルコフ過程

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 99: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

Mondrian process

99

レートカーネル

現在のパーティション

次のpartitionを作る一様分布

次のパーティション

から作れる Guillotine partitions

Guillotine partitions の発展を表現したマルコフ過程

[Roy 2011]

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 100: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

Mondrian process

100

[Roy 2011]

離散時間マルコフ過程

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 101: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

Mondrian process の構成法

101

各ブロックが独立なMondrian processに従うと見なせる

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 102: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

Mondrian process の構成法

102

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

次のカットまでの時間

+ +

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 103: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

Mondrian process の構成法

103

白ブロック待ち時間

緑ブロック待ち時間

青ブロック待ち時間

独立な指数分布変数

を考えた時

Poisson splitting

が成り立つ

次のカットまでの時間

+ +

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 104: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

104

例 ニュースヘッドラインの生成 [Affandi+2012]

time 目的 日々のニュースヘッドラインの推定

多様な見出し

多様な見出し

R H Affandi A Kulesza and E B Fox (2012) Markov determinantal point process UAI

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 105: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

105

まとめ

既存ツールのノンパラベイズ化

モデルの拡張法

2002 2012

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 106: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

106

参考文献

bull I V Shterev and D B Dunson Bayesian watermark attacks ICML 2012 bull M Hughes and E Sudderth Nonparametric discovery of active patterns from video

collections CVPR 2012 bull L Li X Zhang M Zhou and L Carin Nested Dictionary Learning for Hierarchical

Organization of Imagery and Text UAI 2012 bull A Spiliopoulou and A Storkey A topic model for melody sequences ICML 2012 bull R H Affandi A Kulesza and E B Fox Markov determinantal point process UAI 2012 bull T S Ferguson A Bayesian analysis of some nonparametric problems Annals of

Statistics 1(2) pp 209-230 1973 bull J Sethuraman A constructive definition of Dirichlet priors Statistica Sinica 4 pp 639-

650 1994 bull J W Miller and M T Harrison Dirichlet process mixtures are inconsistent for the

number of components in a finite mixture in ICERM 2012 bull D J Aldous Representations for Partially Exchangeable Arrays of Random Variables

Journal of Multivariate Analysis 11 pp 581-598 1981 bull S G Walker Sampling the Dirichlet mixture model with slices Communications in

Statistics - Simulation and Computation 3645 2007 bull O Papaspiliopoulos and G O Roberts Retrospective Markov chain Monte Carlo

methods for Dirichlet process hierarchical models Biometrika 95(1) pp 169-186 2008

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 107: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

107

参考文献

bull Y Wang and L Carin Levy Measure Decompositions for the Beta and Gamma Processes in Proc of ICML 2012

bull J F C Kingman Completely random measure Pacific Journal of Mathematics vol 21(1) pp 59-78 1967

bull M I Jordan Hierarchical models nested models and completely random measures Frontiers of Statistical Decision Making and Bayesian Analysis In Honor of James O Berger New York Springer 2009

bull M Hoffman D Blei and P Cook Bayesian nonparametric matrix factorization for recorded music in Proc ICML pp 641-648 2010

bull T Stepleton Z Ghahramani G Gordon and T S Lee The block diagonal infinite hidden Markov model in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull R Thibaux and M I Jordan Hierarchical beta processes and the indian buffet process in Proc of International Conference on Artificial Intelligence and Statistics 2007

bull K A Heller Y W Teh and D Gorur Infinite hierarchical hidden Markov models in Proc of the International Conference on Artificial Intelligence and Statistics 2009

bull J Van Gael Y W Teh and Z Ghahramani The innite factorial hidden Markov model in Advances in Neural Information Processing Systems 2009

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 108: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

108

参考文献

bull D Wingate N D Goodman D M Roy D and J B Tenenbaum The infinite latent events model in Proc of the International Conference on Uncertainty in Artificial Intelligence 2009

bull F Doshi-Velez D Wingate N Roy and J Tenenbaum Infinite dynamic Bayesian networks in Proc of International Conference in Machine Learning 2011

bull Y W Teh M I Jordan M Beal and D Blei Hierarchical Dirichlet processes Journal of the American Statistical Association 101 1566-1581 2006

bull M Beal Z Ghahramani and C Rasmussen The infinite hidden Markov model in Advances in Neural Information Processing Systems 2002

bull D M Blei A Y Ng and M I Jordan Latent Dirichlet allocation Journal of Machine Learning Research 3993-1022 2003

bull P Liang S Petrov M I Jordan and D Klein The infinite PCFG using hierarchical Dirichlet processes rdquo in Proc of EMNLP pp 688-697 2007

bull H Kameoka K Ochiai M Nakano M Tsuchiya S Sagayama Context-free 2D tree structure model of musical notes for Bayesian modeling of polyphonic spectrograms in Proc of ISMIR 2012

bull M Nakano Y Ohishi H Kameoka R Mukai K Kashino Bayesian nonparametric music parser in Proc of ICASSP 2011

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011

Page 109: NTTコミュニケーション科学基礎研究所 中野允裕 …challeng/SIG-Challenge-B202/B202...3.混合モデル と因子モデル 4.階層 入れ子 相関 1.アプリケーション

109

参考文献

bull D Mochihashi and E Sumita The infinite Markov model in Advances in Neural Information Processing Systems 2007

bull F Wood C Archambeau J Gasthaus L F James andY W Teh A Stochastic Memoizer for Sequence Data in Proc of ICML 2009

bull A Rodriguez D B Dunson and A E Gelfand The nested Dirichlet process Journal of American Statistics Association 103 1131-1154 2008

bull A Rodriguez and K Ghosh Nested partition models Jack Baskin School of Engineering Technical report 2009

bull E B Fox E B Sudderth MI Jordan AS Willsky A Sticky HDP-HMM with Application to Speaker Diarization Annals of Applied Statistics 2011

bull Lu Ren Y Wang D Dunson and L Carin The Kernel Beta process in Proc NIPS 2011